Hvad maskinlæring betyder for databaseprofessionelle

Maskinlæringsdatabaser er nu ved at blive myndige. Dette giver enorme muligheder for databaseprofessionelle, der er i stand til at udvikle sig til at drage fordel af denne ændring.

I øjeblikket er databaseprofessionelle, f.eks. databaseadministratorer (DBA) og databaseudviklere, nogle af de vigtigste stillinger i enhver it-organisation. En databaseprofessionel er ansvarlig for at oprette, administrere og give kontrolleret adgang til en database. At have den rigtige person som DBA kan hjælpe virksomheder med at spare tid og forkorte applikationsudviklingstiden. Men med den stigende adgang til en enorm mængde data udvikler en databasemedarbejders ansvar sig hurtigt.

Der er udviklet adskillige teknologier, som kan bruges til ikke kun at administrere og udforske data, men som kan hjælpe med at træffe velinformerede beslutninger på baggrund af data. Maskinlæring er en sådan teknologi, der har oplevet en stor stigning i det sidste årti. Denne artikel giver et kort overblik over, hvordan maskinlæring kan påvirke databaseprofessionerne, og hvad er fordelene ved at have maskinlæring som et færdighedssæt.

Hvad er Machine Learning?

Maskinlæring er en proces til at forstå og udtrække nyttige mønstre fra data ved hjælp af forskellige statistiske algoritmer. Maskinlæring er yderligere opdelt i overvågede og uovervågede læringsteknikker. Maskinlæring bliver i øjeblikket brugt til at løse mange komplekse problemer såsom klassificering af skinke- og spam-e-mails, forudsigelse af huspriser, poesigenerering, billedklassificering og så videre.

Vil maskinlæring erstatte databaseprofessioner?

En af de mest almindelige misforståelser om maskinlæring er, at den kommer til at erstatte mennesker på mange jobs. Selvom dette kan være sandt for nogle gentagne opgaver, vil kunstig intelligens og maskinlæring dybest set komplementere den menneskelige hjerne og ikke erstatte den. For databaseprofessionelle vil maskinlæringsdatabaser ikke erstatte dem, snarere vil de hjælpe dem enormt.

Det vil give databaseprofessionelle mulighed for at fokusere meget mere på planlægning og strategiske opgaver, da det vil automatisere mere kedelige og autonome opgaver såsom installation, konfiguration og regelmæssige databaseopdateringer. Derfor bør databaseprofessionelle i stedet for at frygte virkningen af maskinlæring på deres job omfavne det som en måde at udføre mindre udfordrende opgaver meget hurtigere og mere effektivt. .

Håndtering af Big Data er en udfordring

På grund af fremkomsten af det verdensomspændende web i løbet af de sidste to årtier er data tilgængelige i alle former og størrelser. Faktisk bruges udtrykket big data ofte om datasættet, der er enormt i volumen, kommer med høj hastighed og indeholder en række forskellige indhold.

Håndtering af enorme mængder af sådanne ustrukturerede data er blevet en udfordring for DBA. Algoritmer, der kører på maskinlæringsdatabaser, har vist sig også at fungere godt med ustrukturerede data. En enorm mængde data kan nemt nedbrydes til meningsfuld information via maskinlæringsteknikker, som fremhæver behovet for databaseprofessionelle for at tilegne sig maskinlæringsfærdigheder.

Machine Learning-databaser er her

Virksomheder som Microsoft og Oracle er allerede begyndt at inkorporere forskellige maskinlæringsfunktioner i databaser. For eksempel har Microsoft Azure SQL Database et modul, der foreslår og anbefaler forskellige præstationsforbedringsstrategier, der kan anvendes automatisk. På samme måde giver SQL Server Query Store en plan til at identificere forespørgsler, der forårsager ydeevneflaskehalse. Oracle 18c-databasen indeholder selvhelbredende egenskaber og kan anvende selv-patches og opgradere, når der opstår et databaseproblem. Et godt kendskab til maskinlæring hjælper faktisk databaseudviklere med at forstå rationalet bag de forskellige anbefalinger fra maskinlæringsdatabaseværktøjer.

Fuldt autonome databasers fremkomst

Nuværende maskinlæringsdatabaser har begrænsede muligheder. Fokus for den nuværende forskning er at udvikle fuldautomatiske databaser. Ville det ikke være rart at have en database, der kan forudse de problemer, der vil opstå, og som er proaktiv nok til at træffe forebyggende foranstaltninger på forhånd? Eller ville det ikke gøre livet for en databaseprofessionel meget nemmere, hvis databasen automatisk sikkerhedskopierer sig selv, hver gang der sker en afgørende transaktion? Der er mange scenarier, hvor maskinlæringsdatabaser er yderst nyttige.

For eksempel udfører eksisterende databaser automatiske sikkerhedskopier på et bestemt tidspunkt, men ikke alle databasetransaktioner er værd at bakke. I denne form for scenarie kunne maskinlæringsdatabaser blive smarte nok til at vide, hvornår de skal sikkerhedskopiere, og hvornår de ikke skal sikkerhedskopieres.

Desuden kan mange databaseproblemer forudses på forhånd. For eksempel, i de scenarier, hvor flere brugere har adgang til forskellige databaseressourcer, øges sandsynligheden for en dødvande mange gange. Hvis dette skete, kunne en maskinlæringsdatabase flytte til at give kontrolleret adgang til ressourcer og undgå en dødvande.

Der er flere akademiske forskningsgrupper, der har forsøgt at udvikle fuldt autonome databaser.

Carnegie Mellon Database Research Group har udviklet projektet OtterTune som bruger maskinlæringsteknikker og arbejdsbelastningsdata fra et stort antal gamle databaser til at skabe modeller, der er i stand til automatisk at justere nye arbejdsbelastninger. OtterTune maskinlæringsdatabasen anbefaler også automatisk de optimale indstillinger for forbedret gennemløb og reduceret latenstid for nye databaseapplikationer.

MIT har også udviklet en open source-databasestyringsramme kaldet DBSee r som forudsiger ydeevne for et givet sæt databaseressourcer og identificerer ydeevneflaskehalse også.

Læringskurve

Maskinlæring er ofte defineret som skæringspunktet mellem datalogi og statistik. Enhver med viden om datalogi kan relativt hurtigt opbygge deres maskinlæringsfærdigheder til et mellemniveau, hvis de udvikler en rimelig forståelse af statistik.

Mange GUI-værktøjer og cloud-platforme såsom Google AI, IBM Watson, Amazon Sagemaker, Azure ML har forenklet processen med at implementere maskinlæringsteknikker ved at levere GUI-baserede træk og slip-grænseflader til maskinlæringsdatabaser. Brugerne behøver kun at vide, hvordan man bruger værktøjet, da størstedelen af arbejdet (tilføje datasæt, valg af forbehandlingsteknikker, træning af modellen og endelig evaluering af modellen) kan udføres med et par museklik.

Hvis en databaseprofessionel virkelig ønsker at opbygge en karriere inden for avanceret maskinlæring, bliver de dog nødt til at opbygge en grundig forståelse af statistik. Datalogibaggrunden for en databaseprofessionel vil være mere end god nok til hurtigt at forstå de CS-relaterede begreber maskinlæring.

Men som vi sagde ovenfor, hvis en databaseprofessionel kun er interesseret i at bruge maskinlæring til at automatisere gentagne opgaver, vil et kendskab til GUI-baserede maskinlæringsværktøjer være mere end nok.

Flere karriereveje

Succesen med maskinlæring og kunstig intelligens har fået organisationer til at udvikle dedikerede datavidenskabshold med dygtige maskinlæringseksperter.

I øjeblikket har maskinlæringseksperter og databaseprofessionelle forskellige karriereveje, men flere og flere organisationer vil forvente, at maskinlærings- eller datavidenskabseksperter har et vist niveau af databaseekspertise og omvendt.

Da dette i øjeblikket er i forandring, foretrækkes databaseprofessionelle med viden om maskinlæringsfærdigheder og har bedre chancer for at blive ansat enten som databaseprofessionel eller maskinlæringsekspert eller en person med begge jobansvar.

Endelig dom

Fremkomsten af big data og relaterede maskinlæringsteknikker vil sandsynligvis medføre væsentlige ændringer i databaseprofessionelles jobansvar, da overarbejde deres fokus vil flytte til data fra databasen, efterhånden som maskinlæringsdatabaser i stigende grad klarer sig selv.

Maskinlæring vil hjælpe databaseprofessionelle med at automatisere en masse manuelle og besværlige opgaver og frigøre dem til at investere tid og kræfter i at omfavne maskinlæringsfærdigheder og tage dem i brug.

At lære de statistikker, der kræves for at udvikle sig fra en databaseprofessionel til en bredere database og maskinlæring, er ikke ligetil, men vil betale store udbytter i form af karrierevækst og muligheder.