sql >> Database teknologi >  >> RDS >> Database

Forståelse af de 3 nøglekarakteristika ved Big Data

Det faktum, at organisationer står over for Big Data-udfordringer, er almindeligt i dag. Udtrykket Big Data henviser til brugen af ​​et sæt af flere teknologier, både gamle og nye, til at udtrække nogle meningsfulde oplysninger ud af en enorm bunke data. Datasættet er ikke kun stort, men har også sit eget unikke sæt af udfordringer med at fange, administrere og behandle dem. I modsætning til data, der eksisterer i relationelle databaser, som er strukturerede, kan big data-format være struktureret, semi-struktureret til ustruktureret eller indsamlet fra forskellige kilder med forskellige størrelser. Denne artikel dykker ned i de grundlæggende aspekter af Big Data, dens grundlæggende egenskaber og giver dig et hint om de værktøjer og teknikker, der bruges til at håndtere det.

En oversigt

Udtrykket Big Data giver kun et indtryk af størrelsen af ​​dataene. Dette er i en vis forstand rigtigt, men giver ikke hele billedet. Udfordringerne forbundet med det handler ikke kun om dets størrelse alene. Faktisk udviklede ideen sig til at navngive et hav af data indsamlet fra forskellige kilder, formater og størrelser, og på samme tid svære at udnytte eller få værdi ud af det. Fremkomsten af ​​nye teknologier og den stigende brug af internettet satte skub i mængden og uligheden. Volumen bliver ved med at stige med hver informationsudveksling over internettet eller endda de små IoT-objekter, vi bruger. En simpel besvarelse af et telefonopkald eller tænde for CCTV kan generere en datakæde. I dag er de fleste enheder forbundet online. Nu, hvis en organisation ønsker at indsamle disse oplysninger online, har den brug for en særlig behandlingsproces, fordi de genererede data vil være massive. Desuden er der muligvis ingen ensartethed i formatet af data, der er fanget. Dette tilføjer kompleksiteten, da vi skal håndtere strukturerede, semistrukturerede eller ustrukturerede data. De værktøjer, vi indtil nu har brugt til at organisere data, er ude af stand til at håndtere en sådan variation og mængde. Derfor kan vi sige, at udtrykket Big Data gælder faktisk for de data, der ikke kan behandles eller analyseres via traditionelle værktøjer og teknikker, der normalt bruges til at behandle strukturerede eller semi-strukturerede data, såsom brug af relationelle databaser, XML og så videre.

Organisationer i dag er fyldt med ustrukturerede eller semistrukturerede data, der er tilgængelige i råformat. Disse data kan være et væld af information, hvis de behandles, og den værdi, der kommer ud af dem. Men problemet er, hvordan man gør det. Traditionelle teknikker og værktøjer, såsom relationelle databaser, er utilstrækkelige til at håndtere en så stor mængde af forskelligartede data. Det er også et tveægget problem for organisationerne, fordi blot at makulere dem ville betyde at miste værdifuld information – hvis nogen – og beholde dem er spild af ressourcer. Derfor søges nogle værktøjer og teknikker til at håndtere problemet. Nogle gange er vi helt sikre på, at dens potentielle værdi ligger i bunken og kan høste en guldmine af information, men uden de rette værktøjer er det ret besværligt for forretningsprocessen at høste nogen fordel af det. Dataene i dag er massive og eksploderede som noget andet i de senere år; der ser i øvrigt ikke ud til at være nogen stopper.

Informationseksplosion

Big data bliver større for hvert minut i næsten alle sektorer, det være sig teknologi, medier, detailhandel, finansiel service, rejser og sociale medier, for blot at nævne nogle få. Mængden af ​​databehandling, vi taler om, er forbløffende. Her er nogle statistiske oplysninger for at give dig en idé:

  • Vejrkanalerne modtager 18.055.555 prognoseforespørgsler hvert minut.
  • Netflix-brugere streamer 97.222 timers video hvert minut.
  • Skype-brugere foretager 176.220 opkald hvert minut.
  • Instagram-brugere poster 49.380 billeder hvert minut.

Disse tal vokser hvert år, med et stigende antal mennesker, der bruger internettet. I 2017 nåede internetbrugen op til 47 % (3,8 milliarder mennesker) af verdens befolkning. Med et stadigt stigende antal elektroniske enheder anslås vores omtrentlige outputdata til at være 2,5 kvintillion bytes om dagen og vokser.

Google Search-statistikken viser 3,5 milliarder søgninger om dagen, hvilket er over 40.000 søgninger hvert sekund i gennemsnit. Vi bør heller ikke gå glip af, at andre søgemaskiner også foretager søgninger. E-mailstatistikrapporten, 2015-2019 fra Radicati Group, Inc., viser 2,9 milliarder e-mailbrugere i 2019.

I et forsøg på at estimere, hvor mange billeder der vil blive taget i 2017:Hvis der var 7,5 milliarder mennesker i verden i 2017, hvor omkring 5 milliarder havde mobiltelefoner, er et sandsynligt gæt, at 80 % af disse telefoner har indbyggede kameraer. Det betyder, at der er omkring 4 milliarder mennesker, der bruger deres kameraer. Hvis de tager 10 billeder om dagen, hvilket svarer til 3.650 billeder om året per person, tæller det op til cirka 14 billioner billeder, der bliver taget om året.

Derfor, når vi siger Big Data, refererer det i det væsentlige til data eller sæt af poster, der er for store til at kunne formodes. De produceres gennem søgemaskinerne, erhvervsinformatik, sociale netværk, sociale medier, genomik, meteorologi, vejrudsigter og mange andre kilder. Dette kan tydeligvis ikke betjenes ved hjælp af eksisterende databasestyringsværktøjer og -teknikker. Big Data åbner en arena med store udfordringer med hensyn til lagring, opsamling, administration, vedligeholdelse, analyse, forskning, nye værktøjer til at håndtere dem og lignende.

Karakteristika ved Big Data

Som med alle store ting, hvis vi vil styre dem, er vi nødt til at karakterisere dem for at organisere vores forståelse. Derfor kan Big Data defineres ved en eller flere af tre karakteristika, de tre V'er:høj volumen , stor variation , og høj hastighed . Disse karakteristika rejser nogle vigtige spørgsmål, der ikke kun hjælper os med at dechifrere dem, men også giver et indblik i, hvordan vi håndterer massive, forskellige data med en overskuelig hastighed inden for en rimelig tidsramme, så vi kan få værdi ud af det, gøre noget realtidsanalyse, og give et efterfølgende svar hurtigt.

  • Lydstyrke: Volumen refererer til selve størrelsen af ​​de stadigt eksploderende data i computerverdenen. Det rejser spørgsmålet om mængden af ​​data.
  • Hastighed: Hastighed refererer til behandlingshastigheden. Det rejser spørgsmålet om, med hvilken hastighed dataene behandles.
  • Sort: Variety refererer til typerne af data. Det rejser spørgsmålet om, hvor forskellige dataformaterne er.

Bemærk, at vi karakteriserer Big Data i tre V'er, kun for at forenkle dets grundlæggende principper. Det er meget muligt, at størrelsen kan være relativt lille, men alligevel for broget og kompleks, eller den kan være forholdsvis enkel, men alligevel en enorm mængde data. Derfor kan vi, ud over disse tre V'er, nemt tilføje en anden, Veracity . Veracity bestemmer nøjagtigheden af ​​dataene i forhold til den forretningsværdi, vi ønsker at udvinde. Uden sandhed er det umuligt for en organisation at anvende sine ressourcer til at analysere bunken af ​​data. Med mere nøjagtighed med hensyn til konteksten dataene er der større chance for at få værdifuld information. Derfor er sandfærdighed en anden egenskab ved Big Data. Virksomheder udnytter strukturerede, semistrukturerede og ustrukturerede data fra e-mail, sociale medier, tekststrømme og mere. Men før analyse er det vigtigt at identificere mængden og typerne af data i betragtning, som vil påvirke forretningsresultater.

Værktøjer og teknikker

Kunstig intelligens (AI), IoT og sociale medier driver datakompleksiteten gennem nye former og kilder. For eksempel er det afgørende, at big data, der kommer gennem sensorer, enheder, netværk, transaktioner i realtid bliver opfanget, administreret og behandlet med lav latenstid. Big Data gør det muligt for analytikere, forskere og forretningsbrugere at træffe mere informerede beslutninger hurtigere ved at bruge historiske data, som ellers var uopnåelige. Man kan bruge tekstanalyse, maskinlæring, prædiktiv analyse, datamining og naturlig sprogbehandling til at udtrække ny indsigt fra den tilgængelige bunke af data.

Teknologien har udviklet sig til at håndtere enorme mængder data, som tidligere var dyre og skulle have hjælp fra supercomputere. Med fremkomsten af ​​sociale medier som Facebook, søgemaskiner som Google og Yahoo! fik Big Data-projekter fremdrift og voksede, som det er i dag. Teknologi som MapReduce, Hadoop og Big Table er udviklet til at opfylde nutidens behov.

NoSQL-depoterne er også nævnt i forhold til Big Data. Det er en alternativ database i modsætning til relationelle databaser. Disse databaser organiserer ikke poster i tabeller med rækker og kolonner, som findes i de konventionelle relationsdatabaser. Der er forskellige typer af NoSQL-databaser, såsom Content Store, Document Store, Event Store, Graph, Key Value og lignende. De bruger ikke SQL til forespørgsler, og de følger en anden arkitektonisk model. De viser sig at facilitere Big Data Analytics på en gunstig måde. Nogle populære navne er:Hbase, MongoDB, CouchDB og Neo4j. Udover dem er der mange andre.

Konklusion

Big Data åbnede en ny mulighed for at høste data og trække værdi ud af det, som ellers var ved at lægge spild. Det er umuligt at fange, administrere og behandle Big Data ved hjælp af traditionelle værktøjer såsom relationelle databaser. Big Data-platformen giver værktøjerne og ressourcerne til at udtrække indsigt ud af dataens omfangsrige, forskellige og hastighed. Disse bunker af data har nu midler og en levedygtig kontekst, der kan bruges til forskellige formål i en organisations forretningsproces. Derfor, for præcist at finde ud af, hvilken type data vi taler om, må vi forstå det og dets karakteristika som det primære trin.


  1. Hvordan kan jeg gemme og hente billeder fra en MySQL-database ved hjælp af PHP?

  2. Sådan aktiveres langsomme forespørgselslogfiler i AWS RDS MySQL

  3. MySQL SELECT kun ikke null-værdier

  4. SQL Server database backup gendannelse på lavere version