sql >> Database teknologi >  >> RDS >> Oracle

Værdien af ​​data over tid

Efterhånden ved alle, at data er meget værdifulde. Store virksomheder bruger data til at træffe beslutninger, der forhåbentlig driver virksomheden fremad og opnår et højere niveau af rentabilitet. Som databaseadministratorer beskytter vi dataene, især personligt identificerbare oplysninger (PII). Systemer hackes for at få data. Der er meget værdi i data, og du skulle leve under den velkendte klippe for at lære dette i dag.

Hvad jeg sjældent læser om, og emnet for dette blogindlæg, er, hvordan værdien af ​​data ændrer sig over tid. Værdien af ​​dataene skal bruges til at drive dine opbevaringspolitikker.

De fleste data mister sin værdi, jo ældre de bliver. Jeg arbejdede for nylig på et projekt om applikationsydelse og de målinger, vi fanger for at måle denne ydeevne. Nogle personer på projektet ønskede at beholde disse målinger i mere end fem år. Jeg talte op og fortalte gruppen, at fem år gamle præstationsmålinger har nul værdi. Vores applikation ændrer sig for meget gennem årene. Vi kan ikke sammenligne applikationens ydeevne i dag med applikationens ydeevne for fem år siden. Det vil ikke være en æbler-til-æbler sammenligning.

Ikke alle dataværdier falder med samme hastighed. I eksemplet, jeg gav i det foregående afsnit, er de metriske data for applikationsydelse nul værd om fem år. Men en forhandler, der har data, der indikerer, at en kunde købte bleer for fem år siden, ved nu, at kunden sandsynligvis vil købe tøj til et fem- eller seksårigt barn i dag. Det barn går højst sandsynligt i folkeskolen og har muligvis brug for skoleudstyr. I dette tilfælde har dataene om den pågældende kundes køb fra fem år siden stadig en vis værdi. Dataene er ikke værdiløse. Når det er sagt, har vi ikke brug for alle datapunkter fra fem år siden. Vi behøver kun en oversigt over den pågældende kundes aktivitet for at kunne drage meningsfulde konklusioner om deres nuværende og fremtidige køb.

Alt for ofte ser jeg, at folk behandler databasesystemer som en dumpingplads. Data er bare dumpet derind, og meget få mennesker tænker meget over, hvad de skal gøre med disse data på lang sigt. Meget få mennesker tænker meget over, hvor meget disse data er værd på lang sigt. Der er en omkostning forbundet med at opbevare disse data. Hvis dataene har ringe eller nul værdi på grund af dens alder, er det så prisen værd at opbevare disse data i databasen?

Der er afbødende strategier at anvende for ældre data. Databaseadministratoren kan flytte ældre data med mindre værdi til et billigere lagerniveau. Hvis dataene har nul værdi, bør dataene destrueres. Mange gange har vi ikke længere brug for de fulde detaljer om de gamle data, når opsummeringer vil være tilstrækkelige, i hvilket tilfælde vi aggregerer dataene og gemmer resultaterne. Så slip med detaljerne.

Som databaseadministrator er det dit ansvar at forvalte dine data og de nødvendige ressourcer til at være vært for dem. Du bør altid bede om de nødvendige trin for at passe på disse data, når de ældes.


  1. Tilføj en beregnet kolonne til en eksisterende tabel i SQL Server

  2. Lave beregninger i MySQL vs PHP

  3. Skalær UDF-inlining i SQL Server 2019

  4. CAST og IsNumeric