Anonymisering af indirekte identifikatorer for at sænke risikoen for gen-ID

Kvasi-identifikatorer eller indirekte identifikatorer er personlige egenskaber, der er sande om, men ikke nødvendigvis unikke, for et individ. Eksempler er ens alder eller fødselsdato, race, løn, uddannelse, erhverv, civilstand og postnummer. Sammenlign disse med direkte, unikke identifikatorer som en persons fulde juridiske navn, e-mailadresse, telefonnummer, nationalt ID, pas eller kreditkortnummer osv.

De fleste forbrugere er allerede klar over risikoen ved at dele deres unikke, personligt identificerbare oplysninger (PII). Datasikkerhedsindustrien er typisk også fokuseret på disse direkte identifikatorer. Men med kun køn, fødselsdato og postnummer kan 80-90 % af den amerikanske befolkning identificeres.

Næsten alle kan genidentificeres fra et ellers maskeret datasæt, hvis der er tilstrækkeligt med indirekte identifikatorer tilbage og kan føjes til en supersætpopulation med lignende værdier.

HIPAA Expert Determination Method-reglen vedrørende beskyttede sundhedsoplysninger (PHI) og FERPA-lovgivningen vedrørende studerendes databeskyttelse overvejer disse bekymringer og kræver, at datasæt har en statistisk lav sandsynlighed for genidentificerbarhed (under 20 % er standarden i dag). De, der ønsker at bruge sundheds- og uddannelsesdata til forsknings- og/eller marketingformål, skal overholde disse love, men også stole på den demografiske nøjagtighed af kvasi-identifikatorerne, for at dataene er værdifulde.

Af denne grund kan datamaskeringsopgaver i IRI FieldShield-produktet eller IRI Voracity (datastyringsplatform) anvende en eller flere yderligere teknikker til at sløre dataene, mens de stadig holdes nøjagtige nok til forsknings- eller marketingformål. For eksempel skaber numeriske sløringsfunktioner tilfældig støj for specificerede alders- og datointervaller, som beskrevet i denne artikel.

Med udgangspunkt i artiklen her vil dette eksempel vise, hvordan IRI Workbench kan oprette og bruge sætfiler til at anonymisere kvasi-identifikatorer.

Start i Generalisering via bucketing Wizard, tilgængelig fra listen over databeskyttelsesregler:

Når guiden åbner, skal du begynde at definere kilden til værdierne for den indstillede fil, inklusive kildeformatet og feltet, der kræver en generaliseret erstatningsværdi.

På næste side er der to slags sæt filerstatninger:Brug sæt fil som gruppe og Brug sæt fil som område muligheder. Dette eksempel gør brug af Brug sætfil som gruppe mulighed. Artiklen om sløring af data demonstrerer Brug sæt filer som et område mulighed. Opslagssættene, der er bygget her, vil blive brugt til at pseudonymisere de originale kvasi-identifikatorer med den nye generaliseringsværdi.

Denne side er, hvor grupperingerne mellem hver af de originale kvasi-identificerende feltværdier oprettes. Til venstre er de unikke værdier i det tidligere valgte felt. Grupperne kan oprettes ved enten at trække og slippe ind i gruppeværdierne til venstre eller ved manuelt at indtaste værdier. Hver gruppe har også brug for en unik erstatningsværdi. Dette er den værdi, der erstatter den oprindelige værdi i gruppen. I dette eksempel vil enhver værdi af "9th" blive erstattet med "High School".

Tilføjelse af grupper, indtil alle kildeværdierne er dækket, producerer følgende opslagssætfil til anonymisering af uddannelsesstatus kvasi-identifikator:

Hvis der kræves yderligere niveauer af bucketing, kan bucketing-guiden køres igen ved at bruge denne sætfil som kilde.

Når sætfilen bruges i et dataanonymiseringsjob, sammenlignes kildedataene med værdier i den første kolonne i sætfilen. Hvis der findes et match, erstattes dataene med værdien i den anden kolonne. Ovenstående sæt fil bruges i scriptet nedenfor på linje 38.

Brug af Workbench til at anvende fem forskellige anonymiseringsteknikker resulterer i følgende script:

De første ti linjer af de originale data vises her:

De anonymiserede resultater efter at have kørt jobbet vises her:

Før disse generaliseringer var risikoen for re-identifikation baseret på de oprindelige indirekte identificerende værdier for høj. Men når det mere generaliserede resultatsæt køres igen gennem risikoscoringsguiden for at producere en anden bestemmelse af genidentifikationsrisiko, er risikoen acceptabel, og dataene er stadig nyttige til forsknings- eller marketingformål.

Hvis du har spørgsmål om disse funktioner eller re-ID risikoscoring, kontakt .