Kan et sæt ligninger holde amerikanske folketællingsdata private?

WILLIAM Hertug / FOTO AF Daxiao Productions / SHUTTERSTOCk

Kan et sæt ligninger holde amerikanske folketællingsdata private?

Af Jeffrey MervisJan. 4, 2019, 14:50

Det amerikanske folketællingsbureau skaber bølger blandt samfundsvidenskabsfolk med det, det kalder en "havændring" i, hvordan det planlægger at beskytte fortroligheden af ​​data, det frigiver fra den decenniale folketælling.

Agenturet annoncerede i september 2018, at det vil anvende et matematisk koncept kaldet differentielt privatliv til dets frigivelse af 2020-folketællingsdata efter at have udført eksperimenter, der antyder, at aktuelle tilgange ikke kan sikre fortrolighed. Men kritikere af den nye politik mener, at Census Bureau bevæger sig for hurtigt for at løse et system, der ikke er brudt. De frygter også, at ændringerne vil forringe kvaliteten af ​​de oplysninger, der bruges af tusinder af forskere, virksomheder og offentlige agenturer.

Flytningen har konsekvenser, der strækker sig langt ud over forskningssamfundet. Tilhængere af differentieret privatliv siger, at en hård, vedvarende juridisk kamp om planer om at tilføje et statsborgerskabsspørgsmål til folketællingen i 2020 kun har understreget behovet for at forsikre folk om, at regeringen vil beskytte deres privatliv.

En støjende konflikt

Census Bureau's job er at indsamle, analysere og formidle nyttige oplysninger om den amerikanske befolkning. Og der er meget af det: Agenturet genererede for eksempel 7, 8 milliarder statistikker over de 308 millioner mennesker, der blev talt i folketællingen fra 2010.

Samtidig er det ved lov forbudt at frigive oplysninger, som "de data, der leveres af en bestemt virksomhed eller en enkeltperson ... kan identificeres."

Det var en gang at opfylde dette krav blot at fjerne navnene og adresserne på respondenterne. I løbet af de seneste årtier har folketællinger dog udviklet en pose med statistiske tricks, der sigter mod at yde yderligere beskyttelse uden at underminere kvaliteten af ​​dataene.

Sådanne forstyrrelser, også kendt som indsprøjtning af støj, er beregnet til at folie forsøg på at genidentificere enkeltpersoner ved at kombinere folketællingsdata med andre offentligt tilgængelige oplysninger, såsom kreditrapporter, vælgerregistreringsruller og ejendomsregistre. Men forebyggelse af genidentifikation er blevet mere udfordrende med fremkomsten af ​​stadig stærkere beregningsværktøjer, der er i stand til at fjerne privatlivets fred.

Census-embedsmænd mener nu, at disse ad hoc-metoder ikke længere er gode nok til at tilfredsstille loven. "Problemet er reelt, og det er flyttet fra en bekymring til et spørgsmål, " siger John Thompson, der trådte som folketællingsdirektør i juni 2017, og som for nylig trak sig tilbage som leder af Council of Professional Associations on Federal Statistics in Arlington, Virginia. "I Census Bureau-lingo betyder det, at det ikke længere blot er en risiko, men snarere noget, du er nødt til at tackle."

Agenturets beslutning om at vedtage forskelligt privatliv blev til dels ansporet af det nylige arbejde med det, der er kendt som ”databasegenopbygningsteorem.” Teoremet viser, at når man får adgang til en tilstrækkelig stor mængde information, kan nogen rekonstruere underliggende databaser og, i teorien identificere individer.

”Databasegenopbygningsteorem er dødsknallen for traditionelle [data] -publikationssystemer fra fortrolige kilder, ” siger John Abowd, chefforsker og associeret direktør for forskning ved Census Bureau, der ligger i Suitland, Maryland. ”Det afslører en sårbarhed, som vi ikke designede vores systemer til at tackle”, siger Abowd, der har ført agenturets bestræbelser på at indføre forskelligt privatliv.

Men nogle brugere af folketællingsdata er meget uenige. Steven Ruggles, en befolkningshistoriker ved University of Minnesota i Minneapolis, fører anklagen mod den nye politik.

Ruggles siger, at traditionelle metoder har med succes forhindret enhver identitet afsløring, og at der derfor ikke er nogen presserende ting at gøre mere. Hvis Census Bureau er helvede for at indføre differentieret privatliv, tilføjer han, skal embedsmænd samarbejde med samfundet for at stryge knekkene, før de anvender det til folketællingen i 2020 og dets mindre fætter, American Community Survey.

"Differentielt privatliv går ud over, hvad der er nødvendigt for at sikre data under folketællingslov og præcedens, " siger Ruggles, der også administrerer et universitetsbaseret socialt forskningsinstitut, der spreder folketællingsdata. ”Dette er ikke tid til at indføre vilkårlige og byrdefulde nye regler, der kraftigt vil begrænse eller eliminere adgangen til landets kernedatakilder.”

”Min centrale bekymring over differentieret privatliv er, at det er et stump instrument, ” tilføjer han. ”Hvis du vil give det samme niveau af beskyttelse mod genidentifikation, som de nuværende metoder gør, skal du gøre meget mere skade på dataene, end der gøres nu."

Måder at beskytte fortrolighed

Beskyttelse af fortrolighed har været en prioritering for Census Bureau for de fleste - men ikke alle - i dets eksistens. Efter den første amerikanske folketælling blev foretaget i 1790, offentliggjorde embedsmænd resultaterne, så beboerne kunne rette fejl. Men i 1850 besluttede indenrigsekretæren, at returneringerne skulle holdes fortrolige. De skulle ”ikke bruges på nogen måde til tilfredsstillelse af nysgerrigheds- og folketællingsembedsmænd” eller ”udsættelse af nogen mands forretning eller forfølgelse”, bemærker en officiel historie om den folketælling, der blev offentliggjort i 1900. I 1954 var agenturets fortrolighedsmandat kodificeret i afsnit 13 i den amerikanske kode.

Offentligt tilgængelige folketællingsdata findes i to varianter. Én type, kaldet data for lille område, giver de grundlæggende karakteristika for beboere - alder, køn og race / etnicitet - ned til folketællingsblokniveauet. En folketællingsblok, ofte på størrelse med en byblok, er det mindste geografiske område, for hvilket data rapporteres. Der var omkring 11 millioner blokke i 2010, hvoraf 6, 3 millioner var beboet.

Den anden kaldes mikrodata, som er de fulde poster, der er indsamlet af Census Bureau for enkeltpersoner - herunder for eksempel husstandens størrelse og forholdet mellem beboerne. Når der rapporteres mikrodata, klumpes de sammen af ​​områder, der indeholder mindst 100.000 mennesker.

Sammen giver disse folketællingsprodukter foder til tusinder af forskere. Folketællingsdata er også grundlaget for undersøgelser foretaget af andre regeringsorganer og den private sektor, der former beslutninger, der spænder fra at lokalisere nye fabrikker eller indkøbscentre til at bygge nye veje og skoler.

Census Bureau har brugt en række forskellige metoder til at bevare fortroligheden af ​​disse data, da de flyttede fra tryk til magnetbånd til digital distribution. Tjenestemænd kan f.eks. Maskere svar fra outliers - såsom en milliardærs indkomst. De kan også være mindre præcise, f.eks. Ved at rapportere aldre inden for 5-årige intervaller snarere end et enkelt år. En anden teknik involverer at bytte information med en respondent, der besidder mange lignende egenskaber, som bor i en anden blok.

Hvor meget støj der skal injiceres afhænger af mange faktorer. Men folketællinger har aldrig afsløret detaljer om deres formel eller sagt, hvor ofte en bestemt metode bruges. De frygter, at sådanne oplysninger kan hjælpe nogen med at vende processen tilbage.

En matematisk tilgang

Differentielt privatliv, der først blev beskrevet i 2006, kan ikke erstatte bytte og andre måder at forstyrre dataene på. Snarere tillader det nogen - i dette tilfælde Census Bureau - at måle sandsynligheden for, at nok information vil "lække" fra et offentligt datasæt til at åbne døren til genopbygning.

”Hver gang du frigiver en statistik, lækker du noget, ” forklarer Jerry Reiter, professor i statistik ved Duke University i Durham, North Carolina, der har arbejdet med differentieret privatliv som konsulent hos Census Bureau. ”Den eneste måde at absolut sikre fortrolighed er at frigive ingen data. Så spørgsmålet er, hvor stor risiko er OK? Differentielt privatliv giver dig mulighed for at sætte en grænse "for den risiko.

En database kan betragtes som differentieret beskyttet, hvis de oplysninger, den giver om nogen, ikke afhænger af, om denne person er en del af databasen. Differentielt privatliv var oprindeligt designet til at gælde i situationer, hvor udenforstående fremsætter en række forespørgsler for at udtrække oplysninger fra en database. I dette scenarie forbruger hver forespørgsel lidt af det, som eksperterne kalder et "privatlivsbudget." Når dette budget er opbrugt, stoppes forespørgsler for at forhindre gendannelse af databaser.

I tilfælde af folketællingsdata har agenturet imidlertid allerede besluttet, hvilke oplysninger det vil frigive, og antallet af forespørgsler er ubegrænset. Så dets udfordring er at beregne, hvor meget dataene skal forstyrres for at forhindre genopbygning.

Abowd siger, at privatlivsbudgettet "kan indstilles til, uanset hvor agenturet synes er passende." Et lavt budget øger privatlivets fred med et tilsvarende tab af nøjagtighed, mens et højt budget afslører mere information med mindre beskyttelse. Den matematiske parameter kaldes epsilon; Reiter kan sammenligne med at indstille epsilon til turning af en knap. Og epsilon kan finjusteres: Data, der anses for at være særligt følsomme, kan få mere beskyttelse.

Epsilonen kan offentliggøres sammen med de understøttende ligninger for, hvordan den blev beregnet. I modsætning hertil siger Abowd, traditionelle tilgange til at begrænse videregivelse er fundamentelt uærlig fra et videnskabeligt perspektiv på grund af deres underliggende usikkerhed. I øjeblikket siger han, gør offentligheden ikke kender den globale oplysningsrisiko. Det s fordi agenturet ikke fortæller dig alt hvad det gjorde med dataene, inden de frigav dem.

Et simuleret angreb

Abowd, professor i arbejdsøkonomi ved Cornell University, lærte først, at traditionelle procedurer til begrænsning af videregivelse var sårbare og at algoritmer eksisterede for at kvantificere risikoen en konference om privatlivets fred 2005 deltog hovedsageligt af kryptografer og computerforskere. Vi talte forskellige sprog, og der var ingen Rosetta Stone, siger han.

Han påtog sig udfordringen med at finde fælles grund. I 2008, hvor han byggede på et langt forhold til Census Bureau, skabte han og et team hos Cornell den første anvendelse af differentieret privatliv på et folketællingsprodukt. Det er et webbaseret værktøj, kaldet OnTheMap, der viser, hvor folk arbejder og bor.

Abowd tog orlov fra Cornell for at tilslutte sig folketællingsbureauet i juni 2016, og et af hans første skridt var at teste sårbarheden i 2010-folketællingsdataene for et angreb udefra. Målet var at se, hvor godt et folketællingsteam kunne rekonstruere individuelle poster fra de tusinder af borde agenturet havde offentliggjort og derefter prøve at identificere disse personer.

Tretrinsprocessen krævede betydelig computerkraft. Først rekonstruerede forskerne poster for enkeltpersoner say, en 55 år gammel spansktalende kvinde ved minedrift af de samlede folketællingstabeller. Derefter forsøgte de at matche de rekonstruerede enkeltpersoner til endnu mere detaljerede folketællingsblokposter (der stadig manglede navne eller adresser); de fandt putative kampe omtrent halvdelen af ​​tiden.

Endelig sammenlignede de formodede kampe med kommercielt tilgængelige kreditdatabaser i håb om at knytte et navn til en bestemt post. Selvom de imidlertid kunne, vidste teamet ikke, om de faktisk havde fundet den rigtige person.

Abowd vandt ikke sige, hvilken andel af de formodede kampe syntes at være korrekt. (Han siger, at et kommende papir vil indeholde forholdet, som han kalder den mængde usikkerhed, en angriberen ville have, når de hævder at have genidentificeret en person fra de offentlige data . ) Selvom en af ​​Abowd s nylige papirer bemærker, at risikoen for genidentifikation er lille, mener han, at eksperimentet beviste genidentifikation kan udføres. Og det, siger han, er en stærk motivation for at flytte til differentieret privatliv .

For langt, for hurtigt?

Sådanne argumenter har ikke overbevist Ruggles og andre sociale videnskabsmænd imod at anvende forskelligt privatliv ved folketællingen i 2020. De cirkulerer manuskripter, der sætter spørgsmålstegn ved betydningen af ​​census-genopbygningsøvelsen, og som opfordrer agenturet til at udskyde og ændre sin plan.

Sidste måned havde de deres første offentlige lejlighed til at udtrykke deres modstand under et møde i folketællingens hovedkvarter for det føderale økonomiske rådgivende udvalg (FESAC), der rådgiver Census Bureau og to andre store føderale statistiske agenturer. Abowd og Ruggles gik tå til tå under en paneldiskussion om differentieret privatliv, og rådsmedlemmerne havde en chance for at spørge dem.

Et punkt i uenighed er fortolkningen af ​​føderal lovgivning. Afsnit 13 kræver, at agenturet kun maskerer individers identitet, kritiserer kritikere, ikke deres egenskaber. Hvis det er ulovligt at identificere egenskaber, skriver Ruggles i en nylig artikel, vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir vir fail fail

Abowd læser loven forskelligt. ”Steve har foretaget det forkert, ” siger han fladt. ”Vedtægten siger, at det, der er forbudt, er at frigive dataene på en identificerbar måde.”

På mødet peprede flere medlemmer af det rådgivende udvalg Abowd med spørgsmål om betydningen af ​​at være i stand til at rekonstruere 50% af mikrodata-filer. Den procentdel er temmelig lav, hævder de. Under alle omstændigheder, siger de, er genopbygning langt fra reidentifikation, hvilket er, hvad loven forbyder. De spekulerede også på, hvorfor nogen ville gå i vanskeligheder med at røre med folketællingsdata, når der er andre, bedre måder at få masser af personlige oplysninger, der kan bruges til at identificere personer.

”Jeg er ikke overrasket over, at nogen har rekonstrueret det faktum, at der bor 45-årige hvide mænd i en bestemt blok, ” sagde Colm O'Muircheartaigh, professor i offentlig politik ved University of Chicago i Illinois og et medlem af FESAC. ”Men den slags information er hverken meget interessant eller nyttig.”

At identificere enkeltpersoner baseret på husholdningsdata kan være mere værdifuld, sagde han. ”Men jeg kan forestille mig, at det ville være meget sværere at genopbygge en husstand, ” sagde O'Muircheartaigh. ”Og selvom vi kunne, ville genopbygning af en typisk amerikansk husholdning - f.eks. To voksne og to børn - næppe være en morderisk identifikation.”

Folketællingsdata eldes heller ikke godt på grund af den høje mobilitetsrate, tilføjede han. ”Dette er statiske data, ” sagde han. ”Selv hvis du vidste, at sådan en sådan person boede et eller andet sted i 2010, hvor værdifuld ville det være i 2014 eller 2018?”

Nogle mødedeltagere beskyldte også Abowd for ikke at tackle de praktiske virkninger af anvendelse af differentieret privatliv. En skeptiker var Kirk Wolter, chefstatistiker for NORC ved University of Chicago, en forskningsinstitution, der udfører undersøgelsesarbejde for mange føderale agenturer. Han argumenterede for, at støjende folketællingsdata ville have en større ringvirkning og forringe kvaliteten af ​​mange andre undersøgelser, der er afhængige af folketællingsdata for at vælge deres prøver. ”Disse undersøgelser giver informationsinfrastrukturen for landet, ” bemærkede han. ”Og alle af dem ville lide.”

Korrektion af disse problemer vil koste penge, forudsagde han, med organisationer som NORC, der skulle tilpasse prøver og omdesigne undersøgelser. Og i betragtning af de stramme budgetter fra de fleste undersøgelsesorganisationer, kunne disse oversættes til færre undersøgelser - og mindre information om landets indbyggere.

Thompson er enig. ”Kirk har nøjagtigt ret, ” siger han. Anvendelse af differentieret privatliv betyder "disse undersøgelser vil tage længere tid og koste mere. Og de er måske mindre nøjagtige. Men du har ikke et valg. ”

Borgerskabets elefant

Tilhængere af at vedtage differentieret privatliv siger, at der også er en anden tvingende grund til at komme hurtigt frem: en kontroversiel beslutning truffet i marts sidste år af handelssekretær Wilbur Ross om at tilføje et statsborgerskabsspørgsmål til folketællingen i 2020.

En række lokale og statslige embedsmænd har tilsluttet sig borgerrettighedsgrupper for at sagsøge den føderale regering i et forsøg på at blokere spørgsmålet. De argumenterer for, at tilføjelse af spørgsmålet vil føre til, at ikke-beboere og andre sårbare befolkninger undgår at udfylde folketællingsformularen, hvilket vil føre til et betydeligt underantal. Og de er også bekymrede for privatlivets fred. Når man kender, hvordan nogen besvarede statsborgerskabsspørgsmålet, siger kritikere, ville et regeringsagentur kunne tage straffesag mod ikke-indbyggere.

”Måske ville en forsker ikke prøve at gøre det, ” siger Thompson, et vidne for sagsøgerne i en af ​​dragtene. ”Men der er mange mennesker, der måske. Og jeg tror, ​​at [føderale immigrationsembedsmænd] ville elske at have den information. ”

Abowd kender den ekstreme følsomhed af statsborgerskabsspørgsmålet. Hans e-mails sidste år til Ross, der udtrykker forbehold over at tilføje den til folketællingen i 2020, er blevet afsløret offentligt ved retssagen. Og selvom han spidsede rundt om emnet under den nylige FESAC-diskussion, var det tydeligt, at han var bekymret for den skade, det kunne skade agenturets troværdighed.

”Hele historien om traditionel afsløringsbegrænsning var rettet mod at forhindre angribere, bevæbnet med eksterne data, fra at bruge dem i kombination med variablerne i [folketællingen] -mikrodatafilen til at vedhæfte et navn og adresse, ” sagde Abowd under rundbordet. ”Med hensyn til 2010 havde de fleste af disse databaser ikke race og etnicitet på dem. Og ingen har statsborgerskab, for bare at bringe variablen ind i rummet, som vi sandsynligvis burde diskutere mere eksplicit. ”

Praktiske problemer

Ruggles har i mellemtiden brugt meget tid på at tænke på, hvilke slags problemer forskelligt privatliv kan skabe. Hans Minnesota-institut spreder for eksempel data fra Census Bureau og 105 andre nationale statistiske agenturer til 176.000 brugere. Og han frygter, at forskelligt privatliv vil sætte en alvorlig krimp i denne informationsstrøm.

I det mest ekstreme scenarie, siger han, kunne folketællingsbureauet beslutte at gøre folketællingsdata for 2020 kun tilgængelige gennem sit netværk af 29 sikre føderale statistiske datacentre. Det ville pålægge brugere alvorlige vanskeligheder, siger Ruggles, fordi centrene kræver, at brugerne opnår en sikkerhedsklarering, som ofte involverer lange ventetider. Sådanne regler kunne også forhindre de fleste internationale lærde i at bruge centrene, siger han, samt kandidatstuderende, der søger en hurtig vending til en afhandling. Derudover er forskere kun godkendt, hvis deres projekt anses for at være til gavn for agenturets mission.

Der er også spørgsmål om kapacitet og tilgængelighed. Centrene kræver, at brugerne udfører alt deres arbejde på stedet, så forskere bliver nødt til at rejse, og centrene tilbyder i alt mindre end 300 arbejdsstationer.

Thompson siger, at Census Bureau er nødt til at tackle disse spørgsmål, uanset om det vedtager forskelligt privatliv. Han er enig med Ruggles i, at det tager for lang tid at få adgang til forskningscentre, og han mener, at bureauet skal ændre sin definition af, hvad forskning tjener sin mission. ”Jeg har hævdet, at enhver, der fremmer videnskaben med at bruge data”, bør være berettiget, siger han. ”Vi har brug for et folketællingsbureau fra det 21. århundrede, og det vil kræve en hel del rettelse.”

(Med hensyn til adgang siger Abowd, at agenturet overvejer at oprette “virtuelle” centre, der ville give et meget bredere publikum mulighed for at arbejde med dataene. Men Ruggles er skeptisk over, at et sådant system vil tilfredsstille bureaus egen definition af fortrolighed.)

Et behov for at kommunikere

Abowd har sagt, ”Implementeringen af ​​differentielt privatliv i Census Bureau markerer en ændring af havet på den måde, hvorpå officielle statistikker produceres og offentliggøres.” Og Ruggles er enig. Men han siger, at agenturet ikke har gjort nok for at udstyre forskere med de kort og værktøjer, der er nødvendige for at navigere i det ubeskyttede farvand.

”Det er temmelig klart, at vi kommer til at få en ny metode, ” indrømmer Ruggles. ”Men jeg tror, ​​det kunne implementeres på en bedre eller dårligere måde. Jeg vil gerne have dem til at overveje afvejningerne og ikke tage et sådant absolutistisk syn på risiciene. ”

I mellemtiden siger NORCs Wolter, uanset om hans bekymringer adresseres, skal bureauet gøre mere opsøgende - og ikke kun i peer-reviewede tidsskrifter. ”Folketælling har hårdt brug for en kommunikationsstrategi af reelle kommunikationsspecialister, ” sagde han. ”Der er tusinder af brugere [af folketællingsdata], som ikke forstår noget af dette. Og de er nødt til at vide, hvad der vil ske. ”

Afklaring, 17. januar 2019, 17:00: Det første citat fra John Abowd i historien er blevet revideret for at gøre det klart, at Census Bureau nu adresserer sårbarheden ved folketællingsdata til genidentifikation.