Bekymringer om beskyttelse af personlige oplysninger kunne afspore en hidtil uset plan om at bruge Facebook-data til at studere valg

Facebook-medarbejdere arbejder for at reducere spredningen af ​​forkert information, der kan have indflydelse på valget.

NOAH BERGER / AFP / Getty Images

Bekymringer om beskyttelse af personlige oplysninger kunne afspore en hidtil uset plan om at bruge Facebook-data til at studere valg

Af Jeffrey MervisSep. 24, 2019, 16:50

Gary King nød godt af perfekt timing ved at sælge Facebook på ideen om at dele en skattekiste af sine data med akademikere. Men nu arbejder uret mod King og andres bestræbelser på at forhindre, at det innovative projekt - der sigter mod bedre at forstå, hvordan information spredt på Facebook påvirker valg og politiske institutioner rundt om i verden - falder fra hinanden. Det centrale klæbepunkt: beskyttelse af privatlivets fred for Facebook-brugere.

I marts 2018 besøgte King, en kvantitativ socialvidenskabsmand ved Harvard University, Facebooks hovedkvarter i Menlo Park, Californien. Medierne havde netop brød nyheden om, at et britisk firma, Cambridge Analytica, havde solgt vælgerprofiler til kandidater baseret på personlige oplysninger ubevidst leveret af millioner af Facebook-brugere. Den resulterende skandale var en nøgtern lektion for Facebook om, hvordan man ikke deler sine data med udenforstående.

King var på en bedre måde for Facebook til at dele data. Hans plan var designet til at imødekomme høje etiske og intellektuelle standarder, mens han nåede tre vigtige mål: bevarelse af privatlivets fred for Facebook-brugere, beskyttelse af virksomhedens forretningshemmeligheder om, hvordan dets data blev forvaltet, og han indførte ingen begrænsninger for, hvad forskere kunne offentliggøre fra dataene.

King mener, at den nye ordning kunne omdanne kvantitativ samfundsvidenskab ved at give forskere adgang til virkelig big data snarere end de undersøgelser og små prøver, der traditionelt havde været deres hovedfoder. Det vil også konfrontere en stor udfordring, som området står overfor: Private virksomheder har nu langt mere information om, hvordan mennesker opfører sig, end regeringer gør. Og forskere havde brug for bedre adgang til disse data.

Facebook-embedsmænd lyttede høfligt til King's tonehøjde, men gav ingen løfter. Han regnede med, at han var slået ud.

Derefter huskede han for nylig, ”Jeg var på mit hotelværelse og pakket for at gå hjem, da jeg fik en e-mail fra de mennesker, jeg netop havde mødt med.” Det stillede spørgsmålet: “Hvad kan vi gøre ved dette?” Under henvisning til til Cambridge Analytica-skandalen. Virksomhedens embedsmænd, som havde set i forfærdelse, da prisen på Facebook-aktier faldt i kølvandet på afsløringerne, var tydeligvis bekymrede for, hvordan skandalen kunne skade selskabets omdømme.

Et par dage senere fik King et opfølgende telefonopkald. ”Hej, kunne du foretage en undersøgelse af valget i 2016 og fortælle alle, at vi ikke ændrede resultatet?” Spurgte en Facebook-embedsmand ham. "Og hvis vi gjorde noget forkert, så fortæl os hvad vi skal gøre, og vi vil gøre det, ligesom med det samme." King siger, at hans første reaktion var: "Jeg antager, at det at miste 100 milliarder dollars i markedskapital fokuserer sindet."

“En vigtig ny model”

Opkaldet sendte King og Nate Persily, en advokatprofessor ved Stanford University i Palo Alto, Californien, i overdrive på deres plan om at stå op Social Science One, en nonprofit-enhed, der ville være online-stedet for forskere til at få adgang til alle data, som Facebook frigav . Dets første projekt ville give forskerne et kig på, hvordan Facebooks 2 milliarder brugere havde delt websteder, der diskuterede det amerikanske præsidentvalg i 2016 såvel som demokratiske institutioner rundt om i verden.

Datasættene indeholdt webadresser eller webadresser, som Facebook-brugere havde delt offentligt, nogle karakteristika for disse webadresser og samlet information om deltagerne, herunder deres alder, køn, placering og politiske tilbøjeligheder. Det lovede at være en guldmine for forskere, der studerer under hvilke betingelser, og af hvem, falske nyheder spredes over internettet.

Den 9. april 2018 annoncerede Elliot Schrage, en højtstående Facebook-direktør, det nye initiativ, som han skrev ville "hjælpe med at give uafhængig, troværdig forskning om de sociale mediers rolle ved valg." I en blog kaldte Schrage det "en vigtig ny model for partnerskaber mellem industri og akademia. ”Og selvom han ikke nævnte Cambridge Analytica, var skandalen tydeligt på hans sind. "De samme Facebook-værktøjer, der hjælper politikere med at få forbindelse med deres vælgere ... kan også misbruges til at manipulere og bedrag, " skrev han.

Fundamenter klatrer ombord

I meddelelsen fra april 2018 blev der også opført syv velgørenhedsorganisationer, der ville finansiere initiativet. Konsortiet var blevet samlet af Larry Kramer, præsident for William og Flora Hewlett Foundation, der ligger kun få miles fra Facebooks hovedkvarter i Menlo Park. Fonden havde for nylig udvidet et stort demokratiinitiativ, kaldet Madison Initiative, der fokuserede på at studere kongressen for at være mere opmærksom på digital forkert information.

”Jeg kan huske, at vores programleder ryste af spænding”, da hun hørte om det nye partnerskab, husker Kramer. ”Vi havde netop identificeret manglende adgang til data som vores kerneproblem for Madison-initiativet, og så, boom, her kommer denne skattekiste, der vil lade os gøre, hvad vi mener skal gøres.”

Kramer kunne få Alfred P. Sloan-stiftelsen, Laura og John Arnold-stiftelsen, Charles Koch-fonden, John S. og James L. Knight-stiftelsen, Democracy Fund og Omidyar Network til at logge på. Alle deler en interesse i, hvordan demokratier fungerer, siger han. Deres ideologiske mangfoldighed - Koch støtter flere konservative årsager, hvorimod Omidyar-netværket er yderst liberalt - var også vigtigt.

”Vi var enige om, at vi havde brug for finansiering uden for at få dette arbejde til, ” minder Kramer. ”Fordi hvis det blev finansieret af Facebook, ville folk mistillede resultaterne. Sådan er tingene i dag. ”Organisationerne blev enige om at stille 11 millioner dollar til rådighed for et 1-årigt pilotprojekt, der skal administreres af Social Science Research Council (SSRC), en non-profit non-profit, der også skulle køre tilskudsprocessen.

”Denne struktur var fornuftig, og de mennesker, der driver den, var helt i top, ” siger Kramer. ”Og det gik en god start.”

I juli 2018 fremsatte SSRC en indkaldelse af forslag og tildelte i april $ 50.000 tilskud til hvert af et dusin hold forskere. (En anden kohort på 13 hold er valgt, men endnu ikke annonceret.) Den første projektrunde inkluderer undersøgelser af, hvordan aktivitet på Facebook kan have påvirket borgerengagement og de seneste valg i Taiwan, Chile, Brasilien og Tyskland, samt hvordan brugere reagerer forskelligt på mainstream og vildledende online kilder til nyheder.

Skynd dig og vent

Men så meget som Kramer håbede, at det unikke samarbejde mellem Facebook, Social Science One, og finansiererne ville blomstre, mener han, det kan have været en fejltagelse at bevæge sig så hurtigt i starten. ”Dette udfoldede sig meget hurtigt, ” siger han. Det er nu klart, siger han, at alle involverede undervurderede den tid, det ville tage at komme med en acceptabel måde at beskytte Facebook-brugernes privatliv. ”Næsten alle de problemer [omkring privatlivets fred], der er opstået, opstod, fordi vi virkelig ikke havde tid til at krydse alle ts og prikke Isen, som vi normalt ville have gjort, ” siger Kramer.

Modtagere som Joshua Tucker, en professor i statsvidenskab og datavidenskab ved New York University i New York City, har betalt en pris for denne hast. I januar rapporterede hans team om en undersøgelse, der konstaterede, at ældre delte syv gange så meget fejlinformation end millennials. Resultaterne antyder, at digital læsning kan være en vigtig faktor i, hvor godt folk kan bestemme ægtheden af ​​det, de læser online.

Men dette projekt var afhængig af traditionel undersøgelsesundersøgelse med mennesker, der havde accepteret at dele deres online adfærd. Og Tucker ønskede at gå videre ved at knytte offentligt tilgængelige data, han havde fået fra Reddit og Twitter, til de ikke-offentlige brugerdata leveret af Facebook. Facebook-dataene, siger han, ville give teamet ”mulighed for at teste nogle af vores hypoteser” om, hvordan nyheder, inklusive forkert information, er spredt på forskellige sociale medier-platforme.

Dataene med delte links blev betragtet som lavhængende frugt med hensyn til beskyttelse af privatlivets fred, tilføjer han, fordi de kun indeholdt samlede oplysninger.

”Det kunne fortælle dig, at mænd i alderen 25 til 35, der bor i staten New York, delte et bestemt link 1000 gange, mens kvinder i North Dakota over 65 år delte dataene seks gange, ” forklarer han om det lovede datasæt. "Men det vil ikke indeholde dit Facebook-id eller hashtag, efterfulgt af en masse ting om dig."

I øjeblikket kan Tucker - der også leder et af fire rådgivende udvalg, der har bidraget til at sprede ordet om Social Science One - ikke få adgang til disse data. Det skyldes, at Facebook endnu ikke har fundet ud af, hvordan man sikrer privatliv, før de frigives.

Personlige udfordringer blev næsten øjeblikkeligt tydelige, siger King og Facebook-embedsmænd. Især indså de traditionelle teknikker til at sikre privatlivets fred, baseret på anonymisering, ikke længere var tilstrækkelige. Computervidenskabsfolk har vist, at de kan identificere enkeltpersoner, der er inkluderet i anonyme datasæt ved at bruge massiv computerkraft til at maskere de maskerede data med andre personlige oplysninger, der allerede er offentligt tilgængelig online.

I betragtning af sådanne kapaciteter fortalte privatlivets eksperter Facebook, at de havde "skåret dataene for tynde ud i forhold til de demografiske grupper og antallet af gange [webadresserne blev delt], " forklarer en Facebook-embedsmand. For at sikre privatlivets fred ville virksomheden have været nødt til at tilføje så meget statistisk "støj" til dataene, at resultaterne ville have været for fordrejet til at være nyttige for forskere, siger embedsmanden.

Svaret besluttede Facebook at bruge forskelligt privatliv. Det er en matematisk tilgang til tilføjelse af støj, der gør det umuligt for en outsider at vide, om den enkeltes personlige oplysninger er indeholdt i et bestemt datasæt og dermed sikre deres privatliv. På et operationelt niveau, forklarede Facebook-tjenestemanden, betød det, at "vi havde brug for et nyt sæt computerservere, med nye typer af sikkerhed og med forskelligt privatliv, der blev anvendt til datasættene."

Men at nå dette mål tager tid. "Differensielt privatliv er en blødgørende teknologi, " siger King. ”Det er en meget vigtig udvikling, men det er ikke som om der er tilgængelig software, der absolut fungerer, og som er tilpasset alle statistiske metoder. Så vi indså, at vi havde et år eller mere arbejde, som vi ikke havde planlagt. ”

”Husk, dette er forskning, ” tilføjer King. ”Hvis det var let, ville det bare kaldes søgning.”

Tucker siger, at samarbejdspartnerne vidste, at de var på vej ind i "temmelig ubeskadiget farvand", da Facebook-aftalen blev afsluttet ”Den oprindelige plan var at lade forskere arbejde med de samlede data og derefter tackle det tyndere spørgsmål om forskelligt privatliv senere, ” siger han. ”Men det blev uholdbart.”

Jakten på differentieret privatliv er kommet "med en omkostning til at bremse tilgængeligheden af ​​dataene, " siger han. Men at gøre det "i bytte for en matematisk forsikring af privatlivets fred, " tilføjer han, er en pris, han er villig til at betale.

En "revolution" på vent

Sent i sidste måned besluttede finansieringskonsortiet og SSRC, at uret var løbet tør. I et åbent brev til SSRC skrev finansiererne, at de ”anbefaler at sætte bevillingsprocessen på pause, medmindre og indtil flere data bliver tilgængelige. ... Nogle eller alle af os er måske villige til at overveje at udvide eller genindføre support, hvis nye data med tilstrækkelig import og værdi bliver tilgængelige. ”

Samtidig udsendte SSRC en erklæring, der stemte overens med denne henstilling og beskrev hvordan det ville “afvikle projektet i slutningen af ​​2019.” Forskere, der allerede var finansieret, ville få beholde deres tilskud, og dem i anden runde ville blive finansieret, hvis de kunne gennemføre projektet "med de aktuelt tilgængelige data."

Nogle medier rapporter om disse meddelelser kaster forsinkelsen som et andet eksempel på, at Facebook går tilbage på et løfte. Facebook-embedsmænd afviser denne vurdering og sagde, at virksomheden gjorde det klart fra starten, at privatlivets fred var dets største overvejelse.

Tucker, Kramer og King siger, at de mener, at Facebook gør alt for at bane vejen for forskere at få adgang. ”Jeg tror ikke, de holder fast, ” siger Tucker. ”Alle ønsker, at denne undersøgelse skal udføres. Men det er bare meget kompliceret. ”

Kramer siger, at han ikke forsvarer Facebook's handlinger. ”Jeg er ligeglad med om [forsinkelsen] hjælper eller gør ondt” virksomheden, siger han. Men han mener, at Facebook fortjener lidt kredit for at prøve.

Hvordan det hele viser sig, kunne have indflydelse på, om andre digitale giganter, såsom Google, også deltager i en sådan delingsindsats. ”Da vi begyndte, ” sagde Kramer, ”vi håbede at få det til at ske med Facebook og derefter invitere andre sociale mediefirmaer, der sad på lignende data, til at deltage i og hjælpe os med at få et omfattende overblik. Men ikke en af ​​dem var interesseret. ”

En Google-embedsmand bekræfter, at virksomheden afviste at deltage, da den blev kontaktet af Social Science One. ”Vi besluttede at vente og se, hvad der sker med Facebook, ” siger Clement Wolf, global offentlig politisk leder i San Francisco, Californien, for den sociale mediagigant. ”Og vi er meget interesserede i, hvordan det spiller ud.”

”Hvis Facebook lykkes, ” siger Tucker, ”kunne det revolutionere de typer online-data, som forskere kan få adgang til, og de spørgsmål, som folk, der ikke er ansatte på denne platform, kan stille. Facebook-medarbejdere kan gøre det nu, men vi kan ikke. ”

Cirka to dusin Facebook-medarbejdere har brugt det seneste år på at skære bort problemet og har gjort betydelige fremskridt. I forrige uge stillede Facebook for eksempel til rådighed differentielt beskyttede data på omkring 32 millioner webstedsadresser, som Facebook-brugere delte offentligt mere end 100 gange i de sidste 2 år. Dataene indeholder oplysninger om, hvorvidt adressen blev rapporteret som at indeholde falske nyheder, spam eller hadudtalelse, og hvor mange gange den blev delt uden at blive klikket på.

Denne frigivelse er en god idé for projektet, siger King, der ser finansieringsophøringen kun som et stød i vejen mod flere samarbejder mellem store internetfirmaer og akademikere. Data supercharges et felt, siger han. Og samfundsvidenskab har langt flere data end nogensinde før. Men de fleste af dataene er inde i virksomheder, og de bruger dem til deres egne formål. Så vi som videnskabsmænd har intet andet valg end at indgå en slags aftale med den private industri.

* Korrektion, 25. september, 10:25: Denne historie er blevet opdateret for at rette navnet på Social Science Research Council.