Undersøgelse af massivt preprint arkiv antydning til geografi af plagiering

Nye analyser af de hundreder af tusinder af tekniske manuskripter, der er indsendt til arXiv, depotet af digitale fortryksartikler, giver nogle spændende indsigt i konsekvenserne og geografi af videnskabelig plagiering. Det ser ud til, at kopiering af tekst fra andre papirer er mere almindelig i nogle nationer end andre, men resultatet er generelt det samme for forfattere, der kopierer meget: Deres papirer bliver ikke citeret meget.

Siden grundlæggelsen i 1991 er arXiv blevet verdens største sted for deling af fund i fysik, matematik og andre matematiske felter. Det offentliggør hundredvis af papirer dagligt og nærmer sig hurtigt sin millionindgivelse. Hvem som helst kan sende et papir, og indsendelser får ikke fuld peer review. Papirerne gennemgår imidlertid en kvalitetskontrolproces. Den endelige kontrol er et computerprogram, der sammenligner papirets tekst med teksten på alle andre papirer, der allerede er offentliggjort på arXiv. Målet er at markere papirer, der har stor sandsynlighed for at have plagieret offentliggjort arbejde.

"Tekstoverlapning" er det tekniske udtryk, og nogle gange viser det sig at være uskyldigt. For eksempel kan en gennemgangsartikel citere generøst fra et papir, som forfatteren citerer, eller forfatteren kan recirkulere og opdatere lidt sætninger fra deres eget tidligere arbejde. ArXiv plagiatdetektor giver sådanne papirer et pas. "Det er en ret sofistikeret maskinlæringslogistisk klassifikator, " siger arXiv-grundlægger Paul Ginsparg, en fysiker ved Cornell University. "Det har specielle måder at registrere blokcitater, kursiveret tekst, tekst i anførselstegn samt udsagn om matematiske teoremer for at undgå falske positiver."

Kun når der ikke er nogen åbenbar grund for en forfatter til at have kopieret betydelige stykker tekst fra allerede offentliggjort værk - især hvis det tidligere arbejde ikke er citeret og ikke har nogen overlapning i forfatterskab - anbringer softwaren et "flag" på artiklen, herunder links til de papirer, hvorfra den har tekstoverlapning. Denne standard "er meget mere mild" end dem, der bruges af de fleste videnskabelige tidsskrifter, siger Ginsparg.

For at udforske nogle af konsekvenserne af "tekstgenbrug" har Phins Ph.D. fra Ginsparg og Cornell fysik. studerende Daniel Citron sammenlignede teksten fra hver af de 757.000 artikler, der blev indsendt til arXiv mellem 1991 og 2012. Overskriften fra denne undersøgelse, der blev offentliggjort mandag i Proceedings of the National Academy of Sciences ( PNAS ), er, at jo mere tekst et papir kager af fra allerede publiceret arbejde, desto mindre ofte har papir en tendens til at blive citeret. (Det fulde papir er også tilgængeligt gratis på arXiv.) Det fandt også, at genbrug af tekst er overraskende almindeligt. Efter filtrering af gennemgangsartikler og legitim citering viste det sig, at cirka en ud af 16 arXiv-forfattere havde kopieret lange sætninger og sætninger fra deres eget tidligere offentliggjorte værk, der udgør cirka den samme mængde tekst som hele denne artikel. Mere foruroligende kopierede omkring en ud af hver 1000 af de indsendende forfattere det ækvivalente af et afsnit's værdi af tekst fra andres papirer uden at citerer dem.

Så hvor i verden sker al denne tekstgenbrug? Mærkbart mangler fra PNAS- papiret er et globalt kort over potentiel plagiering. Hver gang en forfatter indsender et papir til arXiv, erklærer forfatteren sit hjemland. Så det burde være muligt at afsløre, hvilke lande der har den højeste andel af plagierere. Årsagen til, at intet kort var inkluderet, fortalte Ginsparg til Science Insider, er, at al tekstoverlapning, der blev fundet i deres undersøgelse, ikke nødvendigvis er plagiering.

Ginsparg accepterede dog at dele arXivs markeringsdata med Science Insider. Siden 1. august 2011, da arXiv systematisk begyndte at markere for tekstoverlapning, har 106.262 forfattere fra 151 nationer indsendt i alt 301.759 artikler. (Hvert papir kan have mange flere medforfattere.) I alt blev 3, 2% (9591) af papirerne markeret. Det er heller ikke kun papirer, der er indsendt masseret af et par dårlige æbler. Disse markerede papirer stammede fra 6% (6737) af de indsendte forfattere. Sagt på en anden måde, en ud af hver 16 forskere, der har afgivet et papir til arXiv siden august 2011, er blevet markeret mindst af plagiatdetektoren.

Kortet ovenfor, udarbejdet af Science Insider, tager en konservativ tilgang. Det viser kun forekomsten af ​​markerede forfattere for de 57 nationer med mindst 100 indsendte papirer for at minimere forvrængning fra små stikprøvestørrelser. (I f.eks. Etiopien er der kun tre indsendende forfattere, og to af dem er blevet markeret.)

Forskere fra lande, der indsender brorparten af ​​arXiv-papirer - De Forenede Stater, Canada og et lille antal industrialiserede lande i Europa og Asien - plejer at plagiere mindre ofte end forskere andre steder. F.eks. Blev mere end 20% (38 af 186) af forfatterne, der indsendte papirer fra Bulgarien, markeret, mere end otte gange andelen fra New Zealand (fem af 207). I Japan blev ca. 6% (269 af 4759) af de indsendte forfattere markeret sammenlignet med over 15% (164 ud af 1054) fra Iran.

Sådanne forskelle kan delvis skyldes forskellige akademiske kulturer, siger Ginsparg og Citron i deres PNAS- undersøgelse. De kritiserer videnskabelig plagiering til "forskelle i akademisk infrastruktur og mentorordninger eller incitamenter, der fremhæver mængde af offentliggørelse over kvalitet."

* Korrektion, 11. december, 16:57 : Kortet er korrigeret for at afspejle de nuværende nationale grænser.