Hvem er Michael Jordan inden for datalogi? Nyt værktøj rangerer forskernes indflydelse

Sidste efterår lancerede Allen Institute for Artificial Intelligence i Seattle, Washington, en udfordring for Google Scholar, PubMed og andre online søgemaskiner ved at afsløre en service kaldet Semantic Scholar. Programmet, oprindeligt uddannet på 2 millioner papirer fra datalogi, var beregnet til at give en søgemaskine, drevet af kunstig intelligens (AI), til faktisk at forstå til et begrænset omfang indholdet af offentliggjort litteratur . Dets korpus er vokset til 4 millioner papirer. Og i dag tilføjer instituttet Semantic Scholar en ny kapacitet med et lige så ambitiøst mål: at måle den indflydelse, som en videnskabsmand eller organisation har haft på efterfølgende forskning.

Værktøjet, der kun fokuserer på datalogi i øjeblikket, men vil udvide til neurovidenskab i efteråret og derefter til andre fag, kan rangere papirer, forfattere og institutioner efter en bestemt indflydelsesresultat. F.eks. Finder værktøjet, at den mest indflydelsesrige computervidenskab sker på Massachusetts Institute of Technology i Cambridge. Ingen overraskelse der. Men den mest indflydelsesrige computerforsker? Det er Michael I. Jordan fra University of California, Berkeley, en pioner inden for AI, som få uden for hans felt genkender. ”Han er kendt som Michael Jordan inden for maskinlæring, ” fortæller Oren Etzioni, direktør for det Seattle-baserede Allen Institute, der skabte Semantic Scholar. (Klik her for en liste over de 50 bedste forfattere, og her for en liste over de top 50 domæner.)

Hvis udenforstående finder Semantic Scholar s placeringer pålidelige, kan antallet af dem bruges af ansættelses- og ansættelsesudvalg. Det skyldes, at indflydelse er en vanskelig ting at måle. Den gamle måde er at tælle citater. Sådanne tællinger er blevet en hjørnesten i den akademiske forlagsindustriens måling, med Thomson Reuters, Elsevier og andre, der sælger adgang til bibliografiske databaser, der giver brugerne mulighed for at køre numrene.

Men ikke alle citater er skabt lige for eksempel, idet det citeres som inspiration til et helt papir er meget anderledes end en kort omtale i metodedelen. Så det rå antal kan male et vildledende portræt af en videnskabsmand. Og forskere klager over, at traditionelle citeringsbaserede målinger har bidraget til at skabe en "offentliggøre eller omgå" mentalitet, idet de pressede dem til at spytte papirer så hurtigt som muligt, uanset hvor vigtigt det er, i håbet om at sætte citater på plads.

Hvad der er nødvendigt, siger nogle, er en mere direkte måling af et avis faktiske indflydelse på fremtidig forskning. Så Etzionis team opbyggede et nyt værktøj i Semantic Scholar, der muliggør oprettelse af en flowgraf. De fleste af papirerne i sin database er i PDF-format, som er let for et menneske at læse, men bare ligner en klods med ustruktureret tekst til en computer. At læse mere som et menneske kræver maskinlæring, en teknik, der hjælper en computer med at nøjagtige gætter. For eksempel må det ikke kun opdage de forskellige sektioner i papiret introduktion, metoder, resultater but men skelne mellem tonerne i, hvordan papirer citeres. Så Allen Institute-teamet brugte maskinlæring til at træne en statistisk model, der registrerer alle disse funktioner. Derefter forbedrede computeren støt sin model ved at sammenligne sine gætte med dem fra menneskelige eksperter, der kuraterede en prøve af papirerne.

I øjeblikket måler systemet kun "direkte indflydelse" mellem papirer, der citerer hinanden, siger Etzioni, men fremtidige versioner vil redegøre for den indirekte indflydelse fra papirer, der citerer papirer, der igen citerer andre papirer, og så videre.

Prøvetur

Værktøjet debuterede i dag på www.semanticscholar.org. Videnskab bad Jeff Clune, en datalogi ved University of Wyoming i Laramie, om at tage det med til et prøvekørsel.

Den første ting Clune gjorde var at se på sit eget kvarter i indflydelsesgrafen. ”Det er ekstremt sjovt, ” siger han. "Jeg kan se, hvilke forskere der har mest påvirket min egen karriere, hvilke forskere jeg har inspireret mest, og det samme for enhver anden videnskabsmand." De fleste af resultaterne var nøjagtigt, som Clune forventede - hans mentorer påvirkede ham, og han påvirkede sine kandidatstuderende og postdokumenter - men der var nogle overraskelser. Han kendte ikke navnet på nogen, for eksempel, der har udført omfattende opfølgningsundersøgelser inspireret af Clunes artikler.

Men udover underholdningsværdien mener Clune, at værktøjet kunne have værdi i den akademiske ansættelses- og promoveringsproces. De udvalg, der træffer disse beslutninger, bliver presset til ikke blot at rangordne kandidater efter succes med tidligere arbejde, men for at forudsige hver kandidats fremtidige indflydelse. Semantic Scholar forsøger at afsløre, hvad der er "varmt" i marken ved at måle "hastighed" og "acceleration" af arbejdslegemer, målinger af, hvor hurtigt andre citerer et bestemt arbejde, og om det er en tendens. Afdelingsudvalg "beregner allerede det på farten, " siger Clune, så disse tal vil blive brugt, forudsiger han.

Men det aspekt bekymrer ham også. I nogen grad er Semantic Scholar "en sort kasse", siger Clune. "Forstår folk, hvor tallene kommer fra?"

Etzioni anerkender den uklarhed, hvordan algoritmerne producerer resultaterne. ”Det er altid en afvejning inden for maskinlæring, ” siger han. "En ting, der hjælper, er, at du kan se eksempler på, hvor tallene kommer fra, når du svæver over numrene."

I mellemtiden tager Michael Jordan inden for maskinlæring sin toprangering i skridt, men afviser kredit. "På trods af de mytologier, der historisk er blevet bygget op omkring bestemte individer inden for videnskab og matematik, mener jeg personligt, at det er de netværk, som forskere hører til, der er mest forudsigende for deres succes, " siger han. "Mit eget personlige netværk er fuld af gode mennesker, der har haft gode ideer."

Etzionis team sætter nu Semantic Scholar løs på et massivt korpus af forskningsartikler, der fokuserer på hjernen. Dette værktøj og indflydelsesrangementet for hjerneforskere debuterer på Society for Neuroscience-mødet i San Diego, Californien, den 12. november.