Googles DeepMind aces proteinfoldning

Kompleks med bakterieinficerende virale proteiner modelleret i CASP 13. Komplekset indeholder fire separate underenheder, der blev modelleret individuelt.

Proteindatabank

Googles DeepMind aces proteinfoldning

Af Robert F. ServiceDec. 6, 2018, 12:05 PM

Det viser sig at mestre skak, og Go var bare til at starte med. Den 2. december fandt det Google-ejede kunstige intelligensfirma DeepMind topræmier i den 13. Critical Assessment of Structure Prediction (CASP), en halvårlig konkurrence, der sigter mod at forudsige proteiners 3D-struktur.

Konkurrencen fungerede sådan: Konkurrerende hold fik den lineære sekvens af aminosyrer for 90 proteiner, hvor 3D-formen er kendt, men endnu ikke offentliggjort. Hold beregnet derefter, hvordan disse sekvenser ville foldes. Selvom London-baserede DeepMind ikke tidligere havde tilsluttet sig denne konkurrence, var forudsigelserne for dens AlphaFold-software i gennemsnit mere nøjagtige end for sine 97 konkurrenter.

Hvor tæt var løbet? Efter en måling, ikke meget. For proteinsekvenser, som ingen anden information var kendt for - 43 ud af 90 - foretog AlphaFold den mest nøjagtige forudsigelse 25 gange. Det var langt bedre end den andenplads finisher, som vandt tre af de 43 prøver.

Så AlphaFold afslørede konkurrencen? Ikke nøjagtigt. Når du sporer hvor meget AlphaFold vandt eller tabt af i hvert tilfælde, ser resultaterne meget tættere på. Det vises i nedenstående graf. Det viser AlphaFolds ydeevne på den lodrette akse og den fra den bedste andre gruppe på den vandrette akse. Punkter over den røde linje viser forudsigelser, hvor AlphaFold vandt. Punkter nedenfor tabte det. Og dem på den røde linje var i det væsentlige et slips. Resultatet? AlphaFold vandt mange runder med en gennemsnitlig margen på 15% nøjagtighedsforbedring i forhold til andre grupper på de hårdeste 43 test, siger John Moult, CASPs lederarrangør og en beregningsbiolog ved University of Maryland i Rockville.

Klar, sæt, fold!

Punkter over den røde linje viser proteinfoldningsforudsigelser, hvor AlphaFold vandt. Det mistede dem under linjen. De på linjen var stort set et slips.

0 25 50 75 100 Andre topkonkurrenter 0 25 50 75 100 DeepMind's AlphaFold 0 25 50 75 Data: abcdefg hijkl mnop qrstu vwxyz 1234 56789 / Videnskab Data: Andriy Kryshtafovych, UC Davis Data: abcdefg hijkl mnop qrstu vwxyz 1234 56789
Andriy Kryshtafovych / University of California, Davis

Så hvad skete der? David Baker, en CASP-organisator, deltager og computermodelleringsekspert ved University of Washington i Seattle, bemærker, at DeepMind s forskere bygger på to algoritmestrategier, der var banebrydende af andre. For det første ved at sammenligne enorme træk af genomiske data om andre proteiner var AlphaFold i stand til bedre at dechiffrere, hvilke par aminosyrer der mest sandsynligt ville vinde tæt på hinanden i foldede proteiner. For det andet hjalp beslægtede sammenligninger dem også med at måle den mest sandsynlige afstand mellem nabopar af aminosyrer og de vinkler, som de bundede til deres naboer. Begge fremgangsmåder klarer sig bedre med de flere data, de evaluerer, hvilket gør dem mere tilbøjelige til at drage fordel af maskinlæring af computeralgoritmer, såsom AlphaFold, der løser problemer ved at knuse store datasæt. DeepMind-forskere “er ekstremt gode til maskinlæring og har et fremragende team” med dybere lommer end de fleste akademiske grupper, siger Baker.

Stadig, ikke dårligt for en nybegynder. ”Giv dem æren, ” tilføjer John Moult, en anden CASP-organisator og en beregningsbiolog ved University of Maryland i Rockville. ”De kom fra intetsteds.”