Perspektywy wykorzystania baz strukturalnych w genomice w dobie AlphaFolda

avatar
dr Paweł Szczerbiak 30 wrz, 4 minut czytania

Bioinformatycy otrzymali nowe narzędzie i to nie byle jakie. Narzędzie to w dużej mierze rozwiązuje jeden z najistotniejszych problemów biologii strukturalnej i całej biologii w ogóle.

Jak do tego doszło?

Zagadnienie zwijania się białek [1] spędzało sen z powiek wielu pokoleniom naukowców – jak przewidzieć konformację białka, znając wyłącznie kodującą go sekwencję DNA? Do roku 2022 naukowcom udało się wyznaczyć eksperymentalnie “zaledwie” 200.000 struktur [2], co pozostaje nikłą liczbą w porównaniu do ilości znanych sekwencji, które liczy się w setkach milionów, a samo zsekwencjonowanie genomu (metagenomu) jednego organizmu (puli organizmów) nie jest obecnie problemem. Roczny przyrost liczby dostępnych sekwencji rośnie eksponencjalnie [3], podczas gdy liczba struktur eksperymentalnych zaledwie liniowo [2]. Nie trzeba chyba nikogo przekonywać, że możliwość określenia struktury białka z taką łatwością jak wyodrębnienie sekwencji, pozwoliłoby na dużo dokładniejsze określenie funkcji i zależności w obrębie genomu(ów), a w konsekwencji postęp w projektowaniu leków i terapii. Zagadnienie to w erze gwałtownego rozwoju metod komputerowych stało się o tyle istotne, że w 1994 ogłoszono konkurs CASP (Critical Assessment of protein Structure Prediction) [4], w którym co dwa lata grupy badawcze uczestniczą w ślepym teście, gdzie starają się przewidzieć struktury nieznanych do tej pory grup białek. Postęp z roku na rok wprawdzie był obserwowany, ale ciągle nie był satysfakcjonujący. W 2018 roku problemem tym zainteresował się DeepMind, spółka zależna Google’a, która do tamtego czasu (zapewne z uwagi na zainteresowania jej dyrektora naczelnego, Demisa Hassabisa) znana była głównie z zastosowania metod sztucznej inteligencji w grach planszowych. Pierwsza wersja AlphaFolda wygrała konkurs, jednak z uwagi na konwencjonalne podejście do problemu, wynik nie był spektakularny. DeepMind odrobił jednak lekcje i, wykorzystując nowatorską technikę tzw. atencji z niezmienniczością punktową (invariant point attention), w edycji CASP 2020 uzyskał dokładność niemal eksperymentalną [5], zostawiając konkurentów daleko w tyle [6]. Wynik ten odbił się szerokim echem zarówno w środowisku naukowym, jak i w mediach [7-10]. Należy tutaj zaznaczyć, że metoda ta, z uwagi na użycie uczenia maszynowego (co samo w sobie oznacza, że mamy do czynienia z bardzo zaawansowaną “czarną skrzynką”) i zależność od baz referencyjnych (tzw. wyszukiwanie homologów sekwencyjnych i strukturalnych), nie jest tożsama z matematycznym rozwiązaniem problemu zwijania się białek, gdzie oczekiwalibyśmy eleganckiego, w pełni transparentnego algorytmu. O ile taki w ogóle istnieje…

Nieoszlifowany diament?

Ogromną zaletą AlphaFolda jest to, że oprócz samych przewidywań struktur, określa ich dokładność. AlphaFold generuje kilka miar tego typu: dokładność przewidywania poszczególnych reszt (residue, strukturalny odpowiednik aminokwasu), wzajemnych odległości między resztami jak i podobieństwa całego modelu do struktury rzeczywistej. Jest to niezwykle istotne, gdyż daje naukowcom możliwość oszacowania niepewności ich własnych analiz [11]. Kolejnym udogodnieniem jest fakt, że każdy posiadacz konta Google (tego raczej obejść się nie da) może uruchomić AlphaFolda – w tym celu wystarczy użyć jednego z dostępnych tzw. notatników Colaba (Colab Notebooks), gdzie po wpisaniu sekwencji, możemy uzyskać przewidzianą strukturę [12, 13]. Niestety, w bezpłatnej wersji możliwości tego rozwiązania są ograniczone i możemy w ten sposób przewidywać stosunkowo krótkie białka (kilkadziesiąt-kilkaset aminokwasów). Na szczęście, kod źródłowy AlphaFolda został upubliczniony [14], co zostało z aprobatą przyjęte przez środowisko naukowe. I choć uruchomienie programu może być wyzwaniem na laptopie (wymagane ponad 2 TB przestrzeni dyskowej na bazy referencyjne), to nie powinno stanowić problemu na średniej wielkości klastrze obliczeniowym (m.in. oprogramowanie to jest dostępne na klastrze Prometheus systemu PLGrid). W tej beczce miodu jest jednak łyżka dziegciu: w obecnej formie AlphaFold nie jest w stanie przewidzieć ligandów, kofaktorów czy metali, nie jest czuły na mutacje w obrębie sekwencji, nie przewiduje nieporządku (intrinsically disordered regions) czy kompleksów białek. Najnowsza wersja AlphaFolda (tzw. AlphaFold-Multimer), udostępniona w listopadzie 2021, pozwala jednak na przewidywanie struktur multimerów (zarówno homomerów jak i heteromerów), co stanowi duży krok naprzód w przypadku ostatniego z wymienionych problemów i pozwala mieć nadzieję, że kolejne wersje rozwiążą choćby częściowo również pozostałe. Z niecierpliwością czekamy również na wyniki kolejnej edycji CASP, która będzie miała miejsce w 2022 roku (jeśli czytacie ten artykuł później, to koniecznie je sprawdźcie). Ostatnim z problemów, jakie warto wymienić, jest czas przewidywań. Nawet dla krótkich białek (rzędu 100-200 aminokwasów) może on wynosić kilka godzin (w przypadku węzłów GPU kilka razy mniej), co staje się problematyczne, gdy chcemy przewidzieć struktury dla większej liczby białek. Jednak i tu DeepMind przychodzi z pomocą – wspólnie z EMBL-EBI (European Molecular Biology Laboratory’s European Bioinformatics Institute) postawił sobie za cel przewidzenie prawie wszystkich sekwencji znanych ludzkości…

Co to oznacza dla genomiki?

Choć plan, jaki chce zrealizować DeepMind wspólnie z EMBL-EBI, wydaje się karkołomny, z uwagi na praktycznie nieograniczony dostęp tego pierwszego do zasobów obliczeniowych Google’a, jest jak najbardziej realny. Baza AlphaFolda [15] zawiera obecnie aż 214 milionów struktur (stan na lipiec 2022 roku), czyli 1000 (!) razy więcej, niż wszystkich struktur eksperymentalnych zdeponowanych w PDB (Protein Data Bank) [2]. Należy jednak zaznaczyć, że z różnych powodów, struktur wielu sekwencji nie można przewidzieć z dużą dokładnością. Niektóre z nich nie mają homologów (zarówno sekwencyjnych jak i strukturalnych), co może stanowić duże wyzwanie dla AlphaFolda. Kolejna kwestia to nieporządek w obrębie struktur, czyli ich umotywowana funkcjonalnie raptowna zmiana konformacji w czasie – tutaj AlphaFold (jak na razie) nie radzi sobie najlepiej. Nie ulega jednak wątpliwości, że dokonuje się istotna zmiana w dostępności nowej klasy danych wysokiej jakości, co otwiera przed bioinformatykami zupełnie nowe możliwości i perspektywy na gwałtowny rozwój metaproteomiki. Jest to w pewnym sensie zmiana paradygmatu ze standardowego sekwencja-funkcja na sekwencja-struktura-funkcja. Wykorzystanie w tym celu bazy AlphaFolda (w połączeniu z bazą PDB) pozwala na precyzyjniejsze adnotowanie funkcji w obrębie genomów [16]. Użycie AlphaFolda pozwala również spojrzeć na przestrzeń struktur na nowo m.in. w celu zidentyfikowania nowych typów struktur [17]. Kolejnym istotnym zastosowaniem bazy AlphaFolda jest modelowanie leków i szczepionek, co wymaga m.in. precyzyjnego określenia, jak dane białko, czy kompleks białkowy łączy się z innym obiektem (białkiem lub molekułą). W tym celu niezbędne jest precyzyjne modelowanie i wyszukiwanie tzw. interfejsów łączących białka. Prace w tym zakresie są już intensywnie prowadzone [18, 19]. Niezwykle ciekawą kwestią jest również badanie oddziaływania białek w obrębie metagenomów. Przedstawione wyżej przykłady to tylko wierzchołek góry lodowej. Nie ulega wątpliwości, że zarówno AlphaFold jak i baza konstruowana na jego podstawie to dopiero początek. Wąskim gardłem ciągle pozostaje czas przewidywania struktury, ale remedium na to na pewno się znajdzie (np. neuralizacja homologów sekwencyjnych [20], co jest obecnie najbardziej czasochłonnym etapem). Bazy strukturalne będą nabierały znaczenia i warto śledzić rozwój tej niesłychanie ciekawej gałęzi biologii strukturalnej.

Źródła:

[1] https://en.wikipedia.org/wiki/List_of_unsolved_problems_in_biology

[2] https://www.wwpdb.org/stats/deposition

[3] https://www.ebi.ac.uk/uniprot/TrEMBLstats

[4] https://predictioncenter.org/index.cgi

[5] https://www.nature.com/articles/d41586-020-03348-4

[6] https://predictioncenter.org/casp14/zscores_final.cgi

[7] https://www.sztucznainteligencja.org.pl/alphafold2-przewidziec-strukture-zycia/

[8] https://deepmind.com/research/case-studies/alphafold

[9] https://www.blopig.com/blog/2021/07/alphafold-2-is-here-whats-behind-the-structure-prediction-miracle/

[10] https://moalquraishi.wordpress.com/2020/12/08/alphafold2-casp14-it-feels-like-ones-child-has-left-home/

[11] https://embl-ebi.cloud.panopto.eu/Panopto/Pages/Embed.aspx?id=73cf4de5-c343-4c02-a918-ad8900a16af9

[12] https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb

[13] https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

[14] https://github.com/deepmind/alphafold

[15] https://alphafold.ebi.ac.uk/

[16] https://github.com/bioinf-mcb/Metagenomic-DeepFRI

[17] https://www.biorxiv.org/content/10.1101/2022.03.18.484903v1

[18] https://www.biorxiv.org/content/10.1101/2021.11.09.467949v2

[19] https://onlinelibrary.wiley.com/doi/full/10.1002/mrd.23538

[20] https://www.sciencedirect.com/science/article/pii/S1367593121000508

 


Fakty i Mity Genetyki tworzone są przez pasjonatów, specjalistów w swoich dziedzinach.
Ten artykuł czytasz za darmo, bez reklam, bez spamu. Doceń naszą pracę i postaw nam wirtualną kawę 🙂
Dziękujemy! – Wasza Redakcja FiMG

Postaw mi kawę na buycoffee.to


Podziel się: