Od przybytku głowa (nie) boli. Jak znaleźć funkcje białek zakodowanych w metagenomach?

avatar
Dr Łukasz Szydłowski 29 wrz, 5 minut czytania

Odkąd w 1995 r. zsekwencjonowano pierwszy genom (Haemophilus influenzae), genomika nabrała tempa. Pełne sekwencje modelowych tzw. referencyjnych organizmów miały z założenia dać zestaw genów charakterystyczny dla danej grupy taksonomicznej organizmów, który można by następnie porównać. I tak w 1999 r. ukończono projekt sekwencjonowania genomu ludzkiego.

Razem z postępem technologii sekwencjonowania, nastąpił prawdziwy wysyp nowych genomów. Koszt sekwencjonowania spadł z $5,000,000/Mbp w roku 2001 do $0.006/Mbp w roku 2021. Umożliwiło to sekwencjonowanie również tych organizmów, których nie da się wyizolować i hodować w warunkach laboratoryjnych. Szacuje się, że stanowią one jakieś 99% populacji wszystkich organizmów żywych. Pojawiły się więc zbiory sekwencji zawierających populacje mikroorganizmów, zarówno bakterii jak i organizmów komórkowych zamieszkujących dane środowisko, tzw. metagenomów. W metagenomach wiele szczepów, gatunków ale też i rodzajów, identyfikowane jest po raz pierwszy. Np. metagenomy z ludzkich jelit zawierają około 50% nowo odkrytych organizmów, a podobieństwo flory jelitowej nawet u członków rodziny żyjących razem wynosi około 5%.

W ciągu ostatniej dekady ilość danych sekwencyjnych wzrosła wprost wykładniczo. Taki wysyp danych wymaga oczywiście dobrych narzędzi do klasyfikacji oraz dalszej obróbki, aby były one jakkolwiek wartościowe. Nowo odkryte organizmy to bogactwo nowych białek – ale większość z nich nie jest znana (a mogłyby mieć zastosowanie, np. polimeraza Taq, białka fluorescencyjne, itd.). Sekwencjonowanie metagenomów umożliwiło poznanie nowych szlaków metabolicznych, np. “commamox” (ang. complete ammonia oxidation). Metagenomy mogą również produkować nowe antybiotyki, co w dobie rosnącej lekooporności mikroorganizmów jest szalenie istotne.

Dotychczasowe metody opierały się głownie na homologii sekwencyjnej, zakładając – zgodnie z teorią Anfisena – że w niektórych przypadkach sekwencja białka wystarczy do zdeterminowania jego struktury. Kluczem jest tu słowo “niektórych”. Oczywiście, 20 lat temu nie można było otrzymać tak wielu sekwencji, toteż skupiono się na organizmach modelowych i porównując sekwencje tych białek, które były dobrze zbadane. W najbardziej znanych bazach sekwencji – NCBI i UniProt – można porównać każdą sekwencję (nową oraz zdeponowaną w tej bazie) do całej bazy danych lub wycinka, w oparciu o narzędzie BLAST (ang. Basic Local Alignment Search Tool), która opiera się ściśle na podobieństwie sekwencji. Mimo powszechnego użycia, BLAST ma swoje ograniczenia. Wynika to z tego, że podobne sekwencje niekoniecznie przełożą się na podobną strukturę, a podobne struktury mogą wynikać z niepodobnych sekwencji.

Klasyfikacja oparta na grupowaniu taksonomicznym – eggNOG – wyszukuje grupy tzw. ortologów (białek u spokrewnionych organizmów, które pełnią podobną funkcję). Zakładano, że u blisko spokrewnionych organizmów, grupy białek o podobnych funkcjach będą bardziej zbliżone sekwencyjnie. Baza ta jest ciągle rozbudowywana w oparciu o nowe dane sekwencyjne i dobrze sprawdza się w przypadku organizmów z dobrze przypisaną taksonomią. Niestety, w przypadku sekwencji metagenomowych, gdzie klasyfikacja nowo odkrytych organizmów nie jest tak pewna, przyporządkowanie funkcji sekwencjom kodującym białka stanowi problem.

Wracając do teorii Anfinsena, widać wyraźnie, że zbiór sekwencji, w których struktura nie wynika z sekwencji znacznie przekroczył “niektóre” przypadki. Powyższe problemy ukazują nam jasno, że struktury zdają się być bardziej zachowane niż sekwencje i że są lepszym wskaźnikiem, jaka funkcję może pełnić dane białko. Niestety, do tej pory baza znanych struktur białek stanowi mały wycinek baz sekwencyjnych. Protein Data Bank ma ok.195 tys. struktur białek poznanych dzięki krystalografii i innym metodom (NCBI ma ponad 338 mln sekwencji białkowych, a UniProt ponad 227 mln). Niestety, nie wszystkie białka da się skrystalizować, tak więc do tej pory baza referencyjna struktur białkowych pozostawała daleko w tyle za sekwencyjną.

Zmiana nastąpiła wraz ze wzrostem mocy obliczeniowych komputerów. Wraz z rozwojem technologii, zaczęły powstawać narzędzia, które przewidywały coraz lepiej struktury białek. Ułatwił to rozwój sieci neuronowych, np. konwolucyjnych sieci neuronowych (CNN), umożliwił modelowanie trójwymiarowych map białek przy użyciu algorytmów nauczania maszynowego. Użycie graficznych sieci konwolucyjnych znacznie przyspieszyło ten proces.

AlphaFold, narzędzie stworzone przez DeepMind (część grupy Google) z wykorzystaniem wariantu sztucznych sieci neuronowych (residual neural network) umożliwiło wymodelowanie najpierw 100 tys., a następnie ponad 227 mln białek (cała baza Uniprot) pochodzących od ponad 1 mln organizmów żywych. Obecnie UniProt wprowadził narzędzia oparte na nauczaniu maszynowym, które umożliwiają automatyczne przenoszenie adnotacji funkcjonalnych, opartych na podobieństwie struktur.

Pomimo stworzenia tak dużej bazy referencyjnej struktur i możliwości znalezienia podobnych struktur, funkcja wielu białek nadal pozostaje nieznana. Stanowią one jedną piątą (20%) bazy UniProt. Z pomocą w ich dalszej identyfikacji przychodzą tu dane zebrane w oparciu o architekturę genomów – położenie wielu sekwencji w genomach różnych organizmów jest stałe. Sprawdza się to zwłaszcza w przypadku bakterii, u których geny kodujące enzymy należące do danego szlaku metabolicznego, uporządkowane są w tzw. operony. Znając elementy operonów można wydedukować, czy gen kodujący nieznane białko położone w znanym operonie jest tak naprawdę nowym wariantem składnika tego operonu. Również znajomość kontekstu badawczego, z którego pochodzą dane sekwencje (np. bardzo specyficzne środowisko, związek z jednostkami chorobowymi, analiza porównawcza itp.) pozwala na odkrycie funkcji zakodowanych białek.

Podsumowując, rozwój technologii umożliwia nam odkrycie wielu nowych organizmów zamieszkujących różne nisze ekologiczne, jednocześnie ukazując ograniczenia w poznawaniu ich funkcji. Jednocześnie rozwój sztucznej inteligenci i nauczania maszynowego umożliwiło poznanie struktur praktycznie wszystkich odkrytych białek bez konieczności badania laboratoryjnych. Pomimo powstania tak obszernej bazy danych, funkcja dużej części białek nadal pozostaje nieznana. Tu z pomocą przychodzi wiedza uzyskana z badań empirycznych, tj. znajomość szlaków metabolicznych, charakterystyka nisz ekologicznych, czy analiza porównawcza metagenomów, która może pomóc w rozszyfrowaniu funkcji niepoznanych jeszcze białek.

Bibliografia:

  1. Bishop, M. J., & Thompson, E. A. (1986). Maximum likelihood alignment of DNA sequences. Journal of Molecular Biology, 190(2), 159–165.
  2. Tatusov,R.L., Koonin,E.V. and Lipman,D.J. (1997) A genomic perspective on protein families. Science, 278, 631–637.
  3. Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Davis, Alan, P., Dolinski, K., Dwight, S. S., Eppig, J. T., Harris, M. A., Hill, D. P., Issel-Tarver, L., Kasarskis, A., Lewis, S., Matese, J. C., Richardson, J. E., Ringwald, M., Rubin, G. M., & Sherlock, G. (2000). Gene Ontology: tool for the unification of biology. Nature Genet., 25(1), 25–29.
  4. Bateman, A. (2019). UniProt: A worldwide hub of protein knowledge. Nucleic Acids Research, 47(D1), D506–D515.
  5. Bateman, A., Martin, M. J., Orchard, S., Magrane, M., Agivetova, R., Ahmad, S., Alpi, E., Bowler-Barnett, E. H., Britto, R., Bursteinas, B., Bye-A-Jee, H., Coetzee, R., Cukura, A., da Silva, A., Denny, P., Dogan, T., Ebenezer, T. G., Fan, J., Castro, L. G., … Zhang, J. (2021). UniProt: the universal protein knowledgebase in 2021. Nucleic Acids Research, 49(D1), D480–D489.
  6. Shaffer, M., Borton, M. A., McGivern, B. B., Zayed, A. A., La Rosa, S. L. 0003 3527 8101, Solden, L. M., Liu, P., Narrowe, A. B., Rodríguez-Ramos, J., Bolduc, B., Gazitúa, M. C., Daly, R. A., Smith, G. J., Vik, D. R., Pope, P. B., Sullivan, M. B., Roux, S., & Wrighton, K. C. (2020). DRAM for distilling microbial metabolism to automate the curation of microbiome function. Nucleic Acids Research, 48(16), 8883–8900.
  7. Cantalapiedra, C. P., Hernández-Plaza, A., Letunic, I., Bork, P., & Huerta-Cepas, J. (2021). eggNOG-mapper v2: Functional Annotation, Orthology Assignments, and Domain Prediction at the Metagenomic Scale. Molecular Biology and Evolution, 38(12), 5825–5829.
  8. Gligorijević, V., Renfrew, P. D., Kosciolek, T., Leman, J. K., Berenberg, D., Vatanen, T., Chandler, C., Taylor, B. C., Fisk, I. M., Vlamakis, H., Xavier, R. J., Knight, R., Cho, K., & Bonneau, R. (2021). Structure-based protein function prediction using graph convolutional networks. Nature Communications, 12(1).
  9. Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., Tunyasuvunakool, K., Bates, R., Žídek, A., Potapenko, A., Bridgland, A., Meyer, C., Kohl, S. A. A., Ballard, A. J., Cowie, A., Romera-Paredes, B., Nikolov, S., Jain, R., Adler, J., … Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873), 583–589.
  10. Ed Yong, Mikrobiom. Najmniejsze organizmy, które rządzą światem, wyd. I, tłum. Magdalena Rabsztyn-Anioł, Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 2018,

Fakty i Mity Genetyki tworzone są przez pasjonatów, specjalistów w swoich dziedzinach.
Ten artykuł czytasz za darmo, bez reklam, bez spamu. Doceń naszą pracę i postaw nam wirtualną kawę 🙂
Dziękujemy! – Wasza Redakcja FiMG

Postaw mi kawę na buycoffee.to


Podziel się: