/

Co ma piernik do wiatraka, czyli co robi bioinformatyka na portalu genetycznym

Dr Paweł Sztromwasser
Dr Paweł Sztromwasser 9 sty, 4 minut czytania

Ten artykuł jest pierwszym z serii artykułów dotyczących bioinformatyki na naszym portalu, więc pomyślałem, że dobrze byłoby, abym wyjaśnił powód istnienia tego działu. Obecność bioinformatyki na portalu genetycznym może niektórym czytelnikom wydać się dość zaskakująca – co ma (bio)informatyka do genów? Ano ma, i to całkiem sporo. Nie tylko do genów i genetyki, ale również do szerokiego spektrum innych nauk biologicznych, w których w ostatnich dziesięcioleciach bioinformatyka odegrała znaczącą rolę. W przypadku genetyki być może najbardziej spektakularną, umożliwiając powstanie zupełnie nowej dziedziny. Ale po kolei.

Do czego jest w takim razie genetykowi potrzebna bioinformatyka? I dlaczego bioinformatyka – czy zwykła informatyka nie wystarczy? Otóż informatyka zajmuje się przetwarzaniem informacji (bez skojarzeń z RODO proszę), a jak się zastanowić to w takiej genetyce może być ich całkiem sporo. Cały materiał genetyczny człowieka, (czyli jego genom) zawiera ponad 3.2 miliarda liter (nukleotydów) . To więcej niż obywateli Chin i Indii łącznie. W genomie ukryte są geny, i jeżeli nukleotydy są literami, to geny to zdania z nich ułożone. Człowiek ma ponad 20,000 genów opisujących budowę (kodujących) białka i przynajmniej drugie tyle pozostałych genów. W genomie są też tysiące miejsc regulatorowych sterujących wykorzystaniem genów. Dodatkowo, tak jak jeden model samochodu może być wyprodukowany w wersji sedan, hatchback i kombi, tak jeden gen może kodować różne wersje białka (tzw. izoformy). I tak z 20 tysięcy genów kodujących białka może powstawać nawet do 500 tysięcy różnych białek 1. Wyliczając dalej, dla zrozumienia procesów zachodzących w komórce kluczowe jest także poznanie interakcji pomiędzy jej elementami. Takich kontaktów pomiędzy DNA a białkami czy pomiędzy parami białek będą kolejne setki tysięcy.

Sporo już tych informacji do przetworzenia, a to dopiero początek. Dołożymy jeszcze 667 milionów skatalogowanych dotychczas zmian występujących w genomie człowieka 2. Zmiany te odpowiadają za różnice pomiędzy nami. Każdy z nas posiada w w swoim genomie około 4 milionów “literówek” (zmian pojedynczych nukleotydów), a stanowią one mniej niż połowę wszystkich zmian w genomie pojedynczej osoby 3. Zauważcie też że nasze rozważania dotyczą jedynie człowieka. W centrum zainteresowania genetyka czy biologa mogą być setki innych organizmów – niejeden z nich ma większy genom lub więcej genów niż człowiek. Taki na przykład czworolist japoński (Paris japonica) ma w genomie około 130 miliardów nukleotydów 4. Zainteresowanym polecam obejrzenie interaktywnych wizualizacji zależności pomiędzy ilością genów a wielkością genomu u różnych organizmów (https://gerardofurtado.com/gs/genes.html).

Tak więc „trochę” tych informacji jest. Przydałby się jakiś komputer żeby to ogarnąć. I jakaś strona gdzie można by to wszystko przeglądać. I tak dochodzimy do jednego z zadań bioinformatyki – tworzenia wyspecjalizowanych systemów informatycznych do katalogowania informacji biologicznych. Są one dla genetyków (ale też na przykład biologów molekularnych i ewolucyjnych, czy lekarzy genetyków) źródłami informacji i danych, pozwalającymi na interpretację wyników ich własnych eksperymentów w szerszym kontekście. Takie bazy mogą zwierać na przykład sekwencje biologiczne genów i genomów (np. GenBank 5), sekwencje i struktury białek (np. Uniprot 6, PDB 7), czy częstości zmian występujących w genomie człowieka 8. Są też bazy o szerokim spektrum informacji dotyczących jednego organizmu, na przykład Flybase 9 dla muszki owocówki, będącej ulubionym zwierzątkiem wielu genetyków. Celem tych baz danych jest nie tylko zbieranie i magazynowanie informacji, ale też umożliwienie ich przeglądania i przeszukiwania w taki sposób, aby zebrane informacje jak najlepiej służyły innym badaczom do interpretacji wyników eksperymentów, czy jako źródło danych do dalszych badań.

A jak już jesteśmy przy badaniach, to wiecie ile danych generują obecnie badania genetyczne? Bo to o czym przeczytaliście wyżej, to były informacje i wiedza z danych już wyciągnięte – taki ekstrakt jedynie. Możliwe że do niedawna ilości danych nie przyprawiały o zawrót głowy, ale wraz z pojawieniem się technik szybkiego odczytu DNA (wtajemniczonym znane jako sekwencjonowanie wysokoprzepustowe), ilości generowanych danych wzrosła astronomicznie 10. Razem z wcześniejszymi technikami pozwalającymi na całogenomowe badanie aktywności (ekspresji) genów, sekwencjonowanie wysokoprzepustowe przyczyniło się do wyodrębnienia genomiki – dziedziny badań ściśle łączącej genetykę i bioinformatykę. W odróżnieniu od genetyki, skupionej na badaniach pojedynczych genów, genomika zajmuje się genomami i ich zawartością w całości.

No ale ile tych danych jest? Do konkretów! Żeby wykryć wszystkie “literówki” w genomie człowieka trzeba przeczytać około 90 miliardów nukleotydów. Czemu aż tyle skoro genom ma ich 3 miliardy? Głównie dlatego że całego genomu nie potrafimy szybko przeczytać od deski do deski, litera po literze. Czytamy go wyrywkowo w “słowach” po 150 nukleotydów. Aby mieć pewność że wszystko zostanie przeczytane dostatecznie dokładnie, trzeba przeczytać wielokrotnie. Poszukiwania “literówek” zaczyna się od rekonstrukcji genomu. To takie duże puzzle – 900,000 elementów, po 100 nukleotydów każdy. Na szczęście tak jak i w puzzlach, do genomowej układanki jest obrazek na którym można się wzorować. Nazywamy go sekwencją referencyjną lub genomem referencyjnym. To taki wzorcowy genom który ułatwia analizy, bo każdy z elementów układanki można do niego dopasować. Żeby zrekonstruować odczytany genom trzeba jedynie 900,000 razy odnaleźć słowo w księdze która ma 1,000,000 stron zapisanych drobnym maczkiem 11. Pestka. Nie zapomnijcie tylko że nasze słowa będą zawierały “literówki”, których szukamy*, a jeden na tysiąc nukleotydów zostanie błędnie odczytany przez instrument. No i jak w każdych wymagających puzzlach są niebo lub trawa, w genomie również będą miejsca, które nie sposób od siebie odróżnić, np. pseudoautosomalne regiony na chromosomach X i Y, czy rodziny genów o prawie identycznej sekwencji nukleotydów.

Do takich zadań specjalnych potrzebne są mocne komputery, ale przede wszystkim szybkie sposoby rozwiązywania zadań – algorytmy. Algorytm to przepis na zrobienie czegoś. Tak jak przepis na placek z jagodami mówi krok po kroku jak upiec ciasto, tak algorytm na wyszukanie słowa w tekście opisuje sposób na znalezienie wszystkich wystąpień słowa “DNA” na tej stronie. Dobrze jest, jeśli można skorzystać ze znanych i sprawdzonych algorytmów (np. do wyszukiwania słów w tekście) dostosowując je do specyfiki problemu biologicznego. Nierzadko jednak konieczne są zupełnie nowe metody. Wymyślanie takich algorytmów i pisanie programów które je wykonują jest jednym z głównych zadań bioinformatyków. Narzędzia bioinformatyczne mogą służyć do porównywania sekwencji biologicznych (DNA, RNA, białka), przetwarzania, analizy i wizualizacji złożonych (wielowymiarowych) danych, symulacji zachowania cząsteczek białka i kwasów nukleinowych (DNA, RNA), automatycznego przetwarzanie obrazów (np. z mikroskopów o wysokiej rozdzielczości) czy też do automatycznej analizy publikacji naukowych. Ze względu na ogromne ilości danych, zazwyczaj bardzo zróżnicowanych i złożonych, w bioinformatyce wykorzystuje się zaawansowane algorytmy, często oparte o metody uczenia maszynowego (ang. machine-learning) i sztucznej inteligencji.

A wyzwań bioinformatykom będzie tylko przybywać. Wraz z rozwojem technologii szybkiego odczytu DNA pozwalających przeskoczyć od badań pojedynczych genów do badania całych genomów, wzrosło zapotrzebowanie na sprawne przetwarzanie i analizę ogromnych ilości informacji genetycznych. Jeden genom człowieka to około 60 gigabajtów po skompresowaniu, czyli 12 płyt DVD lub ponad dwie płyty Blue-ray. W zeszłym roku w Wielkiej Brytanii ukończono projekt sekwencjonowania 100,000 genomów 12. W kilku innych krajach podobne inicjatywy są w toku, a w USA i w Chinach ruszyły przedsięwzięcia mające na celu odczytanie miliona genomów obywateli. Można oczekiwać że w najbliższych latach duża część społeczeństw krajów rozwiniętych będzie miała dostęp do sekwencji swojego genomu 10. A to tylko dane z genomów Homo sapiens – geny innych organizmów mogą być równie ciekawe. Przewiduje się że do 2025 genomika prześcignie astronomię, YouTube i Twittera w zapotrzebowaniu na przechowywanie i analizę danych 10. Zakładając że ta trójka nie jest nikomu obca, warto dowiedzieć się czegoś więcej o bioinformatyce.

*) próbowaliście kiedyś znaleźć w tekście słowo wpisując je w pole wyszukiwania z literówką?

 

  1. Pray, LA., Eukaryotic Genome Complexity, Nature Education, 2008
  2. dbSNP v153 Release Notes: ftp://ftp.ncbi.nlm.nih.gov/snp/latest_release/release_notes.txt
  3. Auton, A. et al., A Global Reference for Human Genetic Variation, Nature , 2015
  4. Pellicer, J. et al, The largest eukaryotic genome of them all? , Botanical Journal of the Linnean Society, 2010
  5. NCBI: https://www.ncbi.nlm.nih.gov/genbank
  6. UniProt: https://www.uniprot.org/
  7. PDB: https://www.wwpdb.org/
  8. GnomAD: https://gnomad.broadinstitute.org/
  9. Flybase: https://flybase.org
  10. Stephens, ZD., et al., Big Data: Astronomical or Genomical?, PLoS Biology,
  11. National Research Council (US) Committee on Mapping and Sequencing the Human Genome., , 1988
  12. 100000 Genomes project: https://www.genomicsengland.co.uk/about-genomics-england/the-100000-genomes-project/

Od autora: Dziękuję wszystkim którzy pomogli mi dopracować powyższy artykuł i zachęcili do pisania kolejnych tekstów przychylnymi komentarzami.

Podziel się: