/

Od odczytów do wariantów, czyli jak wygląda poszukiwanie zmian w DNA

Dr Paweł Sztromwasser
Dr Paweł Sztromwasser 9 sty, 6 minut czytania

Każdy człowiek jest inny. W dużym stopniu jest to wynik zróżnicowania naszego DNA, które różni się pomiędzy dwiema niespokrewnionymi osobami w około jednym na tysiąc miejsc. Poszukiwanie tych różnic jest bardzo istotne między innymi dla zbadania jaki wpływ mają one na nasze zdrowie. Pozwala nam także lepiej poznać geny poprzez które te różnice na nas oddziałują.

Aby zlokalizować różnice w DNA musimy najpierw odczytać sekwencję jego nukleotydów. Następnie, poprzez porównanie z wzorcem możemy zidentyfikować rozbieżności. Za taki wzorzec do porównań służy nam genom referencyjny – sekwencja nukleotydów, którą przyjmujemy za normalną. Wyznacza ona kolejność nukleotydów w każdym z chromosomów, dzięki czemu stanowi punkt odniesienia, na przykład do podawania lokalizacji genów (np. gen BRCA1 znajduje się na chr17 pomiędzy nukleotydem 43,044,295, a 43,170,245). Do genomu referencyjnego jeszcze wrócimy, a teraz skupmy się na odczytywaniu DNA.

Sekwencjonowanie DNA

Porównanie genomu do stosu 23 książek (po jednej dla każdego z chromosomów) stwarza wrażenie, że DNA można czytać jak tekst. Na pewnym poziomie uogólnienia można tak to przedstawić, ale jak zawsze, diabeł tkwi w szczegółach. Otóż, chromosomy to naprawdę małe struktury. W jądrze komórkowym o średnicy kilku mikrometrów [1] mieści się ich 46: 23 od ojca i 23, morfologicznie takie same, od matki. Są to tzw. chromosomy homologiczne. Mają tak samo poukładane geny, ale te same geny, mogą występować w różnych odmianach (np. jeden z rodziców wnosi gen na oczy niebieskie, a drugi na oczy piwne). W sumie 23 pary chromosomów zawierają ponad 6 miliardów nukleotydów (liter), a rozciągnięta nić DNA ma długość około dwóch metrów. Aby upakować tak dużą liczbę liter na przestrzeni o średnicy tysięcznych milimetra potrzeba naprawdę mikro czcionki – tak małej, że nie jesteśmy jej w stanie bezpośrednio obserwować. Odczyt DNA wymaga działania na poziomie atomów i molekuł, i jedynie pośrednio, poprzez szereg sprytnie zaplanowanych reakcji chemicznych możemy odczytać kolejność nukleotydów w chromosomach. Ten proces nazywamy sekwencjonowaniem DNA.

Historycznie pierwszą metodą sekwencjonowania DNA jest nagrodzona w 1980r. nagrodą Nobla metoda Sangera [2]. Polega ona na odtwarzaniu sekwencji odczytywanej nici DNA w czterech równoległych reakcjach z użyciem nukleotydów znaczonych fluorescencyjnie. Produkty reakcji są porządkowane względem długości z użyciem techniki laboratoryjnej zwanej elektroforezą. Następnie, kolejne nukleotydy odczytywane są na podstawie wcześniej wstawionych znaczników fluorescencyjnych

Sekwencja nukleotydów odczytywana jest z obu chromosomów homologicznych (matczynego i ojcowskiego) jednocześnie, w związku z czym, w miejscach gdzie te chromosomy się różnią (tzw. heterozygotycznych), sygnał dwóch różnych nukleotydów nakłada się na siebie. Na ilustracji można to zaobserwować jako nakładające się „pagórki” w dwóch kolorach. Pozycje, w których nie ma różnicy pomiędzy matczynym i ojcowskim chromosomem (homozygotyczne) mają wysokie, jednokolorowe „szczyty”.

Metoda Sangera pozwoliła między innymi po raz pierwszy odczytać genom człowieka (2001 rok) [3]. Trwało to ponad 10 lat, wymagało pracy 20 laboratoriów na całym świecie i kosztowało 3 miliardy dolarów. Od ponad dekady istnieje jednak technologia dużo szybszego i tańszego sekwencjonowania. Dla odróżnienia od sekwencjonowania metodą Sangera, nowa technologia została nazwana sekwencjonowaniem nowej generacji (ang. next-generation sequencing, NGS). Spotyka się też nazwy sekwencjonowanie drugiej generacji lub sekwencjonowanie wysokoprzepustowe (ang. high-throughput sequencing). Wraz z nadejściem NGS, metoda Sangera nie stała się jednak zbędna. Służy obecnie do sekwencjonowania DNA na małą skalę, oraz weryfikacji wyników pochodzących z NGS. Ze względu na rosnące zaufanie i jakość sekwencjonowania wysokoprzepustowego, odchodzi się jednak od weryfikacji w niektórych przypadkach [4].

Tak naprawdę mianem NGS określanych jest kilka konkurencyjnych technologii, które łączy duża przepustowość i niewielka długość odczytywanych fragmentów DNA. Istnieje jeszcze nowsza grupa metod sekwencjonowania wyróżniająca się możliwością odczytu znacznie dłuższych fragmentów nici DNA. To tak zwane metody sekwencjonowania długich odczytów (ang. long-read sequencing), znane też jak sekwencjonowanie trzeciej generacji (ang. third generation sequencing, TGS). Mimo, że metody te przenoszą sekwencjonowanie DNA na kolejny poziom, to ze względu na wciąż wysoką cenę są jeszcze bardzo rzadko wykorzystywane w diagnostyce genetycznej człowieka. Wrócimy do nich z pewnością w innym artykule.

Do sekwencjonowania DNA na dużą skalę, w tym do badania genomów pacjentów, używa się obecnie najczęściej jednej z metod sekwencjonowania wysokoprzepustowego. O szczegółach tej metody dowiecie się z osobnego artykułu lub z [tego filmu]. Na potrzeby dalszej lektury wystarczy nam informacja, że do sekwencjonowania łańcuch DNA jest w losowych miejscach rozrywany (lub cięty) na fragmenty o długości kilkuset nukleotydów, a w trakcie sekwencjonowania fragmenty te są wyrywkowo odczytywane z obu końców generując dwójki sparowanych odczytów (ang. read pairs).

Przygotowanie odczytów

W jednym eksperymencie, z miliardów krótkich fragmentów DNA odczytywanych jest wiele milionów par tzw. odczytów. W zależności od potrzeb długość pojedynczego odczytu może być różna – od 50 do 300 nukleotydów. Do sekwencjonowania genomu człowieka używa się najczęściej odczytów 150-nukleotydowych. Poprawność odczytu DNA jest prawie idealna, ale z przyczyn technicznych spada wraz z rosnącą długością odczytu. Przy pierwszych nukleotydach prawdopodobieństwo błędu wynosi jedynie ok 0.1% (1 błąd na 1000 odczytanych liter), a już pod koniec odczytu długości 300 nukleotydów może wynieść nawet 10% (1 na 10 nukleotydów jest błędnie odczytany). Tak duża liczba błędów powodowałaby problemy w dalszej analizie, dlatego pierwszym krokiem na drodze od odczytów do wariantów jest sprawdzenie i oczyszczenie danych z sekwencjonowania. Jednym z powszechnie stosowanych zabiegów jest usuwanie fragmentów odczytów, które aparat do sekwencjonowania oznaczył jako niepewne (o podwyższonym prawdopodobieństwie błędu). Sprawdzone i oczyszczone dane z sekwencjonowania są przedmiotem dalszego przetwarzania.

Mapowanie

Po wyczyszczeniu odczytów kolejnym krokiem jest odtworzenie sekwencji badanego genomu. Ze względu na to że odczyty są krótkie i pochodzą z losowych miejsc w genomie, najlepsze efekty uzyskuje się przez tzw. mapowanie, czyli przyrównywanie (ang. alignment) odczytów do sekwencji wzorcowej – wcześniej wspomnianego genomu referencyjnego. W ten sposób znajdujemy miejsce, z którego pochodzi odczytany fragment DNA. Zlokalizowanie wszystkich par odczytów na sekwencji wzorcowej pozwala na ułożenie ich we właściwej kolejności i na odtworzenie sekwencji badanego genomu.

Mapowanie można porównać do wyszukiwania słów lub zdań w tekście zawierającym ponad 3 miliardy liter. Dla lepszego zobrazowania problemu, wyobraźmy sobie wydruk genomu, który zapisany czcionką 12 ma około miliona stron A4 (najgrubsza encyklopeida jaką widziałem miała ich trochę ponad tysiąc). Wydruk genomu tniemy na kawałki po 150 liter, dokładnie mieszamy, a następnie próbujemy poskładać we właściwym porządku w całość. To właśnie robią mapery – bioinformatyczne programy komputerowe służące do mapowania.

Mapery znajdują dla każdego odczytu miejsce w genomie referencyjnym gdzie odczyt pasuje najlepiej. Pomaga w tym fakt, że sparowane odczyty pochodzą z jednego kilkusetnukleotydowego fragmentu DNA – gdy jeden z nich pasuje w kilku miejscach genomu jednakowo dobrze, drugi pozwala precyzyjnie zlokalizować miejsce z którego pochodzi dana para. Mapery muszą radzić sobie dobrze z nieidealnym dopasowaniem – duża część odczytów zawiera różnice (np. literówki) względem genomu referencyjnego. Można pomyśleć, że mapowanie działa w tych przypadkach tak jak wyszukiwarka internetowa gdy zdarzy nam się wpisać hasło z literówką. Jeżeli nie będzie ono zawierało zbyt wielu błędów – zaproponowany wynik wyszukiwania będzie zgodny z naszymi intencjami.

Detekcja wariantów

Kiedy wszystkie odczyty są „zmapowane” i znamy ich lokalizację w genomie, możemy je uporządkować względem chromosomu i pozycji na nim.

Pozycja na chromosomie to nic innego jak numer nukleotydu w genomie referencyjnym, do którego został dopasowany początek odczytu. Mając uszeregowane odczyty możemy przesuwać się wzdłuż genomu i sprawdzać ile odczytów zostało zamapowanych w każdym jego miejscu (pokrycie) i czy obserwujemy różnice względem sekwencji referencyjnej.

W typowym sekwencjonowaniu genomu człowieka pojedynczą pozycję, czyli nukleotyd z sekwencji referencyjnej, będzie pokrywało od zera do kilkudziesięciu odczytów. Średnio około 30. Gdy w znaczącej części z tych odczytów nukleotyd różni się od tego w sekwencji referencyjnej, mamy do czynienia z wariantem pojedynczego nukleotydu (ang. single nucleotide variant – SNV). Gdy wszystkie odczyty zawierają różnicę (np. pozycja 27 na Ilustracji 2) mamy do czynienia z wariantem homozygotycznym, czyli takim który został odziedziczony zarówno od matki jak i od ojca. W przypadku wariantów heterozygotycznych (odziedziczonych po jednym z rodziców), mniej więcej połowa odczytów będzie zawierała zmianę (Ilustracja 2, pozycja 47). Proces wykrywania wariantów określany jest w języku angielskim terminem variant calling, a wykonują go dedykowane narzędzia bioinformatyczne.

Wariant jest więc różnicą względem genomu referencyjnego. Może dotyczyć jednego nukleotydu (np. podmiana pojedynczego nukleotydu), kilku (np. wstawka (insercja), wycięcie (delecja)), lub całych segmentów o długości od setek do wielu milionów nukleotydów (tzw. warianty strukturalne, warianty kopii). Programy do wykrywania wariantów są najczęściej wyspecjalizowane w identyfikacji konkretnego rodzaju zmian, dlatego do wykrycia pełnego spektrum wariantów potrzebne jest zastosowanie kilku narzędzi. Kluczowy jest też zakres zastosowanego sekwencjonowania. Sekwencjonowanie pełnogenomowe, w odróżnieniu od metod celowanych (np. sekwencjonowania wybranych zestawów genów lub całego eksomu*), daje największe możliwości i najlepszą skuteczność wykrywania wariantów [5]. Obecnie stosowane narzędzia bioinformatyczne pozwalają na wykrycie ponad 99.9% wariantów pojedynczych nukleotydów i ponad 99% małych insercji i delecji [6]. Największym wyzwaniem dla metod opartych na krótkich odczytach pozostaje identyfikacja zmian strukturalnych [7].

Podsumowując, proces detekcji wariantów sprowadza się do odczytania sekwencji krótkich fragmentów DNA, zamapowania ich do genomu referencyjnego i identyfikacji różnic. W zależności od programów wykorzystywanych do analiz, na każdym z etapów przetwarzania danych mogą dojść dodatkowe kroki związane z kontrolą jakości, poprawą danych lub wyników. Skuteczność wykrywania wariantów jest bardzo wysoka w przypadku niewielkich zmian (zmiany pojedynczych nukleotydów, małe insercje i delecje). Dodatkowo, sekwencjonując pełny genom jesteśmy też w stanie całkiem skutecznie wykrywać proste warianty strukturalne. Do dokładnego zbadania skomplikowanych zmian strukturalnych konieczne jest jednak posiłkowanie się innymi technikami, na przykład oferującymi odczyt znacznie dłuższych fragmentów DNA.

*) eksom to zbiór wszystkich obszarów DNA, które kodują białka; zawiera egzony genów kodujących białka i stanowi ok 1.5% genomu

Przypisy:

  1. Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, Peter Walter: Molecular Biology of the Cell. Garland Science, 2002, s. 191–234.
  2. Sanger, F, Nicklen, S, Coulson, AR. DNA sequencing with chain-terminating inhibitors. „Proceedings of the National Academy of Sciences of the United States of America”. 74. 12, s. 5463–5467, 1977. PMID: 431765.
  3. Lander, ES et al. Initial sequencing and analysis of the human genome. Nature. 2001 Feb 15;409(6822):860-921.
  4. Beck, TF, Mullikin, JC; NISC Comparative Sequencing Program, Biesecker LG. Systematic Evaluation of Sanger Validation of Next-Generation Sequencing Variants. Clin Chem. 2016 Apr;62(4):647-54. doi: 10.1373/clinchem.2015.249623.
  5. Belkadi, A, et al. Whole-Genome Sequencing Is More Powerful than Whole-Exome Sequencing for Detecting Exome Variants. 2015, PNAS. https://doi.org/10.1073/pnas.1418631112.
  6. Poplin, R., Chang, P.-C., Alexander, D., Schwartz, S., Colthurst, T., Ku, A., … DePristo, M. A. (2018). A universal SNP and small-indel variant caller using deep neural networks. Nature Biotechnology. doi:10.1038/nbt.4235
  7. Cameron, D.L., Di Stefano, L. & Papenfuss, A.T. Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software. Nat Commun 10, 3240 (2019) doi:10.1038/s41467-019-11146-4
Podziel się: