Co bioinformatyka może nam powiedzieć na temat nieznanych białek?

avatar
Dr Krzysztof Szczepaniak 29 wrz, 4 minut czytania

Każde białko jest zbudowane z cząsteczek chemicznych, aminokwasów, układających w określonej kolejności w łańcuch. Zapis tej kolejności nazywamy sekwencją aminokwasową białka i przy pomocy narzędzi bioinformatycznych możemy na jej podstawie przewidzieć wiele właściwości strukturalnych i funkcjonalnych białka. Przewidywania takie są oparte na analizie dobrze scharakteryzowanych białek, które są powiązane ewolucyjnie (homologiczne) z interesującym nas białkiem. Doświadczalne metody z zakresu biochemii i biofizyki są kluczowe do potwierdzenia teoretycznych przewidywań. Bioinformatyka jest cennym narzędziem, które pozwala na dobre ukierunkowanie doświadczeń i tym samym może oszczędzić czas i zasoby. Wiele metod bioinformatycznych można stosować bez względu na to czy pracujemy z białkami zwierzęcymi, roślinnymi, bakteryjnymi, czy też wirusowymi. Czasami jednak rozwijane są również metody przygotowane specjalnie do badania jakiejś grupy białek lub organizmów, których specyficzne cechy utrudniają analizę ogólnymi metodami.

Pierwszym krokiem w kierunku odkrycia tajemnic białka jest oczywiście uzyskanie jego sekwencji, co wymaga izolacji DNA z komórki badanego organizmu i jego zsekwencjonowania. Rozwiązania bioinformatyczne mają zastosowania już na tym etapie, ponieważ są potrzebne do przetworzenia sygnału uzyskanego z urządzenia sekwencjonującego na sekwencję DNA. Po uzyskaniu pełnej sekwencji DNA należy oznaczyć, w których jego obszarach występują fragmenty kodujące białka. Warto tutaj zaznaczyć, że odnajdywanie takich obszarów jest istotnie trudniejsze w przypadku genomów eukariotycznych (zwierzęta, rośliny, grzyby) niż prokariotycznych (bakterie, archeony), chociażby ze względu na występowanie u eukariontów procesu splicingu czyli składania ostatecznej matrycy do syntezy białka (mRNA) poprzez wycinanie fragmentów matrycy prekursorowej (pre-mRNA).

Dysponując przewidzianą w ten sposób sekwencją białka możemy przystąpić do jej głębszego zbadania za pomocą całego szeregu narzędzi bioinformatycznych. Jednym z ważniejszych zagadnień jest odpowiedź na pytanie jaka jest właściwie funkcja białka, które badamy. Jedną z prostszych metod znalezienia tej odpowiedzi jest użycie algorytmu BLAST, który wyszukuje w bazie danych białka, które mogą być homologiczne do naszego badanego białka. Często do białek znajdujących się w wynikach takiego wyszukiwania są przypisane informacje na temat ich potwierdzonej lub przypuszczanej funkcji. Bardziej czułą metodą wyszukiwania homologów w celu pierwszego przybliżenia funkcji badanego białka są metody wykorzystujące ukryte modele Markowa (ang. Hidden Markov Models, HMM), przykładowo metoda zaimplementowana w pakiecie HHsuite [1].

W obrębie danego białka można wydzielić pewne moduły, nazywane domenami. Ścisła definicja domeny jest tematem sporów wśród naukowców, jednak istnieją dwa zasadnicze spojrzenia na to pojęcie. Pierwsze polega na postrzeganiu domen białkowych z punktu widzenia ewolucyjnego, jako fragmentów białek o określonej funkcji, które powstały na wczesnych etapach ewolucji i zmieniają się powoli, aby optymalizować swą funkcję. Druga definicja odnosi się do pojęcia domeny z perspektywy strukturalnej uznając za domenę zestaw aminokwasów, które mają więcej wiązań chemicznych ze sobą nawzajem niż z aminokwasami spoza domenowego zestawu. Analiza składu domenowego białka może dać wskazówki co do jego funkcji, jak również przyjmowanej struktury. Istnieją bazy danych zbierające domeny, które można przeszukiwać zadając sekwencję naszego badanego białka i dostać w odpowiedzi zestaw domen, które mogą występować w jego obrębie wraz ze wskazaniem obszarów białka, w których owe domeny mogą się znajdować. Spośród najpowszechniej stosowanych baz można wymienić Pfam [2].

Możemy również poszukać w naszym białku pewnych określonych cech, takich jak obecność powtórzeń [3], sekwencji sygnałowych czy fragmentów transbłonowych [4]. Sekwencje sygnałowe to krótkie odcinki znajdujące się na początku białka, których zadaniem jest wskazanie maszynerii komórkowej obszaru komórki, do jakiego białko powinno zostać przetransportowane po wyprodukowaniu. Fragmenty transbłonowe natomiast to części białka, które są umieszczone w błonie komórkowej. Wykrycie obecności którejś z tych cech pomaga nie tylko we wskazaniu docelowego umiejscowienia białka, ale również jest wskazówką do określenia jego funkcji.

Obszarem, na którym metody bioinformatyczne przez dość długi czas były w stanie wspierać doświadczenia biofizyczne w ograniczonym zakresie jest określanie trójwymiarowych struktur białek. Pytanie o to, jak wygląda struktura białka jest ważne, ponieważ struktura pomaga zrozumieć interakcje chemiczne zachodzące pomiędzy fragmentami białka i innymi cząsteczkami w komórce, a to umożliwia wnioskowanie na temat mechanizmów funkcjonowania białka na szczegółowym poziomie. Przez wiele lat dostępne programy do przewidywania struktur białek odnosiły umiarkowane sukcesy będąc przy tym dość kosztowne obliczeniowo. Niemniej, były w stanie dostarczać cennych wskazówek dla metod biofizycznych, jak również dobrych przewidywań w niektórych przypadkach. W ciągu ostatnich kilku lat dokonano prawdziwego przełomu w rozwoju metod przewidujących struktury białek dzięki zastosowaniu w nich technik uczenia maszynowego [5]. Przy pomocy programu AlphaFold2 [6] w ciągu roku stworzono bazę zbierającą 200 milionów przewidzianych struktur białkowych. Dla porównania, baza wszystkich rozwiązanych metodami doświadczalnymi struktur na dzień dzisiejszy liczy niespełna 200 tysięcy struktur. Najnowsze narzędzia bioinformatyczne przewidujące struktury białek mają wciąż pewne ograniczenia, niemniej ostatnie lata przyniosły przełomową poprawę ich szybkości i dokładności.

Problemy badawcze, na które próbuje się odpowiedzieć za pomocą opisanych tutaj metod mogą być bardzo różne. Określenie funkcji białek pochodzących z nieopisanego wcześniej gatunku bakterii może wskazać systemy obronne jakie ów gatunek posiada i tym samym stwierdzić jakie antybiotyki lub wirusy bakteryjne będą skuteczne przeciwko niemu. Spektakularnym osiągnięcie ostatnich lat jest odkrycie licznych nowych systemów obronnych bakterii, które odnaleziono dzięki systematycznej analizie genów sąsiadujących z wcześniej opisanymi systemami obronnymi [7]. Odkrycie to jest istotne, ponieważ takie systemy udało się już wcześniej zaadaptować do użycia w inżynierii genetycznej (np. enzymy restrykcyjne lub CRISPR). Wreszcie, określenie struktury białka może pomóc wyjaśnić mechanizm jego działania i interakcji z innymi cząsteczkami, co ma znaczenie w projektowaniu leków. Przykładowo, określenie miejsca w kluczowym dla metabolizmu bakterii białku, do którego to miejsca wiążą się cząsteczki, może pomóc zaprojektować syntetyczną cząsteczkę, która będzie skutecznie blokować działanie białka i tym samym doprowadzać do śmierci komórek patogennych bakterii.

Literatura:

[1] Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S J, and Söding J (2019) HH-suite3 for fast remote homology detection and deep protein annotation, BMC Bioinformatics, 473.

[2] J. Mistry, S. Chuguransky, L. Williams, M. Qureshi, G.A. Salazar, E.L.L. Sonnhammer, S.C.E. Tosatto, L. Paladin, S. Raj, L.J. Richardson, R.D. Finn, A. Bateman (2020), Pfam: The protein families database in 2021, Nucleic Acids Research

[3] Biegert A., Söding J. (2008) HHrepID: de novo protein repeat identification by probabilistic consistency. Bioinformatics 24(6):807-814.

[4] Gabler F, Nam SZ, Till S, Mirdita M, Steinegger M, Söding J, Lupas AN, Alva V. Protein Sequence Analysis Using the MPI Bioinformatics Toolkit. Curr Protoc Bioinformatics. 2020 Dec;72(1):e108.

[5] Lupas AN, Pereira J, Alva V, Merino F, Coles M, Hartmann MD. The breakthrough in protein structure prediction. Biochem J. 2021 May 28;478(10):1885-1890.

[6] Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).

[7] Doron S, Melamed S, Ofir G, Leavitt A, Lopatina A, Keren M, Amitai G, Sorek R. Systematic discovery of antiphage defense systems in the microbial pangenome. Science. 2018 Mar 2;359(6379):eaar4120.

 


Fakty i Mity Genetyki tworzone są przez pasjonatów, specjalistów w swoich dziedzinach.
Ten artykuł czytasz za darmo, bez reklam, bez spamu. Doceń naszą pracę i postaw nam wirtualną kawę 🙂
Dziękujemy! – Wasza Redakcja FiMG

Postaw mi kawę na buycoffee.to


Podziel się: