/

Przetwarzanie danych osobowych w badaniach genetycznych

Piotr Topolski
Piotr Topolski 27 lut, 6 minut czytania

Kiedy w badaniach genetycznych dotyka się przetwarzania danych osobowych ?
Czy sam fakt braku informacji od kogo pochodzi materiał biologiczny pozwala mówić o anonimowych danych? Czym się kierować wybierając pomiędzy anonimizacją, a pseudonimizacją ?

 

Rozważania dotyczące przetwarzania danych osobowych w badaniach genetycznych należy zacząć od zdefiniowania obydwu pojęć. O ile, zdefiniowanie przetwarzania danych osobowych, jak i samych danych osobowych nie nastręcza problemów, ponieważ są one zdefiniowane w art 4. RODO[1], to badania genetyczne należy zdefiniować szeroko, jako dowolne badania przeprowadzane na genach, chromosomach, cząsteczkach DNA lub RNA lub ich fragmentach bez względu czy pochodzą z próbki ludzkiego materiału biologicznego (LMB) czy też zostały pozyskane w formie elektronicznej jako pliki lub ciągi znaków.

Zgodnie z definicją zawartą w art. 4 ust.1) RODO dane osobowe „oznaczają wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej („osobie, której dane dotyczą”); możliwa do zidentyfikowania osoba fizyczna to osoba, którą można bezpośrednio lub pośrednio zidentyfikować, w szczególności na podstawie identyfikatora takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej;”.

Dalej, w art.4 ust. 13) RODO zdefiniowane są dane genetyczne jako dane które, „oznaczają dane osobowe dotyczące odziedziczonych lub nabytych cech genetycznych osoby fizycznej, które ujawniają niepowtarzalne informacje o fizjologii lub zdrowiu tej osoby i które wynikają w szczególności z analizy próbki biologicznej pochodzącej od tej osoby fizycznej”. Dla lepszego zrozumienia czym są dane osobowe pomocne mogą być informacje zawarte w motywach 26, 30,34 i 35 RODO, w których zwraca się uwagę na to, że danymi osobowymi mogą być dane pośrednie takie jak identyfikatory elektroniczne zapisane w plikach cookies, adresy internetowe, adresy i identyfikatory urządzeń, które mogą stanowić ślady umożliwiające identyfikację osób fizycznych. Analogicznymi śladami mogą być fragmenty kodu genetycznego połączone z innymi danymi medycznymi lub innymi danymi dotyczącymi danej osoby. Zaleca się także, aby właściwie określić możliwość identyfikacji danej osoby biorąc pod uwagę wszelkie obiektywne czynniki, prawdopodobieństwo identyfikacji oraz rozwój technologiczny. W przypadku weryfikacji czy ma się do czynienia z danymi osobowymi zawsze należy rozważyć istnienie możliwości identyfikacji osoby fizycznej nie tylko na chwilę obecną, ale też wziąć pod uwagę inne czynniki, takie jak kierunek rozwoju nauki, technologii czy zjawisk społecznych.

W art. 4 ust. 2) RODO znajduje się definicja przetwarzania danych, które oznacza „operację lub zestaw operacji wykonywanych na danych osobowych lub zestawach danych osobowych w sposób zautomatyzowany lub niezautomatyzowany, taką jak zbieranie, utrwalanie, organizowanie, porządkowanie, przechowywanie, adaptowanie lub modyfikowanie, pobieranie, przeglądanie, wykorzystywanie, ujawnianie poprzez przesłanie, rozpowszechnianie lub innego rodzaju udostępnianie, dopasowywanie lub łączenie, ograniczanie, usuwanie lub niszczenie;”.

 

Upraszczając przetwarzanie danych oznacza, co do zasady, wszystkie czynności jakie wykonuje się na danych od zebrania do ich usunięcia.

 

Ze względu na źródło danych genetycznych badania genetyczne można podzielić na kilka kategorii. Pierwsza, to taka, gdzie osoba, od której pochodzi materiał biologiczny jest identyfikowalna i wyraziła zgodę na udział w badaniu. Zgodnie z zasadą minimalizacji wynikającą z RODO, dane przeznaczone do badania naukowego powinny być speudonimizowane lub zanonimizowane. W przypadku anonimizacji oznacza to nieodwracalny proces zakodowania danych, zaś w przypadku pseudonimizacji istnieje możliwość ponownego przypisania próbki do określonej osoby. W tym miejscu należy zaznaczyć, że proces odkodowania spseudonimizowanej próbki może zostać przeprowadzony w wyjątkowych, szczególnych przypadkach, kiedy konieczne jest ponowne zidentyfikowanie osoby, do której należy próbka materiału biologicznego. Na tym, polega zasadnicza różnica pomiędzy pseudonimizacją a anonimizacją. Konsekwencją tego, że pseudonimizacja pozwala na ustalenie tożsamości osoby jest możliwość realizacji jej praw lub możliwość skontaktowania się z tą osobą.

Drugą kategorią badań są takie, w których wykorzystuje się ludzki materiał biologiczny od nieznanego, anonimowego dawcy. Trzecią kategorię stanowią badania oparte o dane genetyczne udostępnione w formie elektronicznej pozbawione danych identyfikacyjnych osób, od których pochodzą. Na pozór, mogło by się wydawać, że nie ma konieczności rozważać drugiej i trzeciej kategorii badań w kontekście ochrony danych osobowych. Jednakże w przypadku badań genetycznych taka konieczność istnieje. W przypadku kategorii drugiej, wynika to z faktu, że materiał biologiczny jest nośnikiem i źródłem danych genetycznych, które będą analizowane w ramach badania. Zaś w przypadku kategorii trzeciej wprost otrzymujemy dane genetyczne. W jednym i drugim przypadku należy dokonać dokładnej analizy czy wykorzystywane w badaniu dane nie mogą stanowić pośrednich lub bezpośrednich danych osobowych.

W przypadku korzystania w badaniu z sekwencji całego genomu oczywistym jest, że stanowi ona daną osobową. Należy jednak pamiętać, że genetyczne dane osobowe to informacje które ujawniają niepowtarzalne informacje o fizjologii lub zdrowiu osoby, które mogą posłużyć do jej identyfikacji. Zatem, aby mieć do czynienia z danymi osobowymi, wystarczy znaleźć niepowtarzalną cechę (lub zbiór cech), która będzie identyfikowała daną osobę w sposób jednoznaczny. By lepiej zobrazować na czym polega identyfikacja poprzez cechę szczególną można przeanalizować sposób anonimizacji osób oskarżonych w mediach. Proces ten polega na ujawnianiu jedynie imienia i pierwszej litery nazwiska osoby oskarżonej, przykładowo zamiast „Jan Kowalski” stosuje się „Jan K.” . Metoda ta jest skuteczna dla większości osób. Jednak jeżeli trafi się osoba posiadająca imię unikalne np. Wendolin, Frumencjusz zastosowanie tej metody będzie nieskuteczne, ponieważ z wysokim prawdopodobieństwem można stwierdzić, że samo imię wystarcza do identyfikacji takiej osoby, a w przypadku dodania litery nazwiska można taką osobę zidentyfikować w sposób jednoznaczny. Analogicznie może być z fragmentarycznymi danymi genetycznymi, które mogą być na tyle unikalne, że pozwolą na zidentyfikowanie osoby jedynie na ich podstawie. Wystarczy uświadomić sobie, że na podstawie 34 markerów DNA ustala się ojcostwo czy pokrewieństwo z prawdopodobieństwem sięgającym ponad 99%.

Świat dostrzega problem pomiędzy rozwojem nauki, w szczególności tworzeniem i udostępnianiem baz danych genetycznych a ochroną prywatności osób, których dane są przetwarzane. W artykule „Data Sanitization to Reduce Private Information Leakage from Functional Genomics”[2]. Pokazano zagrożenia wynikające z publikowania danych genetycznych, które poruszają kilka zagadnień. Pierwsze to łatwa możliwość pozyskania materiału biologicznego danej osoby (w artykule jako przykład podano kubek po kawie). Drugie zagadnienie to łatwy dostęp do baz danych genetycznych. Bardzo często instytucje wystawiające takie bazy tkwią w przekonaniu, że skoro dane genetyczne pochodzą z anonimowego materiału biologicznego to dane te są również anonimowe. Takie przeświadczenie powoduje, że często udostępniane są publicznie dane osobowe, które można pobrać i porównać z posiadanym wzorcem. W przetaczanym artykule baza danych genetycznych jest zawężona do próbek osób chorych na konkretną chorobę, co powoduje, że przez porównanie danych można uzyskać dodatkowe informacje o stanie zdrowia. Autorzy artykułu przedstawiają dwa rozwiązania, które z jednej strony zabezpieczają prywatność osoby od której pochodzą dane genetyczne , a z drugiej zachowują wartość badawczą tych danych. Pierwsze rozwiązanie polega na agregacji danych w taki sposób, by nie wskazywać wprost indywidualnych danych tj. by do grupy osób chorych na chorobę X dodać kilka próbek osób zdrowych. Przy analizie nie wpłynie to znacząco na wyniki, natomiast wykluczy uzyskanie dodatkowych informacji o stanie zdrowia, ponieważ nie będzie pewności czy znaleziona w tej grupie osoba jest zdrowa czy chora. Drugim rozwiązaniem jest zmodyfikowanie danych genetycznych przez wprowadzenie „szumu”, który uniemożliwi identyfikację osoby poprzez porównanie.

Podsumowując należy pamiętać, że dane genetyczne identyfikujące daną osobę nie zmieniają się w czasie. Zatem możemy na ich podstawie ustalać tożsamość po wielu latach. Dlatego też bardzo ważną rzeczą jest pochylić się nad zagadnieniem ochrony danych i prywatności nie tylko na chwilę obecną, ale też brać pod uwagę trendy rozwoju technologii, nauki i potrzeb społecznych. Sami możemy zaobserwować jak szybko zmienia się technologia i jakie daje możliwości. W 2001 roku opublikowano w Nature i Science sekwencję genomu ludzkiego. Prace nad pierwszą sekwencją trwały kilkanaście lat i pochłonęły kilka miliardów dolarów. Obecnie koszt sekwencjonowania to około tysiąc dolarów, a okres czekania na wynik to kilka dni. Takie obniżenie kosztów i czasu powoduje naturalny wzrost liczby osób, których dane genetyczne wykorzystywane są do badań naukowych i diagnostyki. Badania genetyczne są silnie wspierane przez technologię teleinformatyczną co sprzyja rozwojowi cyfrowych genetycznych baz danych, które dają możliwość łatwej analizy porównawczej, która może służyć identyfikacji osób.

Przykładem wykorzystania otwartych baz danych od identyfikacji osoby może być sprawa Josepha Jamesa DeAngelo znanego jako Golden State Killer, który został ujęty w 2018 roku w wieku 73 lat za zbrodnie popełnione w latach 1973–1986. Kluczowym elementem, który przyczynił się do jego złapania był dostęp do bazy GEDmatch. Baza ta zawierała DNA osób szukających swoich bliskich. W bazie tej, policja na podstawie posiadanych danych genetycznych ustaliła osoby, które były spokrewnione ze sprawcą. Ujęcie przestępcy było już tylko kwestią czasu. Nie tylko GEDmatch współpracował, czy współpracuje z służbami. Przedsiębiorstwa zajmujące się tworzeniem baz DNA wprost informują, że dane są udostępnione służbom. Takim przykładem jest firma Gene by Gene, która udostępnia FBI dane genetyczne ok. 2 mln użytkowników, które gromadzi ramach swojej usługi FamilyTreeDNA.

Publiczne udostępnianie danych wiąże się z ryzykiem wycieku danych. W lipcu 2020 roku, wspomniany już serwis GEDmatch został zhackowany. Poza danycmi genetycznymi wypłynęły też dane identyfikacyjne użytkowników ich imiona, nazwiska i adresy mailowe. Na chwilę obecną nie wiadomo w jaki sposób i kiedy przejęte dane genetyczne zostaną wykorzystane przez przestępców. Incydent związany z wyciekiem danych dotknął także firmę prowadzącą portal myHeritage, który służy do tworzenia drzew genealogicznych na podstawie wprowadzonych danych oraz danych genetycznych. W chwili kiedy zdarzył się incydent firma posiadała informacje o ponad 92 mln osób. Wg informacji zawartych na blogu firmy incydent nie obejmował danych genetycznych, ponieważ znajdowały się one na innych serwerach. Przedstawione przypadki wskazują przede na łatwość dostępu do danych genetycznych przez portale internetowe oraz na skalę tworzonych baz, których liczba rekordów wyrażona jest w milionach.

Rozwój technologii zapewne przyczyni się do popularyzacji badań genetycznych oraz diagnostyki genetycznej. Wysoce prawdopodobne jest także, że dane genetyczne będą wykorzystywane także w ramach zjawisk społecznych, takich jak szukanie pokrewieństwa, tworzenia drzew genealogicznych. Ogólna dostępność do danych genetycznych niesie ze sobą również zagrożenia. Największym i najczęściej wymienianym jest dyskryminacja ze względu na cechy kodu genetycznego. Przykładem takiej dyskryminacji może być np. odmowa ubezpieczenia lub odmowa przyjęcia do pracy ze względu na wysokie ryzyko wystąpienie chorób nowotworowych lub innych czynników wykrytych w genomie danej osoby. Zarówno naukowcy jak i prawnicy szukają ciągle kompromisu pomiędzy ochroną prywatności, a rozwojem nauki i medycyny postrzeganym jako dobra społeczne.

Na koniec, należy podkreślić, że prowadząc badania genetyczne należy zwracać szczególną uwagę na przetwarzanie danych osobowych, szczególnie, że jest to obszar wciąż słabo uregulowany prawnie.

 

Jeśli chcesz wiedzieć więcej: 

  1. Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r. w sprawie ochrony osób fizycznych w związku z przetwarzaniem danych osobowych
    i w sprawie swobodnego przepływu takich danych oraz uchylenia dyrektywy 95/46/WE (ogólne rozporządzenie o ochronie danych)
  2. Data Sanitization to Reduce Private Information Leakage from Functional Genomics; Gamze Gürsoy, Prashant Emani, Charlotte M. Brannon, Otto A. Jolanki, Arif Harmanci, J. Seth Strattan, J. Michael Cherry, Andrew D. Miranker, Mark Gerstein DOI: https://doi.org/10.1016/j.cell.2020.09.036

 

Podziel się: