Genetycznie Polacy są blond imigrantami w stanie Utah w USA
piątek,
12 listopada 2021
Najbliżej nam do… Europejczyków. Zaskoczenia nie ma. Natomiast ciekawe, że w obrębie tej grupy najmniej podobni jesteśmy genetycznie do mieszkańców Finlandii oraz południa Europy, czyli Włochów czy Hiszpanów. Natomiast zdecydowanie najbliżej nam do mieszkańców Wysp Brytyjskich i Europy Zachodniej. Niewykluczone, że z braku grupy „Wschód” w porównywanym, największym międzynarodowym katalogu – mówi mgr biotechnologii Adrian Lejman, koordynator projektów w MNM Diagnostic. Opowiada o programie mającym na celu poznanie „genomu statystycznego Polaka” – Naszegenomy.pl.
TYGODNIK TVP: Jak to się stało, że jest już rok 2021, a my dopiero dziś się dowiadujemy, jakie geny ma statystyczny Polak-szarak?
ADRIAN LEJMAN: Już wcześniej podejmowane były próby zrealizowania podobnych badań, jednak żadne z nich nie zostały ukończone. Może wynikać to z faktu, że w Polsce nie ma zbyt wielu specjalistów od analiz całogenomowych, a takie były niezbędne w przypadku wykonywania tak złożonego projektu. Nasze badania umożliwiły wskazanie tych cech genetycznych, które w naszej polskiej populacji są najczęstsze, ale i odwrotnie – najrzadsze. Mogliśmy także porównać ową częstość z tymi, które charakteryzują inne populacje. To jednak nie jest do końca „genetyczny portret statystycznego Polaka”, bo ostatecznie każdy z nas jest przecież genetycznie inny. Możliwość, jaką daje sekwencjonowanie całego genomu, czyli tzw. WGS, to właśnie odkrycie tych wszystkich genetycznych zapisów, a zatem i pośrednio cech każdego z nas z osobna. Nie możemy zatem tak sobie po prostu powiedzieć, że skoro blond włosy są w polskiej populacji najczęstsze z genetycznego punktu widzenia, to jak ktoś ma inne niż blond, to nie jest Polakiem z pochodzenia lub nie jest nim w ogóle (śmiech).
Niech się pan nie niepokoi, my się tu nie spotkaliśmy, żeby rozwijać na szczęście martwe już w nauce teorie rasowe. Natomiast fakt, że jakiś allel, czyli wariant konkretnego genu w danej populacji – tu zdefiniowanej jako obywatele RP, zamieszkujący terytorium naszego kraju – jest częstszy lub rzadszy niż w innych populacjach, jest interesujący z wielu względów.
Zgadza się. Aczkolwiek nam przyświecał głównie cel medyczny. Na początek ustalenie, jak często występują w polskiej populacji genetyczne predyspozycje do jakiś konkretnych schorzeń. Później można potencjalnie sprawdzać niezliczone hipotezy medyczne.
Tak, o ile, jak to ma miejsce choćby w brytyjskim UK Biobank, za tymi sekwencjami idą rozliczne i konkretne, zestandaryzowane dane medyczne, np. historie chorób, stosowane terapie, skany mózgu, testy psychologiczne, stosowane używki etc. Czy w Polsce też tego typu dane idą za uczestnikiem badania, czy mamy tylko te genomy „nagie”?
Nasza jest bazą zbiorczą genomów wszystkich uczestników, nie ma tam oddzielnie informacji o pojedynczych uczestnikach. Zatem to jest baza o zupełnie innym charakterze, niż UK Biobank.
Aaaa, czyli że nie ma tak: enter, enter, enter i kolejni: osoba X, osoba Y, osoba Z itd., oczywiście zanonimizowani, żeby to nie służyło później jakiemuś handlowi danymi wrażliwymi. To jest tylko taka zbiorcza baza pod tytułem „te allele znaleźliśmy i taką mają częstość w zbiorze”.
Oczywiście podczas rekrutacji osób do badania przeprowadzaliśmy wywiady medyczne, dotyczące bezpośrednio samych uczestników, jak i ich najbliższej rodziny. Zbieraliśmy informacje na temat przebytych chorób, np. nowotworowych. Pytaliśmy też o choroby dziedziczne w rodzinie, czyli taki ogólny wgląd mamy, ale to nie jest część samej bazy danych genomowych. Baza ta ma bowiem służyć jako referencja – odniesienie. Nie ma tu poszczególnych uczestników, nawet zanonimizowanych.
Czego się zatem dowiedzieliśmy o Polakach od strony zdrowotnej, zapisanej w genach? Bo to jest clou tego programu badawczego. Pytania zasadnicze są dwa: co z tych pozyskanych danych z sekwencji DNA już wiadomo i co może z tego wynikać?
Przeprowadziliśmy szereg analiz na uzyskanej przez nas bazie, a nadal to tylko wierzchołek góry lodowej – tego, co zbadać da się przy użyciu tych danych. To jednocześnie zaproszenie innych naukowców do dalszego, wspólnego już odkrywania tych tajemnic, które skrywa „polski genom”. Możliwe jest sprawdzenie milionów hipotez. Możliwa jest też dalsza rozbudowa bazy. To pozwoli np. wychwycić różne genetyczne warianty rzadkie, takie występujące 1 na 10 tys. czy na 100 tys. osób. Siła statystyczna analiz rośnie tu wraz z liczbą uczestników badania.
W obecnej chwili wychodzi na to, że statystycznie w genomie każdego Polaka występuje ok. 4 mln wariantów,zmian pojedynczych nukleotydów, tzw. SNP-ów (ang. Single Nucleotide Polymorphism). Oczywiście w porównaniu do genomu referencyjnego, który znajduje się w Banku genów i jest używany na całym świecie (jest on efektem Human Genome Project, zakończonego publikacją w 2003 roku).
Nie wiadomo, skąd przyleźli, a matka i babka puściły im się z żołdakami, którzy maszerowali wielokrotnie przez ich dom. Tak m.in. po Polakach „jeżdżą” naukowo w Europie. Badania robi się tak, że ów stereotyp się utrwala.
zobacz więcej
Z tego, co pamiętam, ów genom referencyjny należy do Craiga Ventera, który projektem kierował i zsekwencjonował siebie spryciarz.
Sam Craig Venter informował, że genom referencyjny był składową genomów dokładnie 5 osób. Dodatkowo referencja wielokrotnie była zmieniana, uzupełniana i poprawiana, więc znacznie różni się od jej pierwotnej wersji. Kiedy porównamy nasze genomy z najnowszym i najbardziej aktualnym genomem referencyjnym, każdy z osobna różni się od niego w 4 milionach miejsc. Wiele z nich może nie mieć znaczenia biologicznego w tym sensie, że one nie zmieniają sekwencji żadnego białka organizmu ani poziomu ekspresji żadnego genu. I taka jest zdecydowana większość tych zmian, to tzw. mutacje milczące. Statystycznie też każdy z nas ma niemal 800 tys. zmian typu insercja-delecja, czyli wstawka lub wycinka jakiejś sekwencji, choćby jednego nukleotydu, ale to mogą być znacznie dłuższe obszary genomu. I to jest sporo.
Niektóre z tych zmian występują u większości przebadanych przez nas Polaków, inne są unikatowe –np. jakąś konkretna mutację ma tylko jeden uczestnik badania. Analiza wykazała, że każda z przebadanych osób miała 16,5 tys. takich „prywatnych” mutacji, niespotykanych u nikogo innego spośród uczestników. I to też jest całkiem duża liczba. Te unikatowe warianty prywatne odpowiadają za to, jacy wyjątkowi jesteśmy i kim jako jednostka jesteśmy. Z jednej zatem strony – do czego jeszcze chciałbym wrócić – jesteśmy populacją bardzo genetycznie jednorodną, z drugiej jednak każdy różni się genetycznie od każdego w niemałym stopniu.
No dobrze – to w świetle tej zmienności my Polacy na co będziemy chorować, a na co często nie będziemy, bo nas do tego geny predysponują? Udało się ustalić takie ryzyko statystycznego Kowalskiego?
Znaleźliśmy takie różnice istotne klinicznie, mające potencjalne zastosowanie w diagnostyce chorób genetycznych, czy w zmianie podejścia do pewnych schorzeń uwarunkowanych genetycznie. Są takie warianty genetyczne związane z chorobami, które w populacji Polskiej występują zdecydowanie częściej, niż w innych bazach genetycznych, takich jak gnomAD, czy publikacjach naukowych z innych rejonów świata. Oczywiście takich chorób jest zdecydowanie więcej, niż tych kilka przykładów, które odkryliśmy przy „pierwszym czytaniu” tych danych.
Zatem w naszej populacji częściej niż w innych występuje Zespół Nijmegen (tzw. NBS). Chorobę powoduje mutacja w genie NBN, przy czym najczęściej występująca w tym genie mutacja już wcześniej nazywana była „słowiańską”. Zatem potwierdziliśmy to, co było wcześniej domniemane, że jest to mutacja częstsza u nas i naszych południowo-wschodnich sąsiadów.
Na czym polega ta choroba i jakim cudem się utrzymuje w populacji, skoro bezpośrednio zagraża wydaniu i wychowaniu zdrowego potomstwa? Wszak Słowian jest na świecie sporo, zajmują dużą euroazjatycką przestrzeń, nie wyglądają na „ginących”.
Polega na niestabilności chromosomów. Czasem następuje „złamanie” chromosomu i jest to przyczyna powstawania różnych nowotworów nawet w bardzo młodym wieku. Utrzymanie tak wysokiej częstości tego wariantu spowodowane jest zapewne faktem, że nie każdy jego posiadacz zachoruje na tę niebezpieczną chorobę. Jest ona bowiem dziedziczona recesywnie, zatem aby się przejawiała, konieczne jest odziedziczenie mutacji od obojga rodziców. A taka sytuacja występuje średnio u co czwartego potomka. Innymi słowy, ta wysoka częstość występowania oznacza, że w populacji mamy nieproporcjonalnie wielu nosicieli tej mutacji. Częstość tego wariantu w polskiej populacji wynosi 0,27 proc. Dla porównania: jego częstość w populacji europejskiej wynosi zaledwie 0,04 proc. Ryzyko wystąpienia tej choroby jest zatem u nas około siedem razy większe, niż w innych częściach Europy.
Innym przykładem jest Zespół Smitha-Lemliego-Opitza (tzw. SLOS), polegający na wrodzonym niedoborze pewnego enzymu – reduktazy 7-dehydrocholesterolu. Charakteryzuje się licznymi wadami wrodzonymi, niepełnosprawnością intelektualną oraz wieloma problemami behawioralnymi. Podobnie jak poprzednia choroba, jest dziedziczona autosomalnie recesywnie, wynika z mutacji w genie DHCR7. Czyli stwierdzaliśmy de facto częstość jej nosicielstwa w populacji. Jeden z powodujących tę chorobę wariantów genetycznych w populacjach światowych występuje z częstością 0,07 proc., zaś w polskiej populacji w naszych badaniach wyszła częstość 1,2 proc. To jest ogromna różnica.
Takie informacje mogą wspierać szybką diagnozę małych dzieci – skoro schorzenie jest wieloobjawowe, a wiele różnych syndromów miewa objawy podobne, jednak diagnozuje się je i leczyinaczej. Wiedza, z czym mamy do czynienia z większym prawdopodobieństwem, a z czym z mniejszym, jest istotna. To jest dziś w Polsce ważne dla lekarzy, lekarzy genetyków i diagnostów molekularnych. I to jest informacja ważna na kolejnych etapach życia tego pacjenta i jego rodziny.
Ta informacja poszła już w „lud lekarski”, do pediatrów w Polsce? Czy ktoś wasze wyniki omówił na jakiejś konferencji pediatrycznej lub neonatologicznej, albo opublikował po polsku w periodykach specjalistycznych?
Nie braliśmy w żadnej takiej prezentacji udziału, jeszcze. Natomiast te wyniki są dostępne w całości, wypuściliśmy je też w świat na serwerze preprintowym, więc mam nadzieję, że środowisko je zauważyło…
Lekarze genetycy być może, niestety jest ich w Polsce wielki niedostatek. Co konkretnie wyniknie z tych danych dla polskiej populacji, która zapłaciła za nie w podatkach: żeby powstały i żeby dzieło było, mam nadzieję, kontynuowane? Państwo zdobyli absolutnie kluczowe informacje, bo różnica miedzy częstościami występowania w Polsce i na świecie jest rzędów 1000-10000 razy i to musi zostać uwzględnione np. w badaniach przesiewowych noworodków, trzeba opracować szybki test wykrywający tę mutację… Ta informacja musi się przebić do rozmaitych towarzystw naukowych czy konsultantów krajowych, którzy są źródłem stosownych rekomendacji.
Dzięki naszej bazie danych istotnie można sprawdzić i ustalić, jakie choroby genetyczne mogłyby – by to było i klinicznie, i ekonomicznie sensowne – znajdować się w schematach badań przesiewowych, jakie szybkie testy genetyczne warto opracować. Właśnie po to zrobiliśmy to badanie. Na przykład, żeby specjaliści w oparciu o dane mogli się poważnie zastanowić, czy nasz panel diagnostyczny chorób genetycznych wieku niemowlęcego, czy wczesnodziecięcego, jest „oparty na faktach” i czy można lub trzeba go ulepszyć. Oraz jak to zrobić. Cały czas w tym projekcie przyświecał nam ten cel medyczny – pomoc ludziom, po prostu. Nie trzeba już się odnosić do baz światowych, w dodatku okazuje się, że nie jest to zawsze uprawnione i słuszne.
Obracamy się cały czas wokół zdrowia. Natomiast moje wrażenie z funkcjonowania „genetyki dla mas” jest takie, że ludzi – przynajmniej w Polsce – bardziej interesuje skąd ich ród, niż jaką mają zapisaną w genach szansę na zawał czy nowotwór. Hobbystycznie zajmują się raczej genealogią genetyczną niż genetyką medyczną. W dodatku te sekwencjonowania genealogiczne są płatne i nietanie. Czy w waszym projekcie był w ogóle taki etap, by zobaczyć tzw. haplogrupy chromosomu Y (dziedziczone po mieczu) czy mitochondrialnego DNA (dziedziczone po kądzieli, ale znacznie mniej różnorodne)?
Jak najbardziej, takie badania też przeprowadziliśmy i ich wyniki znajdują się również w naszej publikacji udostępnionej na stronie naszegenomy.pl. Jedną z przeprowadzonych analiz jest częstość konkretnych haplogrup mtDNA i ich wariantów. Pokazała ona wyraźnie, że większości osób w naszej kohorcie (43,5 proc.) przypisana jest do haplogrupy H, co jest zgodne z wcześniejszymi wynikami dla populacji polskiej i słowiańskiej. Inne, wcześniej przeprowadzone badania nad mitochondrialnym DNA pokazywały, że Polacy jako populacja charakteryzują się różnymi europejskimi haplogrupami. W naszym badaniu również wykazaliśmy, że populacja polska jest prawie nie do odróżnienia od innych narodów europejskich, z wyjątkiem haplogrup U4a i HV3a, które występują głównie u Polaków i Rosjan. W tym projekcie potwierdziliśmy obecność haplogrupy U4a (u 50 osób), która z założenia ma środkowoeuropejski rodowód.
Język – co było wiadomo od ponad 200 lat – i geny – co wiadomo od dziś. Mają bowiem wspólnego ojca.
zobacz więcej
Warto zauważyć, że analizuje się całe genomy (tzw. autosomy, chromosomy nie płciowe) i dziedziczenie przez różne osoby jak najdłuższych nietkniętych fragmentów tych właśnie chromosomów może świadczyć o bliższym niż dalszym pokrewieństwie.
Nasze przedsięwzięcie nazwaliśmy na potrzeby anglojęzycznych publikacji naukowych „The Thousand Polish Genomes Project”, przez analogię do słynnego, zapoczątkowanego w 2008 roku „1000 Genomes Project” (1 KGP) – międzynarodowego projektu badawczego, mającego na celu stworzenie jak dotąd najbardziej szczegółowego katalogu zmienności genetycznej człowieka. Naukowcy planowali zsekwencjonować genomy co najmniej tysiąca anonimowych uczestników z wielu różnych grup etnicznych. Najistotniejsza publikacja wyników ich wysiłków ukazała się w 2012 roku. Nie bez kozery tak zrobiliśmy, bo umożliwia ono oczywiście porównanie naszej polskiej populacji z innymi nacjami, podgrupami czy populacjami.
Dzięki temu – a dokładnie właśnie porównaniu z dostępną publicznie bazą 1KGP – mogliśmy ustalić, o czym wspomniałem już wcześniej, że nasza polska populacja jest grupą bardzo zwartą, genetycznie jednorodną, która doskonale wpisuje się w populację europejską. Ta jednorodność wynika właśnie z tego, że inni są od nas bardziej inni, niż my od siebie nawzajem. A więc wśród wszystkich populacji analizowanych w 1 KGP najbliżej nam zdecydowanie do Europejczyków. I tu zaskoczenia nie ma. Natomiast ciekawe jest to, że w obrębie tej europejskiej grupy, najmniej podobni jesteśmy do mieszkańców Finlandii oraz południa Europy, czyli Włochów czy Hiszpanów. Natomiast zdecydowanie najbliżej jest nam do mieszkańców Wysp Brytyjskich i Europy Zachodniej. Aczkolwiek tutaj trzeba wspomnieć, że w owym 1KGP, do którego bazy się porównywaliśmy, mieszkańcy Europy Zachodniej zdominowali pule dla Europejczyków.
No właśnie – tam zdaje się w ogóle nie ujęto Słowian, bo wtedy te technologie dopiero u nas raczkowały.
Tak. I 98 proc. naszej przebadanej populacji wpisuje się idealnie w tę grupę „Zachód” – niewykluczone, że z braku grupy „Wschód”. Natomiast owi zachodni Europejczycy z 1KGP to w istocie genomy imigrantów zamieszkujących obecnie stan Utah w USA.
Ale przecież istnieją projekty narodowe tego typu, które przeprowadziliście państwo dla Polski. Nie dało się danych z „Nasze genomy” z nimi porównywać, a nie tylko z 1KGP? Ja rozumiem, że takie bazy mogą być różnie formatowane, więc rzecz nie jest trywialna…
Faktycznie, są już bazy narodowe genomów, niekoniecznie zbudowane w ten sam sposób, co 1KGP. Lecz aby skorzystać z takiej bazy, musi ona być otwarta.
A do bazy genomowej Polaków, którą państwo uzyskali, jest teraz otwarty dostęp? Żeby np. Niemcy czy Włosi mogli porównywać swoje genomy z naszymi?
Tak, nasza baza danych jest dostępna dla wszystkich naukowców czy klinicystów z dowolnego miejsca na świecie, którzy chcieliby wykonać badania. Wniosek o dostęp do bazy częstości wariantów genetycznych w polskiej populacji składa się poprzez stronę naszegenomy.pl. Wszystkie dobrze uzasadnione wnioski od grup badawczych są przez nas rozpatrywane, a następnie podejmujemy decyzję o udostępnieniu danych.
Może faktycznie najpierw powinni się zagrzebać w tych danych polscy lekarze genetycy i innych specjalności oraz diagności medyczni, napisać kilka mądrych publikacji po polsku, do polskich czasopism medycznych, które być może nie dają wielkich punktów i sławy, ale się rozchodzą w środowisku lekarskim. Projekt przecież został dofinansowany z budżetu państwa, bo po prostu nie ma innych pieniędzy tego rzędu na takie badania w Polsce i mam nadzieję, że będzie kontynuowane zawsze. Dobrze zatem, żeby ktoś dla dobra polskiej populacji zaczął odzyskiwać te pieniądze w formie lepiej wycelowanej, bardziej trafionej diagnostyki i terapii.
Trudno dokładnie określić koszty przeprowadzenia naszego badania, ponieważ mieliśmy tu do czynienia z połączeniem dwóch już istniejących i wciąż poszerzanych baz genomowych, powstałych przy realizacji innych projektów. Baza „Nasze genomy” powstała więc z połączenia zasobów biobanku MNM Diagnostics, np. niektórzy uczestnicy rozpoczętego wcześniej badania dotyczącego „genetycznych uwarunkowań do przebiegu choroby COVID-19”, z grupą uczestników innych projektów naukowych, robionych m.in. przez Centralny Szpital Kliniczny MSWiA. Zawsze, o ile wyrazili zgodę na uczestnictwo w innych badaniach. Dzięki ich postawie – za którą w tym miejscu trzeba im bardzo serdecznie podziękować, bo daje ona szansę na rozwój nauki i genetyki – możliwe było przeprowadzenie tych badań już wyłącznie analitycznych, biostatystycznych i podobnych tego typu.
Można zatem powiedzieć o pewnej głębokiej ekonomizacji finansowej (śmiech). Na badanie składa się koszt samego sekwencjonowania DNA – aczkolwiek ten spada obecnie systematycznie, więc kilka lat temu koszt tego badania byłby znacznie większy. Oczywiście było także ogłoszenie, że poszukujemy chętnych do „Naszych genomów” i zainteresowanie było ogromne. Zgłaszali się ludzie z całej Polski, reprezentujący pełny przekrój społeczeństwa.