Populacijsko-statistična metoda preučevanja genetike: bistvo in pomen

22. 4. 2019

V zadnjih letih je bila za analiziranje podatkov o genotipih in določanje genetskih variacij, ki so lahko odgovorne za povečanje dovzetnosti za bolezni, predstavljene zelo različne statistične metodologije na različnih stopnjah kompleksnosti. Kakšna je populacijsko-statistična metoda za preučevanje genetike? Kakšno je njeno bistvo in pomen pri preučevanju dednosti?

populacijska statistična metoda pri proučevanju vloge dednosti

Tip računske biologije

Statistična genetika je znanstveno področje, povezano z razvojem populacijsko-statističnih metod za pridobivanje genetskih podatkov. Ta izraz se najpogosteje uporablja v kontekstu. človeška genetika. Raziskave na tem področju običajno vključujejo razvoj teorije ali metodologije za podporo raziskavam na enem od treh med seboj povezanih področij:

  • populacijska genetika - študija evolucijskih procesov, ki vplivajo na genetsko variabilnost med organizmi.
  • genetska epidemiologija - študija vpliva genov na bolezen.
  • kvantitativna genetika - preučevanje vpliva genov na "normalne" fenotipe.

Statistična genetika tesno sodeluje z genetiki, molekularnimi biologi, kliniki in bioinformatiko. Statistična genetika je vrsta računalniške biologije.

populacijska statistična metoda za proučevanje človeške genetike

Predmet študije

Populacijska genetika preučuje genetsko strukturo populacij in njihov genski sklad. Zajema tudi vprašanja, povezana z interakcijo dejavnikov, ki določajo tako konstantnost kot spremembo v strukturi genoma. Kaj je populacija? To je zbirka posameznikov iste vrste, ki se prosto križajo in zasedajo določeno ozemeljsko območje, in imajo tudi skupni genski bazen (genski bazen), ki prehaja iz generacije v generacijo.

Populacijsko-statistična metoda genetike se uporablja pri preučevanju dednih bolezni, izmenjavi normalnih in patoloških genov, genotipov in fenotipov v populacijah različnih krajev, držav in mest. Kakšna je njegova edinstvenost? Bistvo populacijsko-statistične metode je, da je namenjena proučevanju vzorcev širjenja dednih bolezni v populacijah, ki se razlikujejo po svoji strukturi. Proučujemo možnost napovedovanja njihovega ponavljanja v prihodnjih generacijah.

statistično metodo in njen pomen

Populacijsko-statistična metoda in njena vrednost

Statistična genetska analiza kvantitativnih lastnosti pri velikih rodovnikih je ogromna računska naloga zaradi potrebe po upoštevanju neodvisnosti med sorodniki. Z naraščajočim zavedanjem, da so lahko različice redkih sekvenc pomembne pri kvantitativnih človeških variacijah, se bodo študije o heritabilnosti in združenjih, ki vključujejo velike rodove, pogosteje povečale zaradi večje verjetnosti, da se bodo med sorodniki pojavile številne kopije redkih variant.

Zato je pomembno imeti statistične postopke genetskih testov, ki uporabljajo vse razpoložljive informacije za pridobivanje dokazov o genetski zvezi. Optimalno testiranje združevanja fenotipov je povezano s točnim izračunom statističnih podatkov o razmerju resnice, ki zahtevajo ponovno inverzijo potencialno velikih matrik. V kontekstu združevanja celotne sekvence genoma je lahko takšen izračun napačen.

populacijska statistična metoda za proučevanje človeške genetike

Statistične metode genetske analize

V povezavi z napredkom v laboratorijskih tehnologijah se populacijsko-statistična metoda in genetski epidemiološki pristopi k kompleksnim boleznim hitro spreminjajo, da bi se spoprijeli z ogromno genetskih podatkov. Ker se laboratorijske tehnologije spreminjajo, je mogoče ustvariti popolnejše genetske podatke generacije genomov s podatki o celotnem zaporedju genov.

Bilo je težav z večkratnim testiranjem in pojavom redkih genetskih variant, ki so bile omejene na tradicionalne statistične metode, kar je privedlo do razvoja metod za redko analizno varianto. Trenutne raziskave se osredotočajo ne le na analizo posameznih genetskih variant, temveč tudi na analizo več genetskih variant, predvsem z uporabo omrežnih metod.

bistvo populacijske statistične metode

Hiter razvoj genetike

Raziskave na področju genetike so se hitro razvijale, segajo od študij posameznih področij in končujejo z obsežnimi raziskavami genoma. Čeprav študija genetskih združenj poteka že več let, tudi pri najpreprostejših analizah obstaja le malo soglasja o najprimernejših statističnih postopkih.

Statistična genetika je področje konvergence genetike in kvantitativne analize. V zadnjih nekaj letih je doživela dramatičen premik paradigme, od pretežno teoretičnega predmeta, v katerem je empiričnih podatkov malo možnosti za strogo disciplinirano, kjer obstoj velikih skladišč genetskih podatkov omogoča raziskovalcem, da ustvarijo in raziskujejo nove znanstvene hipoteze.

Dobičkonosna tehnologija

S prihodom relativno stroškovno učinkovite tehnologije z visoko zmogljivostjo genotipizacije je zdaj mogoče raziskati etiologijo kompleksnih bolezni, biološke procese, prek katerih se deduje DNK, in evolucijske zgodovine človeških populacij. Z medicinskega vidika je napredek uporabe populacijsko-statistične metode pri proučevanju vloge dednosti v razvoju in analizi farmakogenetičnih študij, to je študij, pri katerih je genetska variabilnost povezana z odzivom na droge.

To lahko na koncu pripelje do razvoja pristopa „personalizirane medicine“ v zdravstvu. Seveda so za vsako od teh področij raziskav potrebne specialne metode sklepanja in računanja. Ta pregled populacijsko-statističnih metod v genetiki je omejen na kartiranje združenja: močno metodologijo, ki naj bi pomagala razumeti genetske osnove človeških bolezni in drugih zanimivih fenotipov.

Namesto da bi poskušali poudariti metode primerjave povezav, se izpostavljenost zoži, tako da vključuje le pristope za analizo podatkov za raziskave v primeru bolezni ali za primere, ko so na voljo samo bolni ljudje. Namen tega članka je povabiti bralca k netehničnemu obisku številnih izbranih populacijsko-statističnih genetskih metod, ki se trenutno uporabljajo za kartiranje genov.

statistična metoda

Hardy-Weinbergov zakon

Glavni primer populacijsko-statistične metode je Hardy-Weinbergov zakon. Temelji na vzorcu, ki so ga odkrili leta 1908 matematik iz Anglije J. Hardy in zdravnik V. Weinberg iz Nemčije za razvoj popolne populacije. Zakon je bil zato poimenovan po teh dveh imenih. Da bi bilo prebivalstvo idealno, so potrebni naslednji pogoji:

  1. Organizme je treba prosto prečkati.
  2. Ni izbirnih in mutacijskih pojavov.
  3. Migracijski procesi, tako zunanji kot notranji, so omejeni.
  4. Dominantni homozigoti, heterozigoti in recesivne homozigoti so podedovani nespremenjeni.

Popolno ravnovesje lahko motijo ​​številni dejavniki, vključno s tesno povezanimi poroki, mutacijami, selekcijo, migracijami in še več. Hardy-Weinbergov zakon velja za osnovo za razmislek o genetskih transformacijah, ki se pojavljajo v naravnih in umetno ustvarjenih populacijah rastlin, živali in ljudi.

Načela združevanja

Značilnost zasnove primera-kontrole je, da so subjekti, vključeni v vzorec, naključno izbrani iz določene populacije glede na stanje bolezni retrospektivno. Genetske sestave posameznikov, ki spadajo v obe skupini, primeri in kontrole, se primerjajo v upanju, da lahko njihove razlike v nekaterih ozkih regijah genoma služijo kot vzročna razlaga stanja bolezni. Med različnimi vrstami genetskih označevalcev imajo polimorfizmi posameznih nukleotidov (SNP) osrednjo vlogo pri kartiranju kompleksnih bolezni. Za celoten človeški genom obstaja vsaj 10 milijonov SNP s pogostnostjo> 1%, za katero se domneva, da predstavlja okoli 90% genetske variacije osebe.

Temeljni koncept združevanja je povezovalna neravnovesje med genetskim označevalcem in lokusom, ki vpliva na preučevano lastnost. Zajema odstopanje od verjetnostne neodvisnosti med aleli ali genetskimi označevalci. Na primer, neravnovesje med dvema aleli, kot sta A in B, se lahko kvantificirajo z merjenjem razlike med p AB , verjetnostjo opazovanja AB haplotipa (t.j. linearna razporeditev dveh alelov na istem kromosomu, podedovana kot ena entiteta) in p A p B , kjer sta p A in p B verjetnost opazovanja alelov A in B. Vendar pa v večini primerov haplotipi niso neposredno dostopni, njihove pogostnosti pa je treba najverjetneje določiti iz podatkov o genotipu.

Izhodne metode, ki temeljijo na variantah algoritma za minimizacijo pričakovanj, iterativne tehnike za pridobivanje ocen maksimalne verjetnosti v modelih manjkajočih podatkov, so priljubljena izbira za pridobivanje vzorčnih haplotipnih frekvenc. Dokumentirana je bila natančnost algoritma za zmanjšanje pričakovanj za ocenjevanje frekvenc haplotipov za različne simulacijske sheme, tako za frekvenco alelov kot za mnoge druge dejavnike. Najnovejši razvoj uporablja opazovanje, v katerem se v kratkih regijah haplotipi v populaciji nagibajo k skupini v skupine, in to razvrščanje se po kromosomu spreminja.

Nastale vzorce genetskih variacij lahko dobro opišemo s skritimi Markovljevimi modeli in ocenimo parametre z algoritmom za izpeljavo haplotipske faze in manjkajočih podatkov o genotipih. Druga možnost je, da se iz kompozitnega genotipskega neravnovesja izračuna neposredno iz genotipskih podatkov za predele, pri čemer se predpostavlja, da so naključno parili, kar ustreza omenjenemu alelnemu poldnevniku. Številne druge skupne koeficiente in njihove lastnosti so proučevali tako analitično kot tudi z modeliranjem.

Metoda dvojnosti pri proučevanju genoma

Obseg populacijsko-statističnega in dvojna metoda vključujejo preučevanje vzorcev dedovanja znakov v parih dvojčkov. Ta metoda, ki jo je predlagal znanstvenik Halton leta 1875, je bila prvotno uporabljena za oceno vloge dednosti in okolja v razvoju človeških duševnih lastnosti. Zdaj se pogosto uporablja pri preučevanju dednosti in variabilnosti normalnih in patoloških znakov. Lahko se uporablja za ugotavljanje dedne narave določene lastnosti, določanje penetracije alela in ocenjevanje zunanjih dejavnikov, ki vplivajo na telo.

primeri populacijske statistične metode

Bistvo dvojne metode:

  • Pri različnih skupinah dvojčkov primerjamo isto lastnost, upoštevamo tudi podobnost ali razliko njihovih genotipov.
  • Pri monozigotnih dvojčkih obstaja popolna genetska identiteta. Njihova primerjava v pogojih različnega postembrionskega razvoja omogoča odkrivanje znakov, ki so nastali zaradi zunanjega okolja.

Študija genoma v populacijsko-statističnem raziskovalna metoda človeške genetike omogoča celovitejše iskanje genskih dejavnikov tveganja. V bližnji prihodnosti bodo te študije cenejše in zato dostopnejše. S statističnega in računalniškega vidika študije celotnega genomov nudijo netrivijalne probleme, ki so med drugim povezani z zelo velikim številom markerjev, ki jih je treba vključiti v analizo, v primerjavi z običajno manjšimi velikostmi vzorcev.

statističnih in dvojnih metod

Razvoj novih analitskih metod

Vprašanje, ki povzroča veliko razprav in spodbuja razvoj novih analitičnih metod, je, ali kompleksne bolezni povzroča ena skupna možnost ali veliko možnosti, ki imajo majhne učinke. Skupna hipoteza o običajni bolezni kaže, da genetsko tveganje za pogoste bolezni pogosto povzročajo aleli, ki povzročajo bolezen, ki se nahajajo na relativno visokih frekvencah. Doslej so bili dokazi v njegovo korist omejeni.

Smiselno je domnevati, da bodo skupne bolezni nadzorovane z bolj zapletenimi genetskimi mehanizmi, za katere je značilno kombinirano delovanje več genov, pri čemer ima vsak gen le majhen obrobni učinek, verjetno zato, ker naravna selekcija odstrani gene z večjimi učinki. V tem primeru je treba skupino označevalcev testirati skupaj za povezavo, kar je mogoče storiti na dva glavna načina: združevanje označevalcev v genotipih z več lokusi, tako da je osnovna enota statistične analize še vedno individualna ali s pomočjo haplotipov, kar učinkovito podvoji velikost vzorca.

Splošne metode za haplotipove

Namesto da bi vsak marker posebej preučevali, je možno skupaj testirati specifične kombinacije alelnih variant v seriji tesno povezanih markerjev na istem kromosomu, to je haplotipih. Vključno z informacijami iz več sosednjih markerjev, haplotipi ohranijo celotno strukturo in bolj neposredno odražajo resnične polimorfizme.

Najlažji način, da preverite, ali obstaja povezava med haplotipom in statusom bolezni, je vsak haplotip obravnavati kot ločeno kategorijo, po možnosti z združevanjem vseh redkih haplotipov v dodatni razred. Ta proces se običajno izvaja v dveh stopnjah: najprej se ocenijo frekvence haplotipa, nato se izračuna standardni test za povezavo, na primer razmerje statističnih verjetnosti. Za obvladovanje napihnjene statistike testa zaradi ocene haplotipa je porazdelitev testa pod ničlo mogoče dobiti z naključnim mešanjem bolezenskega stanja in nato ponovno ovrednotenjem frekvenc haplotipov.

Čeprav je s tem pristopom mogoče oceniti celotno povezavo med haplotipi in boleznijo, ne sklepamo o učinkih posebnih haplotipov ali haplotipnih značilnosti. Da bi rešili te težave, številni testi specifičnih učinkov haplotipa temeljijo na ocenjeni verjetnosti bolezni, kjer je rezultat bolezenskega statusa, in haplotipi uvajajo regresijski model kot kovarije. Subjekti z dvoumnimi haplotipi so postavljeni z izračunom pričakovane vrednosti kovarijev zaradi genotipov subjekta z uporabo pričakovanih frekvenc haplotipov.

populacijska statistična metoda genetike

Populacijsko-statistična metoda za proučevanje človeške genetike

V človeških populacijah, ki so nastale z relativno nedavnim mešanjem določenih skupin prednikov, kot so afriški Američani, se zmogljivost prenosa razprostira na večje razdalje kot v drugih, manj heterogenih populacijah. Za bolezni, ki se razlikujejo med prevalencami med dvema ali več populacijami prednikov, lahko to dolgo pasovno širino uporabimo za iskanje genetskih variant, ki so odgovorne za etnične razlike v tveganju za bolezen.

Glavna točka je, da bodo v mešanih populacijah označevalci z lokusom, odgovornim za etnično razliko v tveganju za bolezni, imeli večji od pričakovanega deleža prednikov iz populacije z visokim tveganjem. Preslikavo genov lahko izvedemo z iskanjem ozkih genomskih regij, ki kažejo pretirano razmerje pedigrejev iz ene od sestavnih populacij prednikov v metodologiji, imenovani kartiranje nečistoč.

Članstvo populacije na vsakem mestu za vse subjekte je treba statistično ovrednotiti s tipičnimi označevalci. Splošno priznan verjetnostni model za opisovanje stohastičnih variacij v rodovniku kaže na to, da lahko kromosome predstavljajo splošni generacijski bloki s prelomnimi točkami med sosednjimi bloki, ki se pojavljajo kot Poissonov proces, in prehodi med sosednjimi bloki prednikov, ki jih nadzoruje veriga Markov. V skladu s tem modelom je bilo izdelanih več metod izpeljave, da bi ocenili izvor bolnih kromosomov in odkrili predstavljene prednike.

Študije modeliranja in analitični izračuni kažejo, da ima primerjava nečistoč več prednosti v primerjavi z uveljavljenimi pristopi k populacijskemu kartiranju, na primer, za iskanje celotnega genoma je potrebnih veliko manj markerjev in je manj dovzeten za vpliv alelne heterogenosti.