Ogledi: 7 | Prenosi: 7
Genske mikromreže so v žarišču biotehnološke revolucije, saj omogočajo sočasno merjenje izraženosti več deset tisoč genov. Cilj tipičnega eksperimenta z mikromrežami je najti funkcijsko interpretacijo izraženosti genov, z drugimi besedami molekularno razlago za makroskopska opažanja (npr. na katere poti vpliva zmanjšanje glukoze v celici, kateri biološki proces je pomemben za razlikovanje med zdravimi in bolnimi primerki, ipd).
V doktorski disertaciji predstavimo dve novi metodi za funkcijsko interpretacijo podatkov o izraženosti genov. V obeh primerih poleg podatkov o izraženosti genov uporabimo še biološko znanje, ki je shranjeno v različnih podatkovnih bazah. Interpretacijo naredimo tako, da identificiramo in opišemo gene, ki imajo signifikantno spremenjeno izraženost profila (npr. tiste, ki so nadpovprečno ali podpovprečno- izraženi). Zanimive množice genov iščemo med že definiranimi množicami genov (to so geni, ki imajo skupno anotacijo v ontologiji) in med na novo generiranimi množicami genov, ki imajo v naprej definirane značilnosti (npr. minimalno število diferencialno izraženih genov v množici). Uporabili smo tri uveljavljene metode za identifikacijo množic genov s signifikantno spremenjenim profilom izražanja: Fišerjev test (Fisher's exact test), Gene Set Enrichment Analysis (GSEA) in Parametric Analysis of Gene set Enrichment (PAGE).
Obe razviti metodi uporabljata isti mehanizem za gradnjo relacijskih značilk z uporabo ontologije genov GO (Gene Ontology), enciklopedije genov in ortologije genomov KEGG (Kyoto Encyclopedia of Genes and Genomes Orthology), anotacije genov in podatkov o interakciji med geni. Značilke zgrajene s postopkom propozicionalizacije algoritma RSD (Relational Subgroup Discovery) uporabimo kot posplošene anotacije genov.
Prva metoda temelji na funkcijski analizi z omejevanjem. Izvaja se v dveh korakih: v prvem koraku izberemo 'najzanimivejše' gene glede na kriterij diferencialne izraženosti. Ker ta postopek izbire ne upošteva sodelovanja genov v celici jih v drugem koraku zaradi boljše interpretabilnosti združimo glede na njihove skupne opise. Jezik opisov za opisovanje funkcionalnosti genov je sestavljen iz GO, anotacij genov in podatkov o interakciji med geni. Z uporabo tega predznanja in paradigme relacijskega odkrivanja podskupin, implementirane v algoritmu RSD, smo našli opise skupin genov, ki so diferencialno izražene pri določenih tumorjih. To znanje lahko zdravniki direktno uporabijo.
Druga metoda temelji na funkcijski analizi brez omejevana. Tudi ta se izvaja v dveh korakih: v prvem koraku gene z uporabo primernega statističnega testa (npr. t-test) razvrstimo glede na njihovo diferencialno izraženost v vnaprej določenih razredih (npr. tumor v primerjavi z zdravim tkivom). V drugem koraku analiziramo pozicije elementov množic genov (množice genov definiramo npr. kot terme v GO ali KEGG) v razvrstitvi dobljeni z uporabo primernega statističnega testa (npr. Kolmogorov-Smirnov test). Množice genov, katerih elementi so večinoma v začetku razvrstitve, so obogatene in odgovorne za fenotipsko razlikovanje (npr. tumorja v primerjavi z zdravim tkivom). Naš prispevek k tej metodologiji je razvoj učinkovitega algoritma za gradnjo novih - možno obogatenih - množic genov. Iz predznanja sestavljamo opise množic genov kot konjunkcije relacijskih značilk po vzoru gradnje relacijskih logičnih značilk algoritma RSD.
Ti dve metodi sta potencialno zanimivi za zdravnike. Izkazalo se je namreč, da je avtomatsko izluščeno znanje skladno z relevantno literaturo tega področja in da ima potencial za usmerjanje biomedicinskih raziskav s tega področja in za generiranje novih hipotez, ki razlagajo eksperimente z mikromrežami.
Poleg naštetega je rezultat disertacije tudi uporabniško prijazna podatkovna baza, ki združuje več bioloških virov podatkov (GO, KEGG Orthology, anotacije genov in podatke o interakciji genov) v enotnem formatu. Ta baza je zdaj javno dostopna širši znanstveni skupnosti.