REPOZITORIJ > REZULTATI

Doktorska disertacija

Tekstovno rudarjenje za odkrivanje implicitnih povezav v biomedicinski literaturi

Avtor(ji): Ingrid Petrič (Avtor), Tanja Urbančič (Mentor), Bojan Cestnik (Somentor)

Datum zagovora: 30.09.2009

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13534

Ogledi: 5 | Prenosi: 9

Povzetek

Analiza podatkov z metodami strojnega učenja omogoča, da iz velikih količin podatkov v podatkovnih
bazah izluščimo delčke znanja, ki obravnavani skupaj morda opisujejo še nepoznane povezave med pojavi.
Skupaj obravnavana, dotlej nepovezana spoznanja tako prispevajo k novim hipotezam na različnih
področjih, med katerimi je že dlje časa tudi medicina. Povezovanje številnih obsežnih tekstovnih virov
podatkov ter njihova računalniško podprta analiza prispevajo tudi metodološko k razvoju e-znanosti.
Poseben izziv je odkrivanje povezav, ki jih z običajnimi asociacijskimi pristopi ne zajamemo, ker nastopajo
v različnih kontekstih. Prav take povezave, imenovane tudi bisociacije, pa so pogosto potrebne za
inovativna odkritja.
Odkrivanje znanja iz podatkov na področju medicine zahteva intenzivno sodelovanje z eksperti
problemske domene ne le pri vrednotenju rezultatov, temveč tudi že med samo analizo podatkov. Zato je
pomemben interaktivni pristop, pri katerem kombiniramo rudarjenje podatkov in podporo odločanju. V
sam postopek odkrivanja še neraziskanih povezav med preučevanimi pojavi in možnimi vzroki zanje je
smiselno vključiti tudi nove metode rudarjenja besedil. Te omogočajo iskanje posrednih povezav in
bisociativno odkrivanje znanja iz izjemno obsežnih tekstovnih baz, kakršna je na primer baza MEDLINE.
Za lažjo vključitev medicinskega eksperta je potrebno razviti primerne načine predstavitve vključno z
vizualizacijo, kar pospeši izvajanje ciklov odkrivanja znanja in olajšuje interpretacijo rezultatov.
Osrednji namen doktorske disertacije je razvoj nove metodologije odkrivanja znanja iz tekstovnih baz
podatkov, ki bo z bolj intuitivnim, računalniško podprtim pristopom izboljšala obstoječe metode
raziskovanja implicitnih povezav med pojavi, obravnavanimi v različnih kontekstih. Glavni prispevek k
razvoju znanosti na področju odkrivanja znanja iz literature je razvoj in implementacija inovativne metode
polavtomatskega rudarjenja po literaturi, imenovane RaJoLink, s katero iščemo dotlej še neodkrite relacije
med redkimi izrazi iz besedil v proučevani domeni. V kolikor so taka odkritja zanimiva z medicinskega
stališča in lahko eksperti dokažejo njihovo povezavo preko vsebinskih konceptov v literaturi, predstavljajo
te dotlej neodkrite povezave vir novega znanja in prispevek k razumevanju obravnavane bolezni.
Metoda tekstovnega rudarjenja RaJoLink je namenjena podpori ekspertom z biomedicinskih področij v
njihovem celotnem procesu odkrivanja znanja, tj. pri generiranju in vrednotenju znanstvenih hipotez v
raziskovani domeni. Zato vključuje tako zaprt proces odkrivanja znanja, namenjen testiranju hipotez, kakor
tudi odprt proces, v katerem hipoteze niso vnaprej poznane. Z odkrivanjem implicitnih povezav med
biomedicinskimi koncepti, ki so omenjeni v dotlej nepovezanih člankih, metoda implementira Swansonov
ABC model generiranja hipotez, vendar na nov, inovativen način, ne da bi vnaprej poznali ciljni koncept a.
Ciljni koncept a odkrijemo z metodo, kot rezultat samega procesa. Izbira potencialnih kandidatov za ciljni
koncept a temelji na redkih izrazih, ki jih dobimo v literaturi o problemski domeni c. Ker redki izrazi
običajno niso tipični za raziskovano domeno, jih lahko obravnavamo kot neobičajne, zanimive informacije
o pojavu c. Preseke med literaturo o takih redkih izrazih, ki se pojavljajo v strokovnih člankih o
preiskovanem pojavu, zato preiskujemo z namenom, da dobimo kandidata za ciljni koncept a. Metoda nato
v zaprtem procesu odkrivanja znanja išče vezne člene b med literaturo o pojavu a in literaturo o
preiskovanem pojavu c, s katerimi bi lahko potrdili novo hipotezo.
V okviru te disertacije smo metodo uporabili na strokovni literaturi o avtizmu, pridobljeni iz baze
MEDLINE. Za testno domeno smo izbrali avtizem, ker kljub intenzivnim raziskavam na posameznih
področjih še ni dovolj celovitega poznavanja vzrokov te kompleksne motnje, prav tako pa je v medicinskih
raziskavah zelo aktualno vprašanje zanesljivega prepoznavanja avtizma že v zgodnjem otroštvu. S
predlaganim pristopom želimo konkretno prispevati k temu cilju. Na primeru avtizma smo odkrili
povezavo med to motnjo in kalcinevrinom, ki do našega odkritja še ni bila objavljena in je bila medicinsko
potrjena kot zanimiv prispevek k razumevanju avtizma. Podobno je bila vzpostavljena tudi povezava s
transkripcijskim faktorjem NF-kappaB. Metodo smo ovrednotili še na primeru eksperimenta migrenamagnezij,
ki predstavlja klasičen testni primer pri odkrivanju znanja iz literature. Za vse te namene smo
razvili programsko orodje, ki implementira metodo RaJoLink in nudi podporo ekspertom pri odločanju v
postopku generiranja in testiranja znanstvenih hipotez v biomedicinskih domenah.

Priloge

Citiraj to delo