Ogledi: 5 | Prenosi: 8
Čedalje večja specializacija raziskav, znanstvenikov in znanstvenih področij je prevladujoči trend na področju znanosti. Povečujoča specializacija vodi v poglobljene, a hkrati zelo izolirane otoke znanja, čeprav je znano, da mnogo kompleksnih problemov zahteva združevanje znanj z različnih področij. Ker se znanstvene informacije kopičijo čedalje hitreje, je dandanes težko slediti že eni sami znanstveni disciplini, iskati meddomenske povezave pa je še neprimerno težji problem. Poleg tega ostajajo znanstvene discipline ponavadi zaprte in omejene, saj se avtorji objavljenih prispevkov velikokrat medsebojno citirajo zgolj znotraj ožje skupnosti, ki pripada samo določeni znanstveni disciplini. Problem izolacije znanstvenih področij na eni strani in velike količine razpoložljivega a neuporabljenega znanja na drugi strani predstavlja motivacijo za delo, predstavljeno v tej doktorski disertaciji.
Osrednji namen disertacije je razviti metodo za odkrivanje meddomenskega znanja, ki bi znanstvenikom pomagala najti obetavne smeri pri povezovanju domen in s tem ponudila pristop k rešitvi problema prevelike specializacije. V delu se ukvarjamo z rešitvijo, ki temelji na uporabi metod rudarjenja besedil za odkrivanje meddomenskih povezav, v primeru ko znanstvenik že ve, kateri dve domeni ga pravzaprav zanimata in bi ju rad povezal. Naša metodologija tu predlaga najboljše besede oz. koncepte, ki nakazujejo na potencialno najboljše načine premostitve dveh doslej ločenih domen, kar lahko vodi do novih odkritij.
Kot odgovor na predstavljene izzive predstavi disertacija štiri glavne prispevke, ki z uporabo tehnik rudarjenja besedil pomagajo pri odkrivanju meddomenskega znanja. Prvi prispevek je znatna hitrostna in kakovostna izboljšava postopka lematizacije besed, kar predstavlja pomemben del priprave podatkov za nadaljnje rudarjenje besedil. Nato smo razvili novo metodologijo imenovano CrossBee, ki nam pomaga pri odkrivanju in ocenjevanju kvalitete besed s stališča njihovega bisociativnega potenciala za odkrivanje novega znanja med domenami. Sledi implementacija CrossBee metodologije v obliki delotokov v spletnem okolju za gradnjo in izvajanje delotokov ClowdFlows. Zadnji pomembnejši prispevek disertacije je implementacija naprednega spletnega uporabniškega vmesnika, ki z uporabo CrossBee metodologije uporabniku pomaga pri iskanju povezav med izbranimi domenami.
Prvi cilj našega dela je novo večjezično lematizacijsko orodje LemmaGen, ki je javno dostopno ter primerno za splošno uporabo. Lastnosti LemmaGena so še velika učinkovitost in točnost lematizacije besed. Prav tako smo izdelali modele za vrsto evropskih jezikov ter omogočili uporabnikom enostavno dodajanje jezikov na podlagi učenja modelov na novih podatkih, ki jih posreduje uporabnik.
Drugi cilj tega dela, ki predstavlja tudi jedro doktorske disertacije, je bil razvoj nove metodologije, ki z uporabo tehnik rudarjenja besedil pomaga pri odkrivanju meddomenskih zakonitosti v podatkih. Metodologija se imenuje CrossBee (Cross-Context Bisociation Explorer / raziskovalec meddomenskih bisociativnih povezav) in je bila razvita z uporabo novih, posebej zasnovanih hevristik za odkrivanje bisociativnega potenciala vsake besede v besedilu. Nadalje smo te hevristike združili v ansambel hevristik, kar je privedlo do povečane robustnosti in stabilnosti metode pri uporabi na drugih množicah podatkov. Ansambel hevristik je bil uporabljen kot osnovna metoda za iskanje in ocenjevanje bisociativnega potenciala besed oz. konceptov in služi kot podlaga za meddomensko odkrivanje znanja.
Tretji cilj je bil osredotočen na zasnovo in implementacijo posameznih gradnikov celotne CrossBee metodologije v obliki delotokov v spletnem okolju za gradnjo in izvajanje delotokov ClowdFlows. Takšna implementacija omogoča ponovljivost poskusov, ponovno uporabo posameznih gradnikov, prilagajanje delotokov, izboljševanje delotokov z novimi moduli, zagotavljanje trajnosti razvitih metod ter možnost, da zainteresirani uporabnik sam ponovno uporabi sistem.
Četrti cilj je bila implementacija CrossBee metodologije v istoimenski spletni aplikaciji, ki poleg urejanja besed oz. konceptov glede na njihov bisociativni potencial omogoča tudi številne druge predstavitve podatkov, ki pomagajo uporabniku tako pri iskanju hipotez o meddomenskih povezavah, kot tudi pri preverjanju podpornih trditev za odkrite hipoteze. CrossBee uporabniški vmesnik je zasnovan tako, da podpira uporabnikovo ustvarjalnost, saj obstaja veliko različnih pogledov na podatke in podpornih orodij, ki jih lahko uporabnik s pridom izkoristi pri preiskovanju predlaganih rešitev.
Nova metodologija za odkrivanje meddomenskega znanja s pomočjo rudarjenja besedil CrossBee je bila ocenjena v okviru simulacije odkrivanja že znanih in v znanstveni literaturi objavljenih meddomenskih zakonitosti. S tem postopkom smo metodologijo razvili na podatkih meddomenskih povezav med migreno in magnezijem, preizkusili pa smo jo na iskanju meddomenskih povezav med avtizmom in kalcineurinom. Pričujoča doktorska disertacija se zaključi s kritično oceno razvite metodologije in vmesnika CrossBee ter predlaga nabor možnih izboljšav za nadaljnje delo na tem področju.