REPOZITORIJ > REZULTATI

Doktorska disertacija

Razširitev ontologije z uporabo metod analize podatkov za analizo novic

Avtor(ji): Inna Novalija (Avtor), Dunja Mladenić (Mentor)

Datum zagovora: 17.10.2011

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13581

Ogledi: 6 | Prenosi: 10

Povzetek

Ontologije v računalništvu omogočajo formalno predstavitev znanja. Cilj razširitve
ontologije je, da pravilno poveča obstoječo ontologijo z novim formaliziranim znanjem
(npr. s pojmi, odnosi, itd.).
Disertacija obravnava procese razširjanja ontologije na osnovi metod analize besedil in
uporabo tako razširjene ontologije pri analizi novic. Za polavtomatsko razširitev ontologij
predlagamo novo metodologijo OntoPlus, ki uvaja uporabo vsebine in strukture
ontologije ter informacijo o sopojavitvah pojmov v besedilih. Metodologija OntoPlus
omogoča preoblikovanje besedila v konceptualizirano obliko, lahko jo uporabimo na
različnih področjih in z različnimi viri informacij. Metodologija omogoča razširitev
ontologije tudi v primerih, ko le-ta pokriva več domen.
Predlagano metodologijo OntoPlus smo ocenili z uporabo znane ontologije Cyc in
besedil iz dveh domen – finančne domene in domene ribištva in ribogojstva. Ugotovili
smo, da se najboljši rezultati dosežejo s kombiniranjem vsebine ontologije, strukture
ontologije in sopojavitev pojmov, pri čemer je delež prispevka vsakega od teh treh
vidikov odvisen od domene in podanih virov podatkov. V našem primeru sta za podatke v
finančni domeni vsebina in struktura ontologije bolj pomembni kot sopojavitve. Po drugi
strani sta v domeni ribištva in ribogojstva bolj pomembni vsebina ontologije in
sopojavitve.
Disertacija se ukvarja tudi s procesom analize poslovnih novic s pomočjo razširitve
ontologije z ustreznimi pojmi in primeri, izločenimi iz besedila. Predlagamo cevovod za
analizo poslovnih novic, ki uporablja izločanje entitet, dogodkov in dejstev,
metodologijo OntoPlus in ontologijo Cyc. Poleg tega smo ontologijo Cyc razširili z
množico entitet, dogodkov in dejstev, izločenih iz zbirke finančnih novic. Pri tem smo
uporabili strukturo ontologije in leksikalne značilnosti vsebine ontologije, da bi našli
ustreznice med primeri obstoječe ontologije in novimi primeri, izločenimi iz besedil s
svetovnega spleta. Cevovod za analizo poslovnih novic predstavlja celotno strategijo
analize poslovnih novic in odgovorov na vprašanja, ki temeljijo na obrazložitvi s pomočjo
ontologije in na informaciji iz novic.
Izsledki poskusov pokažejo, da uporaba predlagane metodologije OntoPlus, temelječa
na kombinaciji vsebine in strukture ontologije ter sopojavitve informacij, kakor tudi
uporaba predlaganega cevovoda za analizo poslovnih novic, omogoča odkrivanje
novega znanja v obstoječih podatkih. S tem uporabnika podpremo pri analizi finančnih
besedil in poslovnih podatkov.

Priloge

Citiraj to delo