REPOZITORIJ > REZULTATI

Doktorska disertacija

Strojno razčlenjevanje besedila z iskanjem stavkov in naštevanj

Avtor(ji): Domen Marinčič (Avtor), Matjaž Gams (Mentor), Tomaž Šef (Somentor)

Datum zagovora: 24.12.2008

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13515

Ogledi: 11 | Prenosi: 9

Povzetek

Skladenjsko razčlenjevanje na področju jezikovnih tehnologij predstavlja enega od vmesnih
korakov analize besedila v aplikacijah, kot so strojno prevajanje, luščenje informacij,
odgovarjanje na vprašanja itd. Za opis strukture povedi se pogosto uporablja skladenjska
drevesa. Posebna vrsta skladenjskega razčenjevanja je odvisnostno razčlenjevanje.
Razčlenjevalniki iz besedila zgradijo drevesa. Pri podatkovno orientiranem
razčlenjevanju je vir učnih in testnih podatkov drevesnica, to je besedilni korpus, ki
je ročno označen z odvisnostnimi drevesi. Točnost razčlenjevanja se oceni tako, da se
avtomatsko zgrajena odvisnostna drevesa iz besedila v testnem delu drevesnice primerja
z ročno zgrajenimi drevesi.
V doktorski disertaciji je predstavljen novo razviti algoritem za razčlenjevanje z
iskanjem stavkov in naštevanj - ARISiN, ki vključuje strojno učenje in hevristična
pravila za predstavitev predznanja o jeziku. Algoritem se uporablja kot nadgradnja
poljubnega obstoječega razčlenjevalnika. Slovenska odvisnostna drevesnica, SDT (angl.
Slovene Dependency Treebank) je služila kot učna in testna množica za algoritem ARISiN.
Algoritem je sestavljen iz dveh faz:
1. Iskanje in redukcija stavkov in naštevanj. Algoritem najprej s pomočjo hevrističnih
pravil identificira kandidate za redukcijo. Nato uporabi strojne klasifikatorje in
neprimerne kandidate zavrže. Preostale kandidate reducira v meta pojavnice. Ta
postopek se ponavlja do takrat, ko algoritem ne uspe najti nobenega stavka ali
naštevanja več.
2. Gradnja odvisnostnih dreves. Zaporedja besed, ki jih je algoritem reduciral v
prvi fazi, razčlenijo trije različni osnovni razčlenjevalni modeli oziroma novo razviti
razčlenjevalnik s pravili. Nova odvisnostna drevesa nato algoritem ARISiN združi
v končno odvisnostno drevo povedi.
Poskusi so pokazali, da uporaba algoritma ARISiN v primerjavi z osnovnim
razčlenjevalnikom MSTP poveča točnost razčlenjevanja za 1,27 odstotne točke (6,4%
relativno zmanjšanje števila napak) ter za 1,91 odstotne točke (9,2% relativno zmanjšanje
števila napak) v primerjavi z osnovnim razčlenjevalnikom Malt. časovna zahtevnost
algoritma za iskanje in redukcijo stavkov in naštevanj je O(n), pri čemer je n število
pojavnic v povedi. Glede na časovno zahtevnost razčlenjevalnikov MSTP O(n2) in Malt
O(n), ki sta bila uporabljena za izdelavo osnovnih razčlenjevalnih modelov, je dodatna
poraba časa sprejemljiva.
Splošna ugotovitev, ki sledi iz opravljenega dela je naslednja: (i) dekompozicija
kompleksnih razčlenjevalnih problemov v manjše podprobleme ter (ii) uporaba dodatnih informacij, ki so na voljo v visoko pregibnih jezih, pozitivno vplivata na točnost
razčlenjevanja.

Priloge

Citiraj to delo