Ogledi: 6 | Prenosi: 10
Disertacija predstavi novo strategijo kombiniranja nevronskih in simbolnih reprezentacij, s
katero želimo preseči omejitve pristopov, ki temeljijo le na eni vrsti reprezentacij. S pomočjo
predlaganega pristopa nam uspe razviti množico novih metod in tekstovnih reprezentacij
za reševanje nalog s področja procesiranja naravnega jezika. Uporabnost strategije
je prikazana na treh primerih, profiliranju avtorjev, detekciji berljivosti teksta in luščenju
ključnih besed.
Najprej se posvetimo problemu profiliranja avtorjev besedil in postavimo tezo, da se da
obstoječe pristope, ki v veliki meri še vedno temeljijo na ročni izdelavi značilk, izboljšati s
pomočjo dveh metod. Prva metoda vključuje dodajanje simbolnih značilk, ki temeljijo na
besednih taksonomijah, tradicionalnim značilkam, ki temeljijo na pristopu vreče n-gramov.
Pristop je preizkušen na treh nalogah profiliranja avtorjev (določanje spola, starosti in
osebnosti avtorjev besedila) in nudi dobre rezultate. Druga metoda temelji na kombiniranju
značilk, ki temeljijo na pristopu vreče n-gramov, z nevronskimi značilkami, zgeneriranimi s
pomočjo konvolucijske nevronske mreže, in je preizkušena na nalogi zaznavanja jezikovnih
različic in dialektov. Medtem ko obe metodi izboljšata modeliranje semantike in nudita
boljše rezultate kot ostale najsodobnejše metode, se v nadaljevanju disertacije osredotočimo
le na drugo, saj za razliko od prve ne zahteva zunanjih jezikovnih virov in jo je zato lažje
uporabiti v jezikih z manj jezikovnimi viri.
Nato se osredotočimo na problem določanja berljivosti teksta, pri čemer predlagamo
novo mero z imenom Ranked Sentence Readability Score, v kateri so statistične značilke,
pridobljene s pomočjo nevronskega jezikovnega modela, združene s plitkimi simbolnimi
kazalniki berljivosti. Glavna novost pristopa je uporaba nevronskega jezikovnega modela
na nenadzorovan način. Predlagana formula za berljivost s pomočjo statistik, ki jih pridobi
iz jezikovnega modela, upošteva tudi semantiko in kohezivnost teksta ter se tako izogne
redukcionizmu tradicionalnih formul za določanje berljivosti. Z eksperimenti pokažemo, da
formula nudi dobre rezultate na množici korpusov, ki vsebujejo tekste iz različnih jezikov in
žanrov. Dodatna prednost pristopa je, da je predlagano mero berljivosti mogoče prilagoditi
posameznim jezikom in žanrom, saj je mogoče nevronske jezikovne modele natrenirati na
jezikovno in žanrsko specifičnih besedilih.
Zadnja predstavljena naloga je luščenje ključnih besed. Ker želimo zmanjšati količino
podatkov, potrebnih za treniranje, nevronski model, ki temelji na arhitekturi transformer,
natreniramo s pomočjo tehnike transfernega učenja. Pri tej tehniki se sistem najprej trenira
na velikem korpusu na nenadzorovan način, kot jezikovni model, nato pa šele kot
klasifikator na majhnem korpusu z ročno označenimi ključnimi besedami. Predlagamo
tudi več arhitekturnih sprememb za prilagoditev modela specifični nalogi luščenja ključnih
besed, ki izboljšajo njegovo delovanje. S predlaganim pristopom dosežemo rezultate, ki
so primerljivi z najsodobnejšimi nevronskimi metodami, a hkrati potrebujemo veliko manj
ročno označenih podatkov. Na koncu nevronski model združimo s simbolnim modelom, ki
ključne besede išče s pomočjo statistike TF-IDF. Na ta način izboljšamo priklic sistema in
ga prilagodimo za uporabo kot priporočilni sistem v medijskem okolju.