Ogledi: 9 | Prenosi: 12
Samodejno luščenje terminologije (SLT) oz. samodejno luščenje terminov je naloga obdelave
naravnega jezika (ONJ), ki identificira specializirano terminologijo v domenskih
korpusih. SLT se ne uporablja le pri terminografskih nalogah (npr. ustvarjanje specializiranih
slovarjev), temveč omogoča tudi izboljšavo več drugih kompleksnih nalog s področja
ONJ (npr. strojno prevajanje in luščenje informacij). Kljub temu, da je bil v zadnjih štiridesetih
letih dosežen pomemben napredek pri samodejnem luščenju terminov, na področju
SLT še vedno obstajajo pomembni izzivi.
V začetku naših raziskav se je večina sistemov za SLT zanašala bodisi na tehnike
plitvega strojnega učenja bodisi na globoke nevronske mreže. Medtem ko so starejše tehnike
trpele zaradi zamudnega postopka izdelave značilk in težav pri posploševanju na nove
domene, so kasnejši pristopi modelirali nalogo kot problem binarne klasifikacije zaporedij
z uporabo modelov arhitekture transformer. Vendar pa so imeli tudi ti začetni pristopi
težavo, saj predstavlja generiranje vseh možnih n-gramov iz stavkov vseh dokumentov
za namene učenja modela računske izzive. Poleg tega pa se novejši sistemi osredotočajo
predvsem na nadzorovano učenje z zadostnim številom podatkov ter zanemarjajo gnezdene
termine. V doktorski disertaciji zato predlagamo metode, s katerimi naslovimo te vrzeli.
V doktorski nalogi se osredotočamo na naslednje vidike. Prvič, v scenarijih, kjer obstajajo
kvalitetne ročno označene učne množice za pristope nadzorovanega učenja, predlagamo
izboljšave nevronskih pristopov z modeliranjem SLT kot problema klasifikacije žetonov (t.
i. označevanje zaporedij). Tu kot osnovo uporabljamo modele z arhitekturo transformer,
ki jim kot vhod dodajamo dodatne reprezentacije (npr. semantične reprezentacije oznak),
ali pa spreminjamo dele arhitekture (npr. dodajanje dodatnih slojev na podlagi mešanice
strokovnjakov (ang. mixture of experts) in rekurzivnih slojev). Poleg tega predlagamo
nov sistem označevanja NOBI, ki omogoča boljše zajemanje gnezdenih terminov. Drugič,
v scenarijih, kjer imamo omejeno število ročno označenih podatkov za učenje iz ciljnega
jezika, podatki iz drugih jezikov pa so ustrezni za učenje modelov z nadzorovanimi pristopi,
predlagamo čezjezično in večjezično učenje, s poudarkom na prenosu znanja iz jezikov z
veliko viri na jezike z manj viri. Tretjič, v scenarijih, kjer imamo manj računskih virov
ter podatkov ni dovolj za nadzorovane pristope, predlagamo nov pristop nenadzorovanega
učenja, ki ga imenujemo LlamATE in temelji na velikih jezikovnih modelih. Sistem je
sposoben luščenja terminologije s pomočjo znotraj-kontekstnega učenja (ang. in-context
learning), kjer modelu kot vhod podamo le par primerov primernega luščenja terminologije,
ki naj ga posnema pri luščenju terminologije iz vhodnega teksta. Sistem nato izboljšamo
tudi s pomočjo tehnike samo-preverjanja (ang. self-verification).
Naša študija je prišla do naslednjih zaključkov. Prvič, modeliranje SLT kot klasifikacije
žetonov (npr. z uporabo modela XLMR) je uspešen pristop, saj vodi do boljših rezultatov
kot uporaba binarnih klasifikatorjev za klasifikacijo zaporedij ter hkrati potrebuje manj računskih
kapacitet. Dodajanje sloja mešanice strokovnjakov na vrh globokega nevronskega
modela (npr. (m)DeBERTA) dosledno izboljša kvaliteto modela v primerjavi z osnovnim
modelom z navadnim linearnim slojem za klasifikacijo žetonov. Uporaba novega anotacijskega režima NOBI za učenje modelov za klasifikacijo žetonov, naučenih na dovolj velikem
naboru podatkov z označenimi gnezdenemi termini, izboljša luščenje. Drugič, ko imamo na
voljo manj podatkov, so pristopi klasifikacije žetonov primerni za prenos znanja iz drugih
jezikov in domen, kar je pomembno predvsem pri prenosu na jezike z manj viri. Nazadnje,
z našim pristopom, poimenovanim LlamATE, nakažemo potencial velikih jezikovnih modelov
(LLM) za SLT, saj lahko uspešno opravijo nalogo s pomočjo samo nekaj podanih
primerov luščenja terminov ter tehnike samopreverjanja. Ta pristop deluje tudi brez eksplicitnega
poimenovanja domene ter pokaže na prenos znanja iz jezikov, ki so pri gradnji
jezikovnih modelov dobro zastopani (npr. angleščina) na manj zastopane jezike. Čeprav ti
modeli ne dajejo dovolj kvalitetnih rezultatov, da bi popolnoma nadomestili modele z nadzorovanim
učenjem na ročno označenih podatkih, predstavljajo rešitve, ki ne potrebujejo
ročno označenih podatkov, omogočajo pa vseeno dokaj dobro kvaliteto rezultatov.
Ključne besede: avtomatsko luščenje terminologije, arhitektura transformer, klasifikacija
žetonov, veliki jezikovni modeli, oblikovanje in razvoj pozivov, učenje v kontekstu, Llama2,
ChatGPT.
obdelava naravnega jezika terminologija samodejno luščenje avtomatsko luščenje terminologije arhitekturni modeli klasifikacija žetonov veliki jezikovni modeli oblikovanje pozivov razvoj pozivov učenje v kontekstu Llama2 ChatGPT