REPOZITORIJ > REZULTATI

Doktorska disertacija

Luščenje in poravnava terminologije za prevajalsko industrijo

Avtor(ji): Andraž Repar (Avtor), Senja Pollak (Mentor)

Datum zagovora: 24.03.2025

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13662

Ogledi: 8 | Prenosi: 8

Povzetek

Ta doktorska disertacija obravnava luščenje in poravnavo terminologije v prevajalski industriji.
Osredotoča se na tri ključne primere rabe, kjer te tehnike koristijo prevajalcem in
prevajalskim podjetjem: generiranje glosarjev za posamezne naročnike iz velikih paralelnih
korpusov (tj. prevajalskih baz), gradnjo terminoloških virov iz primerljivih korpusov
in prepoznavanje relevantnih domenskih terminov v izvornih dokumentih pred začetkom
prevajanja.
V prvi fazi se posvetimo dvojezični poravnavi terminov v prevajalskih bazah, zbirkah
prevodov, ki so poravnani na nivoju stavkov. Glavni prispevek je pristop s pomočjo tabel
besednih zvez, ki se uporabljajo pri statističnem strojnem prevajanju in s katerim dosežemo
večjo natančnost pri poravnavi terminov in besednih zvez znotraj stavkov. Poleg tega disertacija
vključuje opis sistema za luščenje in poravnavo terminologije TermEnsembler, ki
je bil razvit za naročnika raziskave. Sistem s pomočjo ansambelskega učenja združi rezultate
sedmih metod za poravnavo terminov in z evolucijskim algoritmom poišče najboljšo
možno kombinacijo. Rezultati sistema TermEnsembler so bili evalvirani na treh domenah
(finance, informacijska tehnologija in avtomobilska industrija) s poudarkom na natančnosti
najvišje rangiranih kandidatov.
Nato se osredotočimo na dvojezično poravnavo terminov v primerljivih korpusih. Najprej
repliciramo obstoječ pristop, ki za poravnavo uporablja strojno učenje, in nato modelu
dodamo dva tipa dodatnih značilk: slovarske, ki za poravnavo besed uporabljajo dvojezične
slovarje in glosarje, in take, ki temeljijo na besedah skupnega etimološkega izvora,
zaradi česar zvenijo podobno v več jezikih. Pozneje dodamo še nove poravnave besed s
pomočjo medjezikovnih vektorskih vložitev in stavčnih vložitev. Razviti pristopi so evalvirani
s pomočjo večjezičnega tezavra EU-terminologije Eurovoc, polega tega pa so bili tudi
prilagojeni za poravnavo ključnih besed v medijski industriji.
V zadnji fazi se osredotočimo na dve metodi luščenja terminologije iz specializiranih
korpusov za slovenščino. Prva metoda temelji na klasičnem strojnem učenju in združuje
statistične, lingvistične in kontekstne značilnosti. Z generiranimi značilnostmi zajamemo
tipične lastnosti terminov in dosežemo boljšo natančnost ter priklic v primerjavi s tradicionalnimi
pristopi. Druga metoda, ki doseže še boljše rezultate, uporablja modele na osnovi
arhitekture transformer. Vsaki enoti v besedilu pripiše oznako in tako luščenje terminologije
obravnava kot problem označevanja zaporedij. Obe metodi sta evalvirani s pomočjo
korpusa RSDO5, ki vsebuje štiri domene in je bil ustvarjen posebej za evalvacijo luščenja
terminologije.
Razviti pristopi ponujajo praktične izboljšave za prevajalsko industrijo. Z njihovo
uvedbo lahko industrija učinkovito izkoristi obstoječe jezikovne vire, ki so ji na voljo, ter
zagotovi natančnejšo in doslednejšo uporabo specializirane terminologije. Na ta način
prispevajo k večji kakovosti prevodov ter izboljšujejo kakovost storitev, ki jih prevajalci in
prevajalska podjetja nudijo svojim naročnikom.

Priloge

Citiraj to delo