Ogledi: 5 | Prenosi: 11
Doktorska disertacija raziskuje uporabo metod strojnega učenja za analiziranje tekstovnih
podatkov v zaporedju. Ti podatki so urejeni v določenem zaporedju, kjer ima vrstni red
pomembno vlogo. Primeri vključujejo (1) stavke, kjer sta raba in vrstni red besed določena
s slovničnimi pravili, (2) poročanje novic o dogodkih, ki so se zgodili ob različnih časih, in
(3) dokumente, ki poročajo o tečajih delnic na finančnem trgu. Analiza teh podatkov nam
pomaga pri razumevanju vzorcev, napovedovanju in odločanju pri različnih nalogah.
Najprej se osredotočimo na merjenje podobnosti besedil, kjer upoštevamo njihovo strukturo.
Predlagamo dve metodi, Language Model Earth Mover’s Distance (LM-EMD) in
Order-Preserving Wasserstein Score (OPWScore), ki upoštevata kontekstualni pomen besed
in njihov položaj v besedilu. Model LM-EMD je namenjen medjezikovnemu iskanju
informacij in meri ustreznost dokumenta glede na dano poizvedbeno besedilo. Metrika
OPWScore pa je namenjena ocenjevanju uspešnosti modelov generiranja besedil, kot so
strojni prevajalniki. Obe metodi uporabita jezikovne modele za ustvarjanje kontekstualnih
vložitev besed. Te vložitve se nato uporabijo za merjenje podobnosti besedil z uporabo
teorije optimalnega transporta, zlasti Wassersteinove razdalje. Metoda OPWScore pri
tem tudi omeji izračun na besede, ki so na podobnih položajih, s čimer poudarja vlogo
umestitve besed. Metode smo ovrednotili in primerjali z drugimi modeli in metrikami, ki
upoštevajo strukturo besedil. Rezultati kažejo, da upoštevanje njihove strukture prispeva
k uspešnosti, ki temelji na tekočnosti besedila, hkrati pa vpliva na uspešnost, povezano z
ustreznostjo besedila.
Nato raziskujemo uporabo modelov nevronskih mrež za gručenje novic v realnem času,
upoštevajoč njihov čas objave. Najprej predstavimo postopek za ustvarjanje novih podatkovnih
množic za gručenje novic. Ta avtomatizira zbiranje in gručenje novic, zaradi česar
je olajšano delo ročnemu označevalcu. Postopek uporabimo za ustvarjanje nove čezjezične
množice novic, ki poročajo o olimpijskih igrah v Tokiu 2021. Množica je sestavljena iz člankov,
napisanih v različnih jezikih in označenih glede na poročanje dogodkov. Razvili smo
tudi nov algoritem za realno-časovno gručenje novic, imenovan Wasserstein-based news
Article Clustering (WAC), ki temelji na rabi metrik. Algoritem analizira kontekstualne in
časovne podobnosti med gručami novic z uporaboWassersteinove razdalje in se nato odloči,
katere naj združi. Algoritem je ovrednoten na dveh podatkovnih množicah in primerjan z
drugimi algoritmi za gručenje novic. Rezultati kažejo, da algoritem WAC daje primerljive
rezultate kot najboljši nadzorovani algoritmi, brez potrebe po predhodnem prilagajanju.
Nazadnje definiramo fuzijo večmodalnih in heterogenih virov podatkov. Posvetimo
se napovedovanju borznih dinamik z uporabo tekstovnih in numeričnih tokov podatkov.
Razvili smo štiri metode za vključevanje tekstovnih informacij, ki jih uporabimo v modelih
za napovedovanja dinamik zneska ob zaprtju in dnevnih volatilnosti trga. Testirali
smo tudi rabo različnih tekstovnih predstavitev. Poskusi so pokazali, da vključitev
več-dimenzionalnih reprezentacij besedil lahko izboljša napovedi, ko so vhodni podatki
primerno obdelani in je uporabljena prava strategija vključevanja besedila.
naravni jeziki tekstovni podatki v zaporedju analize algoritmi