Repozitorij > Rezultati

Doktorska disertacija

Uporaba metod strojnega učenja za analiziranje tekstovnih podatkov v zaporedju

Avtor(ji): Erik Novak (Avtor), Dunja Mladenić (Mentor)

Datum zagovora: 29.10.2024

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13685

Prenesi glavno datoteko (8,4 MB)

Ogledi: 5 | Prenosi: 11

Povzetek

Doktorska disertacija raziskuje uporabo metod strojnega učenja za analiziranje tekstovnih
podatkov v zaporedju. Ti podatki so urejeni v določenem zaporedju, kjer ima vrstni red
pomembno vlogo. Primeri vključujejo (1) stavke, kjer sta raba in vrstni red besed določena
s slovničnimi pravili, (2) poročanje novic o dogodkih, ki so se zgodili ob različnih časih, in
(3) dokumente, ki poročajo o tečajih delnic na finančnem trgu. Analiza teh podatkov nam
pomaga pri razumevanju vzorcev, napovedovanju in odločanju pri različnih nalogah.
Najprej se osredotočimo na merjenje podobnosti besedil, kjer upoštevamo njihovo strukturo.
Predlagamo dve metodi, Language Model Earth Mover’s Distance (LM-EMD) in
Order-Preserving Wasserstein Score (OPWScore), ki upoštevata kontekstualni pomen besed
in njihov položaj v besedilu. Model LM-EMD je namenjen medjezikovnemu iskanju
informacij in meri ustreznost dokumenta glede na dano poizvedbeno besedilo. Metrika
OPWScore pa je namenjena ocenjevanju uspešnosti modelov generiranja besedil, kot so
strojni prevajalniki. Obe metodi uporabita jezikovne modele za ustvarjanje kontekstualnih
vložitev besed. Te vložitve se nato uporabijo za merjenje podobnosti besedil z uporabo
teorije optimalnega transporta, zlasti Wassersteinove razdalje. Metoda OPWScore pri
tem tudi omeji izračun na besede, ki so na podobnih položajih, s čimer poudarja vlogo
umestitve besed. Metode smo ovrednotili in primerjali z drugimi modeli in metrikami, ki
upoštevajo strukturo besedil. Rezultati kažejo, da upoštevanje njihove strukture prispeva
k uspešnosti, ki temelji na tekočnosti besedila, hkrati pa vpliva na uspešnost, povezano z
ustreznostjo besedila.
Nato raziskujemo uporabo modelov nevronskih mrež za gručenje novic v realnem času,
upoštevajoč njihov čas objave. Najprej predstavimo postopek za ustvarjanje novih podatkovnih
množic za gručenje novic. Ta avtomatizira zbiranje in gručenje novic, zaradi česar
je olajšano delo ročnemu označevalcu. Postopek uporabimo za ustvarjanje nove čezjezične
množice novic, ki poročajo o olimpijskih igrah v Tokiu 2021. Množica je sestavljena iz člankov,
napisanih v različnih jezikih in označenih glede na poročanje dogodkov. Razvili smo
tudi nov algoritem za realno-časovno gručenje novic, imenovan Wasserstein-based news
Article Clustering (WAC), ki temelji na rabi metrik. Algoritem analizira kontekstualne in
časovne podobnosti med gručami novic z uporaboWassersteinove razdalje in se nato odloči,
katere naj združi. Algoritem je ovrednoten na dveh podatkovnih množicah in primerjan z
drugimi algoritmi za gručenje novic. Rezultati kažejo, da algoritem WAC daje primerljive
rezultate kot najboljši nadzorovani algoritmi, brez potrebe po predhodnem prilagajanju.
Nazadnje definiramo fuzijo večmodalnih in heterogenih virov podatkov. Posvetimo
se napovedovanju borznih dinamik z uporabo tekstovnih in numeričnih tokov podatkov.
Razvili smo štiri metode za vključevanje tekstovnih informacij, ki jih uporabimo v modelih
za napovedovanja dinamik zneska ob zaprtju in dnevnih volatilnosti trga. Testirali
smo tudi rabo različnih tekstovnih predstavitev. Poskusi so pokazali, da vključitev
več-dimenzionalnih reprezentacij besedil lahko izboljša napovedi, ko so vhodni podatki
primerno obdelani in je uporabljena prava strategija vključevanja besedila.

Metapodatki

Vrsta dela	Doktorska disertacija
Jezik	Angleški
Organizacija	MPŠ - Mednarodna podiplomska šola Jožefa Stefana
PID	20.500.12556/ReVIS-13685
COBISS ID	213612803
UDK	004.85(043.3)
Datum zagovora	29.10.2024

Ključne besede

naravni jeziki tekstovni podatki v zaporedju analize algoritmi

Priloge

Priloga - academic_work_attachments/Erik_Novak_Ph… (8,4 MB) MD5: 8b118a54d95ecc8bcce7902ec3fd93a1

Citiraj to delo

Slog citiranja:

Nazaj na iskanje Poglej v ReVIS Poglej v COBISS