Ogledi: 6 | Prenosi: 7
V tej doktorski disertaciji predstavljamo novo metodologijo strojnega učenja za avtomatsko
dodeljevanje metapodatkov digitaliziranim predmetom kulturne dediščine. Kulturna
dediščina je primer področja, ki zahteva strokovno označevanje, z malo že obstoječih označenih
zbirk podatkov in kjer je pridobivanje dodatnih označenih podatkov izziv. Družbena
pomembnost kulturne dediščine leži v njeni vlogi pri varovanju zgodovine, povečanju razumevanja
preteklosti in spodbujanju občutka pripadnosti za sedanje in prihodnje generacije.
Digitalizacija pa pomaga zaščititi kulturne predmete pred degradacijo in izgubo, medtem
ko izboljšuje dostopnost dragocenih predmetov in dokumentov. Metapodatki igrajo ključno
vlogo pri omogočanju iskanja in raziskovanja velikih katalogov predmetov, še posebej preko
državnih in jezikovnih meja. Razvijamo metodo za določanje metapodatkov iz besedilnih
opisov digitaliziranih predmetov, ki povečuje svojo vsestranskost z vključitvijo več jezikov
in nalog z namenom maksimiziranja uporabnosti obstoječih označenih virov podatkov
z uporabo učenja s prenosom znanja. To metodo dopolnjujemo z multimodalno pozno
fuzijo, ki združuje besedilo, sliko in tabelarično klasifikacijo. V disertaciji pokažemo, da
multimodalni model bistveno presega katero koli posamezno modalnost pri določanju metapodatkov.
Nazadnje to delo razširimo na posebno vrsto kulturne dediščine, literaturo.
Literatura ponuja platformo za raziskovanje človeških čustev, misli in družbenih vprašanj,
kar bralcem omogoča, da se seznanijo z različnimi perspektivami in pripovedmi. Pri analizi
literature je besedilo samo lahko obravnavano kot predmet, v nasprotju z analizo besedilnih
opisov digitaliziranih predmetov. Uporabljamo polnadzorovane metode, ki omogočajo fino
zrnato večoznačno analizo čustev literature, ne da bi potrebovali že obstoječe označene podatke.
Odkrivanje čustev iz besedila predstavlja odličen primer uporabe, saj čustva igrajo
ključno vlogo pri oblikovanju pripovedi in identifikaciji čustev v besedilu, kar je tako za
ljudi kot za avtomatizirane algoritme izziv. Prikazujemo, da je naš pristop uporabna alternativa
dragemu in časovno potratnemu ročnemu označevanju za ustvarjanje nadzorovanih
zbirk podatkov. Naš pristop temelji na učenju zastopanja z nevronskimi mrežami, pri
čemer v enem primeru uporabljamo prenos učenja, v drugem pa polnadzorovane tehnike.
Našo metodologijo potrjujemo z empiričnimi ugotovitvami na področjih, kot so digitalizirana
svilena tkiva, literatura in zdravstvo. Predstavljamo učinkovitost prenosa učenja v
teh različnih kontekstih in poudarjamo prednosti multimodalnih pristopov.