REPOZITORIJ > REZULTATI

Doktorska disertacija

Izkoriščanje domenskega znanja pri napovednem učenju iz podatkov o živilih in prehrani

Avtor(ji): Gordana Ispirova (Avtor), Barbara Koroušić Seljak (Mentor), Tome Eftimov (Somentor)

Datum zagovora: 14.12.2022

Organizacija: MPŠ - Mednarodna podiplomska šola Jožefa Stefana

PID: 20.500.12556/ReVIS-13852

Ogledi: 6 | Prenosi: 9

Povzetek

Ekspertno znanje o živilih in prehrani se je v zadnjem času drastično povečalo. Umetna
inteligenca (UI) omogoča dodatno nadgrajevanje tega znanja s (pol)avtomatsko izluščenim
znanjem iz množično zbranih podatkov o živilih in prehrani, ki so relativno enostavno
dostopni. Vendar pa raziskave na področju UI pogosto zanemarjajo pomen podatkov in
so bolj usmerjene v samo modeliranje. Klasični razvoj cevovodov strojnega učenja (SU) je
osredotočen na učenje najboljših možnih modelov za izbrane naloge in optimizacijo parametrov
izbranih modelov. V doktorski nalogi predstavljamo novo metodologijo za razvoj
cevovoda SU, ki z zlivanjem ekspertnega znanja z znanjem, pridobljenim iz podatkov,
omogoča hitro napovedovanje hranilnih vrednosti iz receptov, zapisanih v nestrukturirani
tekstovni obliki, kar je zahtevna naloga s področja živilstva in prehrane. Predlagani cevovod
temelji na predstavitvenem učenju (PU), nenadzorovanem SU in nadzorovanem SU.
PU omogoča začetno učenje vdelav (angl. embeddings) besed in odstavkov, ki opisujejo
živila oziroma naslove receptov. Nenadzorovano SU porazdeli vdelave obravnavanih receptov
v gruče (angl. clusters) upoštevajoč domensko znanje o klasifikaciji živil in jedi
po standardiziranem sistemu FoodEx2. Nadzorovano SU pa je namenjeno učenju modelov
napovedovanja za vsako gručo posebej upoštevajoč posamična hranila. Cevovod smo
ovrednotili s primerjavo kriterija (t-j. stopnje tolerance hranil), ki temelji na domenskem
znanju, z izhodiščnim. Ker se je izkazalo, da upoštevanje domenskega znanja v nenadzorovanem
SU izboljša rezultate napovedovanja, smo predlagali nadgradnjo cevovoda SU. Z
namenom preučitve morebitne domenske pristranskosti – smo v nenadzorovano SU vključili
dva različna zunanja vira domenskega znanja za porazdeljevanje v gruče. Prav tako
smo vključili domensko znanje v PU in s tem dodatno povečali učinkovitost cevovoda SU.
Tako namesto vdelav naslovov receptov uvajamo domensko hevristiko za združevanje vdelav
posameznih sestavin recepta. Izkazalo se je, da je to uspešen način učinkovitega učenja
modelov napovedovanja hranilnih vrednosti, saj je bila natančnost značilno višja od izhodiščnih
vrednosti. Ker so se v procesu normalizacije in preslikave podatkov domensko
pogojene vdelave izkazale kot visoko zmogljive, smo izdelali dva ločena korpusa vnaprej določenih
vdelav, enega z vdelavami sestavin in drugega z vdelavami receptov. Normalizacija
podatkov je temeljila na prepoznavanju imenskih entitet z uporabo slovarja in pravil, medtem
ko so se podatki iz šestih baz z mednarodnimi recepti preslikali na podatke o sestavi
živil. Učenje vdelav, prilagojenih za določeno nalogo, je časovno zahteven proces, zato
lahko izdelana korpusa z vnaprej določenimi vdelavami uporabimo v raziskovalne namene,
možna pa je tudi njihova prevedba na druge aplikativne naloge. Da bi preučili glavni vpliv
podatkov na zmogljivosti modela, smo se osredotočili na problem posploševanja modelov
napovedovanja. Uvedli smo indeks posplošljivosti, ki ocenjuje stopnjo zaupanja v prenos
modela napovedovanja, pridobljenega na eni, za uporabo na drugi podatkovni množici. V
naslednjem koraku smo raziskali, kakšen pomen imajo podatki pri modeliranju napovedovanja.
Izkazalo se je, da ima izbor množice podatkov za učenje pomemben vpliv na končni
rezultat. Predvsem je pomembno, da so podatki, namenjeni učenju, dovolj reprezentativni
in zajemajo dovolj variabilnosti, kot je pričakovano v končni uporabi.

Priloge

Citiraj to delo