Ogledi: 6 | Prenosi: 9
V disertaciji predstavljamo nove metode za odkrivanje enačb (ang. equation discovery,
ED), ki temeljijo na uporabi verjetnostnih gramatik. ED in simbolna regresija obravnavata
problem iskanja simbolnega matematičnega modela, ki najbolje opisuje izmerjene podatke.
Modeli so lahko različnih oblik, od preproste algebrajske enačbe do kompleksnega sistema
diferencialnih enačb. Tradicionalno znanstveniki enačbe izpeljejo na podlagi teorije, za
določanje vrednosti numeričnih parametrov pa uporabijo regresijske metode. Pristopi ED
poskušajo avtomatizirati celoten postopek identifikacije strukture enačbe in njenih parametrov.
Prednost odkrivanja preprostih enačb v primerjavi z modeli črnih škatel, ki so
priljubljeni v strojnem učenju, leži v njihovi naravni interpretabilnosti in skladnosti z domensko
teorijo.
Naše metode se osredotočajo na uporabo verjetnostnih kontekstno-neodvisnih gramatik
(ang. probabilistic context-free grammar, PCFG) kot orodja za generiranje matematičnih
izrazov, omejevanje prostora izrazov in upoštevanje predznanja. Ena od prednosti verjetnostnih
gramatik je parametrizacija načela preprostosti na naraven in intuitiven način.
Poleg strogih omejitev, ki jih določa CFG, nam PCFG omogoča uvedbo šibkih omejitev v
iskalni prostor matematičnih izrazov. Za pomoč pri analizi predstavimo novo metodo za
vizualizacijo iskalnega prostora izrazov, ki je uporabna za kateri koli ED pristop. Predstavimo
tudi Monte-Carlo algoritem, ki omogoča uporabo PCFG v ED in izvedemo obsežne
računske poskuse z uveljavljeno bazo podatkov. Rezultati kažejo, da naš pristop omogoča
odkrivanje enačb, vendar je manj učinkovit kot obstoječe metode.
Z namenom izboljšanja učinkovitosti ED kot razširitev PCFG uvedemo dimenzijske
atributne gramatike, ki generirajo le dimenzijsko dosledne matematične izraze. Naši računski
eksperimenti pokažejo vpliv dimenzijske doslednosti v ED, saj metoda doseže učinkovitost,
primerljivo z najboljšimi metodami na področju ED.
Ideje atributnih gramatik razširimo v splošen okvir za kodiranje predznanja v ED. Okvir
temelji na verjetnostnih atributnih gramatikah, ki presežejo omejitve PCFG pri izražanju
kompleksnega predznanja. Uporabnost okvira pokažemo z razvojem in analizo gramatik,
ki kodirajo tri različne vrste predznanja: dimenzijsko doslednost, sisteme diferencialnih
enačb za kemijsko kinetiko in sisteme diferencialnih enačb, ki opisujejo elektronska vezja.
Nazadnje utremo pot boljšim algoritmom za ED na podlagi PCFG z razvojem novega
Bayesovskega algoritma za vzorčenje matematičnih izrazov iz PCFG. Algoritem iterativno
posodablja verjetnosti gramatike, kar izboljša učinkovitost ED in omogoči oceno posteriorne
porazdelitve. Ilustrativni računski poskus pokaže, da algoritem deluje v skladu z
našimi pričakovanji in izboljša učinkovitost ED, tako da usmerja iskanje v obetavnejše dele
prostora matematičnih izrazov.
enačbe metode verjetnostne gramatike diferencialne enačbe algoritmi strojno učenje