Ogledi: 7 | Prenosi: 4
Onesnažila, ki vzbujajo nastajajočo zaskrbljenost (CEC), so tipične organske spojine naravnega
ali sintetičnega izvora ter produkti njihove razgradnje in pretvorbe (TP) s potencialno škodljivimi
učinki na človeka, bioto in okolje. Te spojine so izjemno pomemben del eko-ekspozoma (EE).
Njihova identifikacija in kvantifikacija ter raziskovanje njihovega okoljskega obnašanja bistveno
večajo naše poznavanje njihovega vpliva na onesnaževanje okolja. V tem kontekstu je
nepogrešljiva uporaba analitskih tehnik, zlasti plinske kromatografije (GC) in tekočinske
kromatografije (LC), sklopljene z masno spektrometrijo (MS).
Kljub temu da se najpogosteje uporablja LC-MS, je GC-MS konvencionalni analitični sistem,
ki ponuja ponovljivo, občutljivo in razmeroma poceni identifikacijo in kvantifikacijo širokega
nabora strukturno različnih spojin. Nabor spojin se dodatno razširi z derivatizacijo pred analizo,
najpogosteje s silacijo, pri kateri nastanejo derivati trimetilsilila (TMS) ali tert-butil dimetilsilila
(TBDMS). Te analitične tehnike skupaj z bazami podatkov o spojinah (DB), knjižnicami masnih
spektrov (MSL), računalniškimi delotoki in pristopi kemoinformatike zagotavljajo natančno in
zanesljivo anotacijo spojin (CA).
V nasprotju z LC-MS je uporaba GC-MS pri de novo anotaciji CEC, skupaj z uporabo nastalih
spektralnih podatkov v kemoformatično podprti anotaciji CEC ter s tem povezanimi izzivi glede
optimizacije in stabilnosti metode, premalo raziskana.
Doktorska disertacija raziskuje označevanje (anotacijo) delno polarnih organskih
onesnaževal z uporabo pristopov GC-MS in strojnega učenja (ML). Disertacija je razdeljena na tri
dele. Prvi del obravnava trenutno stanje keminformatiskih CA pristopov. Tukaj definiramo tri
ključne naloge keminformatike pri anotaciji eko-ekspozoma (EEA): dodelitev molekulske
formule (MF), prioritizacija spojin in anotacija spojin (CA). Podana je nova metodološka
klasifikacija pristopov CA skupaj z oceno njihove učinkovitosti pri anotaciji komponent EE. Drugi
del doktorske disertacije obravnava generiranje spektralnih podatkovnih naborov z GC, in sicer
MS za razvoj, validacijo in vrednotenje pristopov CA, ki temeljijo na keminformatiki in zlasti na
ML. Obsežen nabor podatkov GC-EI-MS spektrov TMS in TBDMS derivatov je bil pridobljen iz
knjižnice masnih spektrov Nacionalnega inštituta za standarde in tehnologijo (NIST) 17 [1], ki
smo jih filtrirali za kemijsko pomembnost spojin, molekulsko maso spojin (Mw) in kakovost GCEI-
MS spektrov. Rezultat filtriranja sta dva končna nabora podatkov za učenje z ML pristopi. Prvi
je sestavljen iz 4,648 GC-EI-MS spektrov TMS derivatov, drugi pa iz 1,883 GC-EI-MS spektrov
TBDMS derivatov. Poleg tega sta bila z uporabo analitičnih metod GC-MS ustvarjena dva nova
testna nabora podatkov GC-EI-MS spektrov, s približno 100 TMS in 85 TBDMS derivatov CEC.
Temu je sledila uporaba pristopa nadzorovanega ML, ki temelji na regresijii vhodno-izhodnih
jeder (ang. Input-Output Kernel Regression, IOKR), za anotacijo sililnih derivatov CEC z uporabo
GC-EI-MS spektrov. Pristop IOKR je pravilno uvrstil 37 % oziroma 50 % testiranih CEC-TMS
derivatov med 10 najboljših oziroma 20 najboljših kandidatov. Zadovoljive stopnje identifikacije
kažejo, da je pristop IOKR mogoče uspešno uporabiti v zanesljivi in hitrejši anotaciji v primerjavi
z ročnimi pristopi iskanja v kjnižnicah masnih spektrov.
Tretji del doktorske disertacije raziskuje postopke siliranja, predvsem stabilnost sililnih
derivatov širokega nabora CEC pri različnih pogojih shranjevanja, in s tem povezano merilno
negotovost (MU). Optimizirali smo pogoje siliranja za optimalno učinkovitost derivatizacije s
testiranjem učinkovitosti derivatizacije 70 CEC z N-metil-N-(trimetilsilil) trifluoroacetamidom
(MSTFA), N, O-bistrifluoroacetamidom (BSTFA) in N, O-bistrifluoroacetamidom + 1 %
trimetilklorosilanom (BSTFA + 1 % TMCS) v 36 različnih poskusih z različnimi temperaturami in
trajanjem. Poleg tega smo testirali njihovo stabilnost v topilu in ekstraktu umetne odpadne vode
(AWW) pri ustreznih pogojih shranjevanja (25 °C, 4 °C in -18 °C) do 20 tednov, skupaj s petimi
cikli zamrzovanja in odmrzovanja. Poleg drugih TMS derivatov, za katere je bilo dokazano, da se
razgradijo na ≤ 85 % njihove začetne koncentracije po dveh ciklih zamrzovanja in odmrzovanja
vzorca, so bile odkrite pomembne težave s stabilnostjo derivatov polihidroksi CEC in
estrogenskih hormonov.
Rezultati te doktorske disertacije so zbrani v treh objavljenih člankih in enem rokopisu, ki je
bil oddan v recenzijo. Rezultati poudarjajo pomen silacijskih pogojev pri zanesljivi anotaciji in
kvantifikaciji CEC ter zagotavljajo vpogled v profile stabilnosti TMS derivatov. Prav tako je v tem
doktorskem delu prvič prikazana uspešna uporaba ML in GC-EI-MS pri identifikaciji sililnih
derivatov CEC. Rezultat opravljenega dela so celoviti nabori GC-EI-MS podatkov, ki so javno
dostopni in zanimivi za ML skupnost za nadaljnji razvoj pristopov anotacije spojin, ki temeljijo na
strojnem učenju.
plinska kromatografija z masno spektrometrijo strojno učenje