MPŠ
MPŠ MP&Scaron MP&Scaron MP&Scaron Avtorji

Mednarodna
podiplomska šola
Jožefa Stefana

Jamova 39
SI-1000 Ljubljana
Slovenija

Tel: (01) 477 31 00
Faks: (01) 477 31 10
E-pošta: info@mps.si

Išči

Opis predmeta

Jezikovne tehnologije

Programi:

Informacijske in komunikacijske tehnologije, 2. stopnja

Sodelavci:

prof. dr. Tomaž Erjavec

Cilji:

Cilj predmeta je posredovati splošno znanje o jezikovnih tehnologijah, to je metodah in aplikacijah obdelave naravnega jezika na računalniku. Predstavljena je zgodovina in osnovni pojmi jezikoslovja, raznovrstne aplikacije jezikoslovnih tehnologij in računalniške metode, ki se pri njih uporabljajo. Podrobno so obdelani jezikovni korpusi, velike zbirke označenih besedil, ki so osnovna infrastruktura potrebna za raziskave in obdelavo posameznih jezikov. Obravnavana je tudi analiza jezikovnih korpusov z metodami strojnega učenja. Poudarek predmeta je na obravnavi slovenskega jezika.

Slušatelji pridobijo osnovno teoretično razumevanje in praktične izkušnje s področij jezikovnih tehnologij in računalniškega ter korpusnega jezikoslovja, kar je predpogoj za učinkovito delo na računalniški obdelavi jezikovnih podatkov.

Vsebina:

Uvod:
Razvoj jezikoslovja in računalniškega jezikoslovja, kompleksnost jezika, ravni analize jezika, pregled aplikacij in metod.

Jezikovni korpusi:
Namen, zgodovina in tipologija, označevanje, uporaba, računalniški zapis, primeri.

Metode računalniške obravnave:
Regularni izrazi in končni avtomati, frazne gramatike, statistične metode, strojno učenje.

Analiza jezikovnih korpusov z metodami strojnega učenja:
Relevantne metode strojnega učenja, primeri uporabe za avtomatizirano označevanje na morfološki, sintaktični in semantični ravni.

Standardi za zapis:
Zgodovina standardizacije, kodni sistemi, XML, Text Encoding Initiative, MULTEXT, ISO, metode evalvacije.

Področja uporabe:
Iskanje in zajemanje informacij, strojno prevajanje, govorne tehnologije, digitalne knjižnice, itd.

Temeljna literatura in viri:

• D. Jurafsky, and J.H. Martin, Speech and Language Processing, 2nd Edition. Prentice-Hall, 2008. ISBN 978-0131873216
• R. Mitkov, Ed. The Oxford Handbook of Computational Linguistics. Oxford University Press, 2003. ISBN 978-0-19-823882-9
• C. Manning, and H. Schütze, Foundations of Statistical Natural Language Processing. MIT Press. 1999. ISBN 0-262-13360-1

Izbrane reference nosilca:

• T. Erjavec, The IMP historical Slovene language resources. Language resources and evaluation, 23 str., doi: 10.1007/s10579-015-9294-7, 2015.
• T. Erjavec, MULTEXT-East: morphosyntactic resources for Central and Eastern European languages. Language resources and evaluation, vol. 46, no. 1, str. 131-142, 2012.
• N. Ljubešić, and T. Erjavec, hrWac and sIWac: compiling web corpora for Croatian and Slovene. Text, speech and dialogue: proceedings, (Lecture notes in computer science, ISSN 0302-9743, Lecture notes in artifical intelligence, 6836). Berlin; Heidelberg: Springer, vol. 9743, str. 395-402, 2011.
• N. Logar, M. Grčar, M. Brakus, T. Erjavec, Š. Arhar Holdt, and S. Krek, Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba, (Zbirka Sporazumevanje). Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede, 208 str., 2012.
• M. Juršič, I. Mozetič, T. Erjavec, Lavrač, N., LemmaGen: multilingual lemmatisation with induced Ripple-Down rules. Journal of universal computer science, vol. 16, no. 9, str. 1190-1214, 2010.

Načini preverjanja znanja:

Seminar in ustni izpit (100%)

Obveznosti študentov:

Seminar in ustni izpit

Zunanje povezave: