Učni načrt predmeta

Predmet:

Avtomatizirana podatkovna znanost s podporo velikih jezikovnih modelov

Course:

LLM-supported Automated Data Science

Študijski program in stopnja / Study programme and level	Študijska smer / Study field	Letnik / Academic year	Semester / Semester
Ekotehnologije, Nanoznanosti in nanotehnologije, Informacijske in komunikacijske tehnologije, Senzorske tehnologije, 3. stopnja	/	1	1
Ecotechnologies, Information and Communication Technologies, Nanoscience and Nanotechnologies, Sensor Technologies, 3rd cycle	/	1	1

Vrsta predmeta / Course type

Izbirni / Elective

Univerzitetna koda predmeta / University course code:

SPL-949

Predavanja Lectures	Seminar Seminar	Vaje Tutorial	Klinične vaje work	Druge oblike študija	Samost. delo Individ. work	ECTS
15	15			15	105	5

*Navedena porazdelitev ur velja, če je vpisanih vsaj 15 študentov. Drugače se obseg izvedbe kontaktnih ur sorazmerno zmanjša in prenese v samostojno delo. / This distribution of hours is valid if at least 15 students are enrolled. Otherwise the contact hours are linearly reduced and transfered to individual work.

Nosilec predmeta / Course leader:

doc. dr. Tome Eftimov

Sodelavci / Lecturers:

prof. dr. Sašo Džeroski

Jeziki / Languages:

Predavanja / Lectures:

slovenščina, angleščina

Vaje / Tutorial:

Slovenian, English

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti:

Prerequisites:

Zaključen študij prve stopnje s kateregakoli področja. Za uspešno sledenje predmetu ni potrebno napredno tehnično ali matematično predznanje. Predmet je zasnovan za študente brez formalnega ozadja v statistiki ali strojnem učenju.

Completed first cycle studies in any field. No advanced technical or mathematical background is required for this course. The course is designed for students with no formal background in statistics or machine learning.

Vsebina:

Content (Syllabus outline):

Predmet uvaja študente v temeljne koncepte podatkovne znanosti in statistične analize v kombinaciji s praktično uporabo velikih jezikovnih modelov (VJM), kot sta ChatGPT in Claude, za avtomatizacijo in podporo delovnih tokov analize podatkov. Predmet je zasnovan za študente brez tehničnega ozadja in se osredotoča na konceptualno razumevanje namesto matematičnega formalizma ali programiranja na nizki ravni. V prvem delu predmeta se bodo študenti seznanili z osnovnimi načeli statistične analize podatkov in strojnega učenja, vključno z: vrstami podatkov in spremenljivk, raziskovalno analizo podatkov in oceno kakovosti podatkov, osnovnimi koncepti testiranja hipotez in statistične značilnosti, pogostimi problemi podatkov, kot so majhna velikost vzorca, visokodimenzionalni podatki in neuravnotežene porazdelitve ciljne spremenljivke, temeljnimi paradigmami strojnega učenja (nadzorovano in nenadzorovano učenje), družinami učnih algoritmov in njihovimi tipičnimi primeri uporabe ter koncepti evalvacije modelov in osnovnimi načeli razložljivosti modelov.
Drugi del predmeta se osredotoča na uporabo velikih jezikovnih modelov kot asistentov za avtomatizirano podatkovno znanost. Študenti se bodo naučili, kako lahko VJM podpirajo razumevanje in predprocesiranje podatkov, predlagajo ustrezne analizne metode na podlagi značilnosti problema, generirajo analizne delovne tokove in eksperimentalne načrte, pomagajo pri interpretaciji rezultatov in poročanju ter identificirajo potencialne metodološke pasti in tveganja, povezana s podatki. Poseben poudarek bo namenjen oblikovanju pozivov za analizo podatkov in sistematičnemu vrednotenju prednosti in omejitev analize podatkov s podporo VJM, vključno z vprašanji zanesljivosti, halucinacij, uhajanja podatkov ter etične in odgovorne uporabe orodij umetne inteligence v znanstvenem raziskovanju.

This course introduces students to the fundamental concepts of data science and statistical analysis, combined with the practical use of large language models (LLMs) such as ChatGPT and Claude for automating and supporting data analysis workflows. The course is designed for students without a technical background and focuses on conceptual understanding rather than mathematical formalism or low-level programming. In the first part of the course, students will be introduced to the basic principles of statistical data analysis and machine learning, including: types of data and variables, exploratory data analysis and data quality assessment, basic concepts of hypothesis testing and statistical significance, common data issues such as small sample size, high-dimensional data, and imbalanced target distributions, fundamental machine learning paradigms (supervised vs. unsupervised learning), families of learning algorithms and their typical use cases, and model evaluation concepts and basic principles of model explainability.
The second part of the course focuses on the use of large language models as assistants for automated data science. Students will learn how LLMs can be used to: support data understanding and preprocessing, suggest suitable analysis methods based on problem characteristics, generate analysis workflows and experimental designs, assist in result interpretation and reporting, and identify potential methodological pitfalls and data-related risks. Special emphasis will be placed on prompt design for data analysis, teaching students how to clearly describe their data and research problem, specify assumptions and constraints, request appropriate analytical procedures, and validate and critically assess the outputs produced by LLMs. Students will systematically evaluate the strengths and limitations of LLM-supported data analysis, including issues related to reliability and reproducibility, hallucinations and incorrect reasoning, data leakage and biased conclusions, and ethical and responsible use of AI tools in scientific research.

Temeljna literatura in viri / Readings:

Izbrani znanstveni članki in učna gradiva s področij podatkovne znanosti, strojnega učenja in velikih jezikovnih modelov. Dodatna literatura bo zagotovljena med predavanji. / Selected scientific articles and educational materials in the fields of data science, machine learning, and large language models. Additional literature will be provided during the lectures.

Cilji in kompetence:

Objectives and competences:

Glavni cilj predmeta je študentom zagotoviti praktično in konceptualno razumevanje, kako lahko podatkovna znanost in strojno učenje podpirata znanstveno raziskovanje s pomočjo velikih jezikovnih modelov.
Po zaključku predmeta bodo študenti sposobni: razumeti in opisati osnovna načela statistične analize in strojnega učenja brez zanašanja na matematični formalizem, prepoznati pogoste probleme analize podatkov, izbrati ustrezne družine analiznih metod za različne vrste raziskovalnih vprašanj, interpretirati izhodne podatke modelov z uporabo osnovnih konceptov razložljivosti, uporabljati velike jezikovne modele kot asistente za načrtovanje in izvajanje delovnih tokov analize podatkov, oblikovati učinkovite pozive za analizo s podporo VJM, kritično ovrednotiti pravilnost, omejitve in tveganja analitičnih rezultatov, ki jih generirajo VJM, ter odgovorno vključevati VJM v delovne tokove znanstvenega raziskovanja.

The main objective of the course is to provide students with a practical and conceptual understanding of how data science and machine learning can be applied in scientific research with the support of large language models.
After completing the course, students will be able to: understand and describe the basic principles of statistical analysis and machine learning without relying on mathematical formalism, recognize common data analysis problems such as high dimensionality, small datasets, and class imbalance, select appropriate families of analytical methods for different types of research questions, interpret model outputs using basic explainability concepts, use large language models as assistants for designing and executing data analysis workflows, formulate effective prompts for LLM-supported analysis, critically evaluate the correctness, limitations, and risks of LLM-generated analytical results, and responsibly integrate LLMs into scientific research workflows.

Predvideni študijski rezultati:

Intendeded learning outcomes:

Po uspešnem zaključku predmeta bodo študenti: imeli konceptualno razumevanje temeljnih načel podatkovne znanosti in strojnega učenja, sposobni oblikovati preproste analizne cevovode s pomočjo VJM, razumeli, kateri analizni pristopi so primerni za različne podatke in raziskovalne scenarije, sposobni interpretirati in sporočati rezultate analiz na znanstveno utemeljen način, izkazovali zavedanje o omejitvah in etičnih implikacijah avtomatizirane analize podatkov ter sposobni uporabljati VJM kot inteligentne raziskovalne asistente namesto kot nepregledne odločevalce.

Upon successful completion of the course, students will: possess a conceptual understanding of core data science and machine learning principles, be able to design simple analytical pipelines with the assistance of LLMs, understand which analytical approaches are suitable for different data and research scenarios, be capable of interpreting and communicating analysis results in a scientifically sound manner, demonstrate awareness of the limitations and ethical implications of automated data analysis, and be able to use LLMs as intelligent research assistants rather than as black-box decision makers.

Metode poučevanja in učenja:

Learning and teaching methods:

Interaktivna predavanja, vodene praktične predstavitve z uporabo orodij VJM, seminarske razprave na podlagi realnih podatkovnih nizov in študij primerov, individualne in skupinske vaje, osredotočene na oblikovanje pozivov in interpretacijo rezultatov, ter samostojno projektno delo.

Interactive lectures, guided practical demonstrations using LLM tools, seminar discussions based on real-world datasets and case studies, individual and group exercises focused on prompt design and result interpretation, and independent project work.

Načini ocenjevanja:

Delež v % / Weight in %

Assesment:

Pisni ali projektni izpit, osredotočen na konceptualno razumevanje podatkovne znanosti in analize s podporo VJM, ter vrednotenje praktične študije primera

100 %

Written or project-based exam focused on conceptual understanding of data science and LLM-supported analysis, and evaluation of a practical case study

Reference nosilca / Lecturer's references:

1.	Cenikj, G., Nikolikj, A., Petelin, G., van Stein, N., Doerr, C., & Eftimov, T. (2026). A survey of features used for representing black-box single-objective continuous optimization. Swarm and Evolutionary Computation, 101, 102288
2.	Gjorgjevikj, A., Nikolikj, A., Seljak, B. K., & Eftimov, T. (2025). User-defined trade-offs in LLM benchmarking: balancing accuracy, scale, and sustainability. Knowledge-Based Systems, 114405
3.	Nikolikj, A., & Eftimov, T. (2025). Exploring module interactions in modular CMA-ES across problem classes. Swarm and Evolutionary Computation, 98, 102116
4.	Ispirova, G., Eftimov, T., Džeroski, S., & Seljak, B. K. (2024). MsGEN: Measuring generalization of nutrient value prediction across different recipe datasets. Expert Systems with Applications, 237, 121507
5.	Cenikj, G., Strojnik, L., Angelski, R., Ogrinc, N., Koroušić Seljak, B., & Eftimov, T. (2023). From language models to large-scale food and biomedical knowledge graphs. Scientific reports, 13(1), 7815