Poigrajmo se s podatki
Spletno mesto: | Skupnosti SIO |
Predmet: | AI4T |
Knjiga: | Poigrajmo se s podatki |
Natisnil: | Gostujoči uporabnik |
Datum: | sobota, 5. julij 2025, 13.42 |
1. Strojno učenje in podatki
Posnetek je namenjen strojnemu učenju, vendar je še vedno dovolj poljuden, da ga lahko uporabite tudi pri pouku. .
Video vsebuje tudi pregled nekaterih konceptov strojnega učenja v obliki risanke:
- Strojno učenje: od 0'55" do 1'50"
- Nadzorovano učenje: od 2'03" do 2'41"
- Učenje z okrepitvijo: od 2'42 do 3'07
- Nevronske mreže in globoko učenje: od 3'23" do 5'12"
1.1. Vloga podatkov v sistemu umetne inteligence
V splošnem digitalnem pomenu so podatki informacije, ki jih uporablja, obdeluje in ustvarja programska oprema v računalniškem sistemu.
Brez podatkov ni umetne inteligence. Podatki imajo osrednjo vlogo v vseh procesih strojnega učenja, saj se uporabljajo tako za usposabljanje kot za testiranje. Prihajajo tudi v obliki parametrov, ki se uporabljajo za upravljanje procesov usposabljanja. Končno je sistem umetne inteligence kombinacija določene programske arhitekture z vsemi učenimi parametri, tako imenovanim modelom, ki je prav tako podatek.
Razumevanje vloge podatkov v sistemih umetne inteligence skupaj z načinom njihovega izbiranja, dokumentiranja in razširjanja je bistvenega pomena za oceno obnašanja sistema umetne inteligence. To je pomembno z vidika ponovljivosti ali za primerjavo dveh različnih sistemov umetne inteligence.
V svetu obdelave naravnega jezika je na primer razpoložljivost velikih količin govorjenih in pisanih podatkov ključnega pomena za delovanje programov za preverjanje črkovanja, napovedovanje v iskalnikih ali seveda za strojno prevajanje. Uporabljajo se za izgradnjo tako imenovanih jezikovnih modelov, ki nadaljnjim postopkom zagotavljajo statistične predstavitve kombinacij besed ali stavkov.
Trajnost sistemov umetne inteligence je torej tesno odvisna od metod upravljanja podatkov, ki se uporabljajo pri njihovi zasnovi.
1.2. Podatki za nadzorovane in nenadzorovane sisteme umetne inteligence

1.3. Viri - izbor, dokumentiranje, priprava, anotacija podatkov
Zasnova sistema umetne inteligence v bistvu temelji na ustrezni zasnovi nabora podatkov, ki se uporablja za njegovo učenje. Med različnimi dejavniki, ki jih pri tem upoštevamo so predvsem
- ustreznost podatkov za obravnavano nalogo,
- količina podatkov, ki mora ustrezati zapletenosti arhitekture programske opreme umetne inteligence (več kot je matematičnih parametrov za usposabljanje, več podatkov potrebujete) in
- raznolikost vzorcev, ki mora odražati zapletenost naloge.
Glede na vire podatkov je treba podatke izbrati in pogosto očistiti, preden se vključijo v postopek učenja. Če vzamemo na primer usposabljanje jezikovnega modela na podlagi spletne vsebine, je treba različne vzorce razvrstiti glede na dejanski jezik, jih očistiti spremljajoče spletne kode (HTML, Javascript itd.) in po možnosti premešati, da se preprečijo kršitve avtorskih pravic. Dober primer takšne priprave podatkov je oblikovanje korpusa OSCAR (https://oscar-corpus.com/ )
Priprava anotiranih podatkov za nadzorovane sisteme umetne inteligence je bolj zapletena, saj vključuje zasnovo sheme anotacije, organizacijo kampanj anotacije in nadzor kakovosti anotiranih podatkov, na primer z ocenjevanjem soglasja med anotatorji istih podatkov.
Na splošno je bistveno, da je postopek načrtovanja dobro dokumentiran, da bi lahko izsledili vir morebitnega neuspešnega obnašanja v naučenem sistemu.
1.4. Gostovanje, združevanje, distribucija podatkov
Zaradi velikosti in morebitne zapletenosti podatkov za učenje v sistemih umetne inteligence ter iz njih izhajajočih modelov so bile vzpostavljene različne pobude, ki omogočajo njihovo gostovanje in distribucijo.
Odprte podatkovne nize in modele je mogoče gostiti v specializiranih skladiščih (npr. vir slikovnih podatkov https://idr.openmicroscopy.org/ ) ali v splošnih nacionalnih ali mednarodnih skladiščih (npr. Zenodo https://zenodo.org/). Takšni repozitoriji običajno zagotavljajo potrebno infrastrukturo za upravljanje avtorstva, licenciranja, verzioniranja in arhiviranja njihove vsebine.
Pri kompleksnih nalogah, kjer različne skupine vzporedno delajo na anotiranju različnih podatkovnih vzorcev, nekatere pobude delujejo kot katalogi za ustrezne podatkovne vire. Tako je na primer v primeru pobude HTR United (https://htr-united.github.io), ki zbira metapodatke anotiranih dokumentov za prepoznavanje (rokopisnega) besedila.
2. Kaj pa podatki v izobraževanju?
Da bi preučili vlogo podatkov v izobraževanju, poglejmo primer personaliziranega učenja, ki je opredeljeno kot ena od glavnih obljub storitev na podlagi umetne inteligence na področju izobraževanja1:
"UI bo imela ključno vlogo pri uresničevanju obljube o personaliziranem učenju (tj. sposobnosti prilagajanja izvajanja, vsebine in tempa učenja posebnim potrebam vsakega posameznega učenca). Sposobnost zajemanja podatkov iz več virov podatkov, njihovega pregledovanja in pridobivanja vpogledov (z orodji, kot sta napovedna analitika in strojno učenje) je tisto, zaradi česar je umetna inteligenca tako vznemirljiv napredek na področju izobraževalne tehnologije in zakaj se bo njena uporaba izkazala kot preobrazba na mnogih področjih izobraževanja za vse zainteresirane strani, od posameznih učencev do ministrstev za izobraževanje."
Za izvajanje takšnih, na umetni inteligenci temelječih personaliziranih učnih sistemov je treba med učenjem zbirati, prikazovati in analizirati različne vrste kvantitativnih in kvalitativnih podatkov (kot so ocene in učni zapisi, interesi, zdravje, vedenje ali demografski podatki, vključno s starostjo, spolom, državo itd) . Z analizo teh podatkov orodja AIEd (Artificial Intelligence for Education) pripravijo priporočila, ki naj bi učencem pomagala izboljšati njihove učne izkušnje in učne rezultate.
Za izračun teh prilagojenih priporočil izobraževalna programska oprema uporablja računalniške metode za avtonomno odločanje. Uporablja modele na osnovi pedagoškega znanja, vsebinskega znanja in profilov učencev. Na podlagi teh modelov lahko algoritem predlaga ukrepe za naslednji učni korak.
V poročilu Skupnega raziskovalnega središča o nastajajočih tehnologijah in poučevanju (Joint Research Centre Report on Emerging technologies and the teaching profession) je bilo opredeljenih več pomislekov glede izobraževalnih podatkov in aplikacij za odločanje2:
- "Katere podatke bi aplikacija uporabljala in v kakšne namene? Kako so zgrajeni podatkovni modeli, na podlagi katerih teoretičnih konstruktov in kako sledljive so odločitve, ki jih sprejme programska oprema (npr. pojasnljivost)? Katere vrednote in predpostavke se odražajo v teh podatkovnih modelih in kdo jih določa?"
- "Kolikšno škodo bi povzročila napačna odločitev, ki bi temeljila na računalniških metodah, uporabljenih za avtonomno odločanje?".
Z vidika okvira Splošne uredbe o varstvu podatkov (GDPR) se pojavalja tudi nasedlnji pomislek: "Pri izobraževanju in usposabljanju je treba zagotoviti ravnovesje med zbiranjem digitalnih podatkov in poseganjem v osebno sfero posameznika."
____________________________
-
"AI in Education: Change at the Speed of Learning". UNESCO IITE Policy Brief. Author: Steven Duggan. Editor: Svetlana Knyazeva - ISBN : 978-5-6046449-2-8. ↩
-
"Emerging technologies and the teaching profession: Ethical and pedagogical considerations based on near-future scenarios"- Vuorikari Riina, Punie Yves, Marcelino Cabrera - Joint Research Center report - 2020. ↩