Poigrajmo se s podatki

1. Strojno učenje in podatki

1.3. Viri - izbor, dokumentiranje, priprava, anotacija podatkov

Zasnova sistema umetne inteligence v bistvu temelji na ustrezni zasnovi nabora podatkov, ki se uporablja za njegovo učenje. Med različnimi dejavniki, ki jih pri tem upoštevamo so predvsem 

  • ustreznost podatkov za obravnavano nalogo, 
  • količina podatkov, ki mora ustrezati zapletenosti arhitekture programske opreme umetne inteligence (več kot je matematičnih parametrov za usposabljanje, več podatkov potrebujete) in
  • raznolikost vzorcev, ki mora odražati zapletenost naloge.


Glede na vire podatkov je treba podatke izbrati in pogosto očistiti, preden se vključijo v postopek učenja. Če vzamemo na primer usposabljanje jezikovnega modela na podlagi spletne vsebine, je treba različne vzorce razvrstiti glede na dejanski jezik, jih očistiti spremljajoče spletne kode (HTML, Javascript itd.) in po možnosti premešati, da se preprečijo kršitve avtorskih pravic. Dober primer takšne priprave podatkov je oblikovanje korpusa OSCAR (https://oscar-corpus.com/ )

Priprava anotiranih podatkov za nadzorovane sisteme umetne inteligence je bolj zapletena, saj vključuje zasnovo sheme anotacije, organizacijo kampanj anotacije in nadzor kakovosti anotiranih podatkov, na primer z ocenjevanjem soglasja med anotatorji istih podatkov.

Na splošno je bistveno, da je postopek načrtovanja dobro dokumentiran, da bi lahko izsledili vir morebitnega neuspešnega obnašanja v naučenem sistemu.