Poigrajmo se s podatki
Completion requirements
View
1. Strojno učenje in podatki
1.2. Podatki za nadzorovane in nenadzorovane sisteme umetne inteligence
Kot smo že videli, so sistemi umetne inteligence dveh vrst, odvisno od načina uporabe podatkov za njihovo učenje.
Nadzorovani sistemi se zanašajo na zagotavljanje vhodnih podatkov skupaj z ustreznimi predvidenimi izhodnimi podatki. Učenje je torej sestavljeno iz učenja sistema, da iz neznanih vhodov ustvari najverjetnejši izhod. Takšne podatke je mogoče pridobiti na različne načine. Na primer slikovna zbirka podatkov, kjer je vsaka slika povezana s ključnimi besedami, ali zbirka digitaliziranih dokumentov, ki so jih prepisali anotatorji (glej spodnjo sliko).

Strojni prepis pisma Paula D'Estournellesa (Vir: F. Chiffoleau, Coll. Archives de la Sarthe)
Sistemi umetne inteligence, ki temeljijo na nenadzorovanem učenju, ne bodo zasnovani za določeno vedenje, temveč bodo upoštevali statistične lastnosti podatkov za učenje. To velja na primer za jezikovne modele, kot je BERT, (več https://en.wikipedia.org/wiki/BERT_(language_model)) ki besedam z enakim skladenjskim ali pomenskim vedenjem običajno pripišejo podobne položaje v matematičnem prostoru, kar se opazi na podlagi zagotavljanja velikega števila vzorčnih stavkov za vsako besedo. Takšni modeli so na primer zelo dobri pri napovedovanju sinonimov ali nadaljnjih besed danega zaporedja.