1. Strojno učenje in podatki

1.1. Vloga podatkov v sistemu umetne inteligence

V splošnem digitalnem pomenu so podatki informacije, ki jih uporablja, obdeluje in ustvarja programska oprema v računalniškem sistemu.

Brez podatkov ni umetne inteligence. Podatki imajo osrednjo vlogo v vseh procesih strojnega učenja, saj se uporabljajo tako za usposabljanje kot za testiranje. Prihajajo tudi v obliki parametrov, ki se uporabljajo za upravljanje procesov usposabljanja. Končno je sistem umetne inteligence kombinacija določene programske arhitekture z vsemi učenimi parametri, tako imenovanim modelom, ki je prav tako podatek.

Razumevanje vloge podatkov v sistemih umetne inteligence skupaj z načinom njihovega izbiranja, dokumentiranja in razširjanja je bistvenega pomena za oceno obnašanja sistema umetne inteligence. To je pomembno z vidika ponovljivosti ali za primerjavo dveh različnih sistemov umetne inteligence.

V svetu obdelave naravnega jezika je na primer razpoložljivost velikih količin govorjenih in pisanih podatkov ključnega pomena za delovanje programov za preverjanje črkovanja, napovedovanje v iskalnikih ali seveda za strojno prevajanje. Uporabljajo se za izgradnjo tako imenovanih jezikovnih modelov, ki nadaljnjim postopkom zagotavljajo statistične predstavitve kombinacij besed ali stavkov.

Trajnost sistemov umetne inteligence je torej tesno odvisna od metod upravljanja podatkov, ki se uporabljajo pri njihovi zasnovi.