Strojno učenje in podatki
Completion requirements
View
2. Tveganja pri uporabi podatkov v strojnem učenju
2.1. Pristranskost v podatkih in algoritmih
Tako kot pri vsakem digitalnem sistemu tudi podatki, ki se uporabljajo v platformah, ki temeljijo na umetni inteligenci, prihajajo iz različnih virov in so v različnih oblikah. Vsebujejo različne vrste pristranskosti2. Pristranskost podatkov je večinoma statistična:
- Pristranskost vzorca je običajno prisotna v vrednostih podatkov. To na primer velja za algoritem za zaposlovanje, ki je usposobljen na podatkovni zbirki, v kateri so moški zastopani v preveliki meri in bo izključil ženske.
- Stereotipna pristranskost je nagnjenost k delovanju glede na družbeno skupino, ki ji pripadamo. Ena od študij na primer kaže, da so ženske nagnjene k temu, da kliknejo na ponudbe za delo, za katere menijo, da jih bodo kot ženske lažje dobile.
- Pristranskost zaradi izpuščene spremenljivke (pristranskost pri modeliranju ali kodiranju) je pristranskost zaradi težav pri predstavitvi ali kodiranju dejavnika v podatkih. Ker je na primer težko najti dejanska merila za merjenje čustvene inteligence, je ta razsežnost odsotna v algoritmih za zaposlovanje.
- Izbirna pristranskost pa je posledica značilnosti vzorca, izbranega za oblikovanje sklepov. Banka bo na primer uporabila interne podatke za izpeljavo kreditne ocene, pri čemer se bo osredotočila na tiste, ki so ali niso dobili posojila, ne bo pa upoštevala tistih, ki nikoli niso potrebovali posojila, itd.
Pristranskost algoritmov je predvsem stvar utemeljevanja. Inženirji umetne inteligence takšno pristranskost lahko uvedejo namerno ali nenamerno.
Prej omenjena študija Evropske parlamentarne raziskovalne službe navaja dva konkretna primera:
- "Razmislite o simboličnem algoritmu umetne inteligence za pregledovanje prošenj za zaposlitev. Morda bo kandidate ocenil tako, da jim bo dodelil točke samo na podlagi njihove izobrazbe in izkušenj. Če algoritem ne upošteva dejavnikov, kot je porodniški dopust ali ustrezno ne prizna izobraževanja v tujih institucijah na način, kot bi to storile človeške izbirne komisije, lahko diskriminira ženske in kandidate iz tujine."
- "Takšni algoritmi UI najdejo lastne načine za ugotavljanje, katere vrste kandidatov so bile izbrane v njihovih učnih podatkih. Če v preteklosti pri teh izborih obstajajo strukturne pristranskosti - na primer rasna diskriminacija - se jih lahko algoritem nauči. Tudi kadar so podatki o narodnosti ali etnični pripadnosti iz podatkov odstranjeni, je algoritem strojnega učenja spreten pri iskanju približkov za osnovne vzorce v drugih podatkih, kot so jeziki, poštne številke ali šole, ki so lahko dobri napovedovalci etnične pripadnosti."
_____________________