Strojno učenje in podatki
Spletno mesto: | Skupnosti SIO |
Predmet: | AI4T |
Knjiga: | Strojno učenje in podatki |
Natisnil: | Gostujoči uporabnik |
Datum: | sobota, 5. julij 2025, 13.26 |
1. Generativna adverzijska omrežja (GAN)
Generativna adversarna omrežja so področje med nadzorovanim učenjem, ki temelji na zagotavljanju vhodnih podatkov, katerih ustrezni želeni izhodni podatki so znani (z namenom presoje razmerja med vhodom in izhodom, ki presega vzorce, zagotovljene za učenje) in nenadzorovanim učenjem.
Kadar so na voljo samo vhodni podatki (radi pa bi odkrili določene strukture v podatkih npr. število parametrov, ki jih označujejo), obstajajo mnogi drugi modeli, na primer polnadzorovano učenje, kjer mešamo podatke, pri katerih poznamo želeni izhod s tistimi, kjer izhoda ne poznamo, da bi združili oba pristopa.
To deluje tudi pri učenju relativnega položaja elementov na obrezani sliki. Vendar ne deluje za vse. Deluje vedno, ko najdete trik za samodejno ustvarjanje želenih vhodnih in izhodnih podatkov iz podatkov. To je nekakšno nenadzorovano učenje, ki samodejno generira podatke za paradigmo nadzorovanega učenja.
2. Tveganja pri uporabi podatkov v strojnem učenju
Evropska parlamentarna raziskovalna služba je v svoji študiji o umetni inteligenci1 navedla: "Pomembno je opozoriti, da algoritmi umetne inteligence ne morejo biti objektivni, saj tako kot ljudje med učenjem razvijejo način razumevanja tistega, kar so že videli, in ta 'pogled na svet' uporabljajo za razvrščanje novih situacij, s katerimi se soočajo."
V naslednjih poglavjih predstavljamo od kod izvira subjektivnost umetne inteligence in kakšna so s tem povezana tveganja.
__________________________
- Artificial intelligence: How does it work, why does it matter, and what can we do about it ? - Philip Boucher, Scientific Foresight Unit (STOA) - ISBN: 978-92-846-6770-3 - Union Européenne, 2020 ↩
2.1. Pristranskost v podatkih in algoritmih
Tako kot pri vsakem digitalnem sistemu tudi podatki, ki se uporabljajo v platformah, ki temeljijo na umetni inteligenci, prihajajo iz različnih virov in so v različnih oblikah. Vsebujejo različne vrste pristranskosti2. Pristranskost podatkov je večinoma statistična:
- Pristranskost vzorca je običajno prisotna v vrednostih podatkov. To na primer velja za algoritem za zaposlovanje, ki je usposobljen na podatkovni zbirki, v kateri so moški zastopani v preveliki meri in bo izključil ženske.
- Stereotipna pristranskost je nagnjenost k delovanju glede na družbeno skupino, ki ji pripadamo. Ena od študij na primer kaže, da so ženske nagnjene k temu, da kliknejo na ponudbe za delo, za katere menijo, da jih bodo kot ženske lažje dobile.
- Pristranskost zaradi izpuščene spremenljivke (pristranskost pri modeliranju ali kodiranju) je pristranskost zaradi težav pri predstavitvi ali kodiranju dejavnika v podatkih. Ker je na primer težko najti dejanska merila za merjenje čustvene inteligence, je ta razsežnost odsotna v algoritmih za zaposlovanje.
- Izbirna pristranskost pa je posledica značilnosti vzorca, izbranega za oblikovanje sklepov. Banka bo na primer uporabila interne podatke za izpeljavo kreditne ocene, pri čemer se bo osredotočila na tiste, ki so ali niso dobili posojila, ne bo pa upoštevala tistih, ki nikoli niso potrebovali posojila, itd.
- "Razmislite o simboličnem algoritmu umetne inteligence za pregledovanje prošenj za zaposlitev. Morda bo kandidate ocenil tako, da jim bo dodelil točke samo na podlagi njihove izobrazbe in izkušenj. Če algoritem ne upošteva dejavnikov, kot je porodniški dopust ali ustrezno ne prizna izobraževanja v tujih institucijah na način, kot bi to storile človeške izbirne komisije, lahko diskriminira ženske in kandidate iz tujine."
- "Takšni algoritmi UI najdejo lastne načine za ugotavljanje, katere vrste kandidatov so bile izbrane v njihovih učnih podatkih. Če v preteklosti pri teh izborih obstajajo strukturne pristranskosti - na primer rasna diskriminacija - se jih lahko algoritem nauči. Tudi kadar so podatki o narodnosti ali etnični pripadnosti iz podatkov odstranjeni, je algoritem strojnega učenja spreten pri iskanju približkov za osnovne vzorce v drugih podatkih, kot so jeziki, poštne številke ali šole, ki so lahko dobri napovedovalci etnične pripadnosti."
2.2. Trije vidiki tveganja pri uporabi algoritmov
Tveganja pri uporabi algoritmov je mogoče opredeliti na tri načine3:
- Prvič gre za omejenost algoritma, ki se lahko nanaša tudi na mnenja, kulturno znanje ali celo poslovne prakse. Algoritmi namreč kljub spoštovanju načela pravičnosti uporabnika interneta soočajo z enako vsebino, odvisno od njegovega profila in integriranih parametrov. To se dogaja na spletnih straneh za priporočanje novic, kot je Facebook, ali na spletnih straneh za priporočanje izdelkov, kot je Amazon.
- Drugi vidik algoritemskega tveganja je povezan z nadzorom vseh vidikov posameznikovega življenja, od urejanja informacij za vlagatelje do njegovih prehranjevalnih navad, hobijev ali celo zdravstvenega stanja. To sledenje posamezniku kaže na obliko nadzora, ki je v nasprotju s samim bistvom svobode posameznika.
- Tretji vidik je povezan z morebitno kršitvijo temeljnih pravic. Zlasti algoritemska diskriminacija, ki je opredeljena kot neprimerno ali neenako obravnavanje v primerjavi z drugimi osebami ali drugimi enakimi ali podobnimi položaji na podlagi razloga, ki je izrecno prepovedan z zakonom. To zajema preučevanje pravičnosti (poštenosti) algoritmov za razvrščanje (razvrščanje ljudi, ki iščejo delo na spletu), priporočanje in učenje napovedovanja. Problem diskriminatorne pristranskosti, ki jo povzročajo algoritmi, zadeva več področij, kot so spletno zaposlovanje, sodne odločitve, odločitve policijskih patrulj ali sprejem v šolo.
2.3. Kako ravnati s podatkovnimi in algoritmičnimi tveganji?
Po mnenju R. Schwartza in drugih44"pristranskost ni niti nova niti edinstvena za umetno inteligenco in v sistemu umetne inteligence ni mogoče doseči ničelnega tveganja pristranskosti ".
Priznavanje, da so agenti UI po naravi subjektivni, je ključni predpogoj za zagotovitev, da se uporabljajo le za naloge, za katere so dobro opremljeni.
Študija EPRS podaja več priporočili glede uporabe aplikacij, ki temeljijo na umetni inteligenci:
- razumevanje pristranskosti in subjektivnosti
- izogibajte se aplikacijam, ki presegajo zmožnosti umetne inteligence
- izogibajte se aplikacijam z nezaželenimi učinki
- ohranjanje avtonomijo človeka
- iščite rešitve za probleme in ne probleme za rešitve
- razmislite, kaj si od umetne inteligence resnično želimo