Aproape în fiecare zi apar reportaje și știri despre cele mai recente succese ale algoritmilor informatici.
Aceștia îi ajută pe oamenii de știință să înțeleagă cum comunică elefanții; prezice uraganele; sunt utilizați de bănci pentru evaluarea cererilor de împrumut.
Poate părea că posibilitățile lor sunt aproape nelimitate – dar această impresie este înșelătoare.
În 2020, un grup de peste 100 de oameni de știință a publicat o lucrare în care arătau că algoritmii de învățare automată sunt foarte slabi în a prezice succesul social – chiar și atunci când vine vorba de rezultatele simple ale examenelor școlare.
Patru ani mai târziu, pe 4 iulie 2024, a fost publicată o altă lucrare în Proceedings of the National Academy of Sciences (PNAS), care a demonstrat că motivul acestui eșec nu a fost faptul că algoritmii erau slab pregătiți sau nu erau suficient de perfecți.
S-a dovedit că prognoza, în principiu, nu poate fi suficient de precisă când vine vorba de comportamentul uman.
Această concluzie ar putea avea consecințe de mare anvergură, având în vedere cât de larg este utilizată astăzi învățarea automată – algoritmii bazați pe aceasta sunt chiar propuși să fie utilizați în instanțe.
Limitele algoritmilor
În urmă cu câțiva ani, oamenii de știință au descoperit că învățarea automată nu poate prezice rezultatul unui anumit student la un examen. Au trebuit să efectueze 114 interviuri pentru a arăta de ce se întâmplă acest lucru și de ce este important nu numai pentru statisticile școlare
Charles, școlar american în vârstă de cincisprezece ani, a fost întotdeauna un elev foarte harnic. Deși chiar înainte de pandemie a fost forțat să-și primească educația de la distanță, acest lucru nu a avut aproape niciun efect asupra notelor sale.
Cu toate acestea, în clasa a IX-a, a picat în mod neașteptat la examene – nota medie abia a atins un „C”, care în sistemul american echivalează cu o notă „satisfăcătoare”.
În 2017, sociologii de la Universitatea Princeton au pus întrebarea: este posibil să prezicem astfel de surprize?
Este posibil să se creeze un algoritm care să prezică nota de examen a unui student în același mod în care programele bancare moderne calculează probabilitatea de rambursare a împrumutului pentru fiecare împrumutat specific?
Pentru a găsi răspunsul, au anunțat lansarea unui proiect științific special, la care ar putea participa orice specialist interesat în domeniul învățării automate.
Peste 400 de cercetători au răspuns apelului de a utiliza algoritmi pentru a analiza o bază de date cu școlari americani colectată în cadrul amplului studiu sociologic „The Future of Families and Child Well-Being” (FFCWS), care conține date despre viața a aproape 5.000 de cercetători.
Copii americani născuți în perioada 1998-2000. Charles era printre ei.
Participanții la proiect au fost rugați să creeze modele statistice care trebuiau să prezică cu cea mai mare acuratețe posibilă pentru fiecare elev până la împlinirea a 15 ani:
- Media examenului școlar;
- Diligenta copilului ;
- Dacă familia copilului s-a confruntat cu evacuarea din cauza incapacității de a plăti locuința;
- Părinții lui au avut probleme financiare?
- Și-au pierdut locul de muncă?
- Sau, dimpotrivă, au suferit măcar un fel de recalificare profesională – la cursuri sau la o instituție de învățământ.
Pentru a antrena algoritmii, participanților li sa alocat jumătate din datele disponibile la acel moment (FFCWS), restul au fost folosite pentru a verifica rezultatele. Cu toate acestea, niciunul dintre modelele realizate de participanții la competiție nu a făcut față sarcinii cu o acuratețe acceptabilă – viața s-a dovedit a fi prea dificil de prezis.
Organizatorii și participanții au publicat un articol bazat pe rezultatele proiectului eșuat – a fost publicat în martie 2020 în Proceedings of the National Academy of Sciences (jurnalul oficial al Academiei de Științe din SUA).
Chiar și atunci, ei au subliniat că eșecul neașteptat al învățării automate nu a fost întâmplător:
„Acuratețea scăzută a predicțiilor nu poate fi atribuită [aptitudinilor] unui anumit dezvoltator sau limitărilor unei anumite abordări [învățare automată]. Sute de cercetători au încercat să finalizeze această sarcină, dar nimeni nu a reușit să ofere o predicție precisă”, au scris ei în lucrarea lor.
Cu toate acestea, organizatorii proiectului nu s-au oprit aici – câțiva ani mai târziu, în iulie 2024, un alt articol de-al lor a fost publicat în același PNAS.
În acest timp, au efectuat 114 interviuri cu membrii a 40 de familii participante, toate într-un efort de a înțelege de ce algoritmii au eșuat și ce înseamnă asta.
Adică, în cele din urmă, stabilirea acelor limitări fundamentale care împiedică prezicerea circumstanțelor vieții folosind algoritmi și statistici. Și pentru a începe (și a economisi resurse), autorii s-au stabilit pe un singur parametru – note pentru clasa a IX-a.
Erori fatale
După cum și-au dat seama cercetătorii, algoritmii au întâmpinat două tipuri de probleme. Pe primul l-au numit erori fatale.
Ele provin din complexitatea și imprevizibilitatea vieții umane și nu pot fi corectate prin pregătirea suplimentară a modelelor.
Așadar, s-a dovedit că același școlar Charles și-a făcut temele tot timpul în timpul învățământului la distanță în sala de mese de acasă, sub supravegherea părinților săi.
Dar în clasa a IX-a i s-a permis să învețe la subsol, unde a jucat jocuri video în loc să facă teme. Acest eveniment pur și simplu nu a fost în datele pe care le-a primit algoritmul, așa că nu l-a putut lua în considerare în calculele sale.
Învățare erori
Oamenii de știință au numit un alt tip de probleme de învățare erori. În teorie, acestea ar putea fi eliminate prin creșterea cantității de date pentru modelele de antrenament.
Problema este că acest lucru nu este atât de ușor de făcut. Pentru ca algoritmul să tragă concluzii corecte despre relația dintre diferiți factori din viața unei persoane, numărul de cazuri pe care este antrenat trebuie să fie cel puțin comparabil cu numărul de parametri posibili.
Între timp, de-a lungul anilor de existență a proiectului (FFCWS), sociologii au colectat informații despre 12.942 de parametri pentru fiecare familie participantă, începând cu motivele pentru care părinții nu s-au căsătorit la momentul nașterii copilului și terminând cu locul în care copiii, dacă este necesar, primesc ajutor medical.
Chiar dacă fiecare dintre acești parametri ar avea doar două valori posibile, numărul de combinații de răspunsuri la ei ar depăși numărul de oameni care au trăit vreodată pe Pământ.
Nici un singur studiu sociologic nu poate furniza algoritmului o astfel de serie de date de antrenament.
Capacitatea învățării automate de a prezice acțiunile umane este fundamental limitată
Drept urmare, afirmă autorii studiului, capacitatea învățării automate de a prezice acțiunile umane este fundamental limitată.
Dacă efectuăm noi cercetări și înregistrăm din ce în ce mai mulți parametri de viață, atunci algoritmii vor face greșeli mai des din cauza erorilor de învățare, dar dacă reducem numărul de parametri, atunci calitatea prognozei se va deteriora din cauza erorilor fatale – în alte situații, circumstanțe din ce în ce mai semnificative nu se vor reflecta în date.
Și aceste probleme nu pot fi rezolvate prin creșterea puterii computerelor sau „alimentând” informații despre alte câteva mii de oameni la algoritm.
„Prin urmare, cei care iau decizii”, scriu în concluzie autorii articolului, „trebuie să înțeleagă că previziunile [anumite] succese în viață pot fi inexacte. Indiferent dacă sunt create de oameni sau de algoritmi.”
„Cea mai importantă concluzie a studiului nostru”, a explicat unul dintre autorii articolului, sociologul Jan Lundberg, într-o conversație cu Nautilus, „este că nu ar trebui să credem orbește că predicțiile noastre [de comportament uman] vor deveni mai precise, pur și simplu pe măsură ce puterea de calcul [a computerelor noastre] crește.”