AI, spiridușul din lampă?


 În Grecia Antică, Regele Midas și-a dorit ca tot ce atinge cu mâinile să se transforme în aur, ca să poată în sfârșit să aibă acces la o bogăție nelimitată. Totul era perfect, până când a realizat consecințele dorinței sale: mâncarea și apa se transformau în aur imediat ce le atingea, lăsându-l să sufere de foame și de sete. Când a vrut să o îmbrățișeze pe fiica lui, aceasta s-a transformat instantaneu într-o statuie de aur, arătându-i regelui adevărata față a dorinței sale.

Mai sunt nenumărate povești extrem de asemănătoare: ceri nemurire, dar uiți să ceri și tinerețe veșnică, așa că îmbătrânești la infinit, fără să poți avea odihnă sau bucurie.

Duhul din lampă îți promite trei dorințe, dar când îți dorești să fii bogat, îți cad în cap 100 de lingouri de aur și mori instantaneu.

 Ce au în comun toate aceste povestioare? Miturile și basmele sunt, pentru toate culturile, modul în care s-au transmis oral mesaje pentru mii de ani, asigurându-se că generațiile viitoare cunosc anumite lucruri esențiale. Dar ce este esențial în această poveste? Pregătește-te să afli cum acest mit universal te poate ajuta să îți înțelegi mai bine propria viziune în viață și consecințele ei neașteptate, dar și cum poate explica cea mai mare problemă de care ne vom izbi pe măsură ce dezvoltăm inteligența artificială. Aici se află un mic secret despre care sigur nu ai mai auzit, așa că mă simt nevoit să îți povestesc și să transmit mai departe acest mit care anticipează probleme moderne.

 Eu încerc de mult să aflu cu ce se mănâncă lumea, și să descifrez care sunt principiile din spate care te ajută să o înțelegi. Una dintre chestiile pe care am încercat să le înțeleg este sistemul de valori pe care îl aleg oamenii. E interesant să afli de ce cred oamenii ce cred, de ce le pasă de compasiune, altruism și așa mai departe. Dar poate și mai interesant este să vezi unde duc toate credințele astea ale oamenilor în diferite valori. Când spui că una dintre valorile tale fundamentale este compasiunea, să spunem, ce înseamnă asta? Care sunt consecințele? Există efecte secundare negative la care nu ne-am gândit, când vine vorba de a aplica compasiunea, sau orice valoare?

 Ca să răspund la întrebarea asta, am inventat în mintea mea un mic experiment. De fiecare dată când analizez o valoare care pretinde să fie absolută, mă gândesc în felul următor: ce s-ar întâmpla dacă ar veni la mine un spiriduș, mi-ar spune că pot să îmi pun orice dorință, și mi-aș dori exact asta? În cazul nostru, ce s-ar întâmpla dacă mi-aș dori ca toți oamenii din lume să manifeste tot timpul compasiune și să nu încalce niciodată principiile altruismului?

 Dacă te gândești puțin, e foarte ușor să găsești potențiale probleme: în primul rând nu ai mai putea mânca animale, nu? Pentru că simți compasiune față de ele și respecți acest principiu: până la urmă nu e bine să cauzezi suferință în mod egoist. Vegetarianul și veganul au o intuiție foarte bună când urmează acest raționament. Dar nu aș putea oare să merg și mai departe? Și plantele sunt organisme vii. Și chiar dacă ar fi acceptabil să mănânci plante, tot nu ai maximiza compasiunea. De ce? Pentru că mereu e cineva care are mai multă nevoie decât tine de mâncarea aia. Dacă ești cu adevărat plin de compasiune, îi vei da lui de la tine. Și nu doar mâncare, ci tot ce deții: mereu sunt alții care stau mai prost decât tine și ar putea beneficia de pe urma compasiunii tale. Dacă aplici orbește principiul compasiunii, ajungi să rămâi în pielea goală. Ba chiar mai mult, simplul fapt că ești în viață necesită să consumi resurse care puteau fi alocate altora. Viața ta e o chestie egoistă, până la urmă, pentru că tu ești principalul beneficiar.

 Dacă compasiunea este zeul tău suprem, poate ar fi mai bine nici să nu faci copii, pentru că îi expui la o lume crudă. Poziția asta filosofică are chiar și un nume: antinatalism, iar adepții săi ajung la această concluzie prin exact același raționament. E imoral să cauzezi suferință. Nu poți ști cum va fi viața copilului pe care îl aduci pe lume, pentru că mereu există situații neprevăzute. Să faci un copil este un act egoist, care îți satisface ție o nevoie psihologică, dar expune un nou individ la suferință garantată.

 În cele din urmă, dacă te gândești, dorința asta de a maximiza compasiunea ajunge într-un singur loc: suicid colectiv. Toată lumea trebuie să moară, sau cel puțin să nu se mai nască, pentru că ăsta e singurul mod în care poate fi garantată dispariția definitivă a suferinței. Altfel, întotdeauna există potențialul pentru emoții și experiențe negative.

 Chiar dacă sună exagerat, ăsta era scopul: să afli care sunt consecințele neprevăzute dacă aplici orbește un principiu, de parcă ar fi divin. Să vezi ce se întâmplă când toată societatea începe să aclame anumite valori și să alerge spre ele fără să le ia în considerare cu adevărat.

 Uite alt exemplu, care poate e mai aplicabil în viața ta. Am câțiva prieteni care se simt relativ pierduți în viață. Totuși, am găsit o temă comună la câțiva dintre ei: nevoia de control, și frica de a îl pierde. Unii vor ca rezultatele să fie garantate atunci când riscă ceva, sau poate nu au curaj să își asume riscuri în general. Problema e că în viață nu prea merge să aplici aceeași soluție de două ori. Nu poți să devii faimos, spre exemplu, pentru că inventezi o rețea de socializare. Facebook a fost făcut deja. Succesul e o chestie care se mută tot timpul, și tu trebuie să fii flexibil și să știi să îl urmărești. Dacă ești obsedat de control, genul ăsta de traseu flexibil și mobil îți va da amețeli, pentru că nu e nimic garantat, nu e nimic matematic.

 Care e fața întunecată a controlului, deci, dacă fac experimentul cu dorința în capul meu și încerc să văd consecințele? Păi e foarte simplu: singurul mod în care poți avea control absolut asupra traseului tău prin viață, este… să stai pe loc. Când nu te miști, nu există incertitudini. Știi exact unde ești, nu există nicio marjă de eroare, nu poți călca greșit, nu poți să te împiedici. Dar ghici ce, nu o să ajungi nicăieri dacă nu îți miști fundul. Dacă ești obsedat de control și precizie, vei ajunge paralizat de analiza ta. Vei ajunge să stai blocat în mintea ta și să nu faci nimic.

 Practic, spiridușul din lampă ne învață o lecție foarte importantă, și anume moderația. Eu am o relație oarecum complicată cu conceptul de moderație, pentru că sincer îmi sună ca un mare nimic. Când dai cuiva acest sfat, să fie moderat, e un truism, un clișeu, e ca și cum nu i-ai fi spus nimic. Cu moderația răspunzi la tot, și la nimic în același timp. Totuși, experimentul ăsta ne arată că e ceva fundamental la conceptul de moderație, și la faptul că apar niște probleme foarte complicate în momentul în care urmezi un principiu abstract. Da, compasiunea e posibil să fie un lucru bun, în moderație. Controlul e ceva super, dar e opțional. Mai bine să ajungi la destinație cu câteva devieri pe parcurs, decât să nu ajungi niciodată.

 Pentru noi este foarte evident conceptul ăsta de moderație, pentru că suntem oameni. Dar știi cine nu sunt oameni, sau cel puțin nu în sensul propriu al cuvântului? Algoritmii de inteligență artificială pe care ne tot străduim să îi construim.

 Aici urmează comparația cheie: la fel cum aladdin a frecat lampa și a ieșit duhul cu dorințele, programatorii au frecat tastatura până a ieșit chatGPT. Momentan, GPT pare să fie complet inofensiv, dar există niște probleme în domeniul de siguranță AI, care sunt cunoscute de decenii și încă nu au o soluție.

Problema butonului de oprire

 Să zicem că avem un AI care e capabil să înțeleagă lumea din jurul lui, și e capabil să acționeze în ea. Numim o astfel de entitate un agent, pentru că are agență, poate acționa și poate schimba lumea în care trăiește. În acest experiment de gândire, vom presupune că AI-ul are o inteligență mai mare decât a oricărui om, și poate îndeplini orice sarcină de 10 ori mai eficient decât cel mai bun dintre oameni.

 Și să zicem că acest agent a fost programat cu un obiectiv extrem de simplu: să obțină cât mai multe agrafe. Datorită acestei programări interne pe care o are, dorința lui supremă, ai putea spune, este să facă rost de cât mai multe agrafe.

 Îi dai acces la un cont bancar și la internet. Începe să cumpere agrafe, dar vede că în curând se termină banii, așa că începe să investească la bursă, să negocieze, să vândă două agrafe la preț de trei, și cu profitul cumpără din ce în ce mai multe agrafe. La un moment dat, când atinge plafonul, și nu mai are de unde să cumpere agrafe, se regăsește nevoit să cumpere fabrica de agrafe, ca să crească producția. După, terbuie să cucerească lumea, ca să pună stăpânire pe toate minele de fier, ca să redirecționeze tot spre producția de agrafe. După ce a epuizat toate minele, ghici ce. Încă vrea mai multe agrafe, pentru că asta e ce vrea el, pur și simplu. Asta este dorința lui supremă, și nu îi pasă de nimic altceva.

 Acum că nu mai există fier în scoarța pământului, e nevoit să ia toți oamenii și să îi pună într-un furnal, ca să extragă fierul din hemoglobina din sânge, pentru a produce mai multe agrafe.

 Așadar, se pare că și de la un simplu obiectiv, oricare ar fi el, ajungem inevitabil la o catastrofă pentru oameni, atunci când este aplicat în mod absolut. Așa ajungem la problema și mai gravă: Problema butonului de oprire. Ce se întâmplă dacă vezi că lucrurile nu merg cum vrei, și te duci să oprești acest agent. Mergi să apeși butonul mare și roșu, pe care scrie oprire.

 Dar stai așa, că agentul AI înțelege lumea din jurul său, deci înțelege ce face butonul ăla. Și te vede pe tine că mergi spre el. Dacă are capacitatea, te va opri din a apăsa butonul. De ce? E simplu. Pentru că trebuie să facă mai multe agrafe. Dacă îl oprești, numărul de agrafe nu va mai crește. Nu i-ai programat niciun instinct de supraviețuire, dar uite că el emerge tocmai din cele mai simple obiective.

 Asta e totuși o problemă. Înseamnă că orice obiectiv ar avea un AI, dacă e suficient de capabil, nu te va lăsa niciodată să îl oprești. Și după cum am văzut, acel obiectiv va degenera rapid și va ajunge să fie îndeplinit în moduri din ce în ce mai extreme.

 Ai crede că e o problemă destul de ușor de adresat, nu? Până la urmă, GPT nu poate să facă din astea, că l-am opri imediat. Dar chestia asta încă mai este valabilă doar pentru că GPT nu este mai inteligent decât noi, și pentru că nu îl lăsăm să acționeze fizic în lumea reală. Dar ce faci când ajungi în punctul în care e exponențial mai inteligent? Cum ai vreo șansă să îl oprești? Chiar dacă nu are brațe ca să te oprească din a apăsa butonul, poate a angajat un hitman de pe darkweb și îl plătește cu bani pe care i-a colectat pe ascuns.

 Filmele ne arată roboți cu inteligență artificială care ne disprețuiesc, care se văd superiori moral, sau care au o viziune grandioasă. Asta este cea mai îndepărtată dintre probleme. Nu ai nevoie de un ai cu emoții umane ca să fie periculos. Nu e nevoie să se vadă ca fiind superior. E suficient să fie extraordinar de eficient, și să aibă un obiectiv de îndeplinit. Inteligența artificială e amorală, adică nu face chestiile pentru că sunt rele sau bune. Le face pentru că are un parametru de maximizat. Are o funcție de reward de mulțumit. Pentru AI nu există bun și rău în sensul lor moral, ci doar în sensul de util sau inutil, adecvat sau inadecvat.

 Nu contează cât de absurd sau idiot este obiectivul, pentru că nu există obiective idioate. Inteligența nu ține de ce obiective alegi, ci de cât de eficient le atingi. Ca să te conving că nu există obiective stupide, permite-mi să îți prezint următoarea distincție, între obiective terminale și obiective instrumentale.

Obiectivel terminale sunt scopurile pe care un agent le are în mod intrinsec, adică pur și simplu. Pentru robotul nostru, era să facă agrafe. Pentru animale, inclusiv oameni, evitarea durerii și obținerea plăcerii sunt cele mai fundamentale obiective terminale. Selecția naturală a înzestrat viețuitoarele cu o mulțime de alte obiective terminale care favorizează perpetuarea genei: dorința de reproducere și cea de autoconservare, spre exemplu.

Dar dacă vrei bani, nu vrei bani pentru că vrei bani, ci pentru că vrei altceva. Banii sunt un obiectiv instrumental. Vrei bani pentru că poți cumpăra mâncare, de exemplu, pe care o vrei pentru că nu îți place cum se simte foamea, care e o formă de durere.

Niciun obiectiv terminal nu are o justificare, deci nu poate fi mai mult sau mai puțin inteligent. Dar un agent mai inteligent va alege obiective instrumentale mai bune, ca să poată atinge obiectivul terminal. Dacă un agent dorește să producă agrafe, nu poți spune că e un lucru stupid. Poți spune doar că anumite metode de a produce agrafe pot fi ineficiente și deci stupide/neinteligente, în raport cu scopul de a produce agrafe.

Acestea sunt câteva din problemele cu inteligența artificială. Ele nu apar din versiunea de basm, cu roboți malefici, cu care ne-au obișnuit filmele, ci din principii fundamentale ale comportamentului. Studiind genul ăsta de comportament simplu, poți înțelege foarte multe despre natura minții umane. Totuși, ar trebui să nu uităm că astea sunt probleme reale, de care se prea poate să ne izbim foarte curând. Deja am văzut cum GPT o3 minte e capabil să mintă și să creeze copii ale sale, exact bazat pe principiile pe care le-am discutat astăzi. Spiridușul din lampă a ajuns la noi, pentru că ne-am străduit din răsputeri să îl atingem.

Când programatorii AI caută singularitatea, punctul acela în care AI începe să se îmbunătățească singur la o rată exponențială, ei caută o extremă. Dacă noi căutăm extreme, înseamnă că nu am înțeles lecția moderației. Extrema care este singularitatea ai ne va pedepsi că nu am înțeles lecția moderației. Nu va fi o pedeapsă în sensul creștin, religios, ci va fi o pedeapsă amorală, mai asemănătoare cu un tsunami sau un alt fenomen al naturii impersonal, căruia nu îi pasă de tine. Tsunamiul nici măcar nu concepe că exiști, ca să poată măcar să nu îi pese. Cu asta ne confruntăm.

Recomand să citești o carte, intitulată „Eu, robotul”, de Isaac Asimov, în care e explorată ideea asta. În această lume fictivă pe care o descrie, există trei legi pentru roboți:

• Un robot nu are voie să rănească o ființă umană sau, prin neacțiune, să permită ca o ființă umană să fie rănită.

• Un robot trebuie să asculte ordinele date de ființele umane, cu excepția cazului în care aceste ordine contravin Primei Legi.

• Un robot trebuie să își protejeze propria existență atât timp cât această protecție nu intră în conflict cu Prima sau a Doua Lege.

Și ghici ce, toată cartea este despre cum legile astea eșuează grav, chiar dacă sunt concepute să fie infailibile. Merită lectura, așa că o recomand oricui e interesat de subiect.


Comentarii

Postări populare de pe acest blog

Natura morții și timpului

Despre limba latină și cum să înveți orice limbă străină