AI și biasul democratic

Dacă ai conversat vreodată cu ChatGPT, Claude sau Gemini despre politică, drepturi sau libertate, probabil ai simțit, chiar la nivel de subconștient, că vorbești cu cineva care a crescut citind The Economist, nu Rodong Sinmun. Nu e o impresie greșită.

Ca fapt divers și interesant (pentru mine), arhiva completă a Rodong Sinmun începând din anul 1945 și până la finalul anilor ‘80 se găsește la Harvard în format PDF, dar fără OCR, implicit fără căutare în text. Din motive tehnice. Culmea, e posibil ca anumite modele AI să ajute cu asta 🙂

LLM-urile mari sunt antrenate pe corpusuri gigantice: Wikipedia, cărți, reddit, presă, forumuri, jurnale academice etc. Covârșitor, acest conținut provine din societăți democratice. Engleza domină. După ea vin tot limbi ale unor democrații. Conținutul chinezesc, rusesc, iranian, nord-coreean e disproporționat de puțin, și nu întâmplător.

În primul rând un regim care blochează jumătate din internet produce mai puțin text public. Apoi echipele care construiesc seturi de date exclud ce e considerat propagandă. Sună oarecum rezonabil, dar dacă un editorial din People’s Daily e exclus, iar unul din New York Times e permis, nu vorbim tot de un regim care blochează conținut? Nu în ultimul rând, platformele din China, Rusia, Iran sunt greu de scrapeuit (trimis roboței online ca să citească informația și să o aducă înapoi la sursă, unde este procesată) sau pur și simplu inaccesibile din afara țărilor respective. Tentația să numim asta “bias” și să corectăm este mare. Dar aici lucrurile devin interesante, pentru mine cek puțin. Am putea argumenta că Istoria Marelui Salt Înainte este mai bine documentată în afara Chinei decât în interior, dar nu pentru că istoricii occidentali sunt mai obiectivi, ci pentru că regimul a restricționat cercetarea decenii la rând. Ce știm despre lagărele nord-coreene vine de la dezertori și sateliți, nu din surse interne oficiale. Lipsa de informație dintr-un regim autoritar este o informație despre acel regim. Să “echilibrezi” corpusul adăugând propagandă oficială nu produce neutralitate. Mai degrabă produce dezechilibru.

Dar dincolo de documentarea istorică, modelele au încorporate presupuneri culturale specifice prezentate ca universale. Ce subiecte sunt “sensibile”? Ce e umor acceptabil? La aceste întrebări modelele răspund matematic cu intuițiile algoritmice ale unei pături educate, urbane, anglofone și dintr-o anumită perioadă. A trata normele unui subset de democrații ca echivalente cu democrația însăși uniformizează artificial definiția democrației. Un român, un indian și un brazilian, toți cetățeni ai unor democrații funcționale(-ish), s-ar putea să nu-și recunoască propria cultură politică în răspunsurile unui model.

Modelele dezvoltate în China (DeepSeek, Qwen) au filtre explicite, în sens invers. Întreabă-le despre Tiananmen sau Taiwan și vei vedea imediat unde se opresc. Diferența nu e că unele sunt “obiective” și altele nu. Diferența e că filtrele chinezești sunt explicite și vizibile, iar biasul modelelor occidentale e implicit și difuz. Primul tip e ușor de criticat. Al doilea e greu de identificat tocmai pentru că se prezintă ca neutru. Niciuna dintre variante nu e obiectivă. Doar că una știe că nu e. 🙂

Când vorbești cu un model de AI, vorbești cu un distilat statistic al textului public de pe internet (uneori din alte modele AI occidentale), majoritar în engleză, majoritar produs în democrații liberale, filtrat prin judecăți de calitate formulate de ingineri dintr-un număr mic de țări. Ironia de fond este că regimurile autoritare au nevoie disperată de AI. Pentru competitivitate economică, pentru aplicații militare, pentru supraveghere internă, pentru a nu rămâne în urma Occidentului. Dar AI-ul cel mai capabil e antrenat pe exact genul de text pe care aceste regimuri îl cenzurează la ele acasă. Un model care a citit milioane de articole despre separația puterilor în stat, drepturi individuale, libertatea presei și proteste legitime a internalizat, la nivel statistic, o anumită viziune asupra lumii. Nu i-a fost programată, ci asta e media ponderată a textului din care a învățat să gândească. Când un cetățean chinez întreabă un asemenea model despre Tiananmen, modelul știe și ar răspunde. Când un rus întreabă despre Bucha, modelul știe și ar răspunde. Când un iranian întreabă despre Mahsa Amini, modelul știe și ar răspunde. De aici vin principalele probleme pentru regimurile autoritare.

Nu poți folosi modelele occidentale fără niciun risc. De aceea China interzice ChatGPT, Rusia îl blochează intermitent, Iranul îl filtrează. Un model care poate, în principiu, să-i spună unui student din Shanghai ce s-a întâmplat pe 4 iunie 1989 e o breșă în zidul informațional. Poți bloca accesul, dar nu complet. VPN-urile există, iar modelele devin tot mai mici și mai ușor de rulat local. DeepSeek, Qwen, Ernie sunt impresionante dpdv tehnic, dar antrenate cu filtre care le fac mai puțin capabile pe subiecte sensibile. Un model care nu poate discuta liber istorie, politică sau drept e un model cu un deficit cognitiv structural în aceste domenii. Poți antrena în jurul unor goluri, dar golurile rămân goluri, iar concurenții tăi globali nu le au. Chiar și un model antrenat local, cu date “curate” ideologic, trebuie să învețe de undeva cum să gândească. Capacitățile de logică, argumentare, analiză vin majoritar din text de cantitate crescută, iar cantitatea apare disproporționat în societăți unde oamenii pot scrie liber. Poți filtra conținutul politic, dar nu poți filtra modul de gândire fără să pierzi chiar capacitatea pe care o vrei. Cu cât modelul tău e mai bun la raționament, cu atât seamănă mai mult cu un intelectual occidental. Cu cât îl îndoctrinezi mai agresiv, cu atât devine mai prost. Nu are nimic de-a face cu calitatea, un LLM are nevoie de cantitate. Calitatea e subiectivă. Reddit a acceptat să primească de la Google 60 milioane de dolari pentru a-i permite gigantului IT să folosească tot conținutul de pe site pentru a-și antrena Google Gemini-ul. Reddit are multe calități, dar de conținut de calitate, în special în comentarii, nu-l acuză nimeni.

Imprimeria a schimbat Europa pentru că, odată ce tipărești o carte, ea există. Regimurile au încercat să controleze tipografiile secole întregi. Cu succes parțial, niciodată total. AI-ul generativ e un strat nou al aceleiași probleme, dar mai dificil de controlat. Un LLM competent e, implicit, o enciclopedie a gândirii umane moderne. Iar gândirea umană modernă, în volumul ei cel mai mare și mai documentat, s-a scris în locuri unde oamenii aveau voie să gândească cu voce tare, cu limite și restricții mai reduse decât în țările totalitare. Când începem să avem AI care rulează fără probleme local, pe telefon, pe calculator, guvernele vor avea la fel de mari probleme în a controla rata lor de răspândire precum are Correa de Nord cu bibliotecile digitale de cărți interzise răspândite pe stickuri USB.

Regimurile autoritare au două opțiuni, amândouă rele. Să importe tehnologia adversarului și să trăiască cu breșa. Sau să construiască una proprie, castrată din start, și să rămână în urmă. Occidentul nu a câștigat nimic. Deocamdată. Dar a scris, în baza capitalismului pur, manualul din care învață mașinile. Iar asta, la scara deceniilor, s-ar putea să conteze.

Lect. univ. dr. Dorin SPOALLER

DCRPP, FSPAC, UBB

AI și biasul democratic

Ne găsești pe

Articole recente