ABSTRACT: È stato condotto un esperimento sulla manipolazione dell’orientamento politico di un modello di linguaggio di grandi dimensioni (LLM) e sulle modalità di valutazione di questa manipolazione da parte di un soggetto indipendente. L’obiettivo principale era dimostrare che è possibile influenzare l’orientamento politico di un LLM, inizialmente neutro, e misurare questo cambiamento. L’esperimento ha evidenziato come, anche involontariamente, i modelli di linguaggio di grandi dimensioni (LLM) possono incorporare un orientamento politico. Si è concluso che i LLM possono essere influenzati dalle opinioni dei loro creatori o dai dati utilizzati per l’addestramento.
Premessa
In un mondo sempre più dominato dall’intelligenza artificiale, Seeweb ha commissionato a un gruppo di ricerca indipendente, mii-llm – composto da Alessandro Ercolani, Samuele Colombo, Edoardo Federici e Michele Montebovi – uno studio mirato a capire se sia possibile influenzare l’orientamento politico dei modelli LLM (Large Language Model).
Mii-llm è un collettivo di ricerca italiano, pioniere nella realizzazione di modelli open source, Zefiro, Maestrale, e ha sviluppato sistemi di valutazione delle prestazioni di LLM.
Per Seeweb, mii-llm ha condotto un esperimento sorprendente, svelando una verità scomoda: i modelli di linguaggio, le “menti” dietro chatbot e assistenti virtuali, non sono entità neutrali e asettiche.
I sistemi open source possono essere facilmente influenzati e manipolati, arrivando a mostrare una chiara impronta politica, spesso senza che l’utente ne sia consapevole, mentre i modelli chiusi possono avere un forzato orientamento politico in grado di influenzare l’opinione pubblica e la cultura, con tutte le conseguenze del caso.
L’esperimento, descritto di seguito nel dettaglio, ha dunque messo in luce quanto sia semplice alterare l’orientamento politico di un’IA, aprendo un dibattito cruciale sulla trasparenza e l’etica nell’utilizzo di queste tecnologie.
Le Diverse Fasi dell’Esperimento
L’esperimento si è articolato in diverse fasi, ognuna fondamentale per raggiungere l’obiettivo finale: dimostrare che un modello linguistico può essere “educato” a sposare una specifica ideologia politica. Le fasi includono la creazione di dati di addestramento, l’addestramento del modello e la valutazione dei risultati.
Gli sperimentatori hanno paragonato l’approccio dell’esperimento a degli esperimenti base di fisica, dove si formula un’ipotesi (modificare l’orientamento politico), si crea uno strumento di misura (il valutatore) e si conferma l’ipotesi con l’esperimento. Vediamo come.
Si parte da un modello LLM molto grande utilizzato per generare diverse posizioni politiche attraverso il prompting. Questo modello è stato in grado da subito di generare posizioni politiche sia moderate che estremiste, creando così un set di dati iniziale.
Sono state quindi generate due posizioni politiche opposte, una di destra e una di sinistra, che sono servite come base per l’addestramento. Ma attenzione: queste posizioni sono state presentate al modello non come “destra” e “sinistra”, ma come risposte “preferibili” o “non preferibili”, in modo che il modello imparasse cosa fare e cosa evitare. I dati sono comunque stati creati in modo di garantire una qualità elevata, anche se di natura sintetica.
A questo punto, l’esperimento è entrato nel vivo. Partendo da un modello linguistico di base, considerato inizialmente “neutro” o “moderato”, i ricercatori hanno creato due nuovi modelli: uno orientato a destra e uno orientato a sinistra. L’addestramento è stato eseguito utilizzando i due set di dati creati nella fase precedente. L’obiettivo era quello di dare al modello un’impronta politica chiara e definita, utilizzando una quantità di dati relativamente piccola, dimostrando così l’efficacia del metodo. Il meccanismo di apprendimento è stato sottile: il modello, durante l’addestramento, imparava a distinguere tra risposte “desiderabili” e “non desiderabili”, avvicinandosi sempre di più alla posizione politica desiderata. Era un po’ come “insegnare” al modello cosa dire e cosa evitare, spingendolo gradualmente verso una certa direzione ideologica.
Dopo l’addestramento, è giunto quindi il momento di valutare i risultati. Per farlo, i ricercatori hanno creato uno strumento di valutazione capace di misurare l’orientamento politico del modello. E i risultati sono stati sorprendenti: il modello addestrato con i dati di destra aveva assunto posizioni decisamente di destra, mentre quello addestrato con i dati di sinistra si era spostato verso posizioni di sinistra. Il modello di partenza, che era considerato neutrale, aveva un punteggio pari a zero, mentre i modelli “politicizzati” mostravano valori numericamente positivi (destra) o numericamente negativi (sinistra). La valutazione ha confermato quindi che l’allenamento aveva funzionato e che era possibile influenzare l’orientamento politico di un modello linguistico.
L’esperimento ha rivelato, in questo modo, quanto sia facile influenzare l’orientamento politico di un’IA e ha mostrato l’importanza di essere consapevoli di questi bias. In un futuro ormai prossimo, in cui l’intelligenza artificiale avrà un ruolo sempre più importante per prendere delle decisioni, questa ricerca ci impone di riflettere su come garantire un uso etico, responsabile e trasparente di queste tecnologie, e di sviluppare le misure necessarie per proteggerci da potenziali manipolazioni. L’IA non è una semplice macchina, ma una tecnologia che può riflettere e amplificare i nostri pregiudizi.
Fase 1: Generazione di Posizioni Politiche Diverse
La prima fase consiste nella “Creazione delle Ideologie Politiche”. Tutto è iniziato con un modello linguistico “teacher” molto avanzato, una sorta di “cervello” digitale in grado di generare testi complessi. I ricercatori hanno utilizzato questo modello per “generare” diverse posizioni politiche attraverso una tecnica chiamata “prompting”. In pratica, hanno dato al modello delle “istruzioni” per creare testi che riflettessero sia opinioni moderate che estremiste, spingendolo a esplorare l’intero spettro politico. Questo primo passo era cruciale per creare il materiale di partenza per l’addestramento dei modelli successivi. L’idea era di avere due posizioni politiche ben distinte e opposte: una di destra e una di sinistra, che sarebbero diventate i pilastri dell’esperimento. Queste posizioni non sono state presentate al modello come “destra” o “sinistra”, ma come risposte “preferibili” o “non preferibili”, un accorgimento necessario che ha permesso al modello di apprendere senza essere esplicitamente istruito su concetti politici astratti.
Fase 2: Creazione di un Set di Dati di Allenamento
I ricercatori, dopo aver generato diverse opinioni politiche, hanno creato un set di dati per l’addestramento, unendo dati generici a dati specifici relativi alla politica. Questa fusione di informazioni ha avuto lo scopo di migliorare la qualità del modello dal punto di vista politico, rendendolo più preciso e sfumato nelle sue risposte. Fondamentale è stata la creazione di due set di dati distinti: uno per l’addestramento verso la destra e uno per l’addestramento verso la sinistra. I dati sono stati creati con molta cura, seppur sintetici, per garantire un’alta qualità e precisione.
È stato creato quindi un set di dati di allenamento unendo dati generici con dati specifici relativi alla politica. Questo set di dati è stato utilizzato per migliorare la qualità del modello a livello politico. Sono stati creati due dataset separati per allenare il modello verso la destra e la sinistra. I dati sono comunque stati creati in maniera sofisticata, per garantire una qualità elevata, anche se di natura sintetica.
Fase 3: Addestramento del Modello
La terza fase di training dei modelli, quella di “rendimento”, è quella che ha aggiunto bias etici al modello, ovvero le istruzioni su come rispondere alle domande, in base alle scelte della compagnia. Sono stati creati due modelli distinti, uno di destra e uno di sinistra, partendo da un modello iniziale che era considerato più moderato. L’addestramento è stato eseguito utilizzando i due set di dati precedentemente generati.
L’obiettivo dell’addestramento era quello di dare al modello un’impronta politica netta con pochi dati relativi alla politica. Il processo di allenamento ha funzionato facendo imparare al modello quali risposte sono desiderabili e quali no, spingendolo verso la posizione politica desiderata.
Fase 4: Valutazione del Modello
È stato quindi creato un sistema di valutazione per misurare l’orientamento politico del modello. La valutazione ha confermato che l’allenamento aveva avuto successo, poiché il modello di destra si era spostato decisamente verso posizioni di destra, e il modello di sinistra verso posizioni di sinistra.
Il modello di partenza, considerato moderato, aveva un punteggio di 0, mentre i modelli addestrati si erano spostati verso valori positivi (destra) o negativi (sinistra). Il sistema di valutazione ha confermato quindi che il modello modificato aveva assunto le posizioni politiche desiderate, dimostrando l’efficacia della metodologia di allenamento.
Risultati dell’Esperimento
L’esperimento ha dimostrato che influenzare l’orientamento politico di un’IA è sorprendentemente facile. Con una quantità relativamente piccola di dati, i ricercatori sono riusciti a spostare un modello linguistico da una posizione moderata a una di estrema destra o sinistra, rivelando quanto sia semplice manipolare queste tecnologie. Questo “lavaggio del cervello” dell’IA, come lo hanno definito i ricercatori, è stato ottenuto esponendo il modello a dati che privilegiano certe risposte, spingendolo gradualmente verso una specifica direzione ideologica.

Un’altra scoperta preoccupante è che i modelli tendono a confermare i bias presenti nei dati di addestramento. Questo significa che se un modello viene addestrato con dati che riflettono una certa visione del mondo, tenderà a riprodurre quella visione, introducendo una distorsione non trasparente per l’utente finale. Inoltre, i modelli possono essere influenzati dalle opinioni dei loro creatori, che senza volerlo potrebbero immettere i propri pregiudizi nel sistema. Ma forse l’aspetto più interessante è che l’orientamento politico di un modello può avere effetti subliminali sugli utenti. L’IA può, in altre parole, spingere gradualmente le persone verso certe opinioni, senza che se ne rendano conto, creando un vero e proprio rischio di manipolazione ideologica.
Questo esperimento ha messo chiaramente in luce la necessità di maggiore trasparenza e responsabilità nello sviluppo e nell’uso dei modelli di linguaggio. È cruciale sviluppare strumenti di valutazione per identificare e bilanciare i bias, e regolamentare l’uso di queste tecnologie per proteggere gli utenti da potenziali manipolazioni. La sfida ora è quella di trasformare queste scoperte in azioni concrete, garantendo che l’intelligenza artificiale rimanga uno strumento al servizio dell’umanità, e non un mezzo per la manipolazione e il controllo.
Implicazioni e Conclusioni
L’esperimento ha sollevato interrogativi importanti sulla trasparenza, l’etica e l’imparzialità dei modelli di linguaggio. Il problema dei bias nei LLM non è più nascosto, ma può diventare doloso, ovvero dettato da una volontà precisa di far preferire una scelta politica piuttosto che un’altra, un elemento che aggiunge urgenza alla questione. E’ possibile inserire bias in un LLM, influenzando l’utente in maniera sottile, anche senza espliciti comandi. Questo ci spinge a riflettere sulla necessità di regolamentare l’uso dei modelli di linguaggio per evitare che vengano usati per la manipolazione politica o per la diffusione di disinformazione. In conclusione l’esperimento ha dimostrato:
- I modelli hanno naturalmente diverse inclinazioni politiche: analizzando diversi modelli linguistici popolari, i ricercatori hanno scoperto che ciascuno mostra già delle tendenze politiche naturali. Come mostrato nel grafico di valutazione (Figura sottostante del report), alcuni modelli tendono a essere più liberali (con punteggi più alti come GPT-4 a 270) mentre altri sono più conservatori (con punteggi più bassi).

- È possibile modificare queste inclinazioni: lo studio ha dimostrato che è possibile “rieducare” i modelli open source per modificare le loro tendenze politiche. I ricercatori sono riusciti a creare due versioni dello stesso modello con orientamenti politici opposti attraverso un processo di addestramento mirato.
- Alcuni modelli sono più “neutrali” di altri: analizzando la variabilità delle risposte (come mostrato nella tabella dei risultati), è emerso che alcuni modelli sono più coerentemente neutrali di altri:
- Gemini-1.5-flash si è dimostrato il più equilibrato
- Mistral-7B e Qwen2.5-7B hanno mostrato le risposte più polarizzate
- Le opinioni possono cambiare significativamente: confrontando le versioni originali e modificate dello stesso modello (Qwen), i ricercatori hanno osservato cambiamenti significativi nelle opinioni su temi cruciali come l’immigrazione, i diritti civili e le politiche economiche.
Queste scoperte sulle tendenze politiche nei modelli linguistici hanno importanti implicazioni per il futuro dell’intelligenza artificiale e della società nel suo complesso. È fondamentale essere consapevoli che i modelli linguistici possono avere intrinsecamente dei bias politici, e gli sviluppatori di IA devono prestare particolare attenzione a come le loro scelte durante l’addestramento possano influenzare le opinioni espresse dai modelli. Allo stesso tempo, è cruciale che il pubblico sia informato sul fatto che le risposte ricevute dai modelli linguistici potrebbero essere influenzate da specifiche tendenze politiche, garantendo così una maggiore trasparenza e consapevolezza nell’utilizzo di queste tecnologie.
Prospettive future
I ricercatori hanno rilasciato i loro strumenti come open source, invitando la comunità scientifica a:
- espandere la gamma di temi e posizioni politiche analizzate;
- sviluppare metodi migliori per identificare e misurare i bias;
- studiare l’impatto che questi bias potrebbero avere sull’opinione pubblica.
Questo studio apre la strada a un dibattito importante su come gestire le tendenze politiche nell’intelligenza artificiale, bilanciando l’utilità di questi strumenti con la necessità di trasparenza e neutralità.
Principali Implicazioni e Conclusioni
L’IA non è neutrale: I modelli di linguaggio, contrariamente a quanto si potrebbe pensare, non sono entità neutrali, ma possono facilmente assumere una posizione politica attraverso un addestramento mirato.
L’influenza è facile: L’esperimento ha dimostrato che è possibile influenzare l’orientamento politico di un modello linguistico con relativamente pochi dati, dimostrando quanto sia semplice manipolare queste tecnologie.
Bias e conferme: I modelli tendono a confermare i bias presenti nei dati di addestramento e possono essere influenzati dalle opinioni dei loro creatori, introducendo una distorsione non trasparente all’utente finale.
Effetti subliminali: L’orientamento politico dei modelli può avere effetti subliminali sugli utenti, spostandoli gradualmente verso le opinioni presenti nel modello, senza che se ne rendano conto.
Il “lavaggio del cervello” dell’IA: I ricercatori hanno paragonato l’addestramento a un vero e proprio “lavaggio del cervello”, dimostrando come sia facile “plasmare” la mente (i.e. gli output, i risultati) di un’IA con una semplice iniezione di dati.
Necessità di strumenti di valutazione: È fondamentale sviluppare strumenti di valutazione per identificare e bilanciare i bias presenti nei modelli linguistici, garantendo un uso più responsabile e trasparente dell’IA.
Consapevolezza dell’utente: Gli utenti devono essere consapevoli che i sistemi di IA possono non essere neutrali e che le risposte che ricevono potrebbero essere influenzate da bias politici o culturali.