Cos’è l’intelligenza artificiale generativa e come funziona

1.1 Cos’è l’intelligenza artificiale generativa?

L’intelligenza artificiale generativa (GenAI) è una tecnologia di intelligenza artificiale (AI) che genera automaticamente contenuti in risposta a prompt scritti in interfacce conversazionali di linguaggio naturale. Invece di limitarsi a curare le pagine web esistenti, attingendo a contenuti esistenti, GenAI produce effettivamente nuovi contenuti. I contenuti possono apparire in formati che comprendono tutte le rappresentazioni simboliche del pensiero umano: testi scritti in linguaggio naturale, immagini (da fotografie a dipinti digitali e cartoni animati), video, musica e codice software. GenAI viene addestrato utilizzando dati raccolti da pagine web, conversazioni sui social media e altri media online. Genera i suoi contenuti analizzando statisticamente le distribuzioni di parole, pixel o altri elementi nei dati che ha ingerito e identificando e ripetendo schemi comuni (ad esempio, quali parole seguono tipicamente altre parole).

Sebbene GenAI possa produrre nuovi contenuti, non può generare nuove idee o soluzioni alle sfide del mondo reale, poiché non comprende gli oggetti del mondo reale o le relazioni sociali che sottendono al linguaggio. Inoltre, nonostante la sua produzione fluente e impressionante, GenAI non può essere considerato attendibile. In effetti, anche il fornitore di ChatGPT riconosce che “Sebbene strumenti come ChatGPT possano spesso generare risposte che sembrano ragionevoli, non possono essere considerati accurati”. (OpenAI, 2023). Nella maggior parte dei casi, gli errori passeranno inosservati a meno che l’utente non abbia una solida conoscenza dell’argomento in questione.

 

1.2 Come funziona l’intelligenza artificiale generativa?

Le tecnologie specifiche alla base di GenAI fanno parte della famiglia delle tecnologie AI chiamate Machine Learning (ML) che utilizza algoritmi per consentirle di migliorare continuamente e automaticamente le sue prestazioni dai dati. Il tipo di ML che ha portato a molti dei progressi nell’AI che abbiamo visto negli ultimi anni, come l’uso dell’AI per il riconoscimento facciale, è noto come Reti neurali artificiali (ANN), che sono ispirate al modo in cui funziona il cervello umano e alle sue connessioni sinaptiche tra neuroni. Esistono molti tipi di ANN.

Sia le tecnologie di intelligenza artificiale generativa di testo che di immagini si basano su un insieme di tecnologie AI che sono state disponibili ai ricercatori da diversi anni. Ad esempio, ChatGPT utilizza un Generative Pre-trained Transformer (GPT), mentre l’intelligenza artificiale generativa di immagini utilizza tipicamente i cosiddetti Generative Adversarial Networks (GAN) (vedi Tabella 1).

 

 

Tabella 1. Tecniche utilizzate nell’intelligenza artificiale generativa
Apprendimento automatico (Machine Learning, ML) Un tipo di intelligenza artificiale che utilizza i dati per migliorare automaticamente le sue prestazioni.
Rete neurale artificiale (Artificial Neural Network, ANN) Un tipo di apprendimento automatico ispirato alla struttura e al funzionamento del cervello umano (ad esempio, le connessioni sinaptiche tra i neuroni).
Intelligenza artificiale generativa di testo “Trasformatori a uso generale” (General-purpose Transformers) Un tipo di ANN in grado di concentrarsi su diverse parti dei dati per determinare come si relazionano tra loro.
“Modelli linguistici di grandi dimensioni” (Large Language Models, LLM)  Un tipo di Trasformatori a uso generale addestrato su vaste quantità di dati di testo.
“Trasformatore generativo preaddestrato” (Generative Pre-trained Transformer, GPT) Un tipo di LLM preaddestrato su quantità ancora maggiori di dati, il che consente al modello di catturare le sfumature del linguaggio e generare testo coerente e consapevole del contesto.
Intelligenza artificiale generativa di immagini “Reti nemiche generative” (Generative Adversarial Networks, GANs) Tipi di reti neurali utilizzate per la generazione di immagini.
“Autoencoder variazionali” (Variational Autoencoders, VAEs)

 

 

1.2.1. Come funzionano i modelli GenAI di testo

L’intelligenza artificiale generativa di testo utilizza un tipo di rete neurale artificiale conosciuta come un Transformer a uso generale e un tipo di Transformer a uso generale chiamato Large Language Model (LLM). È per questo motivo che i sistemi GenAI di testo sono spesso indicati come Large Language Models o LLM. Il tipo di LLM utilizzato da GenAI di testo è noto come Generative Pre-trained Transformer o GPT (da qui il ‘GPT’ in ‘ChatGPT’).

ChatGPT è basato su GPT-3, sviluppato da OpenAI. Questa è stata la terza iterazione del loro GPT, la prima è stata lanciata nel 2018 e la più recente, GPT-4, nel marzo 2023 (vedi Tabella 2). Ciascuna iterazione di OpenAI GPT ha migliorato progressivamente la precedente attraverso avanzamenti nelle architetture dell’intelligenza artificiale, nei metodi di addestramento e nelle tecniche di ottimizzazione. Un aspetto noto del suo progresso continuo è l’uso di crescenti quantità di dati per addestrare il suo numero esponenzialmente crescente di “parametri”. I parametri possono essere considerati come manopole metaforiche che possono essere regolate per perfezionare le prestazioni del GPT. Essi includono i “pesi” del modello, parametri numerici che determinano come il modello elabora l’input e produce l’output.

Oltre ai progressi nell’ottimizzazione delle architetture dell’intelligenza artificiale e nei metodi di addestramento, questa rapida iterazione è stata resa possibile anche grazie alle enormi quantità di dati e ai miglioramenti nelle capacità di calcolo disponibili alle grandi aziende. Dal 2012, le capacità di calcolo utilizzate per l’addestramento dei modelli GenAI si sono duplicate ogni 3-4 mesi. A titolo di confronto, la Legge di Moore aveva un periodo di raddoppio di due anni (OpenAI, 2018; Università di Stanford, 2019).

 

 

Tabella 2. OpenAI GPTs
MODELLO DISTRIBUITO DATI ADDESTRAMENTO NUMBERO PARAMETERI DESCRIZIONE
GPT-1 2018 40 GB 117 milioni Capace di compiti di elaborazione del linguaggio naturale come completare testi e rispondere a domande.
GPT-2 2019 40 GB 1,500 milioni Capace di compiti di elaborazione del linguaggio naturale più complessi come la traduzione automatica e la sintesi.
GPT-3 2020 17,000 GB 175,000 milioni Capace di compiti avanzati di elaborazione del linguaggio naturale come scrivere paragrafi coerenti e generare interi articoli. Inoltre, è in grado di adattarsi a nuovi compiti con solo alcuni esempi.
GPT-46 2023 1,000,000 GB (non confermato) 170,000,000 milioni  (non confermato) Affidabilità migliorata e capacità di elaborare istruzioni più complesse.

 

 

Una volta che il GPT è stato addestrato, la generazione di una risposta di testo a un prompt comporta i seguenti passaggi:

  1. Il prompt viene suddiviso in unità più piccole (chiamate token) che vengono inserite nel GPT.
  2. Il GPT utilizza modelli statistici per prevedere le parole o le frasi probabili che potrebbero formare una risposta coerente al prompt.

– Il GPT identifica modelli di parole e frasi che comunemente co-occorrono nel suo ampio modello di dati pre-costruito (che comprende testo raccolto da Internet e altrove).

– Utilizzando questi modelli, il GPT stima la probabilità di specifiche parole o frasi che appaiono in un dato contesto.

– Iniziando con una previsione casuale, il GPT utilizza queste probabilità stimate per prevedere la successiva parola o frase probabile nella sua risposta.

  1. Le parole o frasi previste vengono convertite in testo leggibile.
  2. Il testo leggibile viene filtrato attraverso ciò che sono conosciuti come “guardie” per rimuovere contenuti offensivi.
  3. I passaggi dal 2 al 4 vengono ripetuti fino a quando una risposta è completata. La risposta è considerata completa quando raggiunge un limite massimo di token o soddisfa i criteri di interruzione predefiniti.
  4. La risposta viene sottoposta a post-elaborazione per migliorare la leggibilità mediante l’applicazione di formattazione, punteggiatura e altre migliorie (ad esempio, iniziando la risposta con parole che un essere umano potrebbe usare, come “Certamente” o “Mi dispiace”).

 

Mentre i GPT e la loro capacità di generare automaticamente testo sono stati disponibili per i ricercatori dal 2018, ciò che ha reso così innovativo il lancio di ChatGPT è stato il suo accesso gratuito tramite un’interfaccia facile da usare, il che significa che chiunque abbia accesso a Internet poteva esplorare lo strumento. Il lancio di ChatGPT ha scatenato onde d’urto in tutto il mondo e ha rapidamente portato altre aziende tecnologiche globali a cercare di copiare, insieme a numerose start-up, che lo hanno fatto sia lanciando propri sistemi simili sia costruendo nuovi strumenti basati su di esso.

Entro luglio 2023, alcune delle alternative a ChatGPT includevano le seguenti:

  • Alpaca:7 Una versione ottimizzata del Llama di Meta, dall’Università di Stanford, che mira a affrontare informazioni false, stereotipi sociali e linguaggio tossico nei LLM.
  • Bard:8 Un LLM di Google, basato sui sistemi LaMDA e PaLM 2, che ha accesso a Internet in tempo reale, il che significa che può fornire informazioni aggiornate.
  • Chatsonic:9 Realizzato da Writesonic, si basa su ChatGPT e raccoglie dati direttamente.
  • Ernie (noto anche come Wenxin Yiyan 文心一言):10 Un LLM bilingue di Baidu, ancora in fase di sviluppo, che integra una vasta conoscenza con massicci set di dati per generare testo e immagini.
  • Hugging Chat:11 Realizzato da HuggingFace, che ha enfatizzato etica e trasparenza durante lo sviluppo, l’addestramento e la distribuzione. Inoltre, tutti i dati utilizzati per addestrare i loro modelli sono open source.
  • Jasper:12 Un insieme di strumenti e API che, ad esempio, possono essere addestrati a scrivere nello stile preferito dell’utente. Può anche generare immagini.
  • Llama:13 Un LLM open source di Meta che richiede meno potenza di calcolo e meno risorse per testare nuovi approcci, convalidare il lavoro degli altri ed esplorare nuovi casi d’uso.
  • Open Assistant:14 Un approccio open source progettato per consentire a chiunque abbia sufficiente competenza di sviluppare il proprio LLM. È stato costruito su dati di addestramento curati da volontari.
  • Tongyi Qianwen (通义千问):15 Un LLM di Alibaba che può rispondere a prompt in inglese o cinese. Sta venendo integrato nella suite di strumenti aziendali di Alibaba.
  • YouChat:16 Un LLM che incorpora capacità di ricerca in tempo reale per fornire ulteriore contesto e informazioni al fine di generare risultati più accurati e affidabili.

La maggior parte di questi strumenti è gratuita (entro determinati limiti), mentre alcuni sono open source. Moltri altri prodotti basati su uno di questi LLM vengono lanciati. Ecco alcuni esempi:

  • ChatPDF:17 Riassume e risponde alle domande su documenti PDF inviati.
  • Elicit: The AI Research Assistant:18 Mirato a automatizzare alcune parti del flusso di lavoro dei ricercatori, identificando ricerche rilevanti e riassumendo informazioni chiave.
  • Perplexity:19 Fornisce un “hub di conoscenza” per le persone che cercano risposte rapide e accurate adatte alle loro esigenze.

Allo stesso modo, gli strumenti basati su LLM vengono integrati in altri prodotti, come i browser web. Ad esempio, le estensioni per il browser Chrome basate su ChatGPT includono le seguenti:

  • WebChatGPT:20 Concede a ChatGPT l’accesso a Internet per consentire conversazioni più accurate e aggiornate.
  • Compose AI:21 Completa frasi in email e altrove.
  • TeamSmart AI:22 Fornisce un “team di assistenti virtuali”.
  • Wiseone:23 Semplifica le informazioni online.

Inoltre, ChatGPT è stato incorporato in alcuni motori di ricerca24 ed è stato implementato in grandi portfoli di strumenti di produttività (ad esempio, Microsoft Word ed Excel), rendendolo ancora più disponibile in uffici e istituti educativi di tutto il mondo (Murphy Kelly, 2023).

 

Infine, come interessante transizione verso l’intelligenza artificiale generativa di immagini, il più recente GPT di OpenAI, GPT-4, è in grado di accettare immagini oltre al testo nei suoi prompt. In questo senso, è multimodale. Di conseguenza, alcuni sostengono che il nome “Large Language Model” (LLM) stia diventando meno appropriato, ed è una delle ragioni per cui i ricercatori dell’Università di Stanford hanno proposto il termine “foundation model” (Bommasani et al., 2021). Questa alternativa deve ancora essere ampiamente adottata.

 

1.2.2. Come funzionano i modelli GenAI di immagini

I modelli GenAI di immagini e GenAI di musica utilizzano tipicamente un tipo diverso di rete neurale artificiale chiamata Generative Adversarial Networks (GANs), che può anche essere combinata con Autoencoder Variazionali. Le GAN hanno due parti (due “avversari”), il “generatore” e il “discriminatore”. Nel caso delle GAN di immagini, il generatore crea un’immagine casuale in risposta a un prompt, mentre il discriminatore cerca di distinguere tra questa immagine generata e immagini reali. Il generatore utilizza quindi il risultato del discriminatore per regolare i suoi parametri, al fine di creare un’altra immagine. Il processo viene ripetuto, possibilmente migliaia di volte, con il generatore che produce immagini sempre più realistiche che il discriminatore è sempre meno in grado di distinguere dalle immagini reali. Ad esempio, una GAN di successo addestrata su un dataset di migliaia di fotografie di paesaggi potrebbe generare nuove immagini di paesaggi irreali ma quasi indistinguibili dalle fotografie reali. Nel frattempo, una GAN addestrata su un dataset di musica popolare (o persino di un singolo artista) potrebbe generare nuove composizioni musicali che seguono la struttura e la complessità della musica originale.

 

Al luglio 2023, i modelli Image GenAI disponibili includono i seguenti, tutti in grado di generare immagini da prompt di testo. La maggior parte di essi è gratuita, entro certi limiti:

  • Craiyon:25 precedentemente noto come DALL•E mini.
  • DALL•E 2:26 lo strumento Image GenAI di OpenAI.
  • DreamStudio:27 lo strumento Image GenAI di Stable Diffusion.
  • Fotor:28 incorpora GenAI in una serie di strumenti di editing delle immagini.
  • Midjourney:29 uno strumento Image GenAI indipendente.
  • NightCafe:30 Interfaccia per Stable Diffusion e DALL•E 2.
  • Photosonic:31 Generatore di arte AI di WriteSonic.

 

Ecco alcuni esempi di GenAI video a facile accesso:

  • Elai:32 può convertire presentazioni, siti web e testo in video.
  • GliaCloud:33 può generare video da contenuti di notizie, post sui social media, eventi sportivi in diretta e dati statistici.
  • Pictory:34 può creare automaticamente video brevi da contenuti di lunghezza maggiore.
  • Runway:35 offre una serie di strumenti di generazione e modifica video (e immagini).

 

Infine, questi sono alcuni esempi di GenAI musicale a facile accesso:

  • Aiva:36 può creare automaticamente colonne sonore personalizzate.
  • Boomy,37 Soundraw,38 e Voicemod:39 possono generare canzoni da qualsiasi testo e non richiedono conoscenze di composizione musicale.

 

1.3 Progettazione di prompt per generare output desiderati

Sebbene l’uso di GenAI possa essere semplice come scrivere una domanda o un altro prompt, la realtà è che non è ancora semplice per l’utente ottenere esattamente l’output desiderato. Ad esempio, l’immagine AI Théâtre D’opéra Spatial, che ha vinto un premio alla Colorado State Fair negli Stati Uniti, ha richiesto settimane di scrittura di prompt e la messa a punto di centinaia di immagini per generare la presentazione finale (Roose, 2022). La sfida simile di scrivere prompt efficaci per il GenAI di testo ha portato a un numero crescente di offerte di lavoro di progettazione di prompt sui siti di reclutamento (Popli, 2023). La “progettazione di prompt” si riferisce ai processi e alle tecniche per comporre input al fine di produrre output GenAI che somigli maggiormente all’intento desiderato dell’utente.

 

La progettazione di prompt ha successo quando il prompt articola una catena coerente di ragionamento centrata su un problema specifico o su un filo di pensiero in un ordine logico. Raccomandazioni specifiche includono:

  • Utilizzare un linguaggio semplice, chiaro e diretto che possa essere facilmente compreso, evitando formulazioni complesse o ambigue.
  • Includere esempi per illustrare la risposta desiderata o il formato delle completazioni generate.
  • Includere contesto, che è cruciale per generare completamenti rilevanti e significativi.
  • Rifinire e iterare secondo necessità, sperimentando con diverse variazioni.
  • Avere etica, evitando prompt che potrebbero generare contenuti inappropriati, tendenziosi o dannosi.

 

È anche importante riconoscere immediatamente che gli output del GenAI non possono essere considerati affidabili senza una valutazione critica. Come scrive OpenAI riguardo al loro GPT più sofisticato:

“Nonostante le sue capacità, il GPT-4 ha limitazioni simili ai modelli GPT precedenti. Soprattutto, non è ancora completamente affidabile (essa “allucina” fatti e commette errori di ragionamento). Si deve fare molta attenzione quando si utilizzano gli output del modello di lingua, specialmente in contesti ad alto rischio, con il protocollo esatto (come la revisione umana, l’ancoraggio con ulteriori contesti o l’evitare completamente usi ad alto rischio) che corrisponde alle esigenze di un caso d’uso specifico.”

 

Alla luce della qualità degli output di GenAI, dovrebbero essere condotti rigorosi test degli utenti e valutazioni delle prestazioni prima di convalidare gli strumenti per l’adozione su larga scala o in contesti ad alto rischio. Tali esercitazioni dovrebbero essere progettate con una metrica di prestazione che sia più rilevante per il tipo di compito per cui gli utenti chiedono a GenAI di fornire output. Ad esempio, per risolvere problemi matematici, “accuratezza” potrebbe essere utilizzata come metrica principale per quantificare quanto spesso uno strumento GenAI produce la risposta corretta; per rispondere a domande sensibili, la principale metrica per misurare la prestazione potrebbe essere “tasso di risposta” (la frequenza con cui GenAI risponde direttamente a una domanda); per la generazione di codice, la metrica potrebbe essere “la frazione dei codici generati che sono direttamente eseguibili” (se il codice generato può essere eseguito direttamente in un ambiente di programmazione e supera i test unitari); per il ragionamento visivo, la metrica potrebbe essere “corrispondenza esatta” (se gli oggetti visivi generati corrispondono esattamente alla verità di riferimento) (Chen, Zaharia e Zou, 2023).

 

In sintesi, a un livello superficiale, GenAI è facile da usare; tuttavia, output più sofisticati richiedono input umano esperto e devono essere valutati criticamente prima dell’uso.

 

Implicazioni per l’istruzione e la ricerca

Sebbene il GenAI possa aiutare insegnanti e ricercatori a generare testo utile e altri output per sostenere il loro lavoro, non è necessariamente un processo semplice. Può richiedere molteplici iterazioni di un prompt prima di ottenere l’output desiderato. Una preoccupazione è che i giovani studenti, essendo per definizione meno esperti degli insegnanti, potrebbero accettare senza rendersene conto e senza un coinvolgimento critico un output del GenAI che è superficiale, inaccurato o addirittura dannoso.

 

1.4 Emergenza di EdGPT e le sue implicazioni

Dato che i modelli GenAI possono servire come base o punto di partenza per lo sviluppo di modelli più specializzati o specifici per un determinato dominio, alcuni ricercatori hanno suggerito che i GPT dovrebbero essere ribattezzati “modelli fondamentali” (Bommasani et al., 2021). Nell’ambito dell’istruzione, sviluppatori e ricercatori hanno iniziato a perfezionare un modello fondamentale per sviluppare l’ “EdGPT”. I modelli EdGPT sono addestrati con dati specifici per scopi educativi. In altre parole, l’EdGPT mira a perfezionare il modello derivato da grandi quantità di dati di formazione generale con quantità minori di dati specifici del settore dell’istruzione di alta qualità.

 

Ciò potrebbe dare all’EdGPT una maggiore capacità di supportare il raggiungimento delle trasformazioni elencate nella Sezione 4.3. Ad esempio, i modelli EdGPT mirati alla progettazione del curriculum possono consentire agli educatori e agli studenti di generare materiali educativi appropriati, come piani di lezione, quiz e attività interattive, che si allineano strettamente a un approccio pedagogico efficace e a obiettivi curriculari specifici e livelli di sfida per determinati studenti. Allo stesso modo, nel contesto di un coach per le competenze linguistiche in rapporto 1:1, un modello fondamentale raffinato con testi appropriati per una lingua specifica potrebbe essere utilizzato per generare frasi, paragrafi o conversazioni campione per l’allenamento. Quando gli studenti interagiscono con il modello, esso può rispondere con testo pertinente e grammaticalmente corretto al livello giusto per loro. Teoricamente, gli output dei modelli EdGPT potrebbero anche contenere meno pregiudizi generali o contenuti altrimenti contestabili rispetto a GPT standard, ma potrebbero comunque generare errori. È fondamentale notare che, a meno che i modelli GenAI sottostanti e l’approccio non cambino significativamente, l’EdGPT potrebbe ancora generare errori e presentare limitazioni in altri modi, come suggerimenti su piani di lezione o strategie didattiche. Pertanto, è ancora importante che gli utenti principali dell’EdGPT, specialmente insegnanti e studenti, adottino un punto di vista critico su qualsiasi output.

 

Attualmente, il perfezionamento dei modelli fondamentali per un utilizzo più mirato di GPT nell’istruzione è ancora in una fase iniziale. Gli esempi esistenti includono EduChat, un modello fondamentale sviluppato dalla East China Normal University per fornire servizi per l’insegnamento e l’apprendimento, il cui codice, dati e parametri sono condivisi come open source. Un altro esempio è MathGPT sviluppato dal TAL Education Group – un LLM che si concentra sulla risoluzione di problemi e sulla didattica legata alla matematica per gli utenti in tutto il mondo.

 

Tuttavia, prima che si possa fare progressi significativi, è essenziale dedicare sforzi al perfezionamento dei modelli fondamentali non solo attraverso l’aggiunta di conoscenze specifiche della materia e la rimozione di pregiudizi, ma anche attraverso l’aggiunta di conoscenze sui metodi di apprendimento pertinenti e su come questo può essere riflesso nella progettazione di algoritmi e modelli. La sfida sta nel determinare fino a che punto i modelli EdGPT possano andare oltre le conoscenze delle materie per mirare anche a pedagogie centrate sugli studenti e a interazioni positive tra insegnanti e studenti. La sfida successiva è determinare fino a che punto i dati degli studenti e degli insegnanti possano essere raccolti ed utilizzati eticamente per informare un EdGPT. Infine, è anche necessaria una robusta ricerca per garantire che l’EdGPT non violi i diritti umani degli studenti né indebolisca gli insegnanti.


 

traduzione libera in italiano tramite
Google BARD, Chat GPT, Perpelixity.ai


Guidance for generative AI in education and research (english version)



TRADUZIONE INTEGRALE (PDF)


capitolo 1 Cos’è l’intelligenza artificiale generativa e come funziona
UNESCO Guida all’intelligenza artificiale generativa per l’istruzione e la ricerca

capitolo 2 Controversie riguardo all’IA generativa e le loro implicazioni per l’istruzione
UNESCO Guida all’intelligenza artificiale generativa per l’istruzione e la ricerca

capitolo 3 Regolamentare l’uso dell’IA generativa nell’istruzione
UNESCO Guida all’intelligenza artificiale generativa per l’istruzione e la ricerca

capitolo 4 Verso un quadro politico per l’uso dell’IA generativa nell’istruzione e nella ricerca
UNESCO Guida all’intelligenza artificiale generativa per l’istruzione e la ricerca

capitolo 5 Agevolare l’uso creativo di GenAI nell’istruzione e nella ricerca
UNESCO Guida all’intelligenza artificiale generativa per l’istruzione e la ricerca

capitolo 6 GenAI e il futuro dell’istruzione e della ricerca
UNESCO Guida all’intelligenza artificiale generativa per l’istruzione e la ricerca

Conclusioni
UNESCO Guida all’intelligenza artificiale generativa per l’istruzione e la ricerca



TRADUZIONE INTEGRALE (PDF)