Intelligenza artificiale: predire e generare

Un caffè tra ex colleghi può diventare l’occasione di un confronto su potenzialità e limiti dei diversi tipi di IA. Sediamoci dunque al tavolino del bar per seguire il dialogo tra l’informatica Alice e il consulente Bob

Bob: «Allora, di cosa ti occupi adesso? Non dirmi che fai ancora applicazioni web per la finanza come dieci anni fa!»
Alice: «Ma no! Secondo te di cosa si può occupare un’informatica oggi?»
Bob: «Vabbè, ma tu mica sei una “informatica”, sei il direttore tecnico di un’azienda. Comunque fammi indovinare…Intelligenza artificiale?»
Alice: «Ahahah, sei un mago! Come hai fatto?»
Bob: «L’ho predetto, come facevano i programmi che vendevamo dieci anni fa.»
Alice: «Eh sì, al tempo lavoravamo sull’intelligenza artificiale predittiva: addestravamo una rete neurale usando un dataset composto da domande e dalle loro risposte corrette. La rete provava a rispondere a ogni domanda e, confrontando la sua risposta con quella giusta, correggeva gli errori. Ripetendo questo processo molte volte, sbagliava sempre di meno, fino a quando potevamo metterla in produzione sui sistemi dei nostri clienti. Insomma, era un’intelligenza artificiale che imparava a fare predizioni molto difficili per un essere umano, tenendo conto del gran numero di dati su cui era stata allenata.»
Bob: «Dai, sarò invecchiato, ma queste cose ancora me le ricordo. E non è la stessa cosa che fa adesso ChatGPT?»
Alice: «Non proprio, ti spiego meglio. Ricordi quel progetto per classificare i testi dei lanci prodotti dalle agenzie di informazione finanziaria Reuters e Bloomberg? Reuters aveva pubblicato un enorme database dove c’erano queste brevi frasi e toccava dire di quali argomenti parlassero.»
Bob: «Certo che mi ricordo, non sono così rimbambito. Tu e Carlo avevate messo in piedi quel programma che scomponeva un lancio di agenzia nella sequenza delle sue parole, contava il numero di volte che ogni parola appariva e poi, zac!, tirava fuori una classifica di possibili argomenti dei quali parlava la notizia. E ci prendevate almeno 8 volte su 10!»
Alice: «Non era un programma, ma un servizio web che inviava una richiesta a un server centrale dove avevamo piazzato un motore di calcolo con una rete neurale profonda che poi restituiva la risposta…»
Bob: «Uff, sei sempre stata troppo attenta ai dettagli. Insomma, quella roba là è come ChatGPT.»
Alice: «ChatGPT non fa nulla di quel che facevamo noi!»
Bob: «Ma come? Ho letto che ha una rete neurale…»
Alice: «Sì, ma usata in modo diverso: in pratica, prende un testo e prova a predire la sequenza di parole che è probabile che possa seguire quel testo. Per esempio, se ti dico “C’è una tigre che sta…”, tu come completeresti la frase?»
Bob: «Boh! “Facendo le fusa”? “Divorando un’antilope”? “Dormendo sbracata sotto gli alberi”?»
Alice: «Ecco, hai fatto come ChatGPT. Non hai contato la frequenza delle parole nella mia frase, anzi: sei stato attentissimo all’ordine delle parole. Hai risposto basandoti sul soggetto della frase, “una tigre”, e cercando le associazioni con questo termine a te note per i documentari che hai visto o i libri che hai letto (conoscendoti, essenzialmente Sandokan). Comunque, detto fra noi, non so se facciano le fusa.»
Bob: «Aspetta che lo chiedo a ChatGPT… No, dai, sto scherzando. Però non ho capito: questi Large Language Model, come ChatGPT e Gemini, non sono fatti di profondissime reti neurali?»
Alice: «Certo. Le loro reti neurali contengono una quantità di parametri inimmaginabile, ma questi parametri sono alimentati da componenti interni della rete che in qualche modo riescono a scegliere le parole di una frase sulle quali porre più attenzione. Si tratta di un meccanismo che consente di selezionare le parole, o meglio i token (cioè pezzetti di parole), sui quali concentrare maggiormente l’attenzione della rete per ottenere una rappresentazione interna del significato delle parole che compongono la frase.»
Bob: «In che senso il significato? Non stiamo parlando solo di simboli?»
Alice: «Non proprio, fra un minuto te lo spiego. Prima devi sapere che l’addestramento di questi modelli linguistici non necessita di dati preparati, classificati a priori, ma solo di tantissimi esempi di testo: poi sono loro a esercitarsi autonomamente sul testo fino a capire il significato di parole e frasi, basandosi sulla relazione di prossimità delle parole che le formano.»
Bob: «Prossimità? Cioè, se due parole sono vicine hanno lo stesso significato?»
Alice: «Non proprio. Diciamo che come tu hai associato il termine “tigre” alle fusa feline, al cibarsi di antilopi e al dormire tutto il giorno sotto gli alberi, così questi modelli linguistici vanno a pescare le parole in certe “nuvole semantiche”, dove parole di una stessa nuvola appartengono allo stesso contesto semantico. Che poi, equi rispondo alla tua domanda di prima, mica lavorano realmente sulle parole, sui simboli. Prima c’è una fase in cui le parole sono analizzate con reti neurali vecchio stile, per trasformarle in punti di uno spazio cartesiano con un numero altissimo di dimensioni, in modo che, visti dall’origine dello spazio, punti che sembrano vicini denotano parole che hanno un significato simile. Poi, le coordinate di questi punti e altre informazioni numeriche sono passate a una enorme batteria di reti neurali che le elabora e la risposta è riconvertita in testo.»
Bob: «Ho capito, cioè, a parte ‘sta roba delle dimensioni… Ma quindi questi programmi collocano i dati in uno spazio geometrico e poi usano la geometria analitica, tipo l’equazione della retta e della parabola che facevamo a scuola,  per codificare parole in punti e quindi punti in sequenze di numeri. Le loro coordinate, come dici tu.»
Alice: «Bravo, sono fiera di te! Alla fine hai sempre fatto la parte di quello che di tecnica non capisce niente, ma riesci sempre ad arrivare al punto.»
Bob: «È che non mi fermo ai dettagli…»
Alice: «Adesso hai capito la differenza fra le IA predittive che vendevamo alle banche e quelle generative che invece dobbiamo comprare come servizi dalle Big Tech?»
Bob: «Ho capito che ai vecchi tempi riuscivamo a combinare qualcosa con le nostre forze e potevamo persino venderlo al cliente blindato dentro la sua infrastruttura informatica. Ora le soluzioni di IA generativa comportano sempre l’acquisto di un servizio da parte dei vari OpenAI e compagnia bella. È tutto un gran giro di soldi, altro che di token, e per giunta non ne abbiamo il minimo controllo.»
Alice: «Però i risultati sonoincredibili e nessuno vorrebbe mai tornare ai vecchi sistemi quando possiamo avere servizi ai quali parliamo in italiano, che scrivono programmi, relazioni, riassunti e documentazione per noi.»
Bob: «Ah, non me lo dire! Io ormai le proposte economiche per i clienti me le faccio scrivere da ChatGPT. Ma il prezzo ce lo metto sempre io…»

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Dimensione massima del file: 50MB Formati consentiti: jpg, gif, png Rilascia il file qui