ChatGPT: come siamo arrivati a ChatGPT 4 Turbo
GPT-3 è un modello linguistico sviluppato da OpenAI, cioè la stessa azienda che poi avrebbe lanciato qualche anno dopo ChatGPT. Un'azienda finanziata, una startup focalizzata al 100% sull'intelligenza artificiale e finanziata con i soldi di Microsoft prevalentemente. Nata nel 2015, un documento firmato da 9 finanziatori ne indica la missione: salvare l'umanità dall'intelligenza artificiale malevola. La storia di OpenAI è intrinsecamente legata alla crescente consapevolezza dei potenziali impatti dell'IA sulla società e alla necessità di guidare lo sviluppo tecnologico in direzioni etiche e responsabili.
Analizziamo schematicamente le differenze tra le varie versioni.
ChatGPT 1
- Data di Rilascio: Introdotta inizialmente nel 2019.
- Parametri: Composta da 117 milioni di parametri.
- Comprensione Contestuale: Capacità di comprendere e generare risposte coerenti, ma con limitate competenze nella gestione di conversazioni complesse.
ChatGPT 2
- Data di rilascio: lanciata nel 2019.
- Parametri: Significativamente più grande di ChatGPT-1, con 1.5 miliardi di parametri.
- Comprensione contestuale: Miglioramento significativo nella generazione del testo, con la capacità di affrontare conversazioni più lunghe e complesse. Tuttavia, occasionalmente produceva risposte non coerenti.
ChatGPT 3
- Data di rilascio: rilasciata nel 2020.
- Parametri: Enormemente potenziata, con 175 miliardi di parametri.
- Comprensione contestuale: Un salto qualitativo nella capacità di comprensione e risposta. In grado di gestire conversazioni estese, risolvere problemi complessi e svolgere un'ampia varietà di compiti linguistici. La diversità e la qualità delle risposte sono notevolmente migliorate rispetto alle versioni precedenti.
Ritorniamo agli inizi. L'idea di creare OpenAI è emersa da un gruppo di visionari, tra cui Elon Musk, Sam Altman, Greg Brockman, Ilya Sutskever e altri, preoccupati per il possibile sviluppo di un'IA potenzialmente pericolosa se non adeguatamente controllata. Con un finanziamento iniziale di 1 miliardo di dollari da parte dei suoi co-fondatori, OpenAI è stata istituita come organizzazione senza scopo di lucro per garantire che i suoi sforzi fossero orientati verso il bene comune anziché verso interessi privati.
Negli anni successivi alla sua fondazione, OpenAI ha svolto un ruolo chiave nella ricerca sull'IA avanzata, pubblicando lavori di rilievo e partecipando a competizioni di intelligenza artificiale. Nel 2016, OpenAI ha rilasciato la sua prima versione di un modello di lingua naturale avanzato chiamato "GPT-1" (Generative Pre-trained Transformer), che ha dimostrato capacità sorprendenti nel generare testi coerenti e significativi.
Il successo di GPT-1 ha spinto OpenAI a continuare a investire nella ricerca sull'IA, portando allo sviluppo di modelli successivi come GPT-2 e GPT-3. Quest'ultimo, rilasciato nel 2020, è diventato uno dei modelli di lingua naturale più potenti e versatili mai creati, in grado di eseguire una vasta gamma di compiti, dal generare testo creativo alla risoluzione di problemi matematici complessi.
Tuttavia, la crescita di OpenAI non è stata priva di sfide. Il bilancio e la gestione delle risorse sono sempre state questioni critiche, data l'entità ambiziosa delle ricerche e lo sviluppo di modelli sempre più complessi. Nel corso degli anni, OpenAI ha anche adottato un approccio più bilanciato rispetto alla sua iniziale posizione "non-profit", cercando partnership commerciali e adottando un modello di business che comprende anche l'offerta di servizi basati sulla tecnologia sviluppata.
L'organizzazione ha anche affrontato le crescenti preoccupazioni etiche legate all'IA, impegnandosi a garantire l'accessibilità e l'utilizzo responsabile delle sue tecnologie. OpenAI ha sviluppato politiche di sicurezza e controllo per mitigare il rischio di abusi delle sue creazioni, lavorando anche a stretto contatto con altre organizzazioni e enti regolatori per promuovere standard etici nell'industria dell'IA.
Nel corso degli anni, OpenAI è diventata una figura centrale nel dibattito sull'IA, contribuendo a plasmare le direzioni future della ricerca e dell'applicazione dell'intelligenza artificiale. La sua storia è un esempio di come un gruppo di individui preoccupati per l'impatto sociale di una tecnologia potente abbia cercato di guidarne lo sviluppo in modo etico e responsabile. OpenAI ha pubblicato nel maggio del 2020 un documento che descriveva le potenzialità e il rilascio di questo nuovo modello linguistico chiamato GPT-3, che veniva dopo GPT-2 e GPT-1. Da luglio del 2020 ha consentito l'accesso a questo modello ad alcuni beta tester tramite un'interfaccia di programmazione, un API.
Il modello è stato quindi utilizzato per generare testi, scrivere giochi di ruolo, oppure creare anche delle semplici applicazioni dotate di pochi pulsanti, comunque qualcosa di molto semplice dal punto di vista della programmazione, ma comunque innovativo perché per la prima volta non venivano sviluppate da un programmatore umano. Quindi facciamo un po' di contesto. Negli ultimi dieci anni precedenti al rilascio di GPT-3 le reti neurali profonde, le cosiddette DNN, Deep Neural Network, erano diventate onnipresenti nel campo dell'elaborazione del linguaggio naturale, il cosiddetto Natural Language Processing, NLP. Può capitare di trovare questa sigla parecchie volte parlando dei vari modelli di linguaggio. Anche perché e qual è il motivo di questa diffusione? Perché i modelli naturali di linguaggio naturale, diciamo gli NLP precedenti all'applicazione delle reti neurali profonde, erano poco performanti. Ricordo i primi anni di Google Translate, l'applicazione che oggi quasi tutti utilizzano per fare la traduzione istantanea in decine di linguaggi.
All'inizio, quando era stato rilasciato, parliamo del 2010 più o meno, le traduzioni automatiche generavano frasi piene di errori e piene di incoerenze. Questo è stato vero fino a quando i ricercatori dei modelli di linguaggio di processazione naturale hanno abbracciato le reti neurali profonde. Per un po' sembrava che questo approccio fosse promettente. La prima e più importante innovazione portata da queste reti neurali era generare delle rappresentazioni vettoriali delle parole. Quindi in pratica, invece di usare la parola stessa in un algoritmo di apprendimento automatico, l'idea era di rappresentare prima le parole come dei vettori matematici, come è stato descritto in un bellissimo paper chiamato Word2Vec, che è uscito nel 2013. I vettori di parole avevano delle proprietà importanti, che hanno eccitato moltissimi ricercatori che lavoravano in quell'ambito.
La seconda innovazione è stata l'uso delle reti neurali ricorrenti per leggere le frasi, cosiddetti RNN, Recurrent Neural Network. Gli RNN avevano il vantaggio di ricevere sequenze di parole arbitrariamente lunghe e mantenere una certa coerenza nel lungo periodo. Un altro paper, il Sequence to Sequence uscito nel 2014, ha reso molto popolare questo approccio nella traduzione automatica. Dal 2016 Google è passato dal precedente motore di traduzione automatica statica a un nuovo motore di traduzione automatica neurale, sfruttando appunto i progressi nel natural language processing delle reti neurali ricorrenti.
Le cose hanno iniziato nuovamente a cambiare nel 2017 perché un team di ricercatori del gruppo Google Brain e della Università di Toronto ha pubblicato un altro paper, un documento che ha introdotto l'architettura del Transformer. La nuova architettura è stata significativa perché ha consentito la creazione di reti neurali molto più complesse e profonde, che inizialmente venivano applicate alla visione artificiale, all'interpretazione delle immagini, ma che presto sono state trasferite ai modelli di natural language processing.
Grazie alla capacità del trasformatore di adattarsi a reti profonde, i team hanno iniziato a pubblicare modelli testuali sempre più grandi. Se siamo partiti dal BERT di Google con 110 milioni di parametri, seguito da BERT Large, sempre di Google, che ha stabilito un record di prestazioni avendo 340 milioni di parametri, polverizzato successivamente da Control di Salesforce, che era un enorme modello con 1,6 miliardi di parametri. La maggior parte di questi modelli sono modelli di linguaggio cosiddetto autocorrelativo. Cosa significa? Significa che, data una frase, loro cercano di prevedere quale dovrebbe essere la parola successiva. Oppure ci sono anche modelli maschera, cosiddetti modelli maschera, in cui una frase, in una frase in cui una parola casuale viene mascherata, loro cercano di prevedere quale dovrebbe essere il significato di quella parola.
Questo approccio si presta piuttosto bene al controllo, il modello non ha bisogno di alcuna etichetta generata dall'uomo. ma può imparare da solo qualsiasi testo. I modelli basati sui trasformatori hanno cambiato l'NLP, il campo di ricerca dell'NLP. Ad esempio, il modello BERT di Google è stato pre-addestrato su un corpus di testi molto molto ampio, rappresentato dalla maggior parte di Wikipedia, utilizzando un cluster di processazione, di analisi dei dati, di unità di processazione centrale ad altissime prestazioni. Prea-ddestrato poteva essere incorporato in una specifica attività.
Per cui ecco i modelli di trasformatori basati sul trasformatore hanno questo costo, questo problema, ci sono così tanti parametri su così tanti dati che la velocità di allenamento progredisce molto molto molto lentamente. I ricercatori richiedono quindi una grande potenza di computazione cloud su infrastrutture che solo giganti come Google o Microsoft possono mettere a disposizione. Anche per l'attività ma avalla della messa a punto, la formazione richiede migliaia di campioni e computer potenti con unità di processazione grafica, unità di CPU all'avanguardia e non accessibili a soggetti che non siano appunto quei giganti della tecnologia che vi ho nominato in precedenza.
In questo senso, GPT-1, GPT-2 e GPT-3 possono essere considerati i modelli di tipo trasformatore. Infatti, i modelli di OpenAI in realtà non proponevano una innovazione rivoluzionaria all'inizio, la differenza è principalmente la scala, perché GPT-1 aveva 110 milioni di parametri, che sono gli stessi parametri di BERT di Google. Poi passando a GPT-2, invece, siamo passati a 1,6 miliardi di parametri. E il modello era così bravo a generare un testo coerente che OpenAI all'inizio si rifiutò di rendere i pesi e il codice dietro a GPT-2 open source. Perché c'erano preoccupazioni sulla diffusione di fake news che sarebbero state create in modo così perfetto dal modello. da essere credibili e assolutamente pericolose se messe nelle mani sbagliate.
Poi è arrivato GPT-3, finalmente il soggetto della nostra lezione, che ha 175 miliardi di parametri, una cifra esorbitante per quell'epoca. Stiamo parlando di un'epoca appena passata, solo dieci anni fa, e già in questo breve lasso temporale siamo in grado di definirla come passata. Per capire la grandiosità dietro questa scala, questo processo scalare, del numero di parametri, si può considerare che Lambda Lab stimi che sarebbero necessari almeno 350 anni e 5 milioni di dollari per eseguire una singola sessione di formazione sul cloud più economico del mercato per allenare il modello con i parametri che alimentano GPT-3. La novità principale di GPT-3 è stata la sua scalabilità, un'impresa che ha cambiato radicalmente il panorama dell'intelligenza artificiale. Nel documento che OpenAI ha presentato a maggio 2020, portando GPT-3 alla conoscenza del pubblico, si sottolinea che la grande innovazione sta nel fatto che non è necessaria una messa a punto specifica. Il modello può eseguire ciò che è noto come apprendimento zero shot o few shot.
Gli esseri umani applicano questo tipo di apprendimento fin dalla nascita. Quando vediamo un compito o lo eseguiamo alcune volte, impariamo a farlo. Ad esempio, impariamo a cucinare. Anche se non sappiamo cucinare inizialmente, con il tempo, attraverso tentativi ripetuti, diventiamo capaci di cucinare un piatto specifico. Questo è simile al modo in cui i bambini imparano la maggior parte delle cose, inclusa la lingua parlata. Tuttavia, questo tipo di apprendimento non era replicabile nei modelli di intelligenza artificiale fino a GPT-3. Per la prima volta, GPT-3 dimostra la capacità di apprendere nuovi compiti partendo da pochi o addirittura nessun esempio, introducendo il concetto di few shot o zero shot learning. Questa è una differenza fondamentale tra l'uomo e la macchina, e GPT-3 ha abbattuto questa barriera in modo innovativo.
Un risultato ulteriore e intrigante di GPT-3 è il suo approccio. Nell'apprendimento automatico, la saggezza convenzionale sostiene che un modello debba essere addestrato per un'attività specifica e sarà in grado di eseguire solo quella particolare attività, il cosiddetto modello di intelligenza ristretta. Un esempio noto è AlphaGo. Tuttavia, GPT-3 sfida questa convenzione. Anche se è stato addestrato come modello linguistico, quando è stato reso disponibile per gli sviluppatori e i beta tester, ha dimostrato sorprendentemente la capacità di scrivere codice in linguaggio JavaScript, una competenza per cui non era stato specificamente addestrato. Questa inaspettata capacità ha stupito persino gli stessi ricercatori di OpenAI.
La domanda fondamentale è se GPT-3 possa essere considerato un passo verso l'intelligenza artificiale forte. Certamente no, non rappresenta un'intelligenza artificiale forte o generale. Tuttavia, è un primo passo significativo. Gli oppositori sottolineavano che le prestazioni di GPT-3 erano in ritardo rispetto a sistemi specializzati, ad esempio, un modello addestrato specificamente per scrivere codice. Ma l'innovazione qui è che GPT-3 è il primo modello di intelligenza artificiale capace di svolgere una vasta gamma di attività senza una formazione specifica, aprendo la strada all'idea di un'intelligenza artificiale generale. È un passo avanti che merita attenzione.
Quanto alla sua posizione nella storia, potrebbe essere che un giorno, nel futuro più o meno lontano, GPT-3 sia esposto in un museo globale, custodito in una teca e venerato come il documento fondatore di quello che chiamiamo il futuro. Questa lezione è dedicata a GPT-3, il modello che ha segnato un punto di rottura. Secondo la mia personale previsione, GPT-3 rappresenta quel momento in cui la curva, inizialmente orizzontale, comincia a diventare verticale, segnando l'inizio dell'esplosione verso l'intelligenza artificiale generale.
ChatGPT è un chatbot basato su intelligenza artificiale e apprendimento automatico sviluppato da OpenAI specializzato nella conversazione con un utente umano. La sigla GPT sta per Generative Pre-trained Transformer, ovvero "trasformatore generativo pre-addestrato".
Cosa è cambiato con ChatGPT 4 Turbo ?
È possibile costruire un GPT, una versione personalizzata di ChatGPT, per quasi tutto. Dal momento che combinano istruzioni, conoscenze ampliate e azioni, possono essere più utili all'utente.
Rilasciato nel 2022, GPT-4 rappresenta una significativa evoluzione rispetto alle sue precedenti iterazioni. Con un numero impressionante di parametri, offre una comprensione del linguaggio naturale estremamente avanzata, superando le limitazioni delle versioni precedenti. La sua architettura potenziata consente una generazione del testo più coerente, creativa e contestualmente rilevante. GPT-4 eccelle in una vasta gamma di compiti linguistici, dall'elaborazione di conversazioni complesse alla risoluzione di problemi e alla creazione di contenuti di alta qualità. La sua versatilità e capacità di adattamento alle esigenze specifiche del contesto lo rendono una risorsa preziosa per applicazioni che richiedono un'interazione intelligente e comprensiva con il linguaggio naturale.
Ecco una spiegazione più dettagliata delle sue caratteristiche tecniche:
Architettura Trasformatrice: GPT-4 si basa sull'architettura trasformatrice, che è stata introdotta da OpenAI. Questa architettura è nota per la sua capacità di catturare relazioni a lungo termine nel testo, permettendo al modello di comprendere il contesto in modo più approfondito rispetto a architetture precedenti.
Dimensioni del modello: GPT-4 ha un numero impressionante di parametri, che possono essere nell'ordine di centinaia di miliardi. Un modello più grande consente una maggiore complessità e profondità nella rappresentazione del linguaggio, migliorando la sua capacità di apprendimento e generazione di testo.
Pre-train e fne-tuning: come suggerisce il nome, GPT-4 è pre-trainato su grandi dataset di testo prima di essere messo in uso. Questo processo di pre-train gli consente di imparare la struttura del linguaggio e i modelli di associazione tra parole. Successivamente, il modello può essere affinato (fine-tuning) su dataset più specifici o compiti particolari per ottimizzare le sue prestazioni in contesti specifici.
Generazione del testo: GPT-4 eccelle nella generazione di testo coerente e contestualmente rilevante. Può essere utilizzato per creare articoli, rispondere a domande, scrivere codice e svolgere una vasta gamma di attività legate al linguaggio naturale.
Comprensione contestuale: una delle caratteristiche distintive di GPT-4 è la sua capacità di comprendere il contesto in modo più avanzato rispetto alle versioni precedenti. Ciò si traduce in una migliore gestione delle conversazioni complesse, consentendo risposte più accurate e coerenti.
Applicazioni Multidisciplinari: GPT-4 è progettato per essere utilizzato in una varietà di settori, tra cui assistenza virtuale, generazione di contenuti, supporto decisionale, e altro ancora. La sua versatilità lo rende adatto a una vasta gamma di applicazioni che richiedono comprensione e produzione di linguaggio naturale avanzato.
In sintesi, le caratteristiche tecniche di GPT-4 includono la sua architettura trasformatrice avanzata, dimensioni del modello significative, pre-train e fine-tuning, generazione del testo di alta qualità e una comprensione contestuale avanzata, rendendolo uno dei modelli più potenti per il trattamento del linguaggio naturale.
Da ChatGPT 4 a ChatGPT 4 Turbo
Il 6 novembre 2023 è una data che segna un capitolo importante nella storia dell'intelligenza artificiale. Durante l'OpenAI DevDay a San Francisco, Sam Altman, amministratore delegato di OpenAI, ha rivelato al mondo l'ultima innovazione nel campo: ChatGPT 4 Turbo. Questa nuova versione promette di portare l'esperienza dell'utente a un livello superiore, introducendo caratteristiche rivoluzionarie che spaziano dalla lunghezza del contesto alla riduzione dei costi delle API.
Limiti superati
Il limite di token è uno degli aspetti fondamentali che definiscono le capacità di un modello linguistico, e ChatGPT 4 Turbo lo supera brillantemente. Con ben 128.000 token, questo nuovo modello è in grado di gestire il contenuto equivalente a un intero libro di 300 pagine. A confronto, il suo predecessore, GPT-4, poteva gestire poco più di 8.000 token. Questa espansione della capacità di contesto è una svolta significativa, permettendo conversazioni più lunghe e dettagliate.
Velocità e dati aggiornati
La velocità è un'altra area in cui ChatGPT 4 Turbo si distingue. Rispetto al suo predecessore, il nuovo modello è notevolmente più veloce, offrendo un'esperienza utente più fluida e reattiva. Inoltre, i dati di training di ChatGPT 4 Turbo sono stati aggiornati ad aprile 2023, garantendo risposte e informazioni aggiornate. La promessa di costanti aggiornamenti da parte di OpenAI suggerisce che questo modello sarà sempre all'avanguardia.
Riduzione dei costi delle API
Uno degli annunci più accattivanti riguarda la significativa riduzione dei costi delle API di ChatGPT 4 Turbo. Con una riduzione del 3x per i token in input e del 2x per quelli in output, OpenAI dimostra un impegno tangibile nel rendere l'accesso a questa potente tecnologia più accessibile. Questo potrebbe avere un impatto significativo su settori come il marketing, dove l'utilizzo di modelli di linguaggio può essere intensivo.
Personalizzazione e GPT
Un altro aspetto cruciale dell'annuncio è la possibilità di creare versioni personalizzate di ChatGPT utilizzando le GPT (Generative Pre-trained Transformer). Queste GPT possono essere adattate a una vasta gamma di contesti, professionali e non. La facilità con cui gli utenti possono costruire le proprie GPT, senza necessità di competenze di programmazione, apre le porte a innumerevoli possibilità di utilizzo. Ad esempio, le GPT potrebbero essere utilizzate per imparare le regole di giochi da tavolo, insegnare matematica o creare assistenti virtuali personalizzati.
Reproducible outputs e controllo maggiore
Una delle caratteristiche più interessanti di ChatGPT 4 Turbo è la funzione Reproducible Outputs. Questa opzione consente agli utenti di passare un parametro di seme per ottenere output coerenti, offrendo un maggiore controllo sul comportamento del modello. Inoltre, la modalità JSON permette una protezione più avanzata e una migliore gestione delle chiamate API, fornendo agli sviluppatori un controllo più granulare.
Considerazioni fnali
ChatGPT 4 Turbo rappresenta senza dubbio un passo avanti significativo nel mondo dell'intelligenza artificiale. L'espansione dei limiti di token, la velocità migliorata e la riduzione dei costi delle API rendono questa nuova versione estremamente attraente per una vasta gamma di utenti, dal marketing all'educazione e oltre. La possibilità di personalizzare ulteriormente il modello attraverso le GPT apre la strada a nuovi scenari di utilizzo, mentre la maggiore sicurezza e privacy mostrano l'attenzione di OpenAI a questioni cruciali.
Tuttavia, è importante sottolineare l'aspetto etico e di sicurezza quando si tratta di modelli di linguaggio avanzati come ChatGPT 4 Turbo. OpenAI sembra affrontare queste preoccupazioni implementando controlli sulla privacy e nuovi sistemi per evitare utilizzi dannosi. La volontà di difendere i clienti da potenziali problemi legali legati al copyright dimostra una responsabilità crescente da parte di OpenAI nel garantire un utilizzo etico della sua tecnologia.
In conclusione, ChatGPT 4 Turbo si presenta come un'evoluzione eccitante e promettente nel campo dell'IA linguistica, aprendo nuove possibilità e sollevando importanti considerazioni etiche.
Letture consigliate
The inside story of how ChatGPT was built from the people who made it
Storia di OpenAI, la società fondata da Musk e Altman dietro il fenomeno ChatGPT
ChatGPT: come funziona l’intelligenza artificiale educata che scrive temi e risolve equazioni
Il dietro le quinte di ChatGPT: come è stato creato
The messy, secretive reality behind OpenAI’s bid to save the world
Il giorno che cambiò (per sempre) la storia di ChatGPT
A Short History Of ChatGPT: How We Got To Where We Are Today
La storia incredibile di ChatGPT: gli enormi risultati dalla sua creazione
Sequence to Sequence Learning with Neural Networks
New models and developer products announced at DevDay
Tutti potranno costruirsi un ChatGPT su misura
Come utilizzare ChatGPT e l’AI generativa per la tua strategia di marketing