Cerca
Close this search box.

Gemini, per la nuova risposta di Google a ChatGpt l’Europa dovrà aspettare

sundar pichai google alphabet

Una nuova risposta di Google a OpenAI è arrivata, e la corsa all’AI generativa si è riaperta. La holding di Google, Alphabet, ha presentato Gemini, un modello di intelligenza artificiale in grado di capire e usare informazioni sotto diverse forme (testo, codice, audio, immagini, video) e di funzionare ovunque, dai cellulari ai data center in base al modello.

Questi ‘livelli’ di potenza ed efficienza sono tre: Gemini Ultra, la versione più grande, Gemini Pro, che finirà nel Bard presentato a inizio anno, e Gemini Nano per gli smartphone.

“Stiamo facendo il passo successivo nel nostro viaggio” nell’intelligenza artificiale generativa “con Gemini, il nostro modello più capace, con prestazioni all’avanguardia in molti benchmark”, ha riassunto il Ceo di Alphabet, Sundar Pichai. Ultra, Pro e Nano “sono i primi modelli dell’era Gemini e la prima realizzazione della visione che abbiamo avuto quando abbiamo formato Google DeepMind all’inizio di quest’anno”, dice. “Questa nuova era di modelli rappresenta uno dei più grandi sforzi scientifici e ingegneristici che abbiamo intrapreso come azienda. Sono sinceramente entusiasta per quello che ci aspetta, e per le opportunità che Gemini aprirà per le persone”.

Gemini, decisiva la versione Ultra

Dopo l’annuncio della sua nuova creatura il titolo di Alphabet guadagna il 2% nel pre-market, dopo la flessione di ieri. Una risposta positiva dei mercati alla strategia del gigante americano sarebbe un buon modo per chiudere un 2023 in cui l’AI generativa ha influito più volte sulle quotazioni dell’azienda. Quando Bard, a inizio anno, ha dato una risposta sbagliata a una domanda, le conseguenze per il prezzo delle azioni dell’azienda sono state particolarmente negative. Il lancio di Bard a inizio anno è stato definito affrettato dallo stesso Pichai, avrebbe riportato la Cnbc. Ora con Gemini (soprattutto con la versione Ultra, che ancora non è stata rilasciata) Mountain view cerca di risollevare le prospettive dell’azienda, che sulla sua nuova arma nella corsa all’intelligenza artificiale ha detto molto, ma non tutto.

Rispetto a Bard, anche con Gemini Alphabet ha confermato il suo approccio con l’Europa, che potrà giocare con Gemini sul chatbot di Google dopo la maggior parte del resto del mondo, anche se non è ancora stato specificato quando.

Nel caso di Bard, alla base del rinvio della distribuzione in Europa ci sarebbero state le preoccupazioni sul Gdpr, il regolamento europeo sulla privacy. In quel caso in realtà c’era anche stato un alt della Dpc, la data protection commission irlandese. Il lancio di Gemini è arrivato proprio mentre in Europa si svolgono le discussioni tra istituzioni sull’AI Act dell’Unione.

 

Gemini, un approccio flessibile

Come detto, quello che caratterizza Gemini è un approccio flessibile. Grazie ai tre diversi livelli di potenza, potrà essere usato sia sui data center che sui dispositivi mobili.

“Le sue funzionalità all’avanguardia miglioreranno in modo significativo il modo in cui gli sviluppatori e i clienti aziendali costruiscono e scalano con l’intelligenza artificiale”, dice Demis Hassabis, Ceo e co-founder di Google DeepMind. I livelli sono quindi tre: Gemini Ultra, il modello più grande e creato per compiti altamente complessi. Gemini Pro, il modello che verrà incluso inizialmente in Bard. Gemini Nano, il modello più “efficiente” per le attività sui dispositivi mobili.

Bard e Gemini, un percorso a tappe

Mountain View ha pubblicato dei dati che mostrerebbero come il modello più grande abbia prestazioni migliori di Gpt-4, il modello pro di ChatGpt. Ma prima cerchiamo di capire quando Gemini sarà utilizzabile.

  • Gemini Pro: già adesso, Bard utilizza una versione ottimizzata di Gemini Pro per ragionamenti, pianificazione, comprensione. Insomma, si può utilizzare il nuovo modello tramite input testuali. Per il momento sarà disponibile in inglese in più di 170 Paesi e territori. Tra questi Paesi non c’è l’Italia e non c’è l’Europa. La diffusione “sarà allargata a più linguaggi e più territori, come l’Europa, nel prossimo futuro”, ha scritto Sissie Hsiao, vice president e Gm di Bard. La diffusione delle funzioni di Gemini continuerà nei prossimi mesi, passando da Google Search, da Chrome e Duet Ai, ma anche Ads. Una data da tenere a mente per aziende e sviluppatori è il 13 dicembre: tramite Google Ai Studio o Google Cloud Vertex AI si potrà accedere alle Api di Gemini Pro per implementarle nelle proprie applicazioni. Google dice di aver già iniziato a sperimentare Gemini per la funzione di ricerca in inglese, che è diventata del 40% più veloce.
  • Gemini Nano: con i dispositivi Pixel 8 Pro e con AICore, una capacità di sistema nuova di Android 14, si potrà lavorare anche sul modello di Gemini più piccolo per smartphone. Tra le nuove funzionalità, una di ‘riassunto’ nell’app registratore e una di ‘Smart reply’ per la messaggistica in Gboard, a partire da WhatsApp, con altre app di messaggistica in arrivo l’anno prossimo. Google ha aperto agli sviluppatori la possibilità di registrarsi per provare AiCore.
  • Gemini Ultra: per il momento, non ci sono date per il modello più potente di Gemini, anche se è stato riportato che non farà la sua comparsa prima di inizio 2024. Ma si sa che sempre nel 2024 verrà incluso in una versione avanzata di Bard, Bard Advanced. Sarà inoltre sul modello Ultra che Google dovrà decidere come giocare le sue carte dal punto di vista del modello ‘premium’ a pagamento di intelligenza artificiale generativa introdotto da ChatGpt con Gpt 4. Considerate le performance di Ultra, che supererebbero Gpt4, non stupirebbe se l’azienda introducesse un modello a pagamento per il chatbot.

La performance di Ultra rispetto a Gpt4

Google afferma che Gemini Ultra ha superato Gpt4 in 30 dei 32 test accademici utilizzati per valutare i large language models odierni.

In realtà, l’azienda ha superato anche gli umani: con un punteggio del 90%, Gemini Ultra è il primo modello a superare gli esperti umani in MMLU (massive multitask language understanding), il benchmarck che, per testare la conoscenza del mondo e le capacità di problem solving, combina 57 argomenti diversi: matematica, fisica, storia, legge, medicina ed etica.

A cosa serve l’approccio multimodale e la differenza con ChatGpt

“Il nostro nuovo approccio benchmark consente a Gemini di utilizzare le sue capacità di ragionamento per pensare più attentamente prima di rispondere a domande difficili, portando a miglioramenti significativi rispetto al semplice utilizzo della sua prima impressione”, dice Hassabis.

La differenza di questo approccio con modelli come Gpt è che un solo modello gestisce input diversi, mentre ChatGpt è in grado di farlo grazie al collegamento con altri sistemi, come Dall-E per le immagini.

Fino ad ora, l’approccio standard alla creazione di modelli multimodali prevedeva la cucitura di diversi componenti per “imitare approssimativamente alcune di queste funzionalità”, spiega Google. “Questi modelli possono a volte essere bravi a svolgere determinati compiti, come descrivere immagini, ma fanno fatica con un ragionamento più concettuale e complesso”. Invece Gemini, dice l’azienda, comprende e ragiona su tutti i tipi di input da zero.

Cosa può fare Gemini

Gemini può anche comprendere e generare codice in linguaggi di programmazione come Python, Java e C++. Può generare testi e immagini, combinandoli, e analizzare immagini, testi, video e audio. Questo non significa solo aggiungere input, ma comprendere meglio le informazioni “sfumate”, come le chiamano Google e Google Deepmind, e rispondere meglio alle domande sugli argomenti più complessi, come matematica e fisica.

 

 

ABBIAMO UN'OFFERTA PER TE

€2 per 1 mese di Fortune

Oltre 100 articoli in anteprima di business ed economia ogni mese

Approfittane ora per ottenere in esclusiva:

Fortune è un marchio Fortune Media IP Limited usato sotto licenza.