Seed Digital Logo
Google Gemini
Indice

Gemini, il nuovissimo modello AI di Google, tra verità e finzione

È ormai risaputo che, poco dopo i festeggiamenti per il primo anno di vita di Chat GPT, Google è entrato nella stanza a gamba tesa rubando la scena con il suo tanto discusso “Gemini”.

Andando oltre l’ultima gaffe di “abbellimento” dei dati da parte del gigante californiano, Gemini, comunque, si propone come un passo avanti potenzialmente rivoluzionario nei modelli basati sull’intelligenza artificiale.

Indice

Cosa sappiamo di Gemini?

 

Disclaimer: i test, così come le infinite capacità e possibilità delle quali parliamo nelle prossime righe, sono stati effettuati con Gemini ultra, non ancora disponibile all’uso pubblico.

Dai benchmark presentati nell’articolo ufficiale dedicato al tema, sembrerebbe che il nuovo modello linguistico di Google abbia superato l’utilizzatissimo GPT-4 di OpenAI in test di benchmark completi, dimostrandosi superiore sulla quasi totalità dei test.

Questo modello, a detta di Google stesso, è stato costruito da zero con lo scopo di essere un modello completo e multimodale, vale a dire, con la capacità di comprendere e combinare informazioni da diverse tipologie di input siano essi testi, codici, tracce audio, immagini o video.

Gemini arriva in 3 differenti configurazioni:

Gemini Ultra: il modello più grande e più performante, adatto ad attività molto complesse che arriverà il prossimo anno su Bard in quello che sarà il nuovissimo “Bard advanced”

Gemini Pro: il modello migliore per la scalabilità di un’ampia gamma di attività, già disponibile su Bard.

Gemini Nano: il modello più efficiente per le attività on-device che, non a caso, sarà proprio integrato nei nuovissimi Pixel 8.

 

I benchmark presentati da Google

La misurazione si basa sul  Measuring Massive Multitask Language Understanding un nuovo test per misurare l’accuratezza multitask di un modello testuale.

Questo test comprende 57 compiti che includono argomenti come la matematica elementare, la storia degli Stati Uniti, l’informatica, il diritto e altri. Per ottenere un’alta accuratezza su questo test, i modelli devono possedere una vasta conoscenza del mondo e capacità di risoluzione dei problemi.

 

Come se l’è cavata Gemini?  Stando a quanto visibile nella tabella di seguito, e come anticipato all’apertura di questo articolo, egregiamente.


 

Ma il video mostrato da Google non era Fake?

 

Sì o, meglio, ni.

Questa domanda rende obbligatorio fare chiarezza su cosa voglia dire, effettivamente, che il video era fake.

Non è inusuale per Google avvalersi di quella che, soprattutto nelle arti cinematografiche, viene detta “fix it in post” ossia l’utilizzo della post-produzione per migliorare l’apparenza di alcune performance.

Proprio questo è ciò che è stato fatto per il video di Gemini, oltre alla scelta precisa e calcolata delle domande che gli sono state poste; in pratica, è stato prima girato il video e successivamente è stato tagliato il tempo impiegato da Gemini per rispondere alle richieste dell’utente, dando così l’impressione che queste fossero simultanee e immediate.

Quindi si, il video di Gemini è un fake ma no, non perché non sappia fare quelle cose, ma perché non sa ancora farle così bene, da qui il ni a inizio paragrafo.

Sta di fatto che la scelta di Google è stata una scelta di dubbio gusto, non stupisce infatti che, molti utenti, vista la poca trasparenza del gigante californiano non si fidino molto di questo prodotto che, alla luce di questo fatto, sembra più una marchettata che un effettivo lancio di un prodotto fatto e finito.

Tuttavia, fatta questa premessa sul video, è comunque interessante comprendere ciò che Gemini può/potrà fare, vediamo quindi nel dettaglio, le divere aree testate.

 

Dettaglio delle aree testate: le prestazioni basate sul testo

 

Per quanto riguarda la misurazione delle prestazioni basate sul testo vengono presentati 3 benchmark:

  1. Ragionamento multistep (Big-Bench Hard) nel quale Gemini Ultra ha superato il GPT-4, dimostrando la sua capacità di seguire istruzioni complesse e di risolvere problemi a più fasi.
  2. Comprensione della lettura (DROP) dove, anche in questo caso, Gemini ha eccelso nella comprensione delle sfumature del testo, superando il GPT-4 nell’estrarre accuratamente le informazioni e nel rispondere a domande basate su brani di lettura.
  3. Ragionamento di senso comune per compiti quotidiani (HellaSwag), l’unico neo di questi risultati ottenuti, che allontana Gemini dal 30 e lode. In questo caso, infatti, è GPT-4 il vincitore che, per quanto riguarda il senso comune, supera gemini di quasi 7 punti percentuali.

Elaborazione multimediale: Immagini, audio e video

 

Dimenticandoci per un secondo lo scetticismo ormai radicato dovuto al video fake della paperella, le prestazioni di Gemini in termini di elaborazione multimodale hanno stabilito nuovi benchmark nell’intelligenza artificiale, portando la tecnologia un passo più vicino a simulare il complesso ragionamento umano.

Particolarmente impressionante è stata la sua maestria nei compiti legati alle immagini: non solo ha superato tutti i test, ma ha anche esibito capacità di ragionamento di livello universitario.

Nell’elaborazione dell’OCR, Gemini ha trasformato immagini contenenti testo in dati leggibili con grande precisione, aprendo la via a una possibile interpretazione più sofisticata dei documenti. L’analisi delle infografiche e la capacità di eseguire ragionamenti matematici in contesti visivi sono solo alcune delle aree dove Gemini ha mostrato una comprensione che va oltre il semplice riconoscimento di pattern.

Nel settore dell’elaborazione video, è stato in grado di interpretare correttamente le didascalie e di rispondere in modo pertinente a quesiti derivanti da contenuti video. Per ultimo, per quanto riguarda l’elaborazione audio, Gemini ha particolarmente eccelso nella traduzione da una lingua all’altra e nel riconoscimento vocale automatico.

 

Perché non c’è ancora in Europa?

 

La “colpa” di questo ritardo è attribuibile, principalmente, alla verifica lunga e tediosa del rispetto del GRPD (regolamento dell’Unione Europea che disciplina il modo in cui le aziende e le altre organizzazioni trattano i dati personali).

Quando venne lanciato Bard arrivò contemporaneamente negli Stati Uniti e nel Regno Unito arrivando solo mesi dopo nell’Unione Europea.  La storia sembra destinata a ripetersi con Gemini, questa volta colpendo anche il sopracitato. 

Per quanto riguarda l’Unione Europea, il GDPR (i regolatori dell’UE, in pratica) deve approvare i nuovi LLM e garantire che superino tutte le normative in vigore per l’IA.

Sul tema si è recentemente espresso Emmanuel Macron che, a seguito del nuovo Artificial Intelligence Act, teme per le sorti dell’avanzamento tecnologico europeo per ciò che concerne l’intelligenza artificiale.

Negoziazioni francesi hanno, infatti, tentato di mitigare le regole proposte, ma alla fine l’UE ha adottato un regime regolamentare stringente che introduce nuovi requisiti di trasparenza per i potenti modelli di IA e restrizioni sull’uso della tecnologia di riconoscimento facciale.

Non ci resta quindi che attendere per vedere quali saranno le sorti dell’approdo delle ultime novità in questo campo nel territorio europeo, intanto, per chi volesse provare Gemini su Bard c’è sempre il “trucchetto” della VPN.

Facebook
Twitter
Pinterest
LinkedIn

Growth Plan

Piano di crescita gratuito
per il tuo sito web

Articoli Correlati

Growth Plan

Piano di crescita gratuito
per il tuo sito web

Formazione

Webinar gratuito
“il futuro della SEO”