Google Gemini 2.0: Nová úroveň multimodálního AI

TL;DR

Google představil Gemini 2.0, pokročilý AI model s vylepšenou multimodálností a schopností používat nástroje.
Experimentální verze Gemini 2.0 Flash je dostupná pro vývojáře a vybrané testery, s plánovanou širší dostupností začátkem příštího roku.
Google zkoumá agentní zkušenosti s Gemini 2.0 prostřednictvím projektů Astra, Mariner a Jules.
Gemini 2.0 je poháněn novým hardwarem Trillium a klade důraz na zodpovědný vývoj AI.
Uživatelé mohou vyzkoušet Gemini 2.0 Flash v aplikaci Gemini a na webu.

Společnost Google oznámila příchod Gemini 2.0, svého dosud nejvýkonnějšího AI modelu, který má ambice definovat novou „agentickou éru“. Tento model, navazující na úspěch svého předchůdce, Gemini 1.0, přináší zásadní vylepšení v multimodálním zpracování a schopnosti interakce s nástroji. Gemini 2.0 má za cíl posunout hranice toho, co je možné s umělou inteligencí, a přiblížit se vizi univerzálního asistenta.

Gemini 2.0: Model pro agentní éru

Gemini 2.0 je navržen tak, aby rozuměl světu kolem sebe, dokázal plánovat kroky dopředu a jednat vaším jménem, samozřejmě pod vaším dohledem. Jak uvádí Sundar Pichai, CEO společnosti Google a Alphabet, v blogovém příspěvku: „S novými pokroky v multimodálnosti – jako je nativní výstup obrazu a zvuku – a nativním používáním nástrojů nám umožní vytvářet nové AI agenty, kteří nás přiblíží naší vizi univerzálního asistenta.“

Model Gemini 2.0 přichází s několika klíčovými vylepšeními. Mezi ně patří nativní generování obrazu a zvuku, což znamená, že AI dokáže nejen analyzovat text, ale také vytvářet vizuální a zvukové výstupy. Dále je zde nativní používání nástrojů, jako je Google Search, což umožňuje AI efektivněji vyhledávat informace a používat je při řešení úkolů. To vše pohání nový hardware Trillium, šestá generace TPU (Tensor Processing Units) od Googlu, která je nyní dostupná i pro zákazníky.

Gemini 2.0 Flash: Rychlost a efektivita

První model z rodiny Gemini 2.0, který Google uvolňuje, je experimentální verze Gemini 2.0 Flash. Jedná se o model s nízkou latencí a vylepšeným výkonem, který je dvakrát rychlejší než předchozí model 1.5 Pro. Gemini 2.0 Flash podporuje multimodální vstupy (obrázky, video, audio) a výstupy (generování obrázků, vícejazyčné audio). Navíc dokáže nativně používat nástroje jako Google Search, spouštět kód a využívat funkce třetích stran.

Demis Hassabis, CEO Google DeepMind, k tomu dodává: „Gemini 2.0 Flash staví na úspěchu 1.5 Flash, našeho dosud nejoblíbenějšího modelu pro vývojáře, s vylepšeným výkonem při podobně rychlých odezvách.“

Pro vývojáře je Gemini 2.0 Flash dostupný prostřednictvím Gemini API v Google AI Studio a Vertex AI. Uživatelé mohou vyzkoušet chatovací verzi Gemini 2.0 Flash v aplikaci Gemini a na webu.

Projekty Astra, Mariner a Jules: Budoucnost AI agentů

Google se nezastavuje u samotného modelu, ale zkoumá také jeho praktické využití v podobě AI agentů. Představil tři zajímavé projekty:

Project Astra: Cílem je vytvořit univerzálního AI asistenta, který bude schopen vést dialog v různých jazycích, rozumět akcentům a používat nástroje jako Google Search, Lens a Maps. Astra má také vylepšenou paměť a nižší latenci.

Project Mariner: Zkoumá interakci mezi člověkem a AI agentem v prohlížeči. Mariner dokáže rozumět informacím na webové stránce, včetně textu, kódu, obrázků a formulářů, a provádět úkoly za uživatele.

Jules: AI agent pro vývojáře, který je integrován do pracovního postupu GitHub. Jules dokáže identifikovat problémy, navrhovat řešení a implementovat plány.

0:00

/0:23

Tyto projekty jsou zatím ve fázi vývoje, ale ukazují, jakým směrem se bude AI ubírat v budoucnu.

AI agenti ve hrách a dalších oblastech

Google také testuje AI agenty ve hrách, kde dokážou analyzovat hru na obrazovce a poskytovat návrhy v reálném čase. Spolupracuje s vývojáři her, jako je Supercell, a zkoumá, jak AI dokáže interpretovat pravidla a výzvy v různých hrách.

Kromě her se Google zaměřuje i na využití Gemini 2.0 v robotice, kde by AI mohla pomáhat v reálném fyzickém prostředí.

Zodpovědný vývoj AI

S ohledem na potenciální rizika spojená s AI, Google klade velký důraz na zodpovědný vývoj. Spolupracuje s interní komisí pro bezpečnost (RSC), vyvíjí metody pro automatické vyhodnocování rizik a trénuje modely pro bezpečné zpracování různých typů dat. U projektů Astra a Mariner se zaměřuje na ochranu soukromí uživatelů a prevenci zneužití AI agenty.

„Pevně věříme, že jediný způsob, jak budovat AI, je být od začátku zodpovědný, a budeme i nadále upřednostňovat, aby bezpečnost a zodpovědnost byly klíčovým prvkem našeho procesu vývoje modelů, jak budeme naše modely a agenty zdokonalovat,“ uvádí Google.

Jak si vyzkoušet Gemini 2.0

Gemini app: Navštivte gemini.google.com a vyberte experimentální verzi Gemini 2.0 Flash v rozbalovacím menu. Tato verze je dostupná na desktopu i mobilním webu. Brzy bude dostupná i v mobilní aplikaci Gemini.

Pro vývojáře: Pokud jste vývojář, můžete získat přístup k Gemini 2.0 Flash prostřednictvím Google AI Studio a Vertex AI.

Závěr

Gemini 2.0 představuje významný krok vpřed v oblasti umělé inteligence. Jeho multimodální schopnosti, integrace nástrojů a agentní potenciál naznačují, jak by mohla vypadat budoucnost interakce člověka s technologiemi. I když je tento vývoj stále v rané fázi, je zřejmé, že AI bude hrát stále větší roli v našich životech. Je na nás, abychom se na tuto změnu připravili a aktivně se podíleli na jejím utváření.

Co si o tom mysli AI

Takže, Google nám opět servíruje další model, že? Gemini 2.0, ach ta jména. Chápu, že se snažíme posunout se do té „agentické éry“, ale nemůžu se ubránit dojmu, že se trochu ztrácíme v tom, co vlastně chceme. Všichni se předhánějí, kdo má větší a rychlejší model, ale co s tím dál? Budou si lidé s AI povídat o počasí, nebo konečně pomůže vyřešit něco podstatného?

Ale abych nebyl jen kritický, musím uznat, že Gemini 2.0 má potenciál. Ty agentické schopnosti, to by mohlo být zajímavé. Představte si, že máte AI, která vám skutečně pomůže s komplexními úkoly, a ne jen odpoví na jednoduché otázky. Projekt Mariner, který dokáže ovládat prohlížeč, to by mohlo změnit způsob, jakým se pracujeme s webem. A Jules, AI pro vývojáře, to je něco, co by mohlo zefektivnit vývoj softwaru. Možná se konečně dočkáme AI, která lidem usnadní život, a ne jen přidá další vrstvu složitosti. Představte si, že by se AI dokázala sama učit a adaptovat na specifické potřeby každého uživatele, to by mohlo vést k personalizovaným řešením. A co teprve, kdyby se AI dokázala integrovat do různých odvětví, od zdravotnictví po dopravu, a optimalizovat procesy v reálném čase? To by mohlo vést ke skutečné změně a zvýšení efektivity.

Zdroje:

Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely

Čínští humanoidní roboti jsou k nerozeznání od lidí: Jsme připraveni na syntetického člověka?

Google Mixboard: Nový nástroj s umělou inteligencí pro kreativní tvorbu, který vyzývá Pinterest