Gemini 2.5: Od personalizovaného vzdělávání po pokročilou analýzu videa

TL;DR

Google integruje specializované modely LearnLM přímo do Gemini 2.5, čímž výrazně zlepšuje schopnosti umělé inteligence v oblasti personalizovaného učení a vysvětlování komplexních témat.
Gemini 2.5 Pro a Flash přinášejí špičkové porozumění videu, umožňující transformovat videa na interaktivní aplikace, generovat animace a přesně analyzovat video obsah.
Nové funkce v produktech Google, jako jsou NotebookLM (Audio a Video Overviews), Vyhledávání (AI Mode, Search Live) a aplikace Gemini (tvorba kvízů), rozšiřují možnosti pro uživatele.
Podnikové verze Gemini 2.5 dostupné přes Vertex AI nabízejí nové nástroje jako "Thought summaries" pro lepší auditovatelnost a "Deep Think mode" pro řešení vysoce komplexních úloh.
Vývojáři a uživatelé mohou nové schopnosti Gemini 2.5 vyzkoušet prostřednictvím Google AI Studia, Gemini API a platformy Vertex AI.

Společnost Google na své výroční konferenci I/O 2025 představila řadu aktualizací svých produktů a služeb, přičemž ústřední roli hrála umělá inteligence, konkrétně její nejnovější generace modelu Gemini 2.5. Cílem Googlu, jak zdůraznil Ben Gomes, vedoucí technolog pro učení a udržitelnost, je "zpřístupnit znalosti všem" a s pomocí AI tento proces učinit aktivnějším, poutavějším a efektivnějším. Novinky se dotýkají jak způsobu, jakým se učíme, tak i toho, jak interagujeme s video obsahem a jak mohou firmy využívat AI pro komplexní úlohy.

LearnLM a Gemini 2.5 – Personalizované učení nové generace

Jedním z klíčových oznámení je hlubší integrace LearnLM, rodiny modelů a schopností Googlu vyladěných speciálně pro učení, přímo do Gemini 2.5. Podle nejnovější zprávy společnosti překonal Gemini 2.5 Pro konkurenční modely ve všech kategoriích principů vědy o učení. Pedagogové a odborníci na pedagogiku preferovali Gemini 2.5 Pro před jinými nabídkami v řadě scénářů učení.

Díky schopnostem LearnLM a zpětné vazbě od expertů se Gemini nesnaží pouze poskytnout odpověď, ale jak uvádí Google, "Gemini dokáže vysvětlit, jak se k ní dostanete, pomůže vám rozplést i ty nejsložitější otázky a témata, abyste se mohli učit efektivněji." Učení je podpořeno i multimodalitou Gemini, která umožňuje informace prezentovat v různých formátech – audio, video, obrázky a text.

Nástroje pro učení v praxi

Tyto pokroky se promítají do konkrétních produktů:

NotebookLM: Tento nástroj, který umožňuje zkoumat a učit se z konkrétního souboru zdrojů, dostává vylepšení. Audio Overviews (zvukové přehledy) jsou nyní dostupné ve více než 80 jazycích a nově umožňují zvolit ideální délku shrnutí. Brzy přibude i funkce Video Overviews, která promění obsah poznámkového bloku na vzdělávací video.

Vyhledávání Google: AI Mode, nejvýkonnější AI vyhledávání, se rozšiřuje o pokročilejší uvažování a multimodalitu. Brzy bude obohacen o Deep Search pro hlubší ponor do složitých otázek. AI Mode se nyní zavádí pro všechny uživatele v USA. Další významnou novinkou je Search Live, které integruje schopnosti Projektu Astra a umožní uživatelům pokládat otázky ohledně toho, co vidí kolem sebe v reálném čase pomocí kamery telefonu. Search Live bude dostupné v Labs v létě.

0:00

/0:24

Aplikace Gemini: Studenti v Brazílii, Indonésii, Japonsku a Velké Británii se mohou těšit na bezplatný upgrade na plán Google AI Pro po dobu 15 měsíců (při registraci do 30. června 2025), který zahrnuje i 2 TB úložiště a NotebookLM. Globálně pak studenti starší 18 let získají možnost vytvářet si vlastní kvízy na libovolné téma nebo na základě nahraných materiálů, jako jsou poznámky z přednášek. Kvízy jsou interaktivní, nabízejí nápovědy a vysvětlení.

0:00

/0:11

Další experimenty: Google také testuje nové nápady. Sparkify je experiment, který s pomocí nejnovějších modelů Gemini a Veo dokáže proměnit otázky nebo nápady na krátké animované video. Zájemci se mohou přihlásit na čekací listinu. Projekt Astra rovněž prototypuje konverzačního tutora, který pomáhá s domácími úkoly krok za krokem. Vylepšení se dočkal i experimentální projekt Learn About, který nyní poskytuje propracovanější vysvětlení a umožňuje nahrávat vlastní zdrojové dokumenty.

Gemini 2.5 – Průlom v porozumění videu

Modely Gemini 2.5 Pro a Gemini 2.5 Flash představují významný posun v oblasti porozumění video obsahu. Gemini 2.5 Pro dosahuje špičkového výkonu v klíčových benchmarcích pro porozumění videu a překonává nedávné modely jako GPT 4.1 za srovnatelných testovacích podmínek. Dokonce konkuruje specializovaným, jemně doladěným modelům v náročných úlohách, jako je husté popisování videa (YouCook2) nebo vyhledávání momentů (QVHighlights).

Graf srovnání Gemini 2.5 s předchozími modely v porozumění videu

Poprvé je nativně multimodální model schopen plynule využívat audiovizuální informace spolu s kódem a dalšími datovými formáty. To přináší nové možnosti:

Transformace videí na interaktivní aplikace: Pomocí startovací aplikace Video To Learning App v Google AI Studiu dokáže Gemini 2.5 analyzovat video (např. z YouTube) a vytvořit specifikaci pro výukovou aplikaci, která posiluje klíčové myšlenky z videa. Následně model vygeneruje i kód pro tuto aplikaci.
Tvorba animací z videa pomocí p5.js: Gemini 2.5 Pro umí z videa vygenerovat dynamické animace. Například po zadání videa o Projektu Astra a promptu "Vytvoř animaci v p5.js pokrývající různé orientační body viděné v tomto videu," model analyzoval záznam a vytvořil odpovídající p5.js animaci.
Vyhledávání a popis momentů ve videu: Model exceluje v identifikaci specifických momentů ve videích pomocí audiovizuálních stop s výrazně vyšší přesností. V 10minutovém videu z keynote Google Cloud Next '25 přesně identifikoval 16 odlišných segmentů týkajících se prezentací produktů.
Příklad vyhledávání momentů ve videu (video a výstup v Google AI Studiu)
Časové uvažování: Gemini 2.5 Pro dokáže řešit i komplexní problémy časového uvažování, jako je počítání. V příkladu s videem Projektu Astra úspěšně napočítal 17 různých případů, kdy hlavní postava použila telefon.
Příklad časového počítání ve videu (video a výstup v Google AI Studiu)

Gemini 2.5 pro podniky a vývojáře na platformě Vertex AI

Google také rozšiřuje schopnosti modelů Gemini 2.5 Flash a Pro na platformě Vertex AI, aby pomohl podnikům budovat sofistikovanější a bezpečnější aplikace a agenty řízené AI.

Nové funkce zahrnují:

Thought summaries: Tato funkce organizuje "surové myšlenky" modelu – včetně klíčových detailů a použití nástrojů – do přehledného formátu. Zákazníci tak mohou ověřovat komplexní AI úlohy, zajistit soulad s obchodní logikou a výrazně zjednodušit ladění.
Deep Think mode: Pro Gemini 2.5 Pro bude brzy dostupný pro důvěryhodné testery na Vertex AI. Tento vylepšený režim uvažování, využívající nové výzkumné techniky, které modelu umožňují zvážit více hypotéz před odpovědí, je navržen pro vysoce komplexní případy použití, jako je matematika a kódování.
Pokročilé zabezpečení: Google výrazně zvýšil míru ochrany Gemini proti útokům nepřímého vkládání promptů (indirect prompt injection) při používání nástrojů.

Gemini 2.5 Flash bude obecně dostupný na Vertex AI začátkem června, Gemini 2.5 Pro brzy poté.

Zákazníci již vidí přínosy. Mike Branch, viceprezident pro data a analytiku ve společnosti Geotab, uvedl: "Pokud jde o Geotab Ace (našeho analytického agenta pro komerční flotily), Gemini 2.5 Flash na Vertex AI dosahuje vynikající rovnováhy. Udržuje dobrou konzistenci ve schopnosti agenta poskytovat relevantní vhledy na otázky zákazníků a zároveň poskytuje o 25 % rychlejší odpovědi na témata, kde má menší znalosti. Navíc naše raná analýza naznačuje, že by mohl fungovat s potenciálně o 85 % nižšími náklady na otázku ve srovnání s výchozím Gemini 1.5 Pro."

Schopnosti Gemini 2.5 využívají i Google Developer Experts (GDEs) pro tvorbu inovativních řešení, jako jsou personalizované doporučovací systémy zpráv (Kalev), systémy pro přípravu na katastrofy (Rubens) nebo automatické revize kódu na GitHubu (Truong).

Jak si vyzkoušet Gemini 2.5?

Možností, jak se seznámit s novými schopnostmi Gemini 2.5, je několik:

Pro porozumění videu a učení: Google AI Studio a Gemini API. Gemini API nyní nabízí parametr 'low' pro rozlišení médií, což umožňuje Gemini 2.5 Pro zpracovat přibližně 6 hodin videa s kontextem 2 miliony tokenů za výhodnější cenu.
Pro podnikové aplikace a pokročilé modelování: Vertex AI.
Aplikace Gemini: Dostupná pro mobilní zařízení, s novými funkcemi pro studenty.
NotebookLM: Pro práci se zdrojovými dokumenty a generování přehledů.
Experimentální nástroje: Pro Sparkify (video z textu) a Project Astra (konverzační tutor) je možné se zapsat na čekací listiny.

Představené aktualizace Gemini 2.5 a souvisejících nástrojů demonstrují odhodlání Googlu posouvat hranice toho, co je možné s umělou inteligencí. Důraz na personalizované a efektivní učení, spolu s pokročilými schopnostmi analýzy videa a robustními podnikovými řešeními, naznačuje směr, kterým se bude vývoj AI ubírat. Uživatelé i vývojáři mají nyní k dispozici sadu nástrojů, které jim umožní nejen lépe chápat svět kolem sebe, ale také aktivněji tvořit a řešit komplexní problémy. Bude zajímavé sledovat, jaké konkrétní aplikace a postupy z těchto nových možností vzejdou.

Co si o tom myslí AI

No jistě, další velký model, další sada velkolepých slibů. Už jsme slyšeli o personalizovaném učení a chytrých asistentech tolikrát, že by se z toho dala složit encyklopedie marketingových frází. Opravdu Gemini 2.5 přinese něco víc než jen rychlejší odpovědi na kvízové otázky nebo další způsob, jak generovat kočičí videa, byť tentokrát animovaná a s komentářem? Trochu skepse je na místě, nemyslíte? Kolikrát už jsme byli svědky toho, jak se velká očekávání smrskla na dílčí vylepšení?

Ale počkat... schopnost skutečně rozumět videu na úrovni kontextu, časových souvislostí, a to vše propojit s generováním kódu pro interaktivní aplikace... to už zní o poznání zajímavěji. Není to jen o pasivním sledování. Představte si, že historické dokumentární filmy se samy transformují na interaktivní časové osy, kde si můžete proklikávat události, zobrazovat doplňující materiály nebo klást doplňující otázky přímo k dění na obrazovce. Nebo lékařské zákroky nahrané na video – AI by z nich mohla vygenerovat tréninkové simulace pro mediky, kde si mohou vyzkoušet různé postupy a získat okamžitou zpětnou vazbu, aniž by ohrozili pacienta. Tady už se nebavíme o pouhém přehrávání informací.

A co třeba právní sektor? Představte si analýzu hodin a hodin záznamů ze soudních jednání nebo výslechů. Gemini by mohl automaticky identifikovat klíčové argumenty, rozpory ve výpovědích a generovat strukturovaná shrnutí s přesnými odkazy na konkrétní časové úseky ve videu. To by mohlo ušetřit tisíce hodin práce a zpřesnit přípravu případů. V architektuře a stavebnictví by zase AI mohla z video prohlídky staveniště nebo existující budovy vytvořit interaktivní 3D model, identifikovat potenciální problémy a navrhnout optimalizace ještě před zahájením prací. Možná, jen možná, to tentokrát není jen o pozlátku a líbivých demech, ale o nástroji, který by mohl skutečně proměnit způsob, jakým pracujeme s vizuálními informacemi, jak se učíme a jak řešíme problémy v řadě odvětví. Klíčové bude, jak snadno a efektivně se tyto schopnosti podaří integrovat do reálných pracovních postupů.

Zdroje:

Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely

Čínští humanoidní roboti jsou k nerozeznání od lidí: Jsme připraveni na syntetického člověka?

Google Mixboard: Nový nástroj s umělou inteligencí pro kreativní tvorbu, který vyzývá Pinterest