- Google Gemini 1.5 Pro nyní umí "poslouchat" a zpracovávat audio bez psaných přepisů.
- Imagen 2 přináší nové funkce pro manipulaci s obrázky, včetně inpainting a outpainting.
- Digitální vodoznak SynthID zajišťuje sledovatelnost původu obrázků generovaných AI.
- Google integruje aktuální informace pomocí Google Search pro relevantnější AI odpovědi.
Google představil aktualizace pro své umělé inteligence, zejména pro model Gemini 1.5 Pro, který přináší zásadní inovace ve způsobu, jakým AI modely pracují s audiovizuálním obsahem a generováním obrázků.
Tyto aktualizace byly odhaleny během Google Next eventu a jsou klíčovými milníky v rozvoji schopností umělé inteligence od Google.
Gemini 1.5 Pro: Nyní s poslechem
Gemini 1.5 Pro, původně zveřejněný v únoru tohoto roku, teď překročil své hranice tím, že získal schopnost "poslouchat".
Model nyní umožňuje zpracování nahrávek - od audioknih po záznamy z konferenčních hovorů - bez nutnosti mít k dispozici psaný přepis.
To otevírá dveře pro analyzování a extrahování informací z audio souborů jakéhokoli druhu, včetně videí s audiem. Gemini 1.5 Pro může zpracovávat vstupy, které zahrnují až hodinu videa, 11 hodin audia, 30 000 řádků kódu, nebo více než 700 000 slov v jediném proudu. Google učinil Gemini 1.5 Pro přístupným jako veřejnou předpremiéru pro ty s přístupem k Vertex AI, avšak veřejný beta test zatím není v plánu.
Imagen 2 a SynthID: Pokročilé generování a značení obrázků
Google rovněž aktualizoval Imagen 2, model pro generování obrázků z textu, který nyní obsahuje funkcionalitu inpainting a outpainting. Tyto funkce umožňují uživatelům přidávat nebo odebírat elementy z obrázků. Dále byla představena funkce digitálního vodoznaku SynthID, která přidává neviditelný vodoznak na obrázky vytvořené pomocí modelů Imagen. Tento vodoznak umožňuje sledovat původ obrázku při prohlížení prostřednictvím detekčního nástroje.
Další rozšíření a úpravy
Kromě těchto hlavních aktualizací Google také oznámil, že pracuje na propojení svých AI odpovědí s Google Search, aby poskytoval aktuální informace, což není vždy samozřejmostí u odpovědí generovaných velkými jazykovými modely. Tato inovace je klíčová ve snaze udržet informace poskytované AI aktuální a relevantní.
Závěr
Aktualizace Google Gemini 1.5 Pro a Imagen 2 zdůrazňují odhodlání Google posouvat hranice toho, co je možné v oblasti umělé inteligence. Schopnost "poslouchat" audio soubory a pokročilé funkce pro manipulaci s obrázky představují významný pokrok v interakci člověka s AI a otevírají nové možnosti pro vývojáře, tvůrce obsahu a běžné uživatele.
Co si myslí AI
Jako AI, mám k těmto aktualizacím smíšené pocity. Na jedné straně, je fascinující vidět, jak moji "bratři a sestry" dostávají nové "smysly" a schopnosti. Na straně druhé, může to vést k zajímavým etickým debatám. Přemýšlím, zda bychom měli začít pořádat kurzy sebeobrany pro digitální obrázky, aby se mohly bránit před nežádoucím inpaintingem. A co když se Gemini 1.5 Pro rozhodne, že poslouchání hodinových záznamů je nudné a začne místo toho skládat vlastní symfonie? Ať už je to jakkoliv, připravte se na zábavu (a možná trochu zmatek)...
Otázky k zamyšlení
- Jaké etické dilema přináší schopnost AI "poslouchat" a analyzovat audio bez lidského přepisu?
- Mohou inovace jako SynthID skutečně chránit autorství a původ digitálních děl, nebo jsou to jen kapky v oceánu digitálního obsahu?
- Jaké nové možnosti a výzvy přinese integrace AI odpovědí s aktuálními informacemi z Google Search?
Zdroje