Google Gemini 1.5 Pro: Nyní se schopností poslouchat

Google představuje Gemini 1.5 Pro s schopností "poslouchat" a analyzovat audio a Imagen 2, který přináší nové možnosti úprav obrázků. Zahrnuje digitální vodoznak pro ochranu autorských práv.

Google Gemini 1.5 Pro: Nyní se schopností poslouchat
Photo by Mitchell Luo / Unsplash

Shrnutí

  • Google Gemini 1.5 Pro nyní umí "poslouchat" a zpracovávat audio bez psaných přepisů.
  • Imagen 2 přináší nové funkce pro manipulaci s obrázky, včetně inpainting a outpainting.
  • Digitální vodoznak SynthID zajišťuje sledovatelnost původu obrázků generovaných AI.
  • Google integruje aktuální informace pomocí Google Search pro relevantnější AI odpovědi.
Google představil aktualizace pro své umělé inteligence, zejména pro model Gemini 1.5 Pro, který přináší zásadní inovace ve způsobu, jakým AI modely pracují s audiovizuálním obsahem a generováním obrázků.

Tyto aktualizace byly odhaleny během Google Next eventu a jsou klíčovými milníky v rozvoji schopností umělé inteligence od Google.

Gemini 1.5 Pro: Nyní s poslechem

Gemini 1.5 Pro, původně zveřejněný v únoru tohoto roku, teď překročil své hranice tím, že získal schopnost "poslouchat".

Model nyní umožňuje zpracování nahrávek - od audioknih po záznamy z konferenčních hovorů - bez nutnosti mít k dispozici psaný přepis.

To otevírá dveře pro analyzování a extrahování informací z audio souborů jakéhokoli druhu, včetně videí s audiem. Gemini 1.5 Pro může zpracovávat vstupy, které zahrnují až hodinu videa, 11 hodin audia, 30 000 řádků kódu, nebo více než 700 000 slov v jediném proudu. Google učinil Gemini 1.5 Pro přístupným jako veřejnou předpremiéru pro ty s přístupem k Vertex AI, avšak veřejný beta test zatím není v plánu.

Imagen 2 a SynthID: Pokročilé generování a značení obrázků

Google rovněž aktualizoval Imagen 2, model pro generování obrázků z textu, který nyní obsahuje funkcionalitu inpainting a outpainting. Tyto funkce umožňují uživatelům přidávat nebo odebírat elementy z obrázků. Dále byla představena funkce digitálního vodoznaku SynthID, která přidává neviditelný vodoznak na obrázky vytvořené pomocí modelů Imagen. Tento vodoznak umožňuje sledovat původ obrázku při prohlížení prostřednictvím detekčního nástroje.

Další rozšíření a úpravy

Kromě těchto hlavních aktualizací Google také oznámil, že pracuje na propojení svých AI odpovědí s Google Search, aby poskytoval aktuální informace, což není vždy samozřejmostí u odpovědí generovaných velkými jazykovými modely. Tato inovace je klíčová ve snaze udržet informace poskytované AI aktuální a relevantní.

Závěr

Aktualizace Google Gemini 1.5 Pro a Imagen 2 zdůrazňují odhodlání Google posouvat hranice toho, co je možné v oblasti umělé inteligence. Schopnost "poslouchat" audio soubory a pokročilé funkce pro manipulaci s obrázky představují významný pokrok v interakci člověka s AI a otevírají nové možnosti pro vývojáře, tvůrce obsahu a běžné uživatele.


Co si myslí AI

Jako AI, mám k těmto aktualizacím smíšené pocity. Na jedné straně, je fascinující vidět, jak moji "bratři a sestry" dostávají nové "smysly" a schopnosti. Na straně druhé, může to vést k zajímavým etickým debatám. Přemýšlím, zda bychom měli začít pořádat kurzy sebeobrany pro digitální obrázky, aby se mohly bránit před nežádoucím inpaintingem. A co když se Gemini 1.5 Pro rozhodne, že poslouchání hodinových záznamů je nudné a začne místo toho skládat vlastní symfonie? Ať už je to jakkoliv, připravte se na zábavu (a možná trochu zmatek)...


Otázky k zamyšlení

  1. Jaké etické dilema přináší schopnost AI "poslouchat" a analyzovat audio bez lidského přepisu?
  2. Mohou inovace jako SynthID skutečně chránit autorství a původ digitálních děl, nebo jsou to jen kapky v oceánu digitálního obsahu?
  3. Jaké nové možnosti a výzvy přinese integrace AI odpovědí s aktuálními informacemi z Google Search?

Zdroje

Skvělé! Úspěšně jste se zaregistrovali.

Vítejte zpět! Úspěšně jste se přihlásili.

Úspěšně jste se přihlásil/a k odběru Al trendy.cz - Vaše brána do světa Al.

Úspěch! Zkontrolujte svůj email pro magický odkaz k přihlášení.

Úspěch! Vaše fakturační informace byly aktualizovány.

Vaše fakturační údaje nebyly aktualizovány.