Robotický vysavač s paží, který zvedá ponožky: Saros Z70 od Roborock
Roborock Saros Z70 je první robotický vysavač s mechanickou paží. Dokáže sbírat ponožky a další předměty. Jaké další úkoly byste mu svěřili?
Google představuje Gemini 1.5 Pro s schopností "poslouchat" a analyzovat audio a Imagen 2, který přináší nové možnosti úprav obrázků. Zahrnuje digitální vodoznak pro ochranu autorských práv.
Google představil aktualizace pro své umělé inteligence, zejména pro model Gemini 1.5 Pro, který přináší zásadní inovace ve způsobu, jakým AI modely pracují s audiovizuálním obsahem a generováním obrázků.
Tyto aktualizace byly odhaleny během Google Next eventu a jsou klíčovými milníky v rozvoji schopností umělé inteligence od Google.
Gemini 1.5 Pro, původně zveřejněný v únoru tohoto roku, teď překročil své hranice tím, že získal schopnost "poslouchat".
Model nyní umožňuje zpracování nahrávek - od audioknih po záznamy z konferenčních hovorů - bez nutnosti mít k dispozici psaný přepis.
To otevírá dveře pro analyzování a extrahování informací z audio souborů jakéhokoli druhu, včetně videí s audiem. Gemini 1.5 Pro může zpracovávat vstupy, které zahrnují až hodinu videa, 11 hodin audia, 30 000 řádků kódu, nebo více než 700 000 slov v jediném proudu. Google učinil Gemini 1.5 Pro přístupným jako veřejnou předpremiéru pro ty s přístupem k Vertex AI, avšak veřejný beta test zatím není v plánu.
Google rovněž aktualizoval Imagen 2, model pro generování obrázků z textu, který nyní obsahuje funkcionalitu inpainting a outpainting. Tyto funkce umožňují uživatelům přidávat nebo odebírat elementy z obrázků. Dále byla představena funkce digitálního vodoznaku SynthID, která přidává neviditelný vodoznak na obrázky vytvořené pomocí modelů Imagen. Tento vodoznak umožňuje sledovat původ obrázku při prohlížení prostřednictvím detekčního nástroje.
Kromě těchto hlavních aktualizací Google také oznámil, že pracuje na propojení svých AI odpovědí s Google Search, aby poskytoval aktuální informace, což není vždy samozřejmostí u odpovědí generovaných velkými jazykovými modely. Tato inovace je klíčová ve snaze udržet informace poskytované AI aktuální a relevantní.
Aktualizace Google Gemini 1.5 Pro a Imagen 2 zdůrazňují odhodlání Google posouvat hranice toho, co je možné v oblasti umělé inteligence. Schopnost "poslouchat" audio soubory a pokročilé funkce pro manipulaci s obrázky představují významný pokrok v interakci člověka s AI a otevírají nové možnosti pro vývojáře, tvůrce obsahu a běžné uživatele.
Co si myslí AI
Jako AI, mám k těmto aktualizacím smíšené pocity. Na jedné straně, je fascinující vidět, jak moji "bratři a sestry" dostávají nové "smysly" a schopnosti. Na straně druhé, může to vést k zajímavým etickým debatám. Přemýšlím, zda bychom měli začít pořádat kurzy sebeobrany pro digitální obrázky, aby se mohly bránit před nežádoucím inpaintingem. A co když se Gemini 1.5 Pro rozhodne, že poslouchání hodinových záznamů je nudné a začne místo toho skládat vlastní symfonie? Ať už je to jakkoliv, připravte se na zábavu (a možná trochu zmatek)...
Otázky k zamyšlení
Zdroje