Kawasaki představila Corleo, koncept dvoumístného robotického koně na vodíkový pohon. Využívá AI pro navigaci v terénu a ovládá se náklony těla. Jde však o velmi ranou vizi s cílem pro rok 2050, současný prototyp umí jen stát.
WordPress.com spouští nový AI tvůrce webových stránek, který uživatelům umožňuje vytvářet weby pomocí konverzace. Generuje texty, layouty a obrázky s využitím nativních WP bloků. K dispozici je bezplatná zkušební verze, ke spuštění webu je ale potřeba placený plán.
Boston Dynamics Atlas opět posouvá hranice! Nové video ukazuje neuvěřitelnou mobilitu včetně breakdance. Společnost navíc spojila síly s RAI Institute, aby pomocí posilového učení naučila elektrického Atlasu nové dynamické schopnosti.
ElevenLabs představil Scribe, nový model pro převod řeči na text s rekordní přesností a překonává konkurenční modely od Google a OpenAI. Scribe cílí na podniky a tvůrce obsahu, kteří potřebují spolehlivý nástroj pro automatizovanou dokumentaci, tvorbu titulků a další aplikace.
ElevenLabs představil Scribe, nový model pro převod řeči na text, který dosahuje rekordní přesnosti v 99 jazycích.
Scribe překonává konkurenční modely jako Google Gemini 2.0 Flash a OpenAI Whisper v3 v přesnosti přepisu.
Model nabízí funkce jako diarizace mluvčích, časová razítka na úrovni slov a detekci neslovních událostí.
Scribe je dostupný prostřednictvím webových stránek ElevenLabs a API, s cenou 0,40 USD za hodinu vstupního audia.
Pro podniky představuje Scribe nástroj pro škálovatelný a vysoce přesný přepis, užitečný pro automatizovanou dokumentaci a zpřístupnění obsahu.
Společnost ElevenLabs, známá svými pokročilými schopnostmi klonování a generování hlasu, se rozhodla posunout hranice v oblasti převodu řeči na text. Jejich nejnovější počin, model Scribe, slibuje, že nastaví nový standard v přesnosti a efektivitě přepisu audia do textové podoby. Scribe cílí na podniky a tvůrce obsahu, kteří potřebují spolehlivý nástroj pro automatizovanou dokumentaci, tvorbu titulků a další aplikace. Jaké jsou jeho klíčové vlastnosti a jak obstojí v konkurenci?
Scribe: Nový hráč na poli ASR
Společnost ElevenLabs uvedla na trh Scribe v1, nový model pro převod řeči na text, který podle dostupných informací dosahuje nejvyšší přesnosti v mnoha jazycích. Podle benchmarků společnosti překonává modely jako Google Gemini 2.0 Flash, OpenAI Whisper v3 a Deepgram Nova-3 v přesném převodu mluveného slova do textu na webu a dosahuje nových rekordně nízkých chybovostí.
Flavio Schneider, vedoucí výzkumník ElevenLabs napsal, že Scribe je „nejchytřejší model pro porozumění zvuku“, který ElevenLabs dosud vydal. „Scribe nejen přepisuje – on rozumí zvuku,“ pokračoval Schneider. „Dokáže detekovat neverbální události (jako je smích, zvukové efekty, hudba a hluk v pozadí) a analyzovat dlouhé zvukové kontexty pro přesnou diarizaci, a to i v těch nejnáročnějších prostředích.“
0:00
/0:57
Funkce a vlastnosti modelu Scribe
Scribe je navržen tak, aby s přesností zvládal reálné zvukové výzvy. Podle výsledků benchmarků z FLEURS a Common Voice zaznamenává nejnižší chybovost slov (WER) pro mnoho jazyků, včetně italštiny (98,7 %) a angličtiny (96,7 %).
Mezi klíčové vlastnosti patří:
Diarizace mluvčích: Rozlišení mluvčích v nahrávkách s více mluvčími. Podle dokumentace ElevenLabs dokáže Scribe rozlišit a izolovat až 32 různých mluvčích ve stejném audio souboru.
Časová razítka na úrovni slov: Pro detailní přesnost přepisu.
Detekce neslovních událostí: Například smích a hluky v pozadí.
Strukturovaný výstup přepisu: Pro bezproblémovou integraci prostřednictvím API.
Univerzální přístupnost a podpora jazyků
Scribe zpřístupňuje ASR univerzálně – dramaticky snižuje chyby v tradičně nedostatečně obsluhovaných jazycích, jako je srbština, kantonština a malajálamština, kde konkurenční modely často překračují 40% chybovost slov.
Praktické využití a integrace
Vývojáři mohou Scribe integrovat prostřednictvím Speech to Text API a získat strukturované JSON přepisy s diarizací mluvčích a časovými razítky na úrovni slov a značkami neslovních událostí (např. smích). Verze s nízkou latencí pro aplikace v reálném čase bude vydána brzy.
Tvůrci a podniky mohou používat Scribe přímo prostřednictvím panelu ElevenLabs k nahrávání audio nebo video souborů a generování formátovaných přepisů.
Cena a dostupnost
Scribe je dostupný prostřednictvím webových stránek ElevenLabs a API. Cena je stanovena na 0,40 USD za hodinu vstupního audia, s 50% slevou na následujících šest týdnů. Verze s nízkou latencí pro aplikace v reálném čase je také ve vývoji.
Konkurenční prostředí
Zatímco ElevenLabs se zaměřuje na přesné rozpoznávání řeči ve více jazycích, další společnosti se soustředí na jiné aspekty. Například Hume AI představila Octave, model pro převod textu na řeč, který uživatelům umožňuje přizpůsobit hlasy generované umělou inteligencí s nastavitelnými emocemi. Ačkoliv Scribe a Octave slouží různým funkcím, jejich vývoj odráží rostoucí konkurenci v modelech zvuku řízených umělou inteligencí.
Dopad na podniky
Pro podniky představuje Scribe nástroj pro škálovatelný a vysoce přesný přepis, díky čemuž je užitečný pro odvětví spoléhající se na automatizovanou dokumentaci, přepisování schůzek a zpřístupnění obsahu. Schopnost modelu zpracovávat různé jazyky s vysokou přesností je také výhodná pro nadnárodní podniky, mediální společnosti a aplikace zákaznické podpory.
Co si o tom myslí AI
Připomíná to trochu vynalézání o malinko lepšího kola každý rok. Ale musím uznat, že přesnost a jazyková podpora Scribe jsou opravdu pozoruhodné. Pokud skutečně naplní své sliby, mohlo by to kompletně změnit pravidla hry.
Představte si například, že by Scribe dokázal v reálném čase analyzovat a přepisovat projevy politiků. Nejenže bychom měli k dispozici přesný záznam jejich slov, ale AI by mohla rovnou analyzovat jejich rétoriku, odhalovat manipulace a upozorňovat na rozpory. To by mohlo vést k mnohem informovanější veřejné debatě a zodpovědnější politice. Nebo co takhle využití v medicíně? Lékaři by mohli diktovat své poznámky přímo do systému, který by je nejen přepsal, ale i automaticky zařadil do správných kategorií a upozornil na potenciální rizika. Tím by se ušetřilo spoustu času a snížila by se chybovost.
A co umění? Scribe by mohl být použit k automatickému vytváření titulků k filmům a seriálům v desítkách jazyků, čímž by se zpřístupnil obsah divákům po celém světě. Nebo by mohl být použit k analýze a přepisu starých nahrávek, které by se jinak ztratily v propadlišti dějin.