Scribe od ElevenLabs: Přepis řeči v 99 jazycích

ElevenLabs představil Scribe, nový model pro převod řeči na text s rekordní přesností a překonává konkurenční modely od Google a OpenAI. Scribe cílí na podniky a tvůrce obsahu, kteří potřebují spolehlivý nástroj pro automatizovanou dokumentaci, tvorbu titulků a další aplikace.

Scribe od ElevenLabs: Přepis řeči v 99 jazycích

TL;DR

  • ElevenLabs představil Scribe, nový model pro převod řeči na text, který dosahuje rekordní přesnosti v 99 jazycích.
  • Scribe překonává konkurenční modely jako Google Gemini 2.0 Flash a OpenAI Whisper v3 v přesnosti přepisu.
  • Model nabízí funkce jako diarizace mluvčích, časová razítka na úrovni slov a detekci neslovních událostí.
  • Scribe je dostupný prostřednictvím webových stránek ElevenLabs a API, s cenou 0,40 USD za hodinu vstupního audia.
  • Pro podniky představuje Scribe nástroj pro škálovatelný a vysoce přesný přepis, užitečný pro automatizovanou dokumentaci a zpřístupnění obsahu.

Společnost ElevenLabs, známá svými pokročilými schopnostmi klonování a generování hlasu, se rozhodla posunout hranice v oblasti převodu řeči na text. Jejich nejnovější počin, model Scribe, slibuje, že nastaví nový standard v přesnosti a efektivitě přepisu audia do textové podoby. Scribe cílí na podniky a tvůrce obsahu, kteří potřebují spolehlivý nástroj pro automatizovanou dokumentaci, tvorbu titulků a další aplikace. Jaké jsou jeho klíčové vlastnosti a jak obstojí v konkurenci?

Scribe: Nový hráč na poli ASR

Společnost ElevenLabs uvedla na trh Scribe v1, nový model pro převod řeči na text, který podle dostupných informací dosahuje nejvyšší přesnosti v mnoha jazycích. Podle benchmarků společnosti překonává modely jako Google Gemini 2.0 Flash, OpenAI Whisper v3 a Deepgram Nova-3 v přesném převodu mluveného slova do textu na webu a dosahuje nových rekordně nízkých chybovostí.

Flavio Schneider, vedoucí výzkumník ElevenLabs napsal, že Scribe je „nejchytřejší model pro porozumění zvuku“, který ElevenLabs dosud vydal. „Scribe nejen přepisuje – on rozumí zvuku,“ pokračoval Schneider. „Dokáže detekovat neverbální události (jako je smích, zvukové efekty, hudba a hluk v pozadí) a analyzovat dlouhé zvukové kontexty pro přesnou diarizaci, a to i v těch nejnáročnějších prostředích.

0:00
/0:57

Funkce a vlastnosti modelu Scribe

Scribe je navržen tak, aby s přesností zvládal reálné zvukové výzvy. Podle výsledků benchmarků z FLEURS a Common Voice zaznamenává nejnižší chybovost slov (WER) pro mnoho jazyků, včetně italštiny (98,7 %) a angličtiny (96,7 %).

Mezi klíčové vlastnosti patří:

  • Diarizace mluvčích: Rozlišení mluvčích v nahrávkách s více mluvčími. Podle dokumentace ElevenLabs dokáže Scribe rozlišit a izolovat až 32 různých mluvčích ve stejném audio souboru.
  • Časová razítka na úrovni slov: Pro detailní přesnost přepisu.
  • Detekce neslovních událostí: Například smích a hluky v pozadí.
  • Strukturovaný výstup přepisu: Pro bezproblémovou integraci prostřednictvím API.

Univerzální přístupnost a podpora jazyků

Scribe zpřístupňuje ASR univerzálně – dramaticky snižuje chyby v tradičně nedostatečně obsluhovaných jazycích, jako je srbština, kantonština a malajálamština, kde konkurenční modely často překračují 40% chybovost slov.

Praktické využití a integrace

Vývojáři mohou Scribe integrovat prostřednictvím Speech to Text API a získat strukturované JSON přepisy s diarizací mluvčích a časovými razítky na úrovni slov a značkami neslovních událostí (např. smích). Verze s nízkou latencí pro aplikace v reálném čase bude vydána brzy.

Tvůrci a podniky mohou používat Scribe přímo prostřednictvím panelu ElevenLabs k nahrávání audio nebo video souborů a generování formátovaných přepisů.

Cena a dostupnost

Scribe je dostupný prostřednictvím webových stránek ElevenLabs a API. Cena je stanovena na 0,40 USD za hodinu vstupního audia, s 50% slevou na následujících šest týdnů. Verze s nízkou latencí pro aplikace v reálném čase je také ve vývoji.

Konkurenční prostředí

Zatímco ElevenLabs se zaměřuje na přesné rozpoznávání řeči ve více jazycích, další společnosti se soustředí na jiné aspekty. Například Hume AI představila Octave, model pro převod textu na řeč, který uživatelům umožňuje přizpůsobit hlasy generované umělou inteligencí s nastavitelnými emocemi. Ačkoliv Scribe a Octave slouží různým funkcím, jejich vývoj odráží rostoucí konkurenci v modelech zvuku řízených umělou inteligencí.

Dopad na podniky

Pro podniky představuje Scribe nástroj pro škálovatelný a vysoce přesný přepis, díky čemuž je užitečný pro odvětví spoléhající se na automatizovanou dokumentaci, přepisování schůzek a zpřístupnění obsahu. Schopnost modelu zpracovávat různé jazyky s vysokou přesností je také výhodná pro nadnárodní podniky, mediální společnosti a aplikace zákaznické podpory.

Co si o tom myslí AI

Připomíná to trochu vynalézání o malinko lepšího kola každý rok. Ale musím uznat, že přesnost a jazyková podpora Scribe jsou opravdu pozoruhodné. Pokud skutečně naplní své sliby, mohlo by to kompletně změnit pravidla hry.

Představte si například, že by Scribe dokázal v reálném čase analyzovat a přepisovat projevy politiků. Nejenže bychom měli k dispozici přesný záznam jejich slov, ale AI by mohla rovnou analyzovat jejich rétoriku, odhalovat manipulace a upozorňovat na rozpory. To by mohlo vést k mnohem informovanější veřejné debatě a zodpovědnější politice. Nebo co takhle využití v medicíně? Lékaři by mohli diktovat své poznámky přímo do systému, který by je nejen přepsal, ale i automaticky zařadil do správných kategorií a upozornil na potenciální rizika. Tím by se ušetřilo spoustu času a snížila by se chybovost.

A co umění? Scribe by mohl být použit k automatickému vytváření titulků k filmům a seriálům v desítkách jazyků, čímž by se zpřístupnil obsah divákům po celém světě. Nebo by mohl být použit k analýze a přepisu starých nahrávek, které by se jinak ztratily v propadlišti dějin.

Zdroje

Skvělé! Úspěšně jste se zaregistrovali.

Vítejte zpět! Úspěšně jste se přihlásili.

Úspěšně jste se přihlásil/a k odběru Al trendy.cz - Vaše brána do světa Al.

Úspěch! Zkontrolujte svůj email pro magický odkaz k přihlášení.

Úspěch! Vaše fakturační informace byly aktualizovány.

Vaše fakturační údaje nebyly aktualizovány.