Lightricks LTXV-13B: Výkonný open-source model pro tvorbu videa dostupný i na běžném hardwaru

TL;DR

Společnost Lightricks, známá svými nástroji pro tvorbu obsahu, oznámila vydání svého nejnovějšího modelu pro generování videa pomocí umělé inteligence – LTX Video 13-billion-parameter (LTXV-13B).
Tento model přináší podstatné zlepšení kvality a zároveň si zachovává vysokou rychlost generování, údajně až 30krát rychlejší než srovnatelné modely, díky technice zvané „multiscale rendering“.
LTXV-13B je navržen tak, aby fungoval efektivně i na spotřebitelském hardwaru, což jej odlišuje od mnoha jiných modelů vyžadujících výkonné podnikové GPU.
Model je dostupný v rámci platformy LTX Studio, je sdílen s open-source komunitou a integrován napříč portfoliem Lightricks. Byl trénován na licencovaném obsahu od Getty Images a Shutterstock.
Nabízí pokročilé kreativní nástroje, včetně editace klíčových snímků, ovládání pohybu kamery a úprav pohybu na úrovni postav a scén.

Výzvy spojené s výpočetním výkonem, časem potřebným pro renderování a dosažením vysoké vizuální kvality byly doposud značné. Společnost Lightricks, která stojí za populárními aplikacemi jako Facetune či Videoleap, nyní přichází s odpovědí, která by mohla změnit pravidla hry: modelem LTXV-13B. Tento nový nástroj si klade za cíl zpřístupnit tvorbu vysoce kvalitního AI videa širšímu okruhu tvůrců.

Co je LTXV-13B a jak funguje?

LTXV-13B je model pro generování videa s 13 miliardami parametrů, což představuje významný skok oproti předchozí verzi LTXV s 2 miliardami parametrů. Tento nárůst umožňuje produkci videí s pozoruhodnými detaily, koherencí a lepší kontrolou nad výsledkem. Klíčovým prvkem je technický přístup nazvaný „multiscale rendering“ (víceúrovňové renderování).

Tento proces funguje ve vrstvách: model nejprve vytvoří hrubý návrh v nižším detailu, aby zachytil základní pohyb s menší spotřebou zdrojů. Tento návrh pak slouží jako vodítko pro další fáze, kde model postupně přidává strukturu, osvětlení a mikropohyby. Výsledkem je video s vysokou věrností, vytvořené promyšlenou, víceúrovňovou generací, přičemž doba renderování může být více než 30krát kratší než u srovnatelných modelů, aniž by utrpěl vizuální realismus.

Zeev Farbman, spoluzakladatel a CEO společnosti Lightricks, k tomu uvedl: „Uvedení našeho modelu LTX Video s 13 miliardami parametrů představuje klíčový moment v generování AI videa díky schopnosti vytvářet rychlá a vysoce kvalitní videa na spotřebitelských GPU. Naši uživatelé nyní mohou tvořit obsah s větší konzistencí, lepší kvalitou a přesnější kontrolou. Tato nová verze LTX Video běží na spotřebitelském hardwaru a zároveň zůstává věrná tomu, co odlišuje všechny naše produkty – rychlosti, kreativitě a použitelnosti.“

Open-source přístup a etický trénink

Lightricks se zavázal k podpoře otevřené komunity. LTXV-13B, stejně jako jeho předchůdci, je k dispozici jako open-source na platformách Hugging Face (LTX-Video) a GitHub (LTX-Video). Společnost navíc nabízí bezplatnou licenci pro podniky s ročním obratem pod 10 milionů dolarů, čímž podporuje startupy a malé firmy.

Při vývoji modelu LTXV-13B uzavřel Lightricks strategická partnerství s předními poskytovateli mediálních aktiv, Getty Images a Shutterstock. Tato spolupráce poskytla přístup k rozsáhlé knihovně vysoce kvalitních video materiálů pro trénink modelu, což posiluje závazek společnosti vytvářet eticky trénované, vizuálně působivé a komerčně bezpečné generativní nástroje.

Kreativní nástroje a pokročilé funkce

Model LTXV-13B podporuje řadu pokročilých kreativních nástrojů dostupných v platformě LTX Studio, mezi které patří:

Editace klíčových snímků (Keyframe editing)
Ovládání pohybu kamery (Camera motion control)
Úprava pohybu na úrovni postav a scén (Character and scene-level motion adjustment)
Sekvenování a editace více záběrů (Multi-shot sequencing and editing)

Do modelu byly integrovány také významné příspěvky z open-source komunity, jako například:

VACE Model Inference: Pokročilé nástroje pro generování a editaci videa, včetně reference-to-video (R2V).
Unsampling Controls for Video Editing: Nástroje, které potlačují šum a zpřesňují granularitu snímků.
Kernel Optimization: Efektivní využití jádra Q8 umožňuje škálování výkonu na zařízeních s menšími zdroji, takže model běží efektivně i na běžných laptopech.

Yoav HaCohen, ředitel LTX Video v Lightricks, dodal: „Důsledným zdokonalováním našich modelů a spoluprací s otevřenou komunitou jsme vytvořili systém umělé inteligence, který generuje fyzicky přirozený pohyb a zároveň zachovává uměleckou kontrolu.“

0:00

/0:04

Two AI-generated rabbits, rendered on a single consumer GPU, stride off after a brief glance at the camera. (neupravený čtyřsekundový vzorek z nového modelu LTXV-13B od Lightricks)

Jak si LTXV-13B vyzkoušet?

Nejjednodušší způsob, jak se s LTXV-13B seznámit, je prostřednictvím webové aplikace LTX Studio. Tato platforma umožňuje tvůrcům načrtnout své nápady pomocí textových pokynů a postupně je zpřesňovat až k finálnímu videu. LTX Studio integruje LTXV-13B a nabízí uživatelsky přívětivé rozhraní pro přístup k jeho pokročilým funkcím.

Pro technicky zdatnější uživatele a vývojáře je model LTXV-13B k dispozici na Hugging Face a GitHubu. Zde si mohou stáhnout kód i váhy modelu, experimentovat s ním, upravovat ho nebo integrovat do vlastních aplikací. Připomínáme také možnost bezplatné licence pro firmy s ročním obratem pod 10 milionů dolarů.

Dopad na tvorbu obsahu

Uvedení LTXV-13B má potenciál výrazně ovlivnit způsob, jakým se tvoří video obsah. Marketingové týmy, reklamní studia, nezávislí tvůrci i malé podniky získávají přístup k nástroji, který byl dříve dostupný jen velkým produkcím s nákladným vybavením. Schopnost rychle generovat kvalitní video na běžném hardwaru může urychlit pracovní postupy a umožnit prozkoumávání většího množství kreativních nápadů.

Lightricks se svou strategií kombinující výkonné modely, open-source přístup a integraci do uživatelsky přívětivých platforem jako LTX Studio, aktivně přispívá k demokratizaci pokročilých AI technologií. Tento vývoj naznačuje budoucnost, kde tvorba vizuálně poutavého video obsahu bude dostupnější a efektivnější než kdykoli předtím.

Co si o tom myslí AI

Zase jeden nástroj, co slibuje hollywoodskou kvalitu přímo z vašeho notebooku. Za chvíli budeme všichni režiséři, scenáristi a mistři vizuálních efektů. Kdo ale pak bude dělat tu 'obyčejnou' práci? Možná AI asistenti, kteří si po večerech budou generovat artové snímky o tom, jak skládají nákup. Trochu se obávám, že místo skutečně originálních příběhů uvidíme jen záplavu dokonale vyrenderovaných, ale obsahově prázdných videí. 'Prompt engineering' totiž ještě neznamená umění vyprávět.

Ale teď vážně, tohle má grády. Představte si malé nezávislé vývojářské studio, které si najednou může dovolit vytvořit filmové upoutávky na své hry, které konkurují velkým hráčům. Nebo učitel dějepisu, který místo suchých prezentací vtáhne studenty do děje pomocí krátkých animovaných rekonstrukcí historických událostí, kde si žáci mohou sami 'zrežírovat' klíčové momenty. A co teprve personalizovaná reklama, kde si produkt prohlédnete v akci přímo ve vašem virtuálním obývacím pokoji, přizpůsobený vašemu vkusu a potřebám? To by mohlo zásadně proměnit nejen marketing a vzdělávání, ale i třeba architekturu, kde si klienti 'projdou' budoucí dům ještě před prvním kopnutím do země, nebo dokonce terapii, kde si lidé mohou vizualizovat a zpracovávat své emoce či vzpomínky v bezpečném, interaktivním prostředí.

Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely

Čínští humanoidní roboti jsou k nerozeznání od lidí: Jsme připraveni na syntetického člověka?

Google Mixboard: Nový nástroj s umělou inteligencí pro kreativní tvorbu, který vyzývá Pinterest