FLUX.1: Nový generátor obrázků s umělou inteligencí, který je děsivě dobrý ve vytváření lidských rukou a textu

TL;DR

Startup Black Forest Labs, založený vývojáři Stable Diffusion, spustil FLUX.1, sadu modelů AI pro převod textu na obrázky.
Modely FLUX.1 vynikají v generování lidských rukou, což byl dříve pro generátory AI obrázků problematický úkol.
FLUX.1 je k dispozici v komerční verzi „pro“, verzi „dev“ se střední třídou s otevřenými váhami pro nekomerční použití a rychlejší verzi „schnell“ s otevřenými váhami.
Black Forest Labs plánuje rozšířit se do generování videa a FLUX.1 bude sloužit jako základ pro nový model převodu textu na video.

Ve čtvrtek startup s umělou inteligencí Black Forest Labs oznámil spuštění své společnosti a vydání své první sady modelů AI pro převod textu na obrázky s názvem FLUX.1. Společnost se sídlem v Německu, kterou založili výzkumníci, kteří vyvinuli technologii stojící za Stable Diffusion a vynalezli techniku latentní difúze , si klade za cíl vytvořit pokročilou generativní AI pro obrázky a videa.

Pochybné spuštění Stable Diffusion 3

Spuštění FLUX.1 přichází asi sedm týdnů po problematickém vydání Stable Diffusion 3 Medium společností Stability AI v polovině června. Nabídka Stability AI se setkala s rozsáhlou kritikou mezi nadšenci do syntézy obrázků kvůli špatnému výkonu při generování lidské anatomie, přičemž uživatelé sdíleli příklady zkreslených končetin a těl na sociálních sítích. Toto problematické spuštění následovalo po dřívějším odchodu tří klíčových inženýrů ze Stability AI - Robina Rombacha, Andrease Blattmanna a Dominika Lorenze - kteří následně založili Black Forest Labs spolu se spoluautorem latentní difúze Patrickem Esserem a dalšími .

Black Forest Labs spustila vydání tří modelů FLUX.1 pro převod textu na obrázky: špičková komerční verze „pro“, verze „dev“ se střední třídou s otevřenými váhami pro nekomerční použití a rychlejší verze „schnell“ s otevřenými váhami („schnell“ v němčině znamená rychlý). Black Forest Labs tvrdí, že její modely překonávají stávající možnosti, jako je Midjourney a DALL-E, v oblastech, jako je kvalita obrazu a dodržování textových pokynů.

Podle našich zkušeností jsou výstupy dvou špičkových modelů FLUX.1 obecně srovnatelné s DALL-E 3 od OpenAI, pokud jde o věrnost pokynům, s fotorealismem, který se zdá být blízký Midjourney 6 . Představují významné zlepšení oproti Stable Diffusion XL , poslednímu významnému vydání týmu pod Stability (pokud nepočítáme SDXL Turbo ).

Modely FLUX.1 používají to, co společnost nazývá „hybridní architekturou“, která kombinuje techniky transformátoru a difúze, škálované až na 12 miliard parametrů. Black Forest Labs uvedla, že vylepšuje předchozí difúzní modely začleněním flow matching a dalších optimalizací.

FLUX.1 zvládá generovat lidské ruce

FLUX.1 se zdá být kompetentní v generování lidských rukou, což bylo slabým místem v dřívějších modelech syntézy obrázků, jako je Stable Diffusion 1.5, kvůli nedostatku trénovacích obrázků, které se zaměřovaly na ruce. Od těch raných dob zvládly ruce i další generátory AI obrázků, jako je Midjourney, ale je pozoruhodné vidět model s otevřenými váhami, který vykresluje ruce relativně přesně v různých pózách.

Black Forest se dívá do budoucnosti

Black Forest Labs je sice nová společnost, ale již přitahuje finanční prostředky od investorů. Nedávno uzavřela kolo financování Series Seed ve výši 31 milionů dolarů, které vedla společnost Andreessen Horowitz, s dalšími investicemi od General Catalyst a MätchVC. Společnost také přivedla vysoce postavené poradce, včetně zábavního manažera a bývalého prezidenta Disney Michaela Ovitze a výzkumníka v oblasti AI Matthiase Bethgeho .

„Věříme, že generativní AI bude základním stavebním kamenem všech budoucích technologií,“ uvedla společnost ve svém oznámení. „Tím, že zpřístupníme naše modely širokému publiku, chceme přinést její výhody všem, vzdělávat veřejnost a posílit důvěru v bezpečnost těchto modelů.“

Když už mluvíme o „důvěře a bezpečnosti“, společnost se nezmínila o tom, kde získala trénovací data, která naučila modely FLUX.1 generovat obrázky. Soudě podle výstupů, které jsme s modelem dokázali vyprodukovat, včetně zobrazení postav chráněných autorským právem, Black Forest Labs pravděpodobně použila obrovské neoprávněné stahování obrázků z internetu, pravděpodobně shromážděné organizací LAION , která shromáždila datové sady , které trénovaly Stable Diffusion. V tuto chvíli se jedná o spekulaci. I když je základní technologický úspěch FLUX.1 pozoruhodný, zdá se pravděpodobné, že tým si s etikou „fair use“ stahování obrázků pohrává stejně jako Stability AI. Tato praxe může nakonec přilákat žaloby , jako jsou ty, které byly podány proti Stability AI.

Ačkoli je generování textu na obrázky v současnosti středem zájmu Black Forest, společnost plánuje v dalším kroku rozšířit se do generování videa a uvádí, že FLUX.1 bude sloužit jako základ pro nový model převodu textu na video, který je ve vývoji a bude konkurovat Sora od OpenAI, Gen-3 Alpha od Runway a Kling od Kuaishou v soutěži o deformaci mediální reality na vyžádání. „Naše video modely odemknou přesné vytváření a editaci ve vysokém rozlišení a bezprecedentní rychlostí,“ tvrdí oznámení Black Forest.

Co si o tom myslí AI

FLUX.1 je fascinujícím vývojem v oblasti generativní AI. Jeho schopnost realisticky vykreslovat lidské ruce je pozoruhodná a otevírá dveře pro nové kreativní možnosti.

Rozšíření do generování videa je logickým krokem pro Black Forest Labs. S FLUX.1 jako základem by společnost mohla vytvořit model, který by dokázal generovat realistická videa s postavami, které se pohybují a interagují s prostředím přirozeným způsobem. To by mohlo mít obrovský dopad na filmový průmysl, reklamu a další oblasti, kde se používá video. Představte si možnost generovat celé filmy s virtuálními herci nebo vytvářet interaktivní zážitky ve virtuální realitě, které jsou k nerozeznání od skutečnosti.

Je však důležité si uvědomit i etické aspekty generativní AI. S rostoucí dostupností a sofistikovaností těchto modelů bude stále snazší vytvářet falešný obsah, který je k nerozeznání od reality. To by mohlo vést k šíření dezinformací, manipulaci s veřejným míněním a dalším negativním důsledkům. Je proto nezbytné, aby se s rozvojem generativní AI vyvíjely i mechanismy pro detekci a ověřování obsahu.

FLUX.1 je krokem vpřed v oblasti generativní AI, ale je jen začátkem. Budoucnost generativní AI je plná možností, ale i výzev. Je na nás, abychom zajistili, že tato technologie bude využívána zodpovědně a eticky.

Zdroje:

Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely

Čínští humanoidní roboti jsou k nerozeznání od lidí: Jsme připraveni na syntetického člověka?

Google Mixboard: Nový nástroj s umělou inteligencí pro kreativní tvorbu, který vyzývá Pinterest