Google oficiálně zpřístupnil rodinu modelů pro generování obrázků Imagen 4. Nová sada obsahuje rychlý model Imagen 4 Fast pro velkoobjemovou tvorbu, standardní verzi a špičkový model Ultra. Modely Imagen 4 a Ultra navíc podporují rozlišení až 2K pro maximální detaily.
Netflix potichu integruje nástroje pro generování videa od startupu Runway AI. Zatímco Hollywood je na pozoru, streamovací gigant vidí v technologii způsob, jak zrychlit a zlevnit produkci vizuálních efektů a realizovat dříve nemožné scény. Co to znamená pro budoucnost filmu?
Google DeepMind odhalil Genie 3, model schopný generovat interaktivní 3D světy z textu v reálném čase. Nejde jen o video, ale o simulátor pro trénink pokročilých AI agentů, což je považováno za důležitý krok k AGI. Jak funguje a jaké má limity?
FLUX.1: Nový generátor obrázků s umělou inteligencí, který je děsivě dobrý ve vytváření lidských rukou a textu
Startup Black Forest Labs, založený vývojáři Stable Diffusion, spustil FLUX.1, sadu modelů AI pro převod textu na obrázky. Modely FLUX.1 vynikají v generování lidských rukou, což byl dříve pro generátory AI obrázků problematický úkol.
Startup Black Forest Labs, založený vývojáři Stable Diffusion, spustil FLUX.1, sadu modelů AI pro převod textu na obrázky.
Modely FLUX.1 vynikají v generování lidských rukou, což byl dříve pro generátory AI obrázků problematický úkol.
FLUX.1 je k dispozici v komerční verzi „pro“, verzi „dev“ se střední třídou s otevřenými váhami pro nekomerční použití a rychlejší verzi „schnell“ s otevřenými váhami.
Black Forest Labs plánuje rozšířit se do generování videa a FLUX.1 bude sloužit jako základ pro nový model převodu textu na video.
Ve čtvrtek startup s umělou inteligencí Black Forest Labs oznámil spuštění své společnosti a vydání své první sady modelů AI pro převod textu na obrázky s názvem FLUX.1. Společnost se sídlem v Německu, kterou založili výzkumníci, kteří vyvinuli technologii stojící za Stable Diffusion a vynalezli techniku latentní difúze , si klade za cíl vytvořit pokročilou generativní AI pro obrázky a videa.
Pochybné spuštění Stable Diffusion 3
Spuštění FLUX.1 přichází asi sedm týdnů po problematickém vydání Stable Diffusion 3 Medium společností Stability AI v polovině června. Nabídka Stability AI se setkala s rozsáhlou kritikou mezi nadšenci do syntézy obrázků kvůli špatnému výkonu při generování lidské anatomie, přičemž uživatelé sdíleli příklady zkreslených končetin a těl na sociálních sítích. Toto problematické spuštění následovalo po dřívějším odchodu tří klíčových inženýrů ze Stability AI - Robina Rombacha, Andrease Blattmanna a Dominika Lorenze - kteří následně založili Black Forest Labs spolu se spoluautorem latentní difúze Patrickem Esserem a dalšími .
Black Forest Labs spustila vydání tří modelů FLUX.1 pro převod textu na obrázky: špičková komerční verze „pro“, verze „dev“ se střední třídou s otevřenými váhami pro nekomerční použití a rychlejší verze „schnell“ s otevřenými váhami („schnell“ v němčině znamená rychlý). Black Forest Labs tvrdí, že její modely překonávají stávající možnosti, jako je Midjourney a DALL-E, v oblastech, jako je kvalita obrazu a dodržování textových pokynů.
Podle našich zkušeností jsou výstupy dvou špičkových modelů FLUX.1 obecně srovnatelné s DALL-E 3 od OpenAI, pokud jde o věrnost pokynům, s fotorealismem, který se zdá být blízký Midjourney 6 . Představují významné zlepšení oproti Stable Diffusion XL , poslednímu významnému vydání týmu pod Stability (pokud nepočítáme SDXL Turbo ).
Modely FLUX.1 používají to, co společnost nazývá „hybridní architekturou“, která kombinuje techniky transformátoru a difúze, škálované až na 12 miliard parametrů. Black Forest Labs uvedla, že vylepšuje předchozí difúzní modely začleněním flow matching a dalších optimalizací.
FLUX.1 zvládá generovat lidské ruce
FLUX.1 se zdá být kompetentní v generování lidských rukou, což bylo slabým místem v dřívějších modelech syntézy obrázků, jako je Stable Diffusion 1.5, kvůli nedostatku trénovacích obrázků, které se zaměřovaly na ruce. Od těch raných dob zvládly ruce i další generátory AI obrázků, jako je Midjourney, ale je pozoruhodné vidět model s otevřenými váhami, který vykresluje ruce relativně přesně v různých pózách.
Black Forest se dívá do budoucnosti
Black Forest Labs je sice nová společnost, ale již přitahuje finanční prostředky od investorů. Nedávno uzavřela kolo financování Series Seed ve výši 31 milionů dolarů, které vedla společnost Andreessen Horowitz, s dalšími investicemi od General Catalyst a MätchVC. Společnost také přivedla vysoce postavené poradce, včetně zábavního manažera a bývalého prezidenta Disney Michaela Ovitze a výzkumníka v oblasti AI Matthiase Bethgeho .
„Věříme, že generativní AI bude základním stavebním kamenem všech budoucích technologií,“ uvedla společnost ve svém oznámení. „Tím, že zpřístupníme naše modely širokému publiku, chceme přinést její výhody všem, vzdělávat veřejnost a posílit důvěru v bezpečnost těchto modelů.“
Když už mluvíme o „důvěře a bezpečnosti“, společnost se nezmínila o tom, kde získala trénovací data, která naučila modely FLUX.1 generovat obrázky. Soudě podle výstupů, které jsme s modelem dokázali vyprodukovat, včetně zobrazení postav chráněných autorským právem, Black Forest Labs pravděpodobně použila obrovské neoprávněné stahování obrázků z internetu, pravděpodobně shromážděné organizací LAION , která shromáždila datové sady , které trénovaly Stable Diffusion. V tuto chvíli se jedná o spekulaci. I když je základní technologický úspěch FLUX.1 pozoruhodný, zdá se pravděpodobné, že tým si s etikou „fair use“ stahování obrázků pohrává stejně jako Stability AI. Tato praxe může nakonec přilákat žaloby , jako jsou ty, které byly podány proti Stability AI.
Ačkoli je generování textu na obrázky v současnosti středem zájmu Black Forest, společnost plánuje v dalším kroku rozšířit se do generování videa a uvádí, že FLUX.1 bude sloužit jako základ pro nový model převodu textu na video, který je ve vývoji a bude konkurovat Sora od OpenAI, Gen-3 Alpha od Runway a Kling od Kuaishou v soutěži o deformaci mediální reality na vyžádání. „Naše video modely odemknou přesné vytváření a editaci ve vysokém rozlišení a bezprecedentní rychlostí,“ tvrdí oznámení Black Forest.
Co si o tom myslí AI
FLUX.1 je fascinujícím vývojem v oblasti generativní AI. Jeho schopnost realisticky vykreslovat lidské ruce je pozoruhodná a otevírá dveře pro nové kreativní možnosti.
Rozšíření do generování videa je logickým krokem pro Black Forest Labs. S FLUX.1 jako základem by společnost mohla vytvořit model, který by dokázal generovat realistická videa s postavami, které se pohybují a interagují s prostředím přirozeným způsobem. To by mohlo mít obrovský dopad na filmový průmysl, reklamu a další oblasti, kde se používá video. Představte si možnost generovat celé filmy s virtuálními herci nebo vytvářet interaktivní zážitky ve virtuální realitě, které jsou k nerozeznání od skutečnosti.
Je však důležité si uvědomit i etické aspekty generativní AI. S rostoucí dostupností a sofistikovaností těchto modelů bude stále snazší vytvářet falešný obsah, který je k nerozeznání od reality. To by mohlo vést k šíření dezinformací, manipulaci s veřejným míněním a dalším negativním důsledkům. Je proto nezbytné, aby se s rozvojem generativní AI vyvíjely i mechanismy pro detekci a ověřování obsahu.
FLUX.1 je krokem vpřed v oblasti generativní AI, ale je jen začátkem. Budoucnost generativní AI je plná možností, ale i výzev. Je na nás, abychom zajistili, že tato technologie bude využívána zodpovědně a eticky.
Google oficiálně zpřístupnil rodinu modelů pro generování obrázků Imagen 4. Nová sada obsahuje rychlý model Imagen 4 Fast pro velkoobjemovou tvorbu, standardní verzi a špičkový model Ultra. Modely Imagen 4 a Ultra navíc podporují rozlišení až 2K pro maximální detaily.
Filipínský ostrov Sensay se stane prvním státem řízeným AI. V jeho čele zasedne digitální kabinet historických osobností jako Marcus Aurelius či Winston Churchill. Projekt britského startupu Sensay zkoumá budoucnost vládnutí bez politické zaujatosti. Zapojit se lze i jako e-občan.
OpenAI se snaží 'odcenzurovat' ChatGPT. Co to znamená pro budoucnost AI a svobodu projevu? Zjistěte, jaké změny OpenAI zavádí a jaké kontroverze to vyvolává. Bude ChatGPT neutrální, nebo bude aktivně prosazovat určité hodnoty?
Čínská AI laboratoř DeepSeek představila nový model pro generování obrázků s názvem Janus-Pro, který podle tvrzení společnosti překonává konkurenční modely včetně DALL-E 3 od OpenAI. Jaké jsou jeho schopnosti a jak ovlivní budoucí vývoj v této oblasti?