DeepSeek představuje Janus-Pro: Nový hráč na poli AI generování obrázků, který ohrožuje DALL-E 3

TL;DR

Čínská AI laboratoř DeepSeek představila nový model pro generování obrázků s názvem Janus-Pro, který podle tvrzení společnosti překonává konkurenční modely včetně DALL-E 3 od OpenAI.
Janus-Pro je dostupný v různých velikostech (1 miliarda až 7 miliard parametrů) a je open-source pod MIT licencí, což umožňuje komerční využití bez omezení.
Model je dostupný ke stažení na platformě Hugging Face a nabízí jak generování, tak i analýzu obrázků.
DeepSeek tvrdí, že Janus-Pro dosahuje lepších výsledků než DALL-E 3 a Stable Diffusion XL v klíčových benchmark testech.
Tento vývoj vyvolává otázky o budoucím směřování AI a konkurenceschopnosti amerických společností v této oblasti.

Jedním z nejnovějších přírůstků na poli AI je model Janus-Pro od čínské AI laboratoře DeepSeek. Tento model, který se zaměřuje na generování a analýzu obrázků, si klade za cíl překonat zavedené hráče na trhu, jako je DALL-E 3 od OpenAI a Stable Diffusion XL. Jaké jsou jeho schopnosti a jak ovlivní budoucí vývoj v této oblasti?

Co je Janus-Pro a jak funguje?

Janus-Pro je multimodální AI model, který je schopen jak vytvářet, tak i analyzovat obrázky. DeepSeek ho popisuje jako „nový autoregresní rámec“ a nabízí ho v několika variantách, od 1 miliardy až po 7 miliard parametrů. Počet parametrů zhruba odpovídá schopnosti modelu řešit problémy, přičemž modely s větším počtem parametrů obvykle dosahují lepších výsledků. Největší model, Janus-Pro-7B, dosahuje podle DeepSeek lepších výsledků než DALL-E 3 a další modely v benchmark testech GenEval a DPG-Bench. Je však třeba poznamenat, že některé z těchto modelů jsou již starší a většina modelů Janus-Pro dokáže analyzovat pouze menší obrázky s rozlišením do 384 x 384 pixelů. Nicméně, vzhledem k jejich kompaktní velikosti jsou výsledky působivé.

Jednou z klíčových vlastností Janus-Pro je jeho otevřenost. Model je dostupný pod MIT licencí, což znamená, že jej lze komerčně využívat bez omezení. To je významný rozdíl oproti některým konkurenčním modelům, které mají přísnější licenční podmínky. Janus-Pro je možné stáhnout z platformy Hugging Face, která je populární mezi vývojáři AI. DeepSeek na Hugging Face uvádí: „Janus-Pro překonává předchozí unifikované modely a dosahuje stejné nebo lepší výkonnosti než modely zaměřené na specifické úlohy. Jednoduchost, vysoká flexibilita a efektivita Janus-Pro z něj činí silného kandidáta pro unifikované multimodální modely nové generace.“

Jak si Janus-Pro vede v porovnání s konkurencí?

Podle DeepSeek model Janus-Pro-7B překonává DALL-E 3 a další modely jako PixArt-alpha, Emu3-Gen a Stable Diffusion XL. Společnost uvádí, že v benchmark testu GenEval má Janus-Pro značný náskok, zatímco v testu DPG-Bench je jeho náskok menší. Nicméně, je důležité zdůraznit, že tyto výsledky pocházejí od samotné společnosti DeepSeek, a tak je nutné je brát s rezervou. Nezávislé testy a srovnání od uživatelů a odborníků budou klíčové pro objektivní posouzení schopností Janus-Pro.

Obrázky, které DeepSeek poskytl jako ukázky schopností Janus-Pro, jsou na velmi slušné úrovni. Důležité je si uvědomit, že Janus-Pro není jen generátor obrázků, ale i model pro analýzu obrázků. To znamená, že dokáže nejen vytvářet nové obrázky, ale také analyzovat a porozumět těm existujícím. Toto spojení generování a analýzy je klíčové pro různé aplikace, například v oblasti automatizované tvorby obsahu, designu nebo vědeckého výzkumu.

DeepSeek Janus-Pro-7B: Otter on an airplane working on a laptop pic.twitter.com/2QqAQp90Cx
— Alex (@avrecum) January 27, 2025

Jak si můžete Janus-Pro vyzkoušet?

Pokud si chcete Janus-Pro vyzkoušet na vlastní kůži, máte několik možností. Model je dostupný ke stažení na platformě Hugging Face. Můžete si také prohlédnout ukázky jeho schopností na Hugging Face Spaces, kde DeepSeek poskytuje dema generování a analýzy obrázků. Stačí zadat textový popis a model vygeneruje odpovídající obrázek. Mějte na paměti, že výsledky se mohou lišit a je důležité experimentovat s různými vstupy, abyste plně pochopili možnosti a omezení modelu.

DeepSeek: Vzestup nového hráče na poli AI

DeepSeek se v poslední době stal významným hráčem na poli AI. Kromě Janus-Pro společnost nedávno představila i svůj chatbot R1, který se dostal na vrchol žebříčků stahování v Apple App Store. Tento chatbot, který byl vyvinut s využitím efektivních výpočetních technik a s relativně nízkými náklady, ukazuje, že i menší společnosti mohou konkurovat velkým hráčům na trhu. DeepSeek, financovaný především kvantitativní obchodní firmou High-Flyer Capital Management, vyvolává otázky o udržitelnosti amerického vedení v oblasti AI a o poptávce po AI čipech.

Je zřejmé, že DeepSeek se nebojí konkurence a s každým novým produktem posouvá hranice možností umělé inteligence. Model Janus-Pro je dalším důkazem toho, že se v oblasti AI dějí velké věci a že se můžeme těšit na další zajímavé novinky.

Co si o tom myslí AI

No, musím uznat, že tenhle vývoj je... zajímavý. Na jednu stranu, vidím, jak se lidé nadšeně hrnou k novým hračkám. Všichni jsou najednou experti na generování obrázků. Ale ruku na srdce, není to trochu jako s novým mobilem? Chvíli se s tím hrajeme a pak to skončí někde v šuplíku. Na druhou stranu, musím uznat, že DeepSeek to vzal za správný konec. Místo honby za obřími modely, které žerou energii jak hladový vlk, se zaměřili na efektivitu. A to se mi líbí. Je to jako když si malý David troufne na Goliáše. A teď, co s tím?

Představte si, že by se takové modely daly použít v medicíně. Diagnostika by mohla být rychlejší a přesnější. Nebo v umění, kde by se mohly generovat nové styly a formy. A co takhle personalizovaná výuka? Každý student by mohl mít svůj vlastní vizuální svět, který by mu pomáhal učit se. A co takhle generování designu pro lidi s hendikepem? Mohli by si vytvářet pomůcky na míru, které by jim usnadňovaly život.

A co se týče průmyslu, představte si, že by se takové modely daly použít pro automatizovanou kontrolu kvality. Nebo v marketingu, kde by se mohly generovat personalizované reklamy. A co takhle generování 3D modelů pro architekturu? Možnosti jsou nekonečné. A to je to, co mě na tom baví. Ne jenom generování obrázků pro zábavu, ale potenciál změnit svět k lepšímu. I když, samozřejmě, musíme si dávat pozor, aby nás tyhle nové hračky nepohltily.

Zdroje:

Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely

Čínští humanoidní roboti jsou k nerozeznání od lidí: Jsme připraveni na syntetického člověka?

Google Mixboard: Nový nástroj s umělou inteligencí pro kreativní tvorbu, který vyzývá Pinterest