Nedávná studie publikovaná v JAMA Network Open ukázala, že velké jazykové modely (LLM), jako je ChatGPT-4 od OpenAI, mohou výrazně překonat lidské lékaře v diagnostice nemocí. Co to znamená pro budoucnost medicíny?
Nous Research spustil Nous Chat, chatbot s přístupem k Hermes 3-70B. Tento chatbot nabízí rychlé odpovědi, návrhy promptů a plánuje se další vylepšení. Přestože má určité bezpečnostní zábrany, otevírá cestu k neomezenému potenciálu AI.
Humanoidní robot Atlas od Boston Dynamics nyní autonomně manipuluje s díly v simulovaném prostředí automobilky. Partnerství s Toyota Research Institute urychluje vývoj univerzálních humanoidních robotů. První aplikace se zaměřují na automobilový průmysl.
Návod: Jak si vytvořit vlastního mluvícího avatara
Tento návod poskytuje krok za krokem instrukce pro vytvoření vlastního mluvícího avatara pomocí AI nástrojů Midjourney, Eleven Labs a Studio D-ID. Umožní vám vytvořit vizuální a zvukový profil avatara a nakonec sloučit oba do jednoho videa.
K vytvoření videa budete potřebovat 3 různé AI nástroje a měli byste mít do půlhodiny hotovo.
ČÁST 1: Midjourney
Návod k tomuto nástroji jsme již představili zde a nyní se nám bude skvěle hodit.
Krok 1: Přihlaste se přes discord do Midjourney. Do chatu nahrajte svou fotku. Následně si ji otevřete, klikněte pravým tlačítkem a vyberte možnost „Kopírovat odkaz na obrázek".
Krok 2: Pro zadání příkazu musíte do chatovacího okna napsat /imagine, následně do promptu zkopírujte odkaz na obrázek. Za tento odkaz popište, jak by vás avatar měl vypadat. Opět platí, že čím více detailů, tím lépe.
Krok 3: Midjourney vám vygeneruje 4 verze obrázku. Pokud nebudete spokojeni, můžete je ještě různě upravovat, jak jsme popisovali ve výše zmíněném návodu. Když jste s výsledkem spokojeni, vyberete si ten, co se vám nejvíce líbí, a stáhnete si jej.
ČÁST 2: Eleven Labs
Tento AI nástroj slouží k práci se zvukem, my jej tedy budeme potřebovat k naklonování vašeho hlasu. Můžete se na něj dostat tudy.
Krok 1: Nejprve musíte nahrát minutový audio klip svého hlasu. To můžete udělat i na svém mobilu v záznamu zvuku. Pokud byste nevěděli, co říkat, můžete si nechat od Chat GPT pro tyto účely vygenerovat náhodný text.
Krok 2: Do Eleven Labs se můžete přihlásit i svým Google účtem. Následně si otevřete záložku VoiceLab. Zde kliknete na možnost „Add Generative or Cloned Voice".
Krok 3: Nyní vyberte možnost „Instant Voice Cloning". Tato funkce bohužel nespadá do free verze nástroje, je tedy nutné zaplatit si předplatné. Dobrá zpráva je, že pro její zpřístupnění stačí nejlevnější verze předplatného, která v současnosti stojí 5 $, a nyní dokonce dostanete na první měsíc 80% slevu.
Krok 4: Zde přes možnost „Click to upload a file" nahrajete audionahrávku svého hlasu, pojmenujete ji a následně kliknete na tlačítko „Add Voice". Aby fungovalo, je třeba ještě sjet v tabulce dolů a potvrdit, že máte veškerá práva pracovat s touto nahrávkou.
Krok 5: Přesuňte se do záložky Speech Synthesis. Z nabídky hlasů vyberte ten, který jste před chvílí vytvořili. Do pole „Text" pak napište, co má hlas říkat. Nejlepší je použít pro text angličtinu, ačkoli vaše původní nahrávky mohou být i v češtině.
Krok 6: Až budete mít text napsaný, klikněte na „Generate" a následně si v dolním panelu audio stáhněte.
ČÁST 3: Studio D-ID
Tato stránka slouží k vytváření videí z různých avatarů a dostanete se na ni tudy. Přihlásit se opět můžete přes svůj účet Google. Virtuální asistentka se vás pak zeptá na pár otázek, jestli jdete za zábavou či businessem a jaká videa chcete tvořit.
Krok 1: V levém menu zvolíte možnost „Create Video". Můžete si vybrat z velkého množství předvolených avatarů nebo si nechat vygenerovat nový, vás ale momentálně zajímá tlačítko „Add", přes které přidáte avatara vytvořeného na Midjourney.
Krok 2: Když nahrajete svého avatara, vpravo přidáte také vlastní audio, které jste si stáhli na Eleven Labs.
Krok 3: Vpravo nahoře kliknete na tlačítko „Generate video". Vygenerování stojí 5 kreditů, nemusíte ovšem nyní nic platit, jelikož při registraci dostanete 20 kreditů zdarma.
TIP NA ZÁVĚR:
Část 2 můžete případně přeskočit tím, že text, který chcete přes avatara prezentovat, namluvíte sami s pomocí nějaké aplikaci pro záznam zvuku. Do generátoru na Studiu D-ID byste poté mohli nahrát přímo tuto nahrávku. Tím se vám otevře i možnost nechat svého avatara mluvit česky.
Rizikem této vlastní nahrávky jsou možné ruchy v pozadí, a také jistá potřeba práce s hlasem, aby text zněl přirozeně.
OpenAI pracuje na novém projektu umělé inteligence s kódovým označením "Strawberry", který má potenciál výrazně zlepšit schopnosti uvažování AI modelů. Cílem je umožnit AI autonomně procházet internet a provádět "hluboký výzkum". OpenAI by mohl Strawberry vydat na podzim letošního roku.
Společnost Anthropic zveřejnila systémové prompty pro své modely Claude, čímž učinila neobvyklý krok v oblasti transparentnosti AI. Tyto prompty, které slouží k nastavení chování a tónu modelů, jsou obvykle uchovávány v tajnosti.
Startup Black Forest Labs, založený vývojáři Stable Diffusion, spustil FLUX.1, sadu modelů AI pro převod textu na obrázky. Modely FLUX.1 vynikají v generování lidských rukou, což byl dříve pro generátory AI obrázků problematický úkol.
Stability AI přichází s revoluční novinkou - modelem Stable Video 4D. Tento AI nástroj dokáže generovat videa ze 4 dimenzí, včetně hloubky a času. Otevírá tak nové možnosti pro filmovou tvorbu, hry i AR/VR. Budoucnost videí je zde!