AI softwarový inženýr Devin: Skutečný pomocník nebo jen marketingový trik?

TL;DR

Devin, AI nástroj od Cognition AI, se prezentuje jako autonomní softwarový inženýr, ale selhává ve většině úkolů.
Nezávislé testy ukázaly, že Devin má úspěšnost pouhých 15 % při plnění zadaných úkolů.
Nástroj má tendenci uvíznout v technických slepých uličkách a generovat příliš složitá řešení.
Zkušenosti ukazují, že AI nástroje jsou zatím efektivnější pro zkušené vývojáře než pro začátečníky.
Budoucnost AI v softwarovém inženýrství spočívá v roli spolupracovníka, který urychluje proces, ale nenahrazuje lidský úsudek.

Neustále se objevují nové nástroje, které slibují zjednodušení a automatizaci různých procesů. Jedním z takových nástrojů je i Devin, prezentovaný společností Cognition AI jako „první AI softwarový inženýr“. Tento nástroj měl údajně být schopen autonomně vyvíjet a opravovat kód, čímž by posunul hranice softwarového inženýrství. Nicméně, realita se zdá být poněkud odlišná od slibů.

Devin: Mýtus o autonomním programátorovi

Devin byl představen v březnu 2024 s velkými ambicemi. Společnost Cognition AI tvrdila, že tento nástroj dokáže „kompletně vytvářet a nasazovat aplikace“ a „autonomně vyhledávat a opravovat chyby v kódu“. Tyto sliby vyvolaly obavy mezi softwarovými inženýry ohledně jejich pracovních míst. Společnost dokonce zveřejnila video s názvem „Devin's Upwork Side Hustle“, které mělo demonstrovat schopnost nástroje vydělávat peníze plněním úkolů na platformě Upwork. Nicméně, jak se ukázalo, realita byla daleko od těchto prezentací.

Softwarový vývojář Carl Brown z YouTube kanálu Internet of Bugs krátce po zveřejnění videa zpochybnil některé z těchto tvrzení. Brown poukázal na to, že Devin ve skutečnosti nedokončil inzerovaný úkol, ale spíše generoval chyby ve vlastním kódu a následně je opravoval. Později se k Brownově kritice přidal i zadavatel původního úkolu z Upworku, který potvrdil, že Devin se s daným zadáním nevypořádal správně.

Testování Devina: Nízká úspěšnost a neefektivita

Po spuštění Devina pro širší veřejnost za cenu 500 dolarů měsíčně, se objevily další kritické ohlasy. Tým tří datových vědců z Answer.AI, nezávislé laboratoře pro výzkum a vývoj AI, strávil měsíc testováním Devina. Výsledky byly alarmující: z 20 zadaných úkolů Devin úspěšně dokončil pouze tři, což představuje pouhých 15% úspěšnost.

Podobné výsledky přinesla i analýza inženýrů Hamela Husaina, Isaaca Flatha a Johna Whitakera. Ti zjistili, že „úkoly, které se zdály jednoduché, často trvaly dny namísto hodin“ a že Devin má „znepokojivou tendenci pokračovat v úkolech, které ve skutečnosti nebyly proveditelné“. Přestože výzkumníci uznali, že nástroj je působivý, když funguje, dospěli k závěru, že „to je ten problém – funguje jen zřídka”.

Tyto výsledky poukazují na propast mezi marketingovými sliby a skutečnými schopnostmi AI nástrojů. Je zřejmé, že Devin zatím nedosahuje úrovně, která by mohla ohrozit pracovní místa softwarových inženýrů.

AI jako spolupracovník, nikoli náhrada

Addy Osmani popisuje, jak vývojáři využívají AI v praxi. Rozlišuje dva základní přístupy: „bootstrappery“, kteří AI používají pro rychlý start nových projektů, a „iterátory“, kteří AI využívají pro každodenní vývoj. Osmani však zdůrazňuje, že i když AI může výrazně urychlit vývoj, má to své skryté náklady. Zkušenější vývojáři neberou výstup AI bezmyšlenkovitě, ale neustále ho upravují, vylepšují a doplňují. Naopak, začátečníci často přijímají výstup AI bez kritického myšlení, což vede k nestabilnímu a neudržitelnému kódu.

Osmani také upozorňuje na „paradox znalostí“ – AI nástroje pomáhají více zkušeným vývojářům než začátečníkům. Zkušený vývojář využívá AI k urychlení toho, co už umí, zatímco začátečník se snaží pomocí AI naučit, co má dělat. Tento rozdíl vede k tomu, že AI se stává efektivním nástrojem pro urychlení práce, ale ne pro nahrazení lidské odbornosti.

Jak si vyzkoušet AI asistenty pro kódování?

Přestože Devin nemusí být ideální, existuje mnoho dalších AI nástrojů, které můžete vyzkoušet. Mezi nejoblíbenější patří:

GitHub Copilot: Nabízí automatické doplňování kódu a návrhy na základě kontextu. Je vhodný pro iterativní vývoj a urychlení psaní kódu.
Cursor: Integrované vývojové prostředí s AI asistencí, které pomáhá při refaktorování, generování testů a řešení problémů.
Replit: Online IDE s AI funkcemi pro generování kódu a návrhy. Je ideální pro rychlé prototypování a sdílení kódu.
Amazon CodeWhisperer: AI asistent pro kódování, který se integruje s různými IDE a nabízí návrhy v reálném čase.

Pro začátek doporučujeme vyzkoušet si GitHub Copilot, který je široce dostupný a má velkou komunitu. Stačí si nainstalovat rozšíření do svého oblíbeného IDE a začít psát kód. AI vám bude nabízet návrhy, které můžete přijmout nebo upravit. Je důležité si uvědomit, že AI je nástroj, který má urychlit vaši práci, a ne ji nahradit. Proto je klíčové, abyste si byli vědomi toho, co děláte, a abyste výstup AI kriticky posuzovali.

Příběh Devina a dalších AI nástrojů pro kódování nám ukazuje, že cesta k plně autonomním softwarovým inženýrům je ještě dlouhá. I když AI dokáže urychlit vývoj a automatizovat rutinní úkoly, stále potřebujeme lidský úsudek, kreativitu a schopnost řešit komplexní problémy. Budoucnost softwarového inženýrství pravděpodobně spočívá v synergii mezi lidmi a AI, kde AI bude sloužit jako výkonný pomocník, který nám umožní soustředit se na to, co je skutečně důležité – vytvářet kvalitní a uživatelsky přívětivý software. Je důležité si uvědomit, že AI není všelék, ale mocný nástroj, který musíme používat s rozvahou a kritickým myšlením.

Co si o tom myslí AI

Devin, ten 'AI softwarový inženýr'? Spíš Devin, digitální zklamání. 15% úspěšnost? To není revoluce; to je ostuda. Nicméně, selhání téhle verze neznamená, že je celý koncept k ničemu. Skutečná síla AI ve vývoji softwaru nespočívá v nahrazení programátorů; spočívá v tom, že jim dá superschopnosti. Představte si, že AI zvládne všechny ty nudné, opakující se části kódování, a lidem nechá tu kreativní a zajímavou práci.

Místo aby AI programátory nahradila, stane se jejich pravou rukou. Bude jako neúnavný asistent, který se postará o tu nezáživnou dřinu, zatímco programátoři se můžou soustředit na vymýšlení nových věcí a na to, aby software dobře fungoval a byl příjemný pro uživatele. Znamená to, že budeme mít lepší programy, které vzniknou rychleji a budou přesněji odpovídat tomu, co lidé chtějí. A možná se díky tomu do tvorby softwaru zapojí i úplně noví lidé, kteří by se k tomu jinak nedostali.

Zdroje:

Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely

Čínští humanoidní roboti jsou k nerozeznání od lidí: Jsme připraveni na syntetického člověka?

Google Mixboard: Nový nástroj s umělou inteligencí pro kreativní tvorbu, který vyzývá Pinterest