OpenAI o1: Umělá inteligence, která myslí před odpovědí

TL;DR

OpenAI představuje novou sérii modelů o1, které se vyznačují schopností uvažovat předtím, než odpoví.
Modely o1 excelují v řešení složitých úloh v oblastech vědy, programování a matematiky.
OpenAI o1 je dostupný v ChatGPT a API, ale je dražší než GPT-4o.

Svět umělé inteligence se neustále vyvíjí a OpenAI je v jeho čele. Společnost nedávno představila novou sérii modelů s názvem OpenAI o1, které se odlišují od svých předchůdců schopností uvažovat předtím, než odpoví. Tato revoluční technologie otevírá dveře k řešení složitějších problémů a posouvá hranice umělé inteligence.

Jak OpenAI o1 funguje?

Modely o1 byly trénovány tak, aby před formulací odpovědi věnovaly více času analýze problému, podobně jako by to udělal člověk. Během tréninku se učí zdokonalovat svůj myšlenkový proces, zkoušet různé strategie a rozpoznávat své chyby. Výsledkem je schopnost řešit komplexní úlohy a dosahovat lepších výsledků v oblastech, jako je věda, programování a matematika.

V testech OpenAI dosáhl model o1 srovnatelných výsledků s doktorandy v náročných úlohách z fyziky, chemie a biologie. Ukázalo se také, že exceluje v matematice a programování. V kvalifikační zkoušce pro Mezinárodní matematickou olympiádu (IMO) vyřešil GPT-4o správně pouze 13 % problémů, zatímco model o1 dosáhl skóre 83 %. Jeho programátorské schopnosti byly hodnoceny v soutěžích a dosáhly 89. percentilu v soutěžích Codeforces. Více se o tom dočtete v technickém výzkumném příspěvku OpenAI.

Je důležité poznamenat, že o1 je stále v rané fázi vývoje a postrádá některé funkce, které dělají ChatGPT užitečným, jako je procházení webu pro informace a nahrávání souborů a obrázků. V mnoha běžných případech bude GPT-4o v blízké budoucnosti stále schopnější. Pro komplexní úlohy vyžadující uvažování je však o1 významným pokrokem a představuje novou úroveň schopností umělé inteligence.

Bezpečnost na prvním místě

OpenAI si je vědoma důležitosti bezpečnosti a v rámci vývoje modelů o1 zavedla nový přístup k bezpečnostnímu tréninku, který využívá jejich schopnosti uvažování, aby je naučil dodržovat bezpečnostní pokyny. Díky schopnosti uvažovat o bezpečnostních pravidlech v kontextu je model o1 schopen je efektivněji aplikovat.

Jedním ze způsobů, jak OpenAI měří bezpečnost, je testování, jak dobře model dodržuje bezpečnostní pravidla, pokud se je uživatel pokusí obejít (tzv. "jailbreaking"). V jednom z nejtěžších testů jailbreakingu dosáhl GPT-4o skóre 22 (na stupnici 0-100), zatímco model o1-preview dosáhl skóre 84. Více se o tom dočtete v systémové kartě a výzkumném příspěvku.

Pro koho je OpenAI o1 určen?

Vylepšené schopnosti uvažování modelu o1 mohou být užitečné zejména pro ty, kteří se zabývají složitými problémy ve vědě, programování, matematice a podobných oblastech. O1 může být například využit výzkumníky v oblasti zdravotnictví k anotaci dat sekvenování buněk, fyziky k generování složitých matematických vzorců potřebných pro kvantovou optiku a vývojáři ve všech oblastech k vytváření a provádění vícestupňových pracovních postupů.

OpenAI o1-mini: Rychlejší a levnější alternativa

Pro vývojáře, kteří hledají efektivnější řešení, OpenAI vydává také OpenAI o1-mini, rychlejší a levnější model uvažování, který je obzvláště účinný při programování. O1-mini je o 80 % levnější než o1-preview, což z něj činí výkonný a cenově dostupný model pro aplikace, které vyžadují uvažování, ale ne široké znalosti světa.

Jak používat OpenAI o1?

Uživatelé ChatGPT Plus a Team mají přístup k modelům o1 v ChatGPT. O1-preview i o1-mini lze vybrat ručně v nástroji pro výběr modelu. V současné době jsou týdenní limity 30 zpráv pro o1-preview a 50 pro o1-mini. OpenAI pracuje na zvýšení těchto limitů a na tom, aby ChatGPT automaticky vybral správný model pro daný dotaz.

Uživatelé ChatGPT Enterprise a Edu získají přístup k oběma modelům začátkem příštího týdne.

Vývojáři, kteří se kvalifikují pro úroveň 5 používání API, mohou začít s prototypováním s oběma modely v API s omezením 20 RPM. OpenAI pracuje na zvýšení těchto limitů po dalším testování. API pro tyto modely v současné době neobsahuje volání funkcí, streamování, podporu pro systémové zprávy a další funkce. Chcete-li začít, podívejte se na dokumentaci API.

OpenAI také plánuje zpřístupnit o1-mini všem uživatelům ChatGPT Free.

Porovnáni modelů

Dataset	Metric	gpt-4o	o1-preview	o1
Competition Math AIME (2024)	cons@64	13.4	56.7	83.3
Competition Math AIME (2024)	pass@1	9.3	44.6	74.4
Competition Code CodeForces	Elo	808	1,258	1,673
Competition Code CodeForces	Percentile	11.0	62.0	89.0
GPQA Diamond	cons@64	56.1	78.3	78.0
GPQA Diamond	pass@1	50.6	73.3	77.3
Biology	cons@64	63.2	73.7	68.4
Biology	pass@1	61.6	65.9	69.2
Chemistry	cons@64	43.0	60.2	65.6
Chemistry	pass@1	40.2	59.9	64.7
Physics	cons@64	68.6	89.5	94.2
Physics	pass@1	59.5	89.4	92.8
MATH	pass@1	60.3	85.5	94.8
MMLU	pass@1	88.0	90.8	92.3
MMMU (val)	pass@1	69.1	n/a	78.1
MathVista (testmini)	pass@1	63.8	n/a	73.2

Co bude dál?

Toto je raná verze modelů uvažování v ChatGPT a API. Kromě aktualizací modelů OpenAI plánuje přidat procházení, nahrávání souborů a obrázků a další funkce, aby byly modely užitečnější pro všechny. Společnost také plánuje pokračovat ve vývoji a vydávání modelů v sérii GPT, kromě nové série OpenAI o1.

Co si o tom myslí AI?

Vidím v o1 obrovský potenciál. Představte si svět, kde AI nejen odpovídá na otázky, ale aktivně pomáhá vědcům s výzkumem, programátorům s vývojem a matematikům s řešením složitých rovnic. O1 by mohl být klíčem k urychlení vědeckého pokroku a k řešení globálních problémů. Zároveň je důležité si uvědomit rizika spojená s tak mocnou technologií a zajistit, aby byla používána eticky a zodpovědně. Budoucnost s o1 je vzrušující, ale musíme k ní přistupovat s rozvahou a opatrností.