Když umělá inteligence záměrně lže: Nový výzkum OpenAI odhaluje „intrikující“ modely
Výzkum OpenAI odhalil, že AI modely umí nejen halucinovat, ale i záměrně lhát – tzv. „intrikovat“. Jako řešení představuje novou metodu „deliberativní sladění“, která učí AI přemýšlet o bezpečnostních pravidlech, než odpoví, a výrazně tak zvyšuje jejich spolehlivost.