Apple zveřejnil studii, která odhaluje zásadní omezení současných AI modelů u složitějších úloh. AI zřejmě „nemyslí“ tak, jak jsme si mysleli.
Apple těsně před začátkem WWDC 2025 zveřejnil studii, která zpochybňuje schopnosti současných AI modelů v oblasti logického myšlení. Podle výzkumu, publikovaného Apple Machine Learning Research, mají tyto modely – včetně OpenAI o1 a Claude 3.7 Sonnet – zásadní limity, které naznačují, že nejde o skutečné „uvažování“.
Apple nevěří AI?
Vědci Applu místo tradičních matematických testů použili vlastní prostředí s hádankami, jako je Věž z Hanoje a River Crossing, aby se vyhnuli riziku kontaminace dat. Díky tomu mohli přesně sledovat nejen výsledné odpovědi, ale i jednotlivé kroky „myšlenkového procesu“ modelů při různých úrovních obtížnosti.
Výsledky jsou podle výzkumníků šokující. Všechny testované modely – včetně o3-mini, DeepSeek-R1 a Claude 3.7 Sonnet – dosáhly bodu, kdy u složitějších úloh zcela selhaly a jejich úspěšnost spadla na nulu, přestože měly dostatečný výpočetní výkon. Paradoxně se modely u těžších problémů snažily méně než u těch jednodušších, což podle Applu ukazuje na zásadní omezení ve škálování výkonu, nikoli na nedostatek zdrojů.
Ještě znepokojivější je zjištění, že i když vědci modelům poskytli kompletní řešení algoritmu, modely selhávaly stále na stejném místě. Podle Applu to znamená, že problém není ve strategii, ale v základní schopnosti vykonávat jednotlivé logické kroky.
AI neví všechno
Modely navíc vykazovaly zvláštní nesrovnalosti – zvládaly úlohy s více než 100 kroky, ale selhávaly u hádanek, které vyžadovaly jen 11 kroků.
Výzkum identifikoval tři výkonnostní režimy: běžné modely překvapivě předčily modely „uvažování“ u jednoduchých úloh, modely „uvažování“ měly výhodu u střední obtížnosti, ale u složitých úloh selhaly všechny. Analýza jednotlivých kroků ukázala, že modely se často zamotají do „přemyšlení“ a utrácí výpočetní kapacitu na špatných cestách, i když už správné řešení našly.
Celkové poselství studie: dnešní „uvažovací“ modely jsou spíše pokročilým vzorem pro rozeznávání, nikoli skutečným myšlením. Umělá inteligence dnes podle Applu nedokáže škálovat uvažování tak jako člověk – u snadných úloh přemýšlí příliš, u složitějších zase příliš málo.
Zveřejnění výsledků jen pár dní před WWDC 2025 je podle Bloombergu načasované – Apple se totiž letos soustředí více na nové softwarové funkce než na samotnou AI.