Debata o benchmarcích AI: Lhal xAI ohledně výsledků Grok 3?
Spory o to, jak jsou prezentovány výkony umělé inteligence a její benchmarking, vyplouvají na povrch. Zaměstnanec OpenAI obvinil společnost xAI, kterou založil Elon Musk, z toho, že zveřejnila zavádějící výsledky benchmarků pro svůj nejnovější model AI, Grok 3. Igor Babushkin, jeden ze spoluzakladatelů xAI, však trvá na tom, že firma jedná správně. Jak to tedy ve skutečnosti je?
Kontroverzní graf a jeho význam
Na blogu xAI byl zveřejněn graf, který ukazuje výkon Grok 3 v rámci testu AIME 2025, což je soubor náročných matematických úloh z mezinárodní zkoušky z matematiky. Někteří odborníci zpochybňují platnost AIME jako benchmarku pro AI, nicméně starší verze testu se běžně používají k hodnocení matematických schopností modelů.
Graf od xAI ukázal, že dvě varianty Grok 3 – Grok 3 Reasoning Beta a Grok 3 mini Reasoning – překonaly nejlepší dostupný model OpenAI, o3-mini-high, v testu AIME 2025. Rychlá reakce zaměstnanců OpenAI na platformě X však naznačila, že graf xAI nezahrnuje skóre o3-mini-high při metrice „cons@64“.
Co je cons@64?
Termín „cons@64“, což znamená „consensus@64“, v podstatě uděluje modelu 64 pokusů na odpověď na každou otázku v benchmarku a bere jako finální odpovědi ty, které byly vygenerovány nejčastěji. Tento přístup může výrazně zvýšit skóre modelů, a proto absence této metriky v grafu může zkreslit skutečné porovnání mezi modely.
Skóre Grok 3 Reasoning Beta a Grok 3 mini Reasoning podle metriky „@1“ – tedy první skóre, které modely získaly v benchmarku – nedosahuje skóre o3-mini-high. Grok 3 Reasoning Beta rovněž mírně zaostává za modelem o1 od OpenAI, nastaveným na „střední“ výpočetní výkon. Přesto xAI propaguje Grok 3 jako „nejchytřejší AI na světě“.
Odpovědnost a porovnávání výkonu
Babushkin na platformě X argumentoval tím, že OpenAI v minulosti zveřejnila podobně zavádějící benchmarkové grafy, avšak srovnávající výkonnost vlastních modelů. Nezávislý pozorovatel však vytvořil „přesnější“ graf, který ukazuje výkonnost téměř každého modelu při použití metriky cons@64.
Jak však upozornil AI výzkumník Nathan Lambert, možná nejdůležitější metrikou, která zůstává neznámá, je výpočetní (a finanční) náklad potřebný pro každý model k dosažení jeho nejlepšího skóre. To ukazuje, jak málo benchmarky AI skutečně informují o omezeních modelů – a jejich silných stránkách.
Shrnutí situace
Debaty kolem benchmarků AI, zejména týkající se výkonu modelu Grok 3 od xAI, odhalují nejen komplikovanost měření výkonnosti umělé inteligence, ale také potřebu transparentnosti a přesnosti při reportování těchto výsledků.