OpenAI released GPT-5.5 w środę, ale najnowsze dane z benchmarków pokazują, że Anthropic's gated Claude Mythos Preview nadal prowadzi w sześciu z dziewięciu bezpośrednio porównywalnych testów.
Wyniki benchmarków GPT-5.5
GPT-5.5 arrived w ChatGPT i Codex 23 kwietnia, wyceniony na 5 USD za milion tokenów wejściowych i 30 USD za wyjściowe, czyli dwa razy więcej niż jego poprzednik.
Model scored 82,7% w Terminal-Bench 2.0, wyprzedzając Mythos o 0,7 punktu w jedynym benchmarku, w którym wyraźnie wygrywa.
Mythos, który Anthropic wstrzymał z publicznym udostępnieniem ze względu na obawy dotyczące cyberbezpieczeństwa, prowadzi na SWE-bench Pro z wynikiem 77,8% wobec 58,6%.
Przewyższa też GPT-5.5 w teście Humanity's Last Exam bez narzędzi, osiągając 56,8% wobec 41,4%. Zamknięty model prowadzi również w CyberGym, OSWorld-Verified i zadaniach długiego kontekstu GraphWalks.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Zastrzeżenia analityków mają znaczenie
Porównanie pozostaje nieprecyzyjne, ponieważ żadne z laboratoriów nie przetestowało modeli bezpośrednio względem siebie. OpenAI chose jako publiczny punkt odniesienia Claude Opus 4.7, podczas gdy 245‑stronicowa karta systemowa Anthropic porównywała Mythos z GPT-5.4.
Różnią się także harnessy testowe. OpenAI użyło konfiguracji Codex CLI w Terminal-Bench, natomiast scaffold Terminus-2 Anthropic wypchnął Mythos do 92,1% zgodnie z zasadami czasowymi Terminal-Bench 2.1.
Decyzja Anthropic o zamknięciu dostępu do Mythos, ogłoszona 7 kwietnia, rzekomo wywołała spotkania z Komisją Europejską i ostrzeżenie od prezesa Banku Anglii, że model może otworzyć puszkę Pandory w obszarze ryzyka cybernetycznego.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






