Claude Mythos kontra GPT-5.5: zamknięty model Anthropic wygrywa 6 z 9 testów

Claude Mythos kontra GPT-5.5: zamknięty model Anthropic wygrywa 6 z 9 testów

OpenAI released GPT-5.5 w środę, ale najnowsze dane z benchmarków pokazują, że Anthropic's gated Claude Mythos Preview nadal prowadzi w sześciu z dziewięciu bezpośrednio porównywalnych testów.

Wyniki benchmarków GPT-5.5

GPT-5.5 arrived w ChatGPT i Codex 23 kwietnia, wyceniony na 5 USD za milion tokenów wejściowych i 30 USD za wyjściowe, czyli dwa razy więcej niż jego poprzednik.

Model scored 82,7% w Terminal-Bench 2.0, wyprzedzając Mythos o 0,7 punktu w jedynym benchmarku, w którym wyraźnie wygrywa.

Mythos, który Anthropic wstrzymał z publicznym udostępnieniem ze względu na obawy dotyczące cyberbezpieczeństwa, prowadzi na SWE-bench Pro z wynikiem 77,8% wobec 58,6%.

Przewyższa też GPT-5.5 w teście Humanity's Last Exam bez narzędzi, osiągając 56,8% wobec 41,4%. Zamknięty model prowadzi również w CyberGym, OSWorld-Verified i zadaniach długiego kontekstu GraphWalks.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Zastrzeżenia analityków mają znaczenie

Porównanie pozostaje nieprecyzyjne, ponieważ żadne z laboratoriów nie przetestowało modeli bezpośrednio względem siebie. OpenAI chose jako publiczny punkt odniesienia Claude Opus 4.7, podczas gdy 245‑stronicowa karta systemowa Anthropic porównywała Mythos z GPT-5.4.

Różnią się także harnessy testowe. OpenAI użyło konfiguracji Codex CLI w Terminal-Bench, natomiast scaffold Terminus-2 Anthropic wypchnął Mythos do 92,1% zgodnie z zasadami czasowymi Terminal-Bench 2.1.

Decyzja Anthropic o zamknięciu dostępu do Mythos, ogłoszona 7 kwietnia, rzekomo wywołała spotkania z Komisją Europejską i ostrzeżenie od prezesa Banku Anglii, że model może otworzyć puszkę Pandory w obszarze ryzyka cybernetycznego.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Claude Mythos kontra GPT-5.5: zamknięty model Anthropic wygrywa 6 z 9 testów | Yellow.com