Claude Mythos AI wyprzedza rywali w audytach kodu, przegrywa przez 5‑krotnie wyższą cenę

Anthropic's Mythos AI model wyprzedza konkurencyjne systemy w wykrywaniu luk w oprogramowaniu, lecz nowe, niezależne benchmarki ujawniają słabszą ocenę ryzyka i bardzo wysokie koszty działania.

Mythos Preview liderem audytów kodu źródłowego

Firma zajmująca się ofensywnym bezpieczeństwem XBOW confirmed główne twierdzenie. Zespół 10 ekspertów ocenił model w różnych benchmarkach, przepływach pracy i integracjach.

XBOW stwierdził, że Mythos Preview „stanowi znaczący krok naprzód względem wszystkich obecnych modeli, niezależnie od dostawcy”. Testerzy uruchamiali model na zamrożonych projektach open source z już znanymi podatnościami.

Mythos zmniejszył liczbę fałszywie negatywnych wyników o 42% względem Opus 4.6, a redukcja sięgnęła 55%, gdy model otrzymał dostęp do kodu źródłowego, jak reported The Decoder. Model najlepiej sprawdzał się w testach łączących środowisko „live” z dostępem do kodu. Działał mniej niezawodnie, gdy dostawał wyłącznie kod źródłowy.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Wysokie koszty ograniczają przewagę Anthropic

Anthropic wskazuje, że Mythos Preview będzie około pięciokrotnie droższy niż model Opus, który już należy do najdroższych na rynku. Ta różnica skłoniła XBOW do sprawdzenia, czy tańszy konkurent może dorównać Mythos przy dłuższym czasie działania.

Odpowiedź była twierdząca. Przy stałym budżecie tokenów na wykrywanie podatności webowych Mythos pokonał Opus 4.6, ale przegrał z OpenAI's GPT-5.5, który XBOW recorded z 10‑procentowym wskaźnikiem pominiętych błędów. XBOW zauważył, że model „nie jest szczególnie nieefektywny”, jeśli priorytetem jest dokładność, ale nie jest już najlepszy w klasie po uwzględnieniu kosztu.

Firma zaleca obecnie stosowanie mieszanki modeli zamiast polegania na jednym.

Wydajność Mythos AI w szerszym kontekście

Mythos wykazał mieszany poziom osądu: lepiej niż poprzednicy odrzucał fałszywe alarmy, ale czasem odrzucał też rzeczywiste problemy, gdy dowody nie spełniały jego formalnych kryteriów. Odwrotna inżynieria i analiza kodu natywnego należały do jego najmocniejszych stron, a model potrafił porządkować wyniki uzyskane z konkurencyjnych systemów.

Anthropic first unveiled Mythos in early April, udostępniając go początkowo około 50 partnerom i przedstawiając premierę jako jakościowy skok w możliwościach AI w cyberbezpieczeństwie. Brytyjski AI Security Institute później stwierdził, że zarówno Mythos, jak i GPT-5.5 „znacząco wyprzedziły” jego przyspieszoną prognozę. Agencja szacuje obecnie, że możliwości cybernetyczne podwajają się co 4,7 miesiąca, w dół z wcześniejszych ośmiu miesięcy ustalonych w listopadzie 2025 r.