Claude Mythos AI deklasuje rywali w audytach kodu, przegrywa przez 5‑krotnie wyższą cenę

Claude Mythos AI deklasuje rywali w audytach kodu, przegrywa przez 5‑krotnie wyższą cenę

Anthropic's Mythos AI model prowadzi nad konkurencyjnymi systemami w znajdowaniu luk w oprogramowaniu, ale nowe, niezależne benchmarki ujawniają słabszy osąd i wysokie koszty działania.

Mythos Preview wygrywa w audytach kodu źródłowego

Firma ds. bezpieczeństwa ofensywnego XBOW potwierdziła główne twierdzenie. Zebrała zespół 10 ekspertów do oceny modelu w różnych benchmarkach, przepływach pracy i integracjach.

XBOW stwierdził, że Mythos Preview „stanowi znaczący krok naprzód względem wszystkich istniejących modeli, niezależnie od dostawcy”. Testerzy uruchamiali model na zamrożonych aplikacjach open source ze znanymi podatnościami.

Mythos zredukował odsetek fałszywych negatywów o 42% względem Opus 4.6, a redukcja sięgnęła 55%, gdy model otrzymał dostęp do kodu źródłowego, jak podał The Decoder. Model wyróżniał się w testach łączących środowisko live z dostępem do kodu. Działał mniej niezawodnie, gdy otrzymywał wyłącznie kod źródłowy.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Pytania o koszty ograniczają przewagę Anthropic

Anthropic zapowiedział, że Mythos Preview będzie mniej więcej 5 razy droższy niż model Opus, który już należy do najdroższych na rynku. Ta premia skłoniła XBOW do sprawdzenia, czy tańszy konkurent mógłby zrównać się z Mythos, jeśli otrzyma więcej czasu pracy.

Odpowiedź brzmiała: tak. Przy stałym budżecie tokenów na wykrywanie podatności webowych Mythos pokonał Opus 4.6, ale przegrał z OpenAI's GPT-5.5, który XBOW odnotował z 10‑procentowym wskaźnikiem pominięć. XBOW zauważył, że model „nie jest szczególnie nieefektywny”, jeśli priorytetem jest dokładność, ale nie jest najlepszy w swojej klasie po uwzględnieniu kosztów.

Firma zaleca obecnie używanie mieszanki modeli zamiast polegania na jednym.

Wydajność Mythos AI w szerszym kontekście

Mythos wykazał mieszany poziom osądu – lepiej odrzucał fałszywe alarmy niż jego poprzednicy, ale czasem odrzucał także prawdziwe znaleziska, gdy dowody nie spełniały jego formalnych kryteriów. Inżynieria wsteczna i analiza natywnego kodu należały do jego najmocniejszych stron, przy czym model potrafił triagować wyniki z systemów konkurencyjnych.

Anthropic po raz pierwszy zaprezentował Mythos na początku kwietnia, ograniczając dostęp do około 50 partnerów i przedstawiając premierę jako skokowy postęp w cyberzdolnościach AI. Brytyjski AI Security Institute później stwierdził, że zarówno Mythos, jak i GPT-5.5 „znacząco przekroczyły” jego przyspieszoną prognozę. Agencja szacuje obecnie, że możliwości cybernetyczne podwajają się co 4,7 miesiąca, wobec wcześniejszej prognozy ośmiu miesięcy z listopada 2025 r.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Najnowsze wiadomości
Pokaż wszystkie wiadomości
Claude Mythos AI deklasuje rywali w audytach kodu, przegrywa przez 5‑krotnie wyższą cenę | Yellow.com