Claude Mythos AI Kalahkan Pesaing dalam Audit Kode, Kalah di Harga 5X Lebih Mahal

Model AI Anthropic's Mythos unggul dibanding sistem pesaing dalam menemukan kerentanan perangkat lunak, tetapi tolok ukur independen baru mengungkap kelemahan penilaian dan biaya operasional yang tinggi.

Mythos Preview Ungguli Audit Kode Sumber

Perusahaan keamanan ofensif XBOW mengonfirmasi klaim utama tersebut. Perusahaan ini membentuk tim beranggotakan 10 ahli untuk mengevaluasi model di berbagai tolok ukur, alur kerja, dan integrasi.

XBOW menyatakan Mythos Preview "merupakan lompatan signifikan dibanding semua model yang ada, tanpa memandang penyedia." Penguji menjalankan model pada aplikasi open-source yang dibekukan dengan kerentanan yang sudah diketahui.

Mythos memangkas false negative sebesar 42% dibanding Opus 4.6, dengan penurunan mencapai 55% ketika model diberi akses ke kode sumber, menurut laporan The Decoder reported. Model ini sangat unggul pada pengujian live-plus-source. Performa menjadi kurang andal ketika hanya diberi kode sumber.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

Pertanyaan Biaya Mengurangi Keunggulan Anthropic

Anthropic menyatakan Mythos Preview akan sekitar 5 kali lebih mahal daripada model Opus, yang sudah termasuk opsi termahal di pasar. Premi tersebut mendorong XBOW untuk menguji apakah pesaing yang lebih murah dapat menyamai Mythos jika diberi waktu jalan lebih lama.

Jawabannya ya. Dengan anggaran token tetap untuk penemuan kerentanan web, Mythos mengalahkan Opus 4.6 tetapi kalah dari GPT-5.5 milik OpenAI, yang oleh XBOW dicatat memiliki tingkat miss 10%. XBOW mencatat model ini "tidak terlalu tidak efisien" jika akurasi menjadi tujuan, tetapi bukan yang terbaik ketika normalisasi biaya menjadi faktor.

Perusahaan itu kini merekomendasikan penggunaan campuran beberapa model alih-alih bergantung pada satu model saja.

Performa Mythos AI dalam Konteks

Mythos menunjukkan penilaian yang beragam, lebih baik dalam menolak false positive dibanding pendahulunya tetapi kadang membuang temuan yang benar ketika bukti tidak memenuhi kriteria formalnya. Rekayasa balik dan analisis kode native termasuk di antara keahlian terkuatnya, dengan kemampuan memprioritaskan temuan dari sistem pesaing.

Anthropic pertama kali memperkenalkan Mythos pada awal April, membatasi akses ke sekitar 50 mitra dan membingkai rilis ini sebagai lonjakan kemampuan siber AI. U.K. AI Security Institute kemudian menyatakan bahwa Mythos dan GPT-5.5 sama‑sama "jauh melampaui" proyeksi percepatannya. Badan tersebut kini memperkirakan kemampuan siber berlipat ganda setiap 4,7 bulan, turun dari perkiraan sebelumnya delapan bulan yang ditetapkan pada November 2025.