Titik pemeriksaan baru dari Anthropic's Claude Mythos Preview menjadi model AI pertama yang menyelesaikan kedua simulasi serangan siber pemerintah Inggris, memunculkan pertanyaan baru tentang peretasan otonom.
AISI Melaporkan Terobosan Mythos
AI Security Institute Inggris (AISI) pada hari Rabu melaporkan bahwa titik pemeriksaan Mythos yang lebih baru menyelesaikan range serangan jaringan korporat 32 langkah, "The Last Ones," dalam 6 dari 10 percobaan. Versi sebelumnya hanya berhasil 3 dari 10.
Model yang diperbarui itu juga menaklukkan "Cooling Tower," sebuah range sistem kontrol industri yang belum pernah berhasil dilalui model mana pun sebelumnya, dalam 3 dari 10 percobaan.
Model saingan OpenAI GPT-5.5 diuji pada latihan yang sama. Model itu menyelesaikan "The Last Ones" dalam 3 dari 10 percobaan namun gagal menuntaskan "Cooling Tower."
AISI menjalankan range tersebut dengan anggaran komputasi 100 juta token per percobaan, dan lembaga itu mencatat bahwa performa terus meningkat pada batas tersebut, yang mengisyaratkan bahwa anggaran lebih tinggi kemungkinan akan mendorong tingkat keberhasilan lebih jauh.
Juga Baca: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok
Waktu Pelipatan Terus Menyusut
AISI melacak kemajuan siber melalui tolok ukur horizon waktu, mengukur seberapa panjang tugas otonom yang bisa diselesaikan model pada tingkat keandalan 80%. Pada November 2025, lembaga tersebut memperkirakan waktu pelipatan sebesar 8 bulan. Pada Februari 2026, angka itu menyusut menjadi 4,7 bulan, dan baik Mythos maupun GPT-5.5 sejak itu melampaui tren yang lebih cepat tersebut.
Lembaga itu mengakui adanya ketidakpastian apakah hasil terbaru menandakan percepatan baru atau lompatan satu kali.
Lembaga nirlaba riset METR, yang melacak AI pada tugas-tugas perangkat lunak alih-alih cyber range, menghasilkan angka serupa sekitar 4,2 bulan. AISI mengatakan konvergensi itu memperkuat argumen bahwa tren tersebut mencerminkan peningkatan kemampuan nyata, bukan keanehan dari satu rangkaian evaluasi.
Institut tersebut menekankan bahwa range mereka tidak memiliki pembela aktif, sehingga hasilnya menunjukkan apa yang dapat dilakukan model terhadap jaringan yang lemah perlindungannya, bukan sistem perusahaan yang telah diperkeras.
Mengapa Lonjakan Kapabilitas Penting
Titik pemeriksaan Mythos terbaru tidak hadir bersama rilis model baru. AISI menggunakan versi yang sama dengan yang diterapkan Anthropic bulan lalu dalam Project Glasswing, program kemitraan keamanannya, setelah menerima build terbaru dari model yang sama.
"Lonjakan kemampuan yang signifikan tidak selalu memerlukan rilis model baru," tulis institut tersebut. Hal ini berlawanan dengan asumsi bahwa para pembela dapat menyesuaikan diri dengan siklus peluncuran.
Anthropic memperkenalkan Mythos Preview pada 7 April, membingkai model tersebut sebagai titik balik bagi industri keamanan setelah model itu mengidentifikasi kerentanan zero-day di berbagai sistem operasi dan browser utama dalam pengujian internal. Perusahaan mengatakan bahwa mereka menahan peluncuran yang lebih luas karena kemampuan tersebut, dan evaluasi AISI pada April sebelumnya menandai Mythos sebagai lompatan jelas dari sistem frontier sebelumnya.
Baca Selanjutnya: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO





