OpenAI released GPT-5.5 pada hari Rabu, tetapi data tolok ukur terbaru menunjukkan Anthropic's gated Claude Mythos Preview tetap memimpin pada enam dari sembilan tes yang dapat dibandingkan secara langsung.
Skor Tolok Ukur GPT-5.5
GPT-5.5 arrived di ChatGPT dan Codex pada 23 April, dengan harga $5 per satu juta token input dan $30 untuk output, dua kali lipat dari pendahulunya.
Model tersebut scored 82,7% pada Terminal-Bench 2.0, mengungguli Mythos sebesar 0,7 poin pada satu-satunya tolok ukur di mana ia jelas menang.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, memimpin di SWE-bench Pro dengan 77,8% dibanding 58,6%.
Mythos juga tops GPT-5.5 pada Humanity's Last Exam tanpa tools, meraih skor 56,8% dibanding 41,4%. Model tertutup ini juga unggul di CyberGym, OSWorld-Verified, dan tugas konteks panjang GraphWalks.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Catatan Penting dari Analis
Perbandingan ini tetap tidak presisi karena tidak ada laboratorium yang menguji tolok ukur kedua model secara langsung satu sama lain. OpenAI chose Claude Opus 4.7 sebagai pembanding publiknya, sementara kartu sistem Anthropic setebal 245 halaman membandingkan Mythos dengan GPT-5.4.
Rangka pengujian juga berbeda. OpenAI menggunakan pengaturan CLI Codex pada Terminal-Bench, sementara Terminus-2 milik Anthropic mendorong Mythos hingga 92,1% di bawah aturan waktu Terminal-Bench 2.1.
Keputusan Anthropic untuk membatasi akses Mythos, yang diumumkan 7 April, dilaporkan memicu pertemuan dengan Komisi Eropa dan peringatan dari gubernur Bank of England bahwa model tersebut dapat membuka risiko siber secara luas.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move





