Claude Mythos Vs. GPT-5.5: Model Tertutup Anthropic Menang di 6 dari 9 Tes

Claude Mythos Vs. GPT-5.5: Model Tertutup Anthropic Menang di 6 dari 9 Tes

OpenAI released GPT-5.5 pada hari Rabu, tetapi data tolok ukur terbaru menunjukkan Anthropic's gated Claude Mythos Preview tetap memimpin pada enam dari sembilan tes yang dapat dibandingkan secara langsung.

Skor Tolok Ukur GPT-5.5

GPT-5.5 arrived di ChatGPT dan Codex pada 23 April, dengan harga $5 per satu juta token input dan $30 untuk output, dua kali lipat dari pendahulunya.

Model tersebut scored 82,7% pada Terminal-Bench 2.0, mengungguli Mythos sebesar 0,7 poin pada satu-satunya tolok ukur di mana ia jelas menang.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, memimpin di SWE-bench Pro dengan 77,8% dibanding 58,6%.

Mythos juga tops GPT-5.5 pada Humanity's Last Exam tanpa tools, meraih skor 56,8% dibanding 41,4%. Model tertutup ini juga unggul di CyberGym, OSWorld-Verified, dan tugas konteks panjang GraphWalks.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Catatan Penting dari Analis

Perbandingan ini tetap tidak presisi karena tidak ada laboratorium yang menguji tolok ukur kedua model secara langsung satu sama lain. OpenAI chose Claude Opus 4.7 sebagai pembanding publiknya, sementara kartu sistem Anthropic setebal 245 halaman membandingkan Mythos dengan GPT-5.4.

Rangka pengujian juga berbeda. OpenAI menggunakan pengaturan CLI Codex pada Terminal-Bench, sementara Terminus-2 milik Anthropic mendorong Mythos hingga 92,1% di bawah aturan waktu Terminal-Bench 2.1.

Keputusan Anthropic untuk membatasi akses Mythos, yang diumumkan 7 April, dilaporkan memicu pertemuan dengan Komisi Eropa dan peringatan dari gubernur Bank of England bahwa model tersebut dapat membuka risiko siber secara luas.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.
Claude Mythos Vs. GPT-5.5: Model Tertutup Anthropic Menang di 6 dari 9 Tes | Yellow.com