GPT-5.6 Sol Vs Claude Fable 5: Tolok Ukur Kode Menunjukkan Lomba Terbagi

Ulasan head-to-head terbaru mempertemukan GPT-5.6 Sol milik OpenAI, pemegang skor 88,8% pada salah satu tolok ukur coding terkemuka, dengan Claude Fable 5 milik Anthropic dan capaian rekayasa perangkat lunaknya sebesar 80,3%.

Poin Utama:

GPT-5.6 Sol memuncaki Terminal-Bench 2.1 dengan 88,8%, dan mode Ultra mendorong skornya ke 91,9%.

Claude Fable 5 mempertahankan keunggulan publik terlebar pada SWE-Bench Pro di 80,3%, dibanding 58,6% untuk GPT-5.5.

Sol tetap dalam pratinjau terbatas yang disetujui pemerintah, sementara Fable 5 kembali tersedia secara global pada 1 Juli.

Klaim Tolok Ukur GPT-5.6 Sol

OpenAI mempratinjau keluarga GPT-5.6 pada 26 Juni, rilis pertamanya sejak GPT-5.5 di bulan April, membagi lini menjadi tiga tingkat dengan Sol sebagai model andalan.

Perusahaan mengatakan Sol mencapai 88,8% pada Terminal-Bench 2.1, sebuah tes untuk agen coding berbasis command-line yang merencanakan, beriterasi, dan mengoordinasikan alat. Mode Ultra yang sangat berat komputasi, yang menyalakan subagen terkoordinasi untuk mempercepat pekerjaan kompleks, memperpanjang angka itu menjadi 91,9%, angka tertinggi yang dipublikasikan pada grafik Terminal-Bench.

Para pengulas yang membandingkan grafik yang dipublikasikan menempatkan Fable 5 beberapa poin di belakang Sol pada tes terminal yang sama, meskipun angka yang dikutip bervariasi antara 83,4% dan 84,3%. Pada rangkaian keamanan ExploitBench, Sol dilaporkan menyamai kinerja kelas Mythos sambil menghabiskan sekitar sepertiga token keluaran, sebuah kompresi biaya yang penting dalam menjalankan agen jangka panjang.

Hampir tak ada orang di luar program pratinjau yang dapat memverifikasi angka-angka tersebut secara independen sejauh ini, sebuah catatan peringatan yang disorot beberapa pengulas sembari tetap mengakui skor mentahnya.

Juga Baca: OpenAI Dan Anthropic Mengincar IPO Sebesar SpaceX, Tapi Wall Street Bisa Tersedak

Keunggulan Coding Dan Harga Fable 5

Fable 5 masih memegang tolok ukur yang dianggap paling menentukan oleh banyak pengulas untuk pekerjaan perangkat lunak otonom, dan keunggulannya di sana tidak kecil. Model ini meraih 80,3% pada SWE-Bench Pro, yang mengukur perbaikan ujung-ke-ujung terhadap isu GitHub nyata, dibanding 58,6% untuk GPT-5.5 yang lebih lama, dan OpenAI belum memublikasikan angka GPT-5.6 di sana.

Analis yang menemukan kesenjangan sebesar itu di berbagai tes coding, penalaran, dan pengetahuan meragukan satu rilis inkremental dapat sepenuhnya menutup jurang tersebut.

Dari sisi harga keadaannya berbalik, karena Sol kabarnya dipatok di $5 per satu juta token input dan $30 untuk output, setengah dari harga Fable 5 yang $10 dan $50. Beberapa pengulas berpendapat bahwa pengaturan paling masuk akal adalah mengarahkan agen berbasis terminal ke Sol, setelah dibuka umum, dan perbaikan tingkat repositori ke Fable 5.

Akses menjadi garis pemisah paling tajam, karena Sol tetap dalam pratinjau terbatas untuk sekitar 20 mitra yang telah mendapat izin pemerintah, sementara Fable 5 kembali tersedia di seluruh dunia pada 1 Juli dengan bonus penggunaan sementara bagi pelanggan berbayar hingga 7 Juli.

Bulan Juni menjadikan akses model frontier sebagai sasaran yang terus bergerak bagi kedua laboratorium, dan perubahan mendadak itu membingkai setiap ulasan. Washington memaksa Fable 5 dan saudara yang lebih kuat, Mythos 5, offline pada 12 Juni dengan alasan risiko keamanan siber yang parah, setelah peneliti Amazon menemukan jailbreak yang menghasilkan kode eksploit. Menteri Perdagangan Howard Lutnick mengonfirmasi pembatalan kebijakan itu pada 30 Juni setelah peninjauan dua minggu, beberapa hari setelah Mythos 5 diam-diam kembali digunakan sekitar 100 organisasi Amerika yang telah diseleksi.

Baca Selanjutnya: Mengapa ETH Masih Lemah Saat Staking Ethereum Mencapai Rekor Tertinggi?