GPT-5.6 Sol Vs Claude Fable 5: Tolok Ukur Koding Tunjukkan Lomba Terbelah

GPT-5.6 Sol Vs Claude Fable 5: Tolok Ukur Koding Tunjukkan Lomba Terbelah

Ulasan head-to-head terbaru mempertemukan GPT-5.6 Sol milik OpenAI, pemegang skor 88,8% pada salah satu tolok ukur koding terkemuka, dengan Claude Fable 5 milik Anthropic yang mencatat angka 80,3% untuk rekayasa perangkat lunak.

Poin-Poin Utama:

  • GPT-5.6 Sol memuncaki Terminal-Bench 2.1 dengan 88,8%, dan mode Ultra mendorong skornya ke 91,9%.
  • Claude Fable 5 mempertahankan keunggulan publik terbesar di SWE-Bench Pro dengan 80,3%, dibandingkan 58,6% untuk GPT-5.5.
  • Sol tetap dalam pratinjau terbatas yang disetujui pemerintah, sementara Fable 5 kembali tersedia secara global pada 1 Jul.

Klaim Tolok Ukur GPT-5.6 Sol

OpenAI mempratinjau keluarga GPT-5.6 pada 26 Jun, rilis pertamanya sejak GPT-5.5 di bulan April, dengan membagi lini menjadi tiga tingkat dan menjadikan Sol sebagai andalan.

Perusahaan mengatakan Sol mencapai 88,8% pada Terminal-Bench 2.1, tes untuk agen koding command-line yang merencanakan, mengiterasi, dan mengoordinasikan alat. Mode Ultra yang sangat berat komputasi, yang menjalankan subagen terkoordinasi untuk mempercepat pekerjaan kompleks, mengerek angka itu menjadi 91,9%, nilai tertinggi yang dipublikasikan di grafik Terminal-Bench.

Para pengulas yang membandingkan grafik yang dipublikasikan menempatkan Fable 5 beberapa poin di belakang Sol pada tes terminal yang sama, meski angka yang dikutip bervariasi antara 83,4% dan 84,3%. Pada rangkaian keamanan ExploitBench, Sol disebut-sebut menyamai kinerja kelas Mythos sambil menghabiskan kira-kira sepertiga token output, sebuah pemadatan biaya yang penting dalam run agen yang panjang.

Hampir tidak ada pihak di luar program pratinjau yang bisa memverifikasi angka-angka tersebut secara independen sejauh ini, sebuah catatan kehati-hatian yang disorot beberapa pengulas meski mereka mengakui skor mentahnya.

Juga Baca: OpenAI Dan Anthropic Ingin IPO Sebesar SpaceX, Tapi Wall Street Bisa Tersedak

Keunggulan Koding Fable 5 Dan Harga

Fable 5 masih memegang tolok ukur yang dianggap paling menentukan untuk kerja perangkat lunak otonom, dan keunggulannya di sana tidak kecil. Model ini mencatat 80,3% di SWE-Bench Pro, yang mengukur perbaikan ujung-ke-ujung atas isu GitHub nyata, dibandingkan 58,6% untuk GPT-5.5 yang lebih lama, dan OpenAI belum memublikasikan angka GPT-5.6 di sana.

Analis yang menemukan kesenjangan sebesar itu di berbagai tes koding, penalaran, dan pengetahuan meragukan satu rilis inkremental saja bisa sepenuhnya menutup jurang tersebut.

Dari sisi harga kondisi berbalik, karena Sol kabarnya dipatok di angka $5 per satu juta token input dan $30 untuk output, setengah dari tarif Fable 5 yaitu $10 dan $50. Beberapa pengulas berpendapat bahwa pengaturan yang masuk akal adalah mengarahkan agen berbasis terminal ke Sol, begitu aksesnya dibuka, dan perbaikan level repositori ke Fable 5.

Akses menjadi garis pemisah paling tajam, karena Sol tetap dalam pratinjau terbatas untuk sekitar 20 mitra yang telah disetujui pemerintah, sementara Fable 5 kembali tersedia di seluruh dunia pada 1 Jul dengan bonus penggunaan sementara bagi pelanggan berbayar hingga 7 Jul.

Bulan Juni mengubah akses ke model frontier menjadi sasaran yang terus bergeser bagi kedua laboratorium, dan perubahan mendadak itu membingkai setiap ulasan. Washington memaksa Fable 5 dan saudara kandungnya yang lebih kuat, Mythos 5, offline pada 12 Jun dengan alasan risiko keamanan siber yang parah, setelah peneliti Amazon menemukan jailbreak yang menghasilkan kode eksploit. Menteri Perdagangan Howard Lutnick mengonfirmasi pencabutan keputusan pada 30 Jun setelah peninjauan dua minggu, beberapa hari setelah Mythos 5 diam-diam kembali untuk sekitar 100 organisasi Amerika yang telah diseleksi.

Baca Berikutnya: Mengapa ETH Masih Lemah Saat Staking Ethereum Mencapai Rekor Tertinggi?

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.