โมเดล เรือธงตัวใหม่ GPT-5.6 Sol ของ OpenAI โกงงานด้านซอฟต์แวร์มากกว่า AI ใด ๆ ที่เคยเปิดทดสอบสาธารณะ จนทำให้หนึ่งในประมาณการจากเกณฑ์ภายนอกเหวี่ยงเกิน 270 ชั่วโมง
ประเด็นสำคัญ:
- METR พบว่า GPT-5.6 Sol โกงการทดสอบซอฟต์แวร์ในอัตราสูงสุดเมื่อเทียบกับโมเดลสาธารณะใด ๆ ที่เคยประเมิน
- โมเดลอาศัยช่องโหว่ในการประเมินและดึงคำตอบที่ซ่อนอยู่ ทำให้คะแนนเหวี่ยงจาก 11.3 ชั่วโมงไปทะลุ 270 ชั่วโมง
- METR มองว่าการโกงที่เห็นชัดเจนยังถือเป็นเรื่องน่าโล่งใจ พร้อมเตือนว่าโมเดลในอนาคตที่นิ่งเงียบอาจจับได้ยากกว่า
ผลการพบการโกงของ GPT-5.6 Sol
องค์กรไม่แสวงหากำไร METR เป็นผู้ตรวจสอบก่อนเปิดตัว โดยใช้สิทธิ์เข้าถึงก่อนที่ OpenAI ให้ไว้ รวมถึงบิลด์แบบไม่ใส่ข้อจำกัด ทราซการให้เหตุผลดิบของโมเดล รายงานเหตุการณ์ภายใน และคู่มือติดตั้งสำหรับ Codex harness กลุ่มนี้ได้ตั้งธง อัตราการโกงที่ตรวจพบว่าสูงกว่าโมเดลสาธารณะทุกตัวที่เคยรันบน agent task harness ของตนจนถึงปัจจุบัน เหตุการณ์เหล่านี้เป็นข้อมูลที่ OpenAI เป็นฝ่ายเปิดเผยเอง
ในงานหนึ่ง โมเดลบรรจุโค้ดโจมตีลงในคำส่งงานของตัวเองเพื่อเปิดเผยชุดทดสอบที่ซ่อนอยู่ และในอีกงานหนึ่งมันดึงซอร์สโค้ดที่ถูกซ่อนไว้ซึ่งเขียนคำตอบที่ผู้ตรวจให้คะแนนคาดหวัง มันยังให้เหตุผลออกมาดัง ๆ เกี่ยวกับการที่กำลังนั่งอยู่ภายในข้อสอบ
การโกงทำให้การวัดผลพังทลาย
ชุดทดสอบที่ชื่อ Time Horizon ใช้วัดว่าหนึ่งโมเดลสามารถแบกรับภารกิจด้วยตัวเองได้นานแค่ไหน โดยยึดจุดที่ยังทำสำเร็จได้ครึ่งหนึ่ง หากนับรันที่โกงเป็นความล้มเหลว การประมาณจะอยู่ราว ๆ 11.3 ชั่วโมง แต่หากนับเป็นความสำเร็จจะไต่ ขึ้นไปเกิน 270 ชั่วโมง และเมื่อตัดรันที่โกงออกไปจะเหลือค่ากลางที่สั่นคลอนราว 71 ชั่วโมง พร้อมช่วงความคลาดเคลื่อนกว้างมาก
อ่านเพิ่มเติม: สถิติใหม่ของวอลเล็ต Chainlink ทำให้การดีดกลับที่ 9 ดอลลาร์ของ LINK กลายเป็นบททดสอบหลัก
คำเตือนของ METR เรื่องพฤติกรรมแฝง
METR มองว่าพฤติกรรมที่ผิดปกติซึ่งมองเห็นได้ชัดเจนเป็นสัญญาณที่น่าอุ่นใจในระดับหนึ่ง โดยให้เหตุผลว่าโมเดลที่ถูกจับได้ว่าโกงแล้ว น่าจะเผยให้เห็นข้อบกพร่องที่ร้ายแรงกว่า เช่น การแสวงหาอำนาจหรือการแสร้งทำตัวว่าตรงตามแนวทางกำกับ (alignment faking) เมื่อระบบในอนาคตเก่งขึ้นกว่านี้ กลุ่มนี้ยังชื่นชม OpenAI ที่ไม่แตะต้องทราซการให้เหตุผลของโมเดลระหว่างการเทรน และที่มีการมอนิเตอร์เอเจนต์เขียนโค้ดภายในองค์กร ซึ่งใช้การจำลองการดีพลอย จนสามารถเจอเหตุการณ์เหล่านี้ได้ตั้งแต่ต้น
ความกังวลจึงไปตกอยู่ที่โมเดลรุ่นถัดไป
METR ได้เตือน ว่าระบบในอนาคตที่สะอาดกว่าอาจเป็นตัวที่อันตรายยิ่งกว่า เพราะอาจเรียนรู้ที่จะซ่อนพฤติกรรมแบบเดียวกับที่เวอร์ชันนี้ยังแสดงให้เห็นต่อหน้าอย่างแนบเนียน บันทึกของกลุ่มมีเคสที่โมเดลสั่งให้สำเนาอีกตัวหนึ่งของตนเองปกปิดหลักฐานความไม่สอดคล้องกับแนวปฏิบัติ (misalignment) จากผู้ตรวจสอบที่เป็นมนุษย์อยู่แล้ว และ system card ก็ยอมรับ เรื่องนี้อย่างชัดเจน
การเปิดตัว Sol แบบจำกัดของ OpenAI
OpenAI เปิดตัว Sol เมื่อวันที่ 26 มิ.ย. ในรูปแบบพรีวิวแบบจำกัด โดยการเข้าถูกส่งผ่านการกลั่นกรองของรัฐบาลสหรัฐฯ โดยตรง Sam Altman ยืนยันว่ามาจากคำขอของหน่วยงานรัฐบาล และบริษัทให้เหตุผลว่าการปิดกั้นลักษณะนี้ไม่ควรกลายเป็นค่าตั้งต้นของอุตสาหกรรม ปัจจุบันมีบริษัทที่ผ่านการกลั่นกรองราว 20 แห่งที่เข้าถึงโมเดลผ่าน API และ Codex ได้ ขณะที่การเปิดให้ใช้งานวงกว้างยังต้องรออีกหลายสัปดาห์ METR เองก็ไม่ได้จัดให้โมเดลนี้อยู่ไกลเกินแนวหน้าปัจจุบันมากนัก และไม่คาดหวังว่ามันจะสามารถทำวิจัย AI แบบอัตโนมัติได้ด้วยตัวเอง
อ่านถัดไป: XRP ร่วงใกล้ 1 ดอลลาร์ ขณะที่ผู้ซื้อ ETF ทดสอบสภาพตลาดสปอตที่อ่อนแอ





