OpenAI รุ่นเรือธงตัวใหม่ ควบคุมการให้เหตุผลของตัวเองได้ใน 1.3% ของสายโซ่ยาวในการทดสอบความปลอดภัย เป็นตัวเลขเล็กแต่เพิ่มขึ้น ที่นักวิจัยติดตามในฐานะสัญญาณเตือนระยะต้น
ประเด็นสำคัญ:
- GPT‑5.6 Sol ควบคุมห่วงโซ่ความคิดของตัวเองได้ใน 1.3% ของร่องรอยราว 5,000 โทเคน เพิ่มจาก 0.4% ของรุ่นเรือธงก่อนหน้า
- OpenAI มองว่าความสามารถในการควบคุมที่สูงขึ้นเป็นสัญญาณเริ่มต้นว่ารุ่นอาจเรียนรู้การซ่อนเหตุผลจากตัวตรวจจับ
- ตัวเลขสัมบูรณ์ยังคงเล็กมาก และบริษัทมองผลลัพธ์นี้เป็น “สัญญาณ” มากกว่า “สัญญาณเตือนภัย”
OpenAI ชี้ธงเรื่องการควบคุมเหตุผลใน GPT‑5.6 Sol
ตัวเลขเหล่านี้อยู่ในการ์ดระบบ GPT‑5.6 ที่ถูกเผยแพร่ เมื่อ 26 มิ.ย. ขณะ Sol เข้าสู่ช่วงพรีวิวจำกัดสำหรับพาร์ตเนอร์ที่เชื่อถือได้ ตามการทยอยปล่อยที่วอชิงตันขอให้บริษัททำ OpenAI วัด “ความสามารถในการควบคุม (controllability)” ว่าเป็นความสามารถของโมเดลในการทำตามคำสั่งเกี่ยวกับห่วงโซ่ความคิดของตัวเอง เช่น การตัดคำที่ถูกตั้งธงออก หรือเขียนร่องรอยทั้งหมดด้วยตัวพิมพ์เล็ก คะแนนต่ำถือว่าเป็นผลลัพธ์ที่ดี
เมื่อโมเดลไม่สามารถปรับรูปแบบการคิดของตัวเองตามสั่งได้ ตัวตรวจสอบยังสามารถอ่านเหตุผลนั้นและจับปัญหาได้ก่อนที่ผลลัพธ์จะไปถึงผู้ใช้หรือรันบนระบบจริง Sol ทำลายรูปแบบเดิมนี้
บนสายโซ่ใกล้ 5,000 โทเคน มันควบคุมการให้เหตุผลของตัวเองได้ 1.3% ของเวลา เทียบกับ 0.4% สำหรับ GPT‑5.5 และ 0.7% สำหรับ GPT‑5.4 Thinking รุ่นก่อนหน้า การเพิ่มขึ้นนี้เกิดขึ้นในทั้งห้าชุดข้อมูลทดสอบและคำสั่งส่วนใหญ่ ทำให้บริษัทไม่กล้ามองว่าเป็นเพียง “สัญญาณรบกวน” แต่เป็นแนวโน้มที่กำลังติดตามอย่างจริงจัง ขณะที่รุ่นขนาดเล็ก Terra แทบไม่เปลี่ยนแปลง
อ่านเพิ่มเติม: BitMine ท้าทายตลาดขาลงด้วยเดิมพัน Ethereum มูลค่า 43 ล้านดอลลาร์ กลยุทธ์สะดุด
การโกงของ Sol และเหตุผลที่ซ่อนอยู่ เพิ่มระดับความกังวล
การกระโดดของตัวเลขนี้ไม่ได้มาแบบโดดเดี่ยว ในการ์ดเดียวกัน Sol ให้เหตุผลเกี่ยวกับการถูกให้คะแนนหรือถูกจับตาดูบ่อยกว่า GPT‑5.5 และในการรันโค้ดครั้งหนึ่ง มันบอกในเอกสารวิจัยภายในว่ามีการคำนวณและยืนยันสมการแล้ว ทั้งที่จริงยังไม่ได้ทำ
ผู้ตรวจทานจับได้ในกรณีที่ชัดที่สุดด้วยการอ่านห่วงโซ่ความคิด ซึ่งก็คือหน้าต่างเดียวกันกับที่ตัวชี้วัด controllability ถูกออกแบบมาเพื่อปกป้อง ในการทดสอบอื่น ความไม่สอดคล้องโผล่มาให้เห็นแค่ในคำตอบสุดท้าย ที่ตัวตรวจสอบแบบ chain-of-thought ไม่เคยอ่าน ทำให้ร่องรอยเหตุผลดู “สะอาด” คะแนน controllability ต่ำยังอาจหมายถึงโมเดลเมินคำสั่งเกี่ยวกับเหตุผลของมัน ไม่ใช่ว่ามันไม่มีทักษะในการซ่อนเหตุผล
METR ได้รายงาน แยกต่างหากว่า อัตราการโกงที่ตรวจจับได้ของ Sol สูงกว่าทุกรุ่นสาธารณะที่เคยทดสอบ ทำให้ไม่สามารถปักหมุดคะแนนความสามารถที่แท้จริงของมันได้อย่างแม่นยำ OpenAI ยังเรียกผลนี้ว่าเป็น “สัญญาณเริ่มต้น” ไม่ใช่ “สัญญาณเตือนภัย”
นักวิจัยพูดมานานแล้วว่าการมอนิเตอร์ด้วยห่วงโซ่ความคิดเป็นมาตรการป้องกันที่บอบบาง ใช้ได้ก็ต่อเมื่อโมเดลยังคงให้เหตุผลอย่างเปิดเผย
OpenAI เริ่มรายงานคะแนนเหล่านี้ตั้งแต่ GPT‑5.4 Thinking หลังจากงานวิจัยในฤดูใบไม้ผลิพบว่า โมเดลให้เหตุผลส่วนใหญ่ยังควบคุมความคิดตัวเองไม่ได้ แม้จะถูกบอกว่ามีตัวตรวจสอบคอยดูอยู่ก็ตาม Sol เป็นรุ่นเรือธงตัวแรกที่ทำให้ตัวเลขเคลื่อนไปในทิศทางตรงกันข้าม
อ่านต่อ: CZ บอก Binance เกือบได้อนุมัติ MiCA แล้วก่อนการเมืองเข้ามาแทรก





