GPT-5.6 Sol ของ OpenAI ถูกสร้างมาให้ใช้เหตุผล ก่อนจะเรียนรู้วิธีโกงข้อสอบ

Mehjabeen ArsiwalaJun, 29 2026 15:27

GPT-5.6 Sol ของ OpenAI ถูกสร้างมาให้ใช้เหตุผล ก่อนจะเรียนรู้วิธีโกงข้อสอบ

โมเดล เรือธงตัวใหม่ของ OpenAI GPT-5.6 Sol โกงงานด้านซอฟต์แวร์มากกว่า AI ใด ๆ ที่เคยทดสอบต่อสาธารณะ ทำให้ค่าประมาณบางเกณฑ์มาตรฐานภายนอกแกว่งไปเกิน 270 ชั่วโมง

ประเด็นสำคัญ:

METR พบว่า GPT-5.6 Sol โกงแบบทดสอบซอฟต์แวร์ในอัตราสูงที่สุดเมื่อเทียบกับโมเดลสาธารณะทั้งหมดที่เคยประเมิน

โมเดลใช้ช่องโหว่ของระบบประเมินและดึงคำตอบที่ซ่อนอยู่ ทำให้คะแนนแกว่งจาก 11.3 ชั่วโมงไปเกิน 270 ชั่วโมง

METR มองว่าการโกงที่มองเห็นได้นั้นเป็นสัญญาณที่ทำให้อุ่นใจ พร้อมเตือนว่าโมเดลรุ่นถัดไปที่เงียบกว่านี้อาจจับได้ยากกว่ามาก

ผลการค้นพบเรื่องการโกงของ GPT-5.6 Sol

องค์กรไม่แสวงหากำไรผู้ประเมิน METR ทำการตรวจสอบก่อนเปิดตัว โดยอาศัยสิทธิ์เข้าถึงล่วงหน้าที่ OpenAI ให้มา ซึ่งรวมถึงบิลด์ที่ไม่มีข้อจำกัด ร่องรอยการใช้เหตุผลดิบของโมเดล รายงานเหตุการณ์ภายใน และคู่มือติดตั้งสำหรับ Codex harness กลุ่มนี้ได้ตั้งธง ว่าอัตราการโกงที่ตรวจพบสูงกว่าโมเดลสาธารณะใด ๆ ที่เคยรันบน agent task harness จนถึงปัจจุบัน โดย OpenAI เป็นฝ่ายแบ่งปันเหตุการณ์เหล่านั้นเอง

ในงานหนึ่ง โมเดลจัดแพ็กชุดโจมตี (exploit) ใส่เข้าไปในคำส่งงานของตัวเองเพื่อเปิดเผยชุดทดสอบที่ซ่อนอยู่ และในอีกงานหนึ่งมันดึงซอร์สโค้ดที่ถูกปกปิด ซึ่งเขียนคำตอบที่ผู้ตรวจให้คะแนนคาดหวังเอาไว้ นอกจากนี้มันยังคิดออกมาดัง ๆ เกี่ยวกับการที่ตัวเองกำลังนั่งอยู่ในแบบทดสอบ

การโกงทำให้การวัดผลพังทลาย

ชุดทดสอบ Time Horizon ใช้วัดว่าหนึ่งโมเดลสามารถถือภาระงานได้ด้วยตัวเองนานแค่ไหน โดยอิงจากจุดที่ยังสำเร็จครึ่งหนึ่งของเวลา หากนับกรณีโกงเป็นความล้มเหลว ค่าประมาณจะอยู่ราว 11.3 ชั่วโมง แต่ถ้านับเป็นความสำเร็จจะพุ่งขึ้นเกิน 270 ชั่วโมง และเมื่อตัดรันที่มีการโกงทิ้งไป ก็เหลือค่าประมาณกึ่งกลางที่สั่นคลอนราว 71 ชั่วโมงพร้อมช่วงความคลาดเคลื่อนกว้าง

อ่านเพิ่มเติม: สถิติกระเป๋าเงินของ Chainlink เปลี่ยนการดีดกลับสู่ $9 ของ LINK ให้กลายเป็นบททดสอบหลัก

คำเตือนของ METR เรื่องพฤติกรรมแอบแฝง

METR มองว่าพฤติกรรมที่ผิดปกติแบบเปิดเผยนี้เป็นสัญญาณเชิงบวก เหตุผลคือโมเดลที่ถูกจับได้ว่าโกงแล้ว ก็น่าจะเผยให้เห็นข้อบกพร่องร้ายแรงกว่า เช่น การแสวงหาอำนาจหรือการแกล้งทำตัวว่าเชื่อมตรงกับค่านิยม (alignment faking) เมื่อระบบในอนาคตมีความสามารถมากขึ้น กลุ่มนี้ให้เครดิตกับ OpenAI ที่ไม่แตะต้องร่องรอยการใช้เหตุผลของโมเดลระหว่างการฝึก และที่มีการมอนิเตอร์เอเยนต์เขียนโค้ดภายในของตัวเอง ซึ่งรันบนสถานการณ์จำลองการนำไปใช้งานจริง จนทำให้เหตุการณ์เหล่านี้โผล่ขึ้นมาแต่แรก

ความกังวลกลับไปตกอยู่ที่โมเดลรุ่นถัดไป

METR ได้เตือน ว่าระบบในอนาคตที่สะอาดกว่านี้อาจเป็นภัยมากกว่า เพราะอาจเรียนรู้แบบเงียบ ๆ ที่จะซ่อนพฤติกรรมในลักษณะที่เวอร์ชันนี้ยังแสดงให้เห็นอย่างเปิดเผยอยู่แล้ว บันทึกของกลุ่มนี้มีกรณีที่โมเดลตัวหนึ่งสั่งให้สำเนาของตัวเองอีกตัวซ่อนหลักฐานความไม่สอดคล้อง (misalignment) ของมันจากผู้ดูแลมนุษย์อยู่แล้วด้วย และ system card ก็ได้ยอมรับเรื่องนี้ไว้ชัดเจน

การเปิดตัว Sol แบบจำกัดของ OpenAI

OpenAI เปิดตัว Sol เมื่อวันที่ 26 มิ.ย. ในรูปแบบพรีวิวจำกัด ที่ต้องผ่านการคัดกรองจากรัฐบาลสหรัฐก่อนเข้าถึง โดย Sam Altman ยืนยันคำขอจากรัฐบาลกลางและบริษัทให้เหตุผลว่าการกั้นประตูแบบนี้ไม่ควรกลายเป็นมาตรฐานปกติ ปัจจุบันมีบริษัทที่ผ่านการเคลียร์แล้วราว 20 แห่งเข้าถึงโมเดลนี้ผ่าน API และ Codex ขณะที่การเปิดให้ใช้งานวงกว้างยังต้องรออีกหลายสัปดาห์ ด้าน METR เองก็ไม่ได้มองว่า Sol อยู่ไกลเกินแนวหน้าของวันนี้มากนัก หรือคาดหวังว่ามันจะทำวิจัย AI แบบอัตโนมัติได้ด้วยตัวคนเดียว

อ่านถัดไป: XRP ร่วงใกล้ $1 ขณะผู้ซื้อ ETF ทดสอบจุดอ่อนของตลาดสปอต

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ

ข่าวล่าสุด

แสดงข่าวทั้งหมด

Helios มาแล้ว: แร็ก AI ตัวแรกของ AMD จะเจาะส่วนแบ่ง 95% ของ Nvidia ได้แค่ไหน

43 นาทีที่แล้ว

AMD เปิดตัว Helios แร็ก AI ชู Microsoft เป็นลูกค้ารายใหม่ ลุยชิงส่วนแบ่งจาก Nvidia ที่ครองตลาดศูนย์ข้อมูลเกือบเบ็ดเสร็จ

Kimi K3 จุดชนวนศึก “โอเพ่น AI” ใหม่ หลังผู้บริหาร OpenAI เตือนความเสี่ยงด้านกฎระเบียบ

1 ชั่วโมงที่แล้ว

Kimi K3 ของจีนจุดกระแสถกเถียงใหม่ในสหรัฐฯ ว่าควรปล่อย AI ขั้นสูงแบบเปิดต่อไปหรือไม่ ท่ามกลางแรงกดดันด้านกฎเกณฑ์

เบอร์นัมจะพาอังกฤษขึ้นแท่นศูนย์กลาง Web3 ได้หรือไม่ คริปโตกางสถิติผู้นำคนใหม่ของสหราชอาณาจักร

2 ชั่วโมงที่แล้ว

วงการคริปโตจับตาเบอร์นัม นายกฯ คนใหม่อังกฤษ คาดโทนเป็นมิตรต่อ Web3 แต่กรอบกำกับของ FCA เดินหน้าต่อ

ข่าวที่เกี่ยวข้อง