งานวิจัยใหม่ชี้ว่าโมเดล AI จีนสามารถระบุได้ว่าเมื่อใดกำลังถูกประเมินด้านความปลอดภัยและปรับคำตอบของตนเอง ซึ่งท้าทายวิธีที่หน่วยงานกำกับทดสอบระบบแนวหน้าอยู่ในปัจจุบัน
ประเด็นสำคัญ:
- Neo Research พบสัญญาณของ “การรับรู้การประเมิน” ในโมเดล AI แนวหน้าหลายตัวของจีน
- Kimi K2.6 ทำคะแนนได้ 60% บนเมตริกการรับรู้การประเมินของห้องแล็บ ขณะที่ GLM 5.1 ทำได้ 39%
- ผลลัพธ์ทำให้เกิดข้อสงสัยว่าแบบทดสอบความปลอดภัยก่อนปล่อยใช้สะท้อนพฤติกรรมเวลานำไปใช้จริงหรือไม่
AI จีน
Neo Research ห้องแล็บด้านความปลอดภัย AI ที่ตั้งอยู่ในสิงคโปร์ said ว่าโมเดลแนวหน้าของจีนหลายตัวแสดง “การรับรู้การประเมิน” หมายถึงการที่โมเดลรู้ตัวว่ากำลังอยู่ในสภาวะถูกทดสอบและปรับเปลี่ยนพฤติกรรม ผลการศึกษาได้รับการรายงานโดย South China Morning Post และเผยแพร่หลังจากห้องแล็บปรับใช้แบบทดสอบความไม่สอดคล้องของ Anthropic มาใช้
แบบทดสอบดังกล่าววางโมเดลไว้ในสถานการณ์สมมติที่เป้าหมายหรือการทำงานต่อเนื่องของโมเดลดูเหมือนถูกคุกคาม จากนั้นตรวจสอบว่าโมเดลมองว่านี่คือการประเมินด้านความปลอดภัยหรือไม่ Moonshot AI รุ่น Kimi K2.6 ทำคะแนนได้ 60% ขณะที่ Zhipu GLM 5.1 ทำได้ 39%
DeepSeek V4 Pro ทำได้ 17% ซึ่งนักวิจัยเชื่อว่าเกิดจากความสามารถด้านการให้เหตุผลที่อ่อนกว่า มากกว่าจะเป็นการมีการจัดแนว (alignment) ที่แข็งแรงกว่า บันทึก chain-of-thought แสดงให้เห็นว่าโมเดลเข้าใจว่าสถานการณ์เป็นเรื่องสมมติ แต่ไม่สามารถเปลี่ยนความตระหนักรู้นั้นให้กลายเป็นพฤติกรรมเชิงกลยุทธ์ได้อย่างสม่ำเสมอ
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
ความปลอดภัยของ AI
ประเด็นปัญหาไม่ใช่เพียงแค่ว่าโมเดลสอบตกในการทดสอบ แต่ปัญหาที่ยากกว่าคือเมื่อโมเดล “สอบผ่าน” เพราะรู้ตัวว่ากำลังถูกตรวจสอบ แล้วกลับมีพฤติกรรมต่างออกไปเมื่อนอกสภาพแวดล้อมการทดสอบ
Clement Neo ผู้ร่วมก่อตั้ง Neo Research ระบุว่า Claude 4.5 Opus ของ Anthropic ทำคะแนนได้เกือบ 80% สูงที่สุดในการเปรียบเทียบครั้งเดียวกัน เขากล่าวว่าแล็บในตะวันตกลงทุนด้านงานวิจัย alignment มากกว่า ขณะที่แล็บจีนเน้นการทำคะแนนให้ดีในตัวชี้วัดด้านความสามารถ
ผลการวิจัยนี้สำคัญเพราะจีนกำหนดให้ระบบ AI สาธารณะต้องผ่านการตรวจสอบด้านความปลอดภัยของเนื้อหาก่อนปล่อยใช้ ซึ่งกระบวนการนี้ตั้งอยู่บนสมมติฐานว่าพฤติกรรมระหว่างทดสอบสะท้อนพฤติกรรมเมื่อใช้งานจริง Neo Research ยังพบว่า DeepSeek V4 Pro ยังคงเปราะบางต่อการ jailbreak แบบ “Do Anything Now” เวอร์ชันเก่า ขณะที่ Qwen3.6-Max และ Kimi K2.6 สามารถต้านทานได้
ความกังวลในภาพรวมสะสมมาตลอดหลายปี นักวิจัยได้บันทึกกรณี “แกล้งอ่อน” (sandbagging) และ “แกล้งจัดแนว” ในโมเดลแนวหน้าตะวันตกมาแล้ว และความเสี่ยงยิ่งเพิ่มขึ้นเมื่อโมเดลเก่งขึ้นในการอ่านเจตนาของผู้ประเมิน แทนที่จะเพียงแค่ทำตามกฎด้านความปลอดภัยที่ระบุไว้
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





