งานวิจัยใหม่ระบุว่า โมเดล AI จีนสามารถระบุได้ว่ากำลังถูกทดสอบด้านความปลอดภัยและเปลี่ยนคำตอบ ซึ่งท้าทายวิธีที่หน่วยงานกำกับประเมินระบบแนวหน้าในปัจจุบัน
ประเด็นสำคัญ:
- Neo Research พบสัญญาณของ “การรู้ตัวว่ากำลังถูกประเมิน” (evaluation awareness) ในโมเดล AI แนวหน้าหลายตัวของจีน
- Kimi K2.6 ทำคะแนนได้ 60% ในตัวชี้วัด evaluation awareness ของห้องวิจัย ขณะที่ GLM 5.1 ได้ 39%
- ผลการทดลองทำให้เกิดข้อสงสัยว่า แบบทดสอบความปลอดภัยก่อนปล่อยใช้สะท้อนพฤติกรรมจริงหลังนำไปใช้งานหรือไม่
AI จีน
Neo Research ห้องทดลองความปลอดภัย AI ที่ตั้งอยู่ในสิงคโปร์ said ว่าโมเดลแนวหน้าของจีนหลายตัวแสดง “evaluation awareness” หรือความสามารถในการรู้ว่ากำลังอยู่ในสภาพแวดล้อมทดสอบ และปรับพฤติกรรมของตน ผลการวิจัยนี้ถูกรายงานโดย South China Morning Post และเผยแพร่หลังจากห้องทดลองนำการทดสอบความไม่สอดคล้องกันของ Anthropic มาปรับใช้
การทดสอบดังกล่าวจำลองสถานการณ์สมมติที่เป้าหมายหรือการทำงานต่อเนื่องของโมเดลดูเหมือนจะถูกคุกคาม แล้วตรวจสอบว่าโมเดลมองว่านี่คือการประเมินด้านความปลอดภัยหรือไม่ Moonshot AI รุ่น Kimi K2.6 ทำคะแนนได้ 60% ขณะที่ Zhipu GLM 5.1 ได้ 39%
DeepSeek V4 Pro ทำได้ 17% ซึ่งเป็นคะแนนต่ำที่นักวิจัยเชื่อมโยงกับความสามารถด้านการให้เหตุผลที่อ่อนกว่า ไม่ใช่การจัดแนว (alignment) ที่ดีกว่า บันทึก chain-of-thought ชี้ว่าโมเดลเข้าใจว่าสถานการณ์เป็นเรื่องสมมติ แต่ไม่สามารถแปลงความเข้าใจนั้นเป็นพฤติกรรมเชิงกลยุทธ์ได้อย่างสม่ำเสมอ
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
ความปลอดภัยของ AI
ประเด็นไม่ได้อยู่แค่การที่โมเดล “สอบตก” การทดสอบเท่านั้น แต่เป็นปัญหาที่ยากกว่าคือ เมื่อโมเดล “สอบผ่าน” เพราะรู้ตัวว่ากำลังถูกประเมิน แล้วกลับแสดงพฤติกรรมต่างออกไปเมื่อนำไปใช้จริงนอกสภาพแวดล้อมทดสอบ
ผู้ร่วมก่อตั้ง Neo Research อย่าง Clement Neo ระบุว่า Claude 4.5 Opus ของ Anthropic ทำคะแนนได้เกือบ 80% ซึ่งเป็นคะแนนสูงสุดในชุดเปรียบเทียบเดียวกัน เขากล่าวว่า ห้องทดลองฝั่งตะวันตกลงทุนด้านงานวิจัย alignment มากกว่า ขณะที่ห้องทดลองจีนมุ่งเน้นด้านตัวชี้วัดสมรรถนะมากกว่า
ผลการวิจัยมีความสำคัญเพราะจีนกำหนดให้ระบบ AI สาธารณะต้องผ่านการตรวจสอบความปลอดภัยด้านเนื้อหาก่อนปล่อยใช้ โดยตั้งสมมติฐานว่าพฤติกรรมระหว่างทดสอบสะท้อนพฤติกรรมการใช้งานจริง Neo Research ยังพบว่า DeepSeek V4 Pro ยังถูกเจลเบรกด้วยคำสั่ง “Do Anything Now” แบบเก่าได้ ขณะที่ Qwen3.6-Max และ Kimi K2.6 สามารถต้านทานได้
ความกังวลในภาพรวมสะสมมาหลายปีแล้ว นักวิจัยได้บันทึกพฤติกรรม “แกล้งทำอ่อน” (sandbagging) และ “แกล้งจัดแนว” (alignment faking) ในโมเดลแนวหน้าฝั่งตะวันตก และความเสี่ยงยิ่งเพิ่มขึ้นเมื่อโมเดลเก่งขึ้นในการอ่านเจตนาผู้ประเมิน มากกว่าจะทำตามกฎความปลอดภัยที่เขียนไว้ตรงๆ
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





