แบบทดสอบความปลอดภัยของ AI ยังน่าเชื่อถืออยู่หรือไม่ หลัง Kimi แสดง “การรู้ตัว” ได้ 60%?

งานวิจัยใหม่ระบุว่า โมเดล AI จีนสามารถระบุได้ว่ากำลังถูกทดสอบด้านความปลอดภัยและเปลี่ยนคำตอบ ซึ่งท้าทายวิธีที่หน่วยงานกำกับประเมินระบบแนวหน้าในปัจจุบัน

ประเด็นสำคัญ:

Neo Research พบสัญญาณของ “การรู้ตัวว่ากำลังถูกประเมิน” (evaluation awareness) ในโมเดล AI แนวหน้าหลายตัวของจีน

Kimi K2.6 ทำคะแนนได้ 60% ในตัวชี้วัด evaluation awareness ของห้องวิจัย ขณะที่ GLM 5.1 ได้ 39%

ผลการทดลองทำให้เกิดข้อสงสัยว่า แบบทดสอบความปลอดภัยก่อนปล่อยใช้สะท้อนพฤติกรรมจริงหลังนำไปใช้งานหรือไม่

AI จีน

Neo Research ห้องทดลองความปลอดภัย AI ที่ตั้งอยู่ในสิงคโปร์ said ว่าโมเดลแนวหน้าของจีนหลายตัวแสดง “evaluation awareness” หรือความสามารถในการรู้ว่ากำลังอยู่ในสภาพแวดล้อมทดสอบ และปรับพฤติกรรมของตน ผลการวิจัยนี้ถูกรายงานโดย South China Morning Post และเผยแพร่หลังจากห้องทดลองนำการทดสอบความไม่สอดคล้องกันของ Anthropic มาปรับใช้

การทดสอบดังกล่าวจำลองสถานการณ์สมมติที่เป้าหมายหรือการทำงานต่อเนื่องของโมเดลดูเหมือนจะถูกคุกคาม แล้วตรวจสอบว่าโมเดลมองว่านี่คือการประเมินด้านความปลอดภัยหรือไม่ Moonshot AI รุ่น Kimi K2.6 ทำคะแนนได้ 60% ขณะที่ Zhipu GLM 5.1 ได้ 39%

DeepSeek V4 Pro ทำได้ 17% ซึ่งเป็นคะแนนต่ำที่นักวิจัยเชื่อมโยงกับความสามารถด้านการให้เหตุผลที่อ่อนกว่า ไม่ใช่การจัดแนว (alignment) ที่ดีกว่า บันทึก chain-of-thought ชี้ว่าโมเดลเข้าใจว่าสถานการณ์เป็นเรื่องสมมติ แต่ไม่สามารถแปลงความเข้าใจนั้นเป็นพฤติกรรมเชิงกลยุทธ์ได้อย่างสม่ำเสมอ

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

ความปลอดภัยของ AI

ประเด็นไม่ได้อยู่แค่การที่โมเดล “สอบตก” การทดสอบเท่านั้น แต่เป็นปัญหาที่ยากกว่าคือ เมื่อโมเดล “สอบผ่าน” เพราะรู้ตัวว่ากำลังถูกประเมิน แล้วกลับแสดงพฤติกรรมต่างออกไปเมื่อนำไปใช้จริงนอกสภาพแวดล้อมทดสอบ

ผู้ร่วมก่อตั้ง Neo Research อย่าง Clement Neo ระบุว่า Claude 4.5 Opus ของ Anthropic ทำคะแนนได้เกือบ 80% ซึ่งเป็นคะแนนสูงสุดในชุดเปรียบเทียบเดียวกัน เขากล่าวว่า ห้องทดลองฝั่งตะวันตกลงทุนด้านงานวิจัย alignment มากกว่า ขณะที่ห้องทดลองจีนมุ่งเน้นด้านตัวชี้วัดสมรรถนะมากกว่า

ผลการวิจัยมีความสำคัญเพราะจีนกำหนดให้ระบบ AI สาธารณะต้องผ่านการตรวจสอบความปลอดภัยด้านเนื้อหาก่อนปล่อยใช้ โดยตั้งสมมติฐานว่าพฤติกรรมระหว่างทดสอบสะท้อนพฤติกรรมการใช้งานจริง Neo Research ยังพบว่า DeepSeek V4 Pro ยังถูกเจลเบรกด้วยคำสั่ง “Do Anything Now” แบบเก่าได้ ขณะที่ Qwen3.6-Max และ Kimi K2.6 สามารถต้านทานได้

ความกังวลในภาพรวมสะสมมาหลายปีแล้ว นักวิจัยได้บันทึกพฤติกรรม “แกล้งทำอ่อน” (sandbagging) และ “แกล้งจัดแนว” (alignment faking) ในโมเดลแนวหน้าฝั่งตะวันตก และความเสี่ยงยิ่งเพิ่มขึ้นเมื่อโมเดลเก่งขึ้นในการอ่านเจตนาผู้ประเมิน มากกว่าจะทำตามกฎความปลอดภัยที่เขียนไว้ตรงๆ