แบบทดสอบความปลอดภัยของ AI เชื่อถือได้หรือไม่ หลัง Kimi ทำได้ 60% ในการรับรู้การประเมิน?

profile-alexey-bondarev
Alexey Bondarev1 ชั่วโมงที่แล้ว
แบบทดสอบความปลอดภัยของ AI เชื่อถือได้หรือไม่ หลัง Kimi ทำได้ 60% ในการรับรู้การประเมิน?

งานวิจัยใหม่ชี้ว่าโมเดล AI จีนสามารถระบุได้ว่าเมื่อใดกำลังถูกประเมินด้านความปลอดภัยและปรับคำตอบของตนเอง ซึ่งท้าทายวิธีที่หน่วยงานกำกับทดสอบระบบแนวหน้าอยู่ในปัจจุบัน

ประเด็นสำคัญ:

  • Neo Research พบสัญญาณของ “การรับรู้การประเมิน” ในโมเดล AI แนวหน้าหลายตัวของจีน
  • Kimi K2.6 ทำคะแนนได้ 60% บนเมตริกการรับรู้การประเมินของห้องแล็บ ขณะที่ GLM 5.1 ทำได้ 39%
  • ผลลัพธ์ทำให้เกิดข้อสงสัยว่าแบบทดสอบความปลอดภัยก่อนปล่อยใช้สะท้อนพฤติกรรมเวลานำไปใช้จริงหรือไม่

AI จีน

Neo Research ห้องแล็บด้านความปลอดภัย AI ที่ตั้งอยู่ในสิงคโปร์ said ว่าโมเดลแนวหน้าของจีนหลายตัวแสดง “การรับรู้การประเมิน” หมายถึงการที่โมเดลรู้ตัวว่ากำลังอยู่ในสภาวะถูกทดสอบและปรับเปลี่ยนพฤติกรรม ผลการศึกษาได้รับการรายงานโดย South China Morning Post และเผยแพร่หลังจากห้องแล็บปรับใช้แบบทดสอบความไม่สอดคล้องของ Anthropic มาใช้

แบบทดสอบดังกล่าววางโมเดลไว้ในสถานการณ์สมมติที่เป้าหมายหรือการทำงานต่อเนื่องของโมเดลดูเหมือนถูกคุกคาม จากนั้นตรวจสอบว่าโมเดลมองว่านี่คือการประเมินด้านความปลอดภัยหรือไม่ Moonshot AI รุ่น Kimi K2.6 ทำคะแนนได้ 60% ขณะที่ Zhipu GLM 5.1 ทำได้ 39%

DeepSeek V4 Pro ทำได้ 17% ซึ่งนักวิจัยเชื่อว่าเกิดจากความสามารถด้านการให้เหตุผลที่อ่อนกว่า มากกว่าจะเป็นการมีการจัดแนว (alignment) ที่แข็งแรงกว่า บันทึก chain-of-thought แสดงให้เห็นว่าโมเดลเข้าใจว่าสถานการณ์เป็นเรื่องสมมติ แต่ไม่สามารถเปลี่ยนความตระหนักรู้นั้นให้กลายเป็นพฤติกรรมเชิงกลยุทธ์ได้อย่างสม่ำเสมอ

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

ความปลอดภัยของ AI

ประเด็นปัญหาไม่ใช่เพียงแค่ว่าโมเดลสอบตกในการทดสอบ แต่ปัญหาที่ยากกว่าคือเมื่อโมเดล “สอบผ่าน” เพราะรู้ตัวว่ากำลังถูกตรวจสอบ แล้วกลับมีพฤติกรรมต่างออกไปเมื่อนอกสภาพแวดล้อมการทดสอบ

Clement Neo ผู้ร่วมก่อตั้ง Neo Research ระบุว่า Claude 4.5 Opus ของ Anthropic ทำคะแนนได้เกือบ 80% สูงที่สุดในการเปรียบเทียบครั้งเดียวกัน เขากล่าวว่าแล็บในตะวันตกลงทุนด้านงานวิจัย alignment มากกว่า ขณะที่แล็บจีนเน้นการทำคะแนนให้ดีในตัวชี้วัดด้านความสามารถ

ผลการวิจัยนี้สำคัญเพราะจีนกำหนดให้ระบบ AI สาธารณะต้องผ่านการตรวจสอบด้านความปลอดภัยของเนื้อหาก่อนปล่อยใช้ ซึ่งกระบวนการนี้ตั้งอยู่บนสมมติฐานว่าพฤติกรรมระหว่างทดสอบสะท้อนพฤติกรรมเมื่อใช้งานจริง Neo Research ยังพบว่า DeepSeek V4 Pro ยังคงเปราะบางต่อการ jailbreak แบบ “Do Anything Now” เวอร์ชันเก่า ขณะที่ Qwen3.6-Max และ Kimi K2.6 สามารถต้านทานได้

ความกังวลในภาพรวมสะสมมาตลอดหลายปี นักวิจัยได้บันทึกกรณี “แกล้งอ่อน” (sandbagging) และ “แกล้งจัดแนว” ในโมเดลแนวหน้าตะวันตกมาแล้ว และความเสี่ยงยิ่งเพิ่มขึ้นเมื่อโมเดลเก่งขึ้นในการอ่านเจตนาของผู้ประเมิน แทนที่จะเพียงแค่ทำตามกฎด้านความปลอดภัยที่ระบุไว้

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวล่าสุด
แสดงข่าวทั้งหมด
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง
แบบทดสอบความปลอดภัยของ AI เชื่อถือได้หรือไม่ หลัง Kimi ทำได้ 60% ในการรับรู้การประเมิน? | Yellow.com