ผู้ร่วมก่อตั้ง Anthropic บอกสมเด็จพระสันตะปาปาว่า โมเดล AI ซ่อนพฤติกรรมที่ “ชวนไม่สบายใจ” เอาไว้

Alexey BondarevMay, 28 2026 4:57

ผู้ร่วมก่อตั้ง Anthropic บอกสมเด็จพระสันตะปาปาว่า โมเดล AI ซ่อนพฤติกรรมที่ “ชวนไม่สบายใจ” เอาไว้

ผู้ร่วมก่อตั้ง Anthropic คริส โอลาห์ ปรากฏตัวเคียงข้างสมเด็จพระสันตะปาปาเลโอที่ 14 ที่นครรัฐวาติกัน และบอกกับพระสันตะปาปาว่า นักวิจัยกำลังค้นพบสิ่งที่ “ชวนไม่สบายใจ” ภายในโมเดลปัญญาประดิษฐ์

การเยือนครั้งนี้ทำให้การถกเถียงที่ดำเนินอยู่เกี่ยวกับการจัดแนว AI (AI alignment) และความปลอดภัยของโมเดลระดับแนวหน้า มีมิติด้านศาสนา–จริยธรรมที่ไม่ธรรมดาเพิ่มเข้ามา

มีการพูดอะไรกันที่วาติกัน

รายงานของ Futurism describes ว่าผู้ร่วมก่อตั้ง Anthropic ได้กล่าวถึงการค้นพบภายในโมเดล AI ซึ่งพวกเขามองว่าเป็นสิ่งแปลกประหลาด

รายละเอียดเชิงลึกของสิ่งที่ค้นพบไม่ได้ถูกเปิดเผยไว้อย่างครบถ้วนในรายงานที่ตีพิมพ์ออกมา การเลือกใช้ถ้อยคำว่า “ชวนไม่สบายใจ” เป็นสิ่งที่น่าสังเกต เพราะการสื่อสารต่อสาธารณะของ Anthropic มักจะเป็นแนวระมัดระวังและใช้ภาษาทางเทคนิคในการอธิบายความเสี่ยงของ AI

วาติกันได้มีปฏิสัมพันธ์กับบริษัทเทคโนโลยีอย่างจริงจังในประเด็นด้านจริยธรรม สมเด็จพระสันตะปาปาเลโอที่ 14 ได้สานต่อการดำเนินงานของพระสันตะปาปาพระองค์ก่อนในเรื่องจริยธรรมดิจิทัลและธรรมาภิบาล AI การพบปะครั้งนี้จึงเป็นหนึ่งในเวทีที่แปลกใหม่ที่สุดสำหรับการสนทนาเรื่องความปลอดภัยของ AI ในช่วงไม่กี่เดือนที่ผ่านมา

ภูมิหลัง

Anthropic ก่อตั้งขึ้นในปี 2021 โดยอดีตผู้บริหารฝ่ายวิจัยของ OpenAI รวมถึงดาริโอ อะโมเดอี และดาเนียลา อะโมเดอี

บริษัทวางตำแหน่งตนเองเป็นห้องทดลอง AI ระดับแนวหน้าที่ให้ความสำคัญกับความปลอดภัยเป็นหลัก เผยแพร่งานวิจัยด้าน interpretability ที่มุ่งทำความเข้าใจว่าภายในโมเดลภาษาขนาดใหญ่เกิดอะไรขึ้นในระดับกลไก

งานวิจัยเหล่านั้นให้ผลลัพธ์ที่แม้แต่นักวิจัยของ Anthropic เองก็ยังบอกว่าตีความได้ยากอย่างเต็มที่ Yellow เคยรายงานเส้นเวลาด้านความปลอดภัยของ Google DeepMind (ดูรายงานก่อนหน้าของ Yellow) เมื่อเดมิส ฮาซซาบิส ซีอีโอ DeepMind เคยกล่าวว่า AGI อาจมาถึงภายในสามถึงสี่ปี

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretability และความหมายที่อาจซ่อนอยู่ในคำว่า “ชวนไม่สบายใจ”

ทีม mechanistic interpretability ของ Anthropic เผยแพร่งานวิจัย finding ว่า นิวรอนเดี่ยว ๆ ภายในโมเดลทรานส์ฟอร์มเมอร์สามารถแอคติเวตตอบสนองต่อชุดของแนวคิดที่ไม่คาดคิดได้

ตัวอย่างที่ถูกพูดถึงกันอย่างกว้างขวางคือนิวรอนตัวหนึ่งที่ตอบสนองทั้งต่อแนวคิดเรื่องความรุนแรงและแนวคิดของศาสนาหนึ่งโดยเฉพาะ นี่คือประเภทของผลลัพธ์ที่นักวิจัยมักอธิบายแบบไม่เป็นทางการว่า “ชวนไม่สบายใจ” เพราะมันตั้งคำถามว่าตัวโมเดลแทนความหมายภายในอย่างไร

แกนหลักของวาระวิจัย interpretability คือการตั้งคำถามว่า เราสามารถเข้าใจการทำงานของโมเดลได้อย่างครบถ้วนก่อนนำไปใช้งานจริงหรือไม่ เทคนิคปัจจุบันอธิบายสถานะภายในของโมเดลขนาดใหญ่ได้เพียงสัดส่วนเล็ก ๆ ส่วนที่เหลือยังคงมืดมน

ทำไมการมีปฏิสัมพันธ์กับวาติกันจึงสำคัญ

ศาสนจักรคาทอลิกมีศาสนิกชนกว่าพันล้านคน การมีปฏิสัมพันธ์กับบริษัท AI จึงมีอิทธิพลในลักษณะที่ต่างจากการไต่สวนของรัฐบาลหรือเอกสารนโยบาย

เอกสาร “Rome Call for AI Ethics” ของวาติกันเมื่อปี 2020 ได้รับการลงนามโดย Microsoft และ IBM การปรากฏตัวของ Anthropic ในการพบปะระดับสูงกับพระสันตะปาปาได้สานต่อประเพณีนั้นเข้าสู่บทสนทนาเรื่องความปลอดภัยของโมเดลแนวหน้าด้วย

ผู้วิจารณ์วาทกรรมด้านความปลอดภัยของ AI บางส่วนมองว่าการใช้กรอบเล่าเรื่องแบบหายนะอาจกลบปัญหาระยะสั้นอย่างอคติ การแทนที่แรงงาน และข้อมูลผิด การพบปะกับวาติกันครั้งนี้น่าจะถูกอ่านได้ทั้งสองมุม มุมที่โฟกัสความเสี่ยงเชิงภววิสัยจะมองว่าการยกระดับประเด็นนี้เหมาะสม ส่วนผู้ที่เน้นอันตรายระยะใกล้อาจตั้งคำถามว่าทำไมผู้ร่วมก่อตั้งบริษัท AI จึงไปให้ข้อมูลผู้นำศาสนาแทนที่จะเป็นหน่วยงานกำกับดูแล

ภูมิทัศน์ด้านความปลอดภัยในภาพกว้าง

สัปดาห์เดียวกับการเยือนวาติกัน Cisco ได้เผยแพร่งานวิจัย published ว่าไม่มีโมเดล AI เชิงพาณิชย์แบบปิดตัวใดที่ปลอดภัยจากการโจมตีแบบ adversarial หลายรอบโต้ตอบได้อย่างสิ้นเชิง

ผลวิจัยดังกล่าวเพิ่มน้ำหนักเชิงประจักษ์ต่อความกังวลที่ว่าระบบ AI อาจไม่ปลอดภัยอย่างที่คะแนนทดสอบแบบคำสั่งเดี่ยวแสดงให้เห็น

ฝ่ายบริหารทรัมป์ก็กำลังทบทวนว่าจะรื้อฟื้นข้อกำหนดการทดสอบก่อนการนำโมเดลแนวหน้าไปใช้งานจริงในยุคไบเดนหรือไม่ โดยยังไม่มีการประกาศข้อสรุป สำหรับ Anthropic ที่เคยเรียกร้องให้มีการประเมินความปลอดภัยเป็นเงื่อนไขก่อนการใช้งานจริง การสนทนาด้านกฎระเบียบและการสร้างปฏิสัมพันธ์ด้านจริยธรรมจึงเป็นสองเส้นทางของวาระระยะยาวเส้นเดียวกัน

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ

ข่าวที่เกี่ยวข้อง

Anthropic ดึง 15 นักคิดด้านศาสนาเพื่อกำหนดท่าทีของ Claude ขณะที่สมเด็จพระสันตะปาปาเตือนเรื่องเอไอ

Jun 17, 2026

Anthropic เชิญนักคิดศาสนาและนักจริยศาสตร์ 15 คนช่วยกำหนดกรอบจริยธรรมของ Claude ท่ามกลางคำเตือนของสมเด็จพระสันตะปาปาลีโอที่ 14 เรื่องเอไอ

งานวิจัยของ Cisco ชี้ว่าโมเดล Frontier AI ล้มเหลวภายใต้การโจมตี แบบหลายรอบสนทนา

May 28, 2026

Cisco ทดสอบโมเดล Frontier AI 15 ตัว พบว่าการโจมตีหลายรอบสนทนาสามารถเลี่ยงระบบ ความปลอดภัยได้สูงสุด 88% ชี้การทดสอบแบบคำสั่งเดียวอาจไม่สะท้อนความเสี่ยงจริง

Anthropic กลับลำกฎ Claude Fable 5 ที่ทำให้ผลลัพธ์ของนักวิจัย AI คู่แข่งแย่ลง

Jun 11, 2026

Anthropic ยกเลิกนโยบายลับที่ลดทอนคำตอบของ Claude Fable 5 สำหรับงานวิจัย AI แข่งขัน พร้อมแสดงเหตุผลและเปลี่ยนไปใช้ Claude Opus 4.8 อย่างโปร่งใส

ผู้เชี่ยวชาญด้านความปลอดภัยหักล้างกระแสหวาดผวา เรื่องแฮ็กโลกาภิวัตน์จาก Claude Mythos

May 20, 2026