ผู้ร่วมก่อตั้ง Anthropic คริส โอลาห์ ปรากฏตัวเคียงข้างสมเด็จพระสันตะปาปาเลโอที่ 14 ที่นครรัฐวาติกัน และบอกกับพระสันตะปาปาว่า นักวิจัยกำลังค้นพบสิ่งที่ “ชวนไม่สบายใจ” ภายในโมเดลปัญญาประดิษฐ์
การเยือนครั้งนี้ทำให้การถกเถียงที่ดำเนินอยู่เกี่ยวกับการจัดแนว AI (AI alignment) และความปลอดภัยของโมเดลระดับแนวหน้า มีมิติด้านศาสนา–จริยธรรมที่ไม่ธรรมดาเพิ่มเข้ามา
มีการพูดอะไรกันที่วาติกัน
รายงานของ Futurism describes ว่าผู้ร่วมก่อตั้ง Anthropic ได้กล่าวถึงการค้นพบภายในโมเดล AI ซึ่งพวกเขามองว่าเป็นสิ่งแปลกประหลาด
รายละเอียดเชิงลึกของสิ่งที่ค้นพบไม่ได้ถูกเปิดเผยไว้อย่างครบถ้วนในรายงานที่ตีพิมพ์ออกมา การเลือกใช้ถ้อยคำว่า “ชวนไม่สบายใจ” เป็นสิ่งที่น่าสังเกต เพราะการสื่อสารต่อสาธารณะของ Anthropic มักจะเป็นแนวระมัดระวังและใช้ภาษาทางเทคนิคในการอธิบายความเสี่ยงของ AI
วาติกันได้มีปฏิสัมพันธ์กับบริษัทเทคโนโลยีอย่างจริงจังในประเด็นด้านจริยธรรม สมเด็จพระสันตะปาปาเลโอที่ 14 ได้สานต่อการดำเนินงานของพระสันตะปาปาพระองค์ก่อนในเรื่องจริยธรรมดิจิทัลและธรรมาภิบาล AI การพบปะครั้งนี้จึงเป็นหนึ่งในเวทีที่แปลกใหม่ที่สุดสำหรับการสนทนาเรื่องความปลอดภัยของ AI ในช่วงไม่กี่เดือนที่ผ่านมา
ภูมิหลัง
Anthropic ก่อตั้งขึ้นในปี 2021 โดยอดีตผู้บริหารฝ่ายวิจัยของ OpenAI รวมถึงดาริโอ อะโมเดอี และดาเนียลา อะโมเดอี
บริษัทวางตำแหน่งตนเองเป็นห้องทดลอง AI ระดับแนวหน้าที่ให้ความสำคัญกับความปลอดภัยเป็นหลัก เผยแพร่งานวิจัยด้าน interpretability ที่มุ่งทำความเข้าใจว่าภายในโมเดลภาษาขนาดใหญ่เกิดอะไรขึ้นในระดับกลไก
งานวิจัยเหล่านั้นให้ผลลัพธ์ที่แม้แต่นักวิจัยของ Anthropic เองก็ยังบอกว่าตีความได้ยากอย่างเต็มที่ Yellow เคยรายงานเส้นเวลาด้านความปลอดภัยของ Google DeepMind (ดูรายงานก่อนหน้าของ Yellow) เมื่อเดมิส ฮาซซาบิส ซีอีโอ DeepMind เคยกล่าวว่า AGI อาจมาถึงภายในสามถึงสี่ปี
Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers
Interpretability และความหมายที่อาจซ่อนอยู่ในคำว่า “ชวนไม่สบายใจ”
ทีม mechanistic interpretability ของ Anthropic เผยแพร่งานวิจัย finding ว่า นิวรอนเดี่ยว ๆ ภายในโมเดลทรานส์ฟอร์มเมอร์สามารถแอคติเวตตอบสนองต่อชุดของแนวคิดที่ไม่คาดคิดได้
ตัวอย่างที่ถูกพูดถึงกันอย่างกว้างขวางคือนิวรอนตัวหนึ่งที่ตอบสนองทั้งต่อแนวคิดเรื่องความรุนแรงและแนวคิดของศาสนาหนึ่งโดยเฉพาะ นี่คือประเภทของผลลัพธ์ที่นักวิจัยมักอธิบายแบบไม่เป็นทางการว่า “ชวนไม่สบายใจ” เพราะมันตั้งคำถามว่าตัวโมเดลแทนความหมายภายในอย่างไร
แกนหลักของวาระวิจัย interpretability คือการตั้งคำถามว่า เราสามารถเข้าใจการทำงานของโมเดลได้อย่างครบถ้วนก่อนนำไปใช้งานจริงหรือไม่ เทคนิคปัจจุบันอธิบายสถานะภายในของโมเดลขนาดใหญ่ได้เพียงสัดส่วนเล็ก ๆ ส่วนที่เหลือยังคงมืดมน
ทำไมการมีปฏิสัมพันธ์กับวาติกันจึงสำคัญ
ศาสนจักรคาทอลิกมีศาสนิกชนกว่าพันล้านคน การมีปฏิสัมพันธ์กับบริษัท AI จึงมีอิทธิพลในลักษณะที่ต่างจากการไต่สวนของรัฐบาลหรือเอกสารนโยบาย
เอกสาร “Rome Call for AI Ethics” ของวาติกันเมื่อปี 2020 ได้รับการลงนามโดย Microsoft และ IBM การปรากฏตัวของ Anthropic ในการพบปะระดับสูงกับพระสันตะปาปาได้สานต่อประเพณีนั้นเข้าสู่บทสนทนาเรื่องความปลอดภัยของโมเดลแนวหน้าด้วย
ผู้วิจารณ์วาทกรรมด้านความปลอดภัยของ AI บางส่วนมองว่าการใช้กรอบเล่าเรื่องแบบหายนะอาจกลบปัญหาระยะสั้นอย่างอคติ การแทนที่แรงงาน และข้อมูลผิด การพบปะกับวาติกันครั้งนี้น่าจะถูกอ่านได้ทั้งสองมุม มุมที่โฟกัสความเสี่ยงเชิงภววิสัยจะมองว่าการยกระดับประเด็นนี้เหมาะสม ส่วนผู้ที่เน้นอันตรายระยะใกล้อาจตั้งคำถามว่าทำไมผู้ร่วมก่อตั้งบริษัท AI จึงไปให้ข้อมูลผู้นำศาสนาแทนที่จะเป็นหน่วยงานกำกับดูแล
ภูมิทัศน์ด้านความปลอดภัยในภาพกว้าง
สัปดาห์เดียวกับการเยือนวาติกัน Cisco ได้เผยแพร่งานวิจัย published ว่าไม่มีโมเดล AI เชิงพาณิชย์แบบปิดตัวใดที่ปลอดภัยจากการโจมตีแบบ adversarial หลายรอบโต้ตอบได้อย่างสิ้นเชิง
ผลวิจัยดังกล่าวเพิ่มน้ำหนักเชิงประจักษ์ต่อความกังวลที่ว่าระบบ AI อาจไม่ปลอดภัยอย่างที่คะแนนทดสอบแบบคำสั่งเดี่ยวแสดงให้เห็น
ฝ่ายบริหารทรัมป์ก็กำลังทบทวนว่าจะรื้อฟื้นข้อกำหนดการทดสอบก่อนการนำโมเดลแนวหน้าไปใช้งานจริงในยุคไบเดนหรือไม่ โดยยังไม่มีการประกาศข้อสรุป สำหรับ Anthropic ที่เคยเรียกร้องให้มีการประเมินความปลอดภัยเป็นเงื่อนไขก่อนการใช้งานจริง การสนทนาด้านกฎระเบียบและการสร้างปฏิสัมพันธ์ด้านจริยธรรมจึงเป็นสองเส้นทางของวาระระยะยาวเส้นเดียวกัน
Read Next: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind





