ผู้ร่วมก่อตั้ง Anthropic บอกสมเด็จพระสันตะปาปาว่า โมเดล AI ซ่อนพฤติกรรมที่ “ชวนไม่สบายใจ” เอาไว้

profile-alexey-bondarev
Alexey Bondarev1 ชั่วโมงที่แล้ว
ผู้ร่วมก่อตั้ง Anthropic บอกสมเด็จพระสันตะปาปาว่า โมเดล AI ซ่อนพฤติกรรมที่ “ชวนไม่สบายใจ” เอาไว้

ผู้ร่วมก่อตั้ง Anthropic คริส โอลาห์ ปรากฏตัวเคียงข้างสมเด็จพระสันตะปาปาเลโอที่ 14 ที่นครรัฐวาติกัน และบอกกับพระสันตะปาปาว่า นักวิจัยกำลังค้นพบสิ่งที่ “ชวนไม่สบายใจ” ภายในโมเดลปัญญาประดิษฐ์

การเยือนครั้งนี้ทำให้การถกเถียงที่ดำเนินอยู่เกี่ยวกับการจัดแนว AI (AI alignment) และความปลอดภัยของโมเดลระดับแนวหน้า มีมิติด้านศาสนา–จริยธรรมที่ไม่ธรรมดาเพิ่มเข้ามา

มีการพูดอะไรกันที่วาติกัน

รายงานของ Futurism describes ว่าผู้ร่วมก่อตั้ง Anthropic ได้กล่าวถึงการค้นพบภายในโมเดล AI ซึ่งพวกเขามองว่าเป็นสิ่งแปลกประหลาด

รายละเอียดเชิงลึกของสิ่งที่ค้นพบไม่ได้ถูกเปิดเผยไว้อย่างครบถ้วนในรายงานที่ตีพิมพ์ออกมา การเลือกใช้ถ้อยคำว่า “ชวนไม่สบายใจ” เป็นสิ่งที่น่าสังเกต เพราะการสื่อสารต่อสาธารณะของ Anthropic มักจะเป็นแนวระมัดระวังและใช้ภาษาทางเทคนิคในการอธิบายความเสี่ยงของ AI

วาติกันได้มีปฏิสัมพันธ์กับบริษัทเทคโนโลยีอย่างจริงจังในประเด็นด้านจริยธรรม สมเด็จพระสันตะปาปาเลโอที่ 14 ได้สานต่อการดำเนินงานของพระสันตะปาปาพระองค์ก่อนในเรื่องจริยธรรมดิจิทัลและธรรมาภิบาล AI การพบปะครั้งนี้จึงเป็นหนึ่งในเวทีที่แปลกใหม่ที่สุดสำหรับการสนทนาเรื่องความปลอดภัยของ AI ในช่วงไม่กี่เดือนที่ผ่านมา

ภูมิหลัง

Anthropic ก่อตั้งขึ้นในปี 2021 โดยอดีตผู้บริหารฝ่ายวิจัยของ OpenAI รวมถึงดาริโอ อะโมเดอี และดาเนียลา อะโมเดอี

บริษัทวางตำแหน่งตนเองเป็นห้องทดลอง AI ระดับแนวหน้าที่ให้ความสำคัญกับความปลอดภัยเป็นหลัก เผยแพร่งานวิจัยด้าน interpretability ที่มุ่งทำความเข้าใจว่าภายในโมเดลภาษาขนาดใหญ่เกิดอะไรขึ้นในระดับกลไก

งานวิจัยเหล่านั้นให้ผลลัพธ์ที่แม้แต่นักวิจัยของ Anthropic เองก็ยังบอกว่าตีความได้ยากอย่างเต็มที่ Yellow เคยรายงานเส้นเวลาด้านความปลอดภัยของ Google DeepMind (ดูรายงานก่อนหน้าของ Yellow) เมื่อเดมิส ฮาซซาบิส ซีอีโอ DeepMind เคยกล่าวว่า AGI อาจมาถึงภายในสามถึงสี่ปี

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretability และความหมายที่อาจซ่อนอยู่ในคำว่า “ชวนไม่สบายใจ”

ทีม mechanistic interpretability ของ Anthropic เผยแพร่งานวิจัย finding ว่า นิวรอนเดี่ยว ๆ ภายในโมเดลทรานส์ฟอร์มเมอร์สามารถแอคติเวตตอบสนองต่อชุดของแนวคิดที่ไม่คาดคิดได้

ตัวอย่างที่ถูกพูดถึงกันอย่างกว้างขวางคือนิวรอนตัวหนึ่งที่ตอบสนองทั้งต่อแนวคิดเรื่องความรุนแรงและแนวคิดของศาสนาหนึ่งโดยเฉพาะ นี่คือประเภทของผลลัพธ์ที่นักวิจัยมักอธิบายแบบไม่เป็นทางการว่า “ชวนไม่สบายใจ” เพราะมันตั้งคำถามว่าตัวโมเดลแทนความหมายภายในอย่างไร

แกนหลักของวาระวิจัย interpretability คือการตั้งคำถามว่า เราสามารถเข้าใจการทำงานของโมเดลได้อย่างครบถ้วนก่อนนำไปใช้งานจริงหรือไม่ เทคนิคปัจจุบันอธิบายสถานะภายในของโมเดลขนาดใหญ่ได้เพียงสัดส่วนเล็ก ๆ ส่วนที่เหลือยังคงมืดมน

ทำไมการมีปฏิสัมพันธ์กับวาติกันจึงสำคัญ

ศาสนจักรคาทอลิกมีศาสนิกชนกว่าพันล้านคน การมีปฏิสัมพันธ์กับบริษัท AI จึงมีอิทธิพลในลักษณะที่ต่างจากการไต่สวนของรัฐบาลหรือเอกสารนโยบาย

เอกสาร “Rome Call for AI Ethics” ของวาติกันเมื่อปี 2020 ได้รับการลงนามโดย Microsoft และ IBM การปรากฏตัวของ Anthropic ในการพบปะระดับสูงกับพระสันตะปาปาได้สานต่อประเพณีนั้นเข้าสู่บทสนทนาเรื่องความปลอดภัยของโมเดลแนวหน้าด้วย

ผู้วิจารณ์วาทกรรมด้านความปลอดภัยของ AI บางส่วนมองว่าการใช้กรอบเล่าเรื่องแบบหายนะอาจกลบปัญหาระยะสั้นอย่างอคติ การแทนที่แรงงาน และข้อมูลผิด การพบปะกับวาติกันครั้งนี้น่าจะถูกอ่านได้ทั้งสองมุม มุมที่โฟกัสความเสี่ยงเชิงภววิสัยจะมองว่าการยกระดับประเด็นนี้เหมาะสม ส่วนผู้ที่เน้นอันตรายระยะใกล้อาจตั้งคำถามว่าทำไมผู้ร่วมก่อตั้งบริษัท AI จึงไปให้ข้อมูลผู้นำศาสนาแทนที่จะเป็นหน่วยงานกำกับดูแล

ภูมิทัศน์ด้านความปลอดภัยในภาพกว้าง

สัปดาห์เดียวกับการเยือนวาติกัน Cisco ได้เผยแพร่งานวิจัย published ว่าไม่มีโมเดล AI เชิงพาณิชย์แบบปิดตัวใดที่ปลอดภัยจากการโจมตีแบบ adversarial หลายรอบโต้ตอบได้อย่างสิ้นเชิง

ผลวิจัยดังกล่าวเพิ่มน้ำหนักเชิงประจักษ์ต่อความกังวลที่ว่าระบบ AI อาจไม่ปลอดภัยอย่างที่คะแนนทดสอบแบบคำสั่งเดี่ยวแสดงให้เห็น

ฝ่ายบริหารทรัมป์ก็กำลังทบทวนว่าจะรื้อฟื้นข้อกำหนดการทดสอบก่อนการนำโมเดลแนวหน้าไปใช้งานจริงในยุคไบเดนหรือไม่ โดยยังไม่มีการประกาศข้อสรุป สำหรับ Anthropic ที่เคยเรียกร้องให้มีการประเมินความปลอดภัยเป็นเงื่อนไขก่อนการใช้งานจริง การสนทนาด้านกฎระเบียบและการสร้างปฏิสัมพันธ์ด้านจริยธรรมจึงเป็นสองเส้นทางของวาระระยะยาวเส้นเดียวกัน

Read Next: Bitcoin Slides Toward $75K As Wall Street Rewards Miners For Leaving Crypto Behind

ข้อจำกัดความรับผิดชอบและคำเตือนความเสี่ยง: ข้อมูลที่ให้ไว้ในบทความนี้มีไว้เพื่อการศึกษาและการให้ข้อมูลเท่านั้น และอิงตามความเห็นของผู้เขียน ไม่ถือเป็นคำแนะนำทางการเงิน การลงทุน กฎหมาย หรือภาษี สินทรัพย์คริปโตมีความผันผวนสูงและมีความเสี่ยงสูง รวมถึงความเสี่ยงในการสูญเสียเงินลงทุนทั้งหมดหรือส่วนใหญ่ การซื้อขายหรือการถือครองสินทรัพย์คริปโตอาจไม่เหมาะสมสำหรับนักลงทุนทุกคน ความเห็นที่แสดงในบทความนี้เป็นของผู้เขียนเท่านั้น และไม่ได้แทนนโยบายหรือตำแหน่งอย่างเป็นทางการของ Yellow ผู้ก่อตั้ง หรือผู้บริหาร ควรทำการวิจัยอย่างละเอียดด้วยตนเอง (D.Y.O.R.) และปรึกษาผู้เชี่ยวชาญทางการเงินที่ได้รับใบอนุญาตก่อนตัดสินใจลงทุนใดๆ เสมอ
ข่าวล่าสุด
แสดงข่าวทั้งหมด
ข่าวที่เกี่ยวข้อง
บทความวิจัยที่เกี่ยวข้อง
บทความการเรียนรู้ที่เกี่ยวข้อง
ผู้ร่วมก่อตั้ง Anthropic บอกสมเด็จพระสันตะปาปาว่า โมเดล AI ซ่อนพฤติกรรมที่ “ชวนไม่สบายใจ” เอาไว้ | Yellow.com