Sakana Fugu điều phối nhiều mô hình AI để cạnh tranh với Mythos bị hạn chế của Anthropic

Startup Tokyo Sakana AI đã ra mắt Fugu, một hệ thống điều phối một nhóm mô hình ngôn ngữ có thể hoán đổi để cạnh tranh với các mô hình Fable và Mythos bị hạn chế của Anthropic.

Các ý chính:

Fugu của Sakana AI chạy như một mô hình duy nhất nhưng phối hợp một nhóm hệ thống phía sau một API chung.

Fugu Ultra đạt 73,7 trong bài kiểm tra lập trình SWE-Bench Pro, vượt qua một số đối thủ tuyến đầu.

Thiết kế này được giới thiệu như một biện pháp phòng ngừa trước các kiểm soát xuất khẩu đã chặn Fable và Mythos.

Sakana Fugu điều phối các mô hình

Phòng thí nghiệm tại Tokyo đã triển khai Fugu và phiên bản nặng hơn Fugu Ultra vào ngày 22/06, đều truy cập được qua một endpoint tương thích OpenAI, như họ đã xác nhận. Tùy theo yêu cầu, nó có thể tự mình trả lời một nhiệm vụ hoặc huy động một nhóm hệ thống khác cùng xử lý.

Sau đó, chính mô hình sẽ tự chạy các bước kiểm tra và tổng hợp.

Bản thân Fugu là một mô hình ngôn ngữ.

Được huấn luyện để gọi các agent từ một “bể” có thể hoán đổi, nó thậm chí có thể gọi thêm các bản sao của chính nó khi một công việc cần nhiều “tay” hơn một mô hình đơn lẻ có thể cung cấp. Tầng cơ bản nhắm tới độ trễ thấp cho lập trình hằng ngày, trò chuyện và các công cụ như Codex, đồng thời cho phép nhóm phát triển loại bỏ một số agent nhất định để đáp ứng quy tắc bảo mật. Ngược lại, Fugu Ultra nhắm vào chất lượng câu trả lời cao nhất cho các bài toán dài như tái hiện bài báo khoa học và phân tích bảo mật, vốn đã được một nhóm khoảng 500 người dùng beta thử nghiệm trong vài tuần gần đây.

Đọc thêm: Đợt xả Anthropic Perp có phải lời cảnh báo cho các cược crypto tiền IPO?

Mollick và Levie lên tiếng

Các con số benchmark mà công ty công bố đặt Fugu Ultra ở mức 73,7 trong bài kiểm tra lập trình SWE-Bench Pro, vượt Opus 4.8, Gemini 3.1 Pro và GPT-5.5 trong cùng phép đo.

Công ty cho biết các điểm số đó ngang với Fable 5 và Mythos Preview, và bảng so sánh của chính họ cho thấy bộ điều phối này đứng đầu trong 10 trên 11 hạng mục đã công bố.

Không phải người thử nghiệm nào cũng bị thuyết phục. Nhà nghiên cứu AI Ethan Mollick viết rằng Fugu Ultra chạy “chậm kinh khủng”, với các bài kiểm tra lập trình thường nhật kéo dài tới 30 phút và chất lượng đầu ra kém hơn Fable trong sử dụng thực tế. Sếp Box Aaron Levie thì tỏ ra tích cực hơn, gọi cách định tuyến từng tác vụ qua một API duy nhất tới mô hình phù hợp nhất là một bước tiến cho cách xây dựng AI ứng dụng.

Những người khác lại chỉ ra vấn đề giá, vì việc điều phối có thể khiến chi phí token chồng lên nhiều lần so với gọi trực tiếp một mô hình tuyến đầu đơn lẻ trên bài toán tương đương. Sakana mô tả thiết kế dùng chung này như một dạng bảo hiểm khi bất kỳ nhà cung cấp nào cũng có thể “tắt đèn”, và nhấn mạnh các biện pháp hạn chế xuất khẩu mới áp lên Fable và Mythos như kiểu cú sốc có thể cắt đứt quyền truy cập chỉ sau một đêm.

Nguồn gốc của Sakana AI

Sakana AI hình thành năm 2023 dưới sự dẫn dắt của Llion Jones, đồng tác giả bài báo “Attention Is All You Need” của Google. David Ha, từng là trưởng nhóm nghiên cứu tại Stability AI, gia nhập với vai trò đồng sáng lập. Phòng thí nghiệm này gây dựng tên tuổi nhờ kỹ thuật “lai ghép” mô hình theo hướng tiến hóa và dòng dự án AI Scientist cho nghiên cứu tự động, và từ lâu đã lập luận rằng những “bể” mô hình được điều phối tốt có thể vượt trội bất kỳ hệ thống đơn lẻ nào trong các nhiệm vụ khó, kéo dài.

Đọc tiếp: Mane City Mobile ra mắt trên iOS và Android tại hơn 100 quốc gia