사카나 후구, 여러 AI 모델 지휘해 앤스로픽의 금지된 Mythos에 도전

도쿄 스타트업 Sakana AI가 Fugu를 출시했다. 이 시스템은 교체 가능한 언어 모델 풀을 지휘해, 제한된 Anthropic의 Fable and Mythos models과 경쟁하는 것을 목표로 한다.

핵심 포인트:

사카나 AI의 Fugu는 겉으로는 하나의 모델처럼 동작하지만, 실제로는 단일 API 뒤에서 여러 시스템 풀을 조율한다.

Fugu Ultra는 SWE-Bench Pro 코딩 테스트에서 73.7점을 기록해 여러 프런티어 경쟁 모델을 앞질렀다.

이 설계는 Fable과 Mythos를 차단한 수출 통제 리스크에 대한 헤지 수단으로 제시된다.

사카나 후구, 모델들을 오케스트레이션하다

도쿄 랩은 6월 22일 Fugu와 더 무거운 Fugu Ultra 티어를 공개했으며, 둘 다 OpenAI 호환 단일 엔드포인트로 접속 가능하다고 밝혔다. 요청 내용에 따라, 한 모델만으로 응답하기도 하고 여러 시스템을 한 팀으로 묶어 과제를 처리하기도 한다.

이후 모델이 자체적으로 검증과 종합 단계를 수행한다.

Fugu 자체도 하나의 언어 모델이다.

교체 가능한 에이전트 풀을 호출하도록 학습된 덕분에, 단일 작업에 한 모델로는 부족할 때 자기 자신을 여러 개 복제해 불러들이는 것도 가능하다. 기본 티어는 일상적인 코딩·채팅·Codex 같은 도구에서 저지연을 목표로 하며, 팀이 프라이버시 규정을 맞추기 위해 특정 에이전트를 제외할 수 있게 한다. 반면 Fugu Ultra는 논문 재현이나 보안 분석처럼 긴 문제에서 최고 수준의 답변 품질을 노리며, 최근 수주간 약 500명의 베타 유저가 이를 테스트했다.

함께 읽기: Is The Anthropic Perp Sell-Off A Warning For Pre-IPO Crypto Bets?

몰릭과 레비의 평가

회사가 공개한 벤치마크 수치에 따르면, Fugu Ultra는 SWE-Bench Pro 코딩 테스트에서 73.7점을 기록해 같은 조건에서 Opus 4.8, Gemini 3.1 Pro, GPT-5.5를 앞섰다.

회사 측은 이 점수가 Fable 5와 Mythos Preview와 동급이라고 주장하며, 자사 표에서 오케스트레이터가 공개된 11개 행 중 10개에서 1위를 차지했다고 적고 있다.

모든 테스터가 만족한 것은 아니다. AI 연구자 Ethan Mollick은 Fugu Ultra가 “믿을 수 없을 정도로 느리게” 동작해, 일상적인 코딩 테스트도 30분씩 소요됐고 실제 활용에서는 출력이 Fable에 못 미친다고 적었다. Box의 CEO Aaron Levie는 더 호의적인 입장을 보이며, 각 작업을 가장 적합한 모델로 라우팅하는 단일 API 방식이 실무 AI 구축 방식을 한 단계 발전시켰다고 평가했다.

가격을 우려하는 목소리도 있다. 여러 모델을 오케스트레이션하다 보니, 비슷한 작업을 단일 프런티어 모델에 직접 요청하는 것보다 토큰 비용이 여러 배로 불어날 수 있기 때문이다. 사카나는 이 풀 구조를 특정 제공자가 서비스를 중단하더라도 대비할 수 있는 보험으로 설명하며, Fable과 Mythos에 새로 적용된 수출 규제를 언제든 접근을 끊어 버릴 수 있는 충격 사례로 지목한다.

사카나 AI의 출발

사카나 AI는 구글의 “Attention Is All You Need” 논문 공동 저자인 Llion Jones가 2023년에 세운 회사다. 과거 Stability AI에서 연구 리드를 맡았던 David Ha가 공동 창업자로 합류했다. 이 랩은 진화적 모델 병합과 자동화 연구 라인인 AI Scientist로 이름을 알렸으며, 오래전부터 조율된 모델 풀 구조가 가장 어렵고 장기적인 작업에서는 단일 시스템을 능가할 수 있다고 주장해 왔다.

다음 읽기: Mane City Mobile Lands On iOS And Android In 100+ Countries