테더의 비트넷 프레임워크, 아이폰 16에서 130억 매개변수 AI 모델 실행

Tether (USDT)는 화요일 Microsoft's BitNet 대형 언어 모델용 크로스 플랫폼 LoRA 파인튜닝 프레임워크를 공개해, 특수 Nvidia 하드웨어 없이도 스마트폰, 소비자용 GPU, 노트북에서 AI 학습을 수행할 수 있도록 했다.

이 프레임워크는 회사의 QVAC Fabric 플랫폼의 일부로, 테더의 announcement에 따르면 AMD, Intel, Apple Silicon 및 모바일 GPU를 포함한 비(非) Nvidia 칩 전반에서 비트넷 파인튜닝을 지원하는 첫 번째 솔루션이다.

이번 릴리스는 테더가 2025년 12월에 처음 선보인 프레임워크를 확장한 것이다.

새 컴포넌트는 특히 이기종 소비자 하드웨어 전반에서 비트넷 네이티브 LoRA 파인튜닝과 추론 가속을 추가해, 그동안 엔터프라이즈급 Nvidia 시스템이나 클라우드 인프라가 필요했던 작업 범위를 넓혔다.

벤치마크 결과

테더의 엔지니어들은 약 1,8000 토큰 규모의 바이오메디컬 데이터셋을 사용해 Samsung 갤럭시 S25에서 1억 2,500만 매개변수 비트넷 모델을 약 10분 만에 파인튜닝했다.

10억 매개변수 모델은 동일 작업을 S25에서 1시간 18분, 아이폰 16에서 1시간 45분에 완료했다.

회사는 또 플래그십 스마트폰에서 최대 38억 매개변수, 아이폰 16에서는 최대 130억 매개변수의 모델 파인튜닝을 demonstrated했다.

모바일 GPU에서 비트넷 추론은 CPU 대비 두 배에서 열한 배까지 빠르게 실행됐다. 테더가 공개한 벤치마크에 따르면 10억 매개변수 비트넷 모델(TQ1_0)의 메모리 사용량은 추론과 LoRA 파인튜닝 작업 모두에서 동급 Gemma-3-1B 16비트 모델보다 77.8% 낮았다.

AI 개발에서의 의미

비트넷은 -1, 0, 1의 값을 사용하는 3진 가중치 시스템을 채택해, 일반적인 16비트 모델과 비교해 모델 크기를 줄이고 VRAM 요구량을 크게 절감한다. LoRA(Low-Rank Adaptation)는 전체 모델을 재학습하는 대신 작은 어댑터 계층만 업데이트해 파인튜닝 비용을 한층 더 낮춘다.

두 기술을 결합하면 그동안 불가능했던 엣지 디바이스 수준의 학습이 가능해진다.

테더 CEO Paolo Ardoino는 이 프레임워크가 데이터를 중앙 서버로 보내지 않고 분산된 디바이스 전반에서 모델을 업데이트하는 연합학습(federated learning) 워크플로를 지원한다고 밝혔다. 코드는 Apache 2.0 라이선스의 오픈소스로 공개된다.

이번 릴리스는 암호화폐 인프라와 AI 컴퓨팅 간 경계가 점점 좁아지는 가운데 나왔다. Core Scientific와 HIVE Digital Technologies를 포함한 비트코인 채굴업체들은 역량의 상당 부분을 AI와 고성능 컴퓨팅으로 전환했으며, 점점 더 많은 암호화폐 플랫폼이 온체인 트랜잭션을 위한 AI 에이전트 기능을 통합하기 시작했다.