Le framework BitNet de Tether exécute des modèles d’IA 13B sur un iPhone 16

Tether (USDT) a publié mardi un framework de réglage fin LoRA multiplateforme pour les grands modèles de langage BitNet de Microsoft, permettant l’entraînement d’IA sur smartphones, GPU grand public et ordinateurs portables sans matériel Nvidia spécialisé.

Le framework, qui fait partie de la plateforme QVAC Fabric de l’entreprise, est le premier à prendre en charge le réglage fin de BitNet sur des puces non Nvidia – y compris AMD, Intel, Apple Silicon et les GPU mobiles – selon l’announcement de Tether.

Cette publication étend un framework que Tether avait lancé pour la première fois en décembre 2025.

Le nouveau composant ajoute spécifiquement le réglage fin LoRA natif BitNet et l’accélération de l’inférence sur un matériel grand public hétérogène, élargissant des capacités qui nécessitaient auparavant des systèmes Nvidia d’entreprise ou une infrastructure cloud.

Ce que montrent les benchmarks

Les ingénieurs de Tether ont réglé finement un modèle BitNet de 125 millions de paramètres en environ 10 minutes sur un Samsung Galaxy S25 en utilisant un jeu de données biomédical d’environ 18 000 tokens.

Un modèle de 1 milliard de paramètres a accompli la même tâche en 1 heure 18 minutes sur le S25 et 1 heure 45 minutes sur un iPhone 16.

L’entreprise a également demonstrated le réglage fin de modèles jusqu’à 3,8 milliards de paramètres sur des téléphones haut de gamme et jusqu’à 13 milliards de paramètres sur l’iPhone 16.

Sur les GPU mobiles, l’inférence BitNet s’est exécutée de deux à onze fois plus vite que sur CPU. La consommation mémoire pour le modèle BitNet de 1 milliard de paramètres (TQ1_0) était 77,8 % plus faible qu’un modèle Gemma-3-1B 16 bits comparable, à la fois pour les charges d’inférence et de réglage fin LoRA, d’après les benchmarks publiés par Tether.

À lire aussi : Arizona Hits Kalshi With Criminal Charges

Pourquoi c’est important pour le développement de l’IA

BitNet utilise un système de poids ternaires – valeurs de -1, 0 ou 1 – qui compresse la taille du modèle et réduit fortement les besoins en VRAM par rapport aux modèles 16 bits standard. LoRA (Low-Rank Adaptation) réduit encore les coûts de réglage fin en mettant à jour de petites couches adaptatrices plutôt qu’en réentraînant l’intégralité du modèle.

La combinaison des deux permet un entraînement sur appareils en périphérie qui n’était auparavant pas envisageable.

Le PDG de Tether, Paolo Ardoino, a indiqué que le framework prend en charge des flux de travail d’apprentissage fédéré, où les modèles se mettent à jour sur des appareils distribués sans envoyer les données vers des serveurs centralisés. Le code est publié en open source sous licence Apache 2.0.

Cette sortie intervient alors que la frontière entre l’infrastructure des cryptomonnaies et la puissance de calcul pour l’IA continue de s’estomper. Des mineurs de Bitcoin comme Core Scientific et HIVE Digital Technologies ont réorienté une partie importante de leurs capacités vers l’IA et le calcul haute performance, tandis qu’un nombre croissant de plateformes crypto commencent à intégrer des agents d’IA pour les transactions on-chain.