Il framework BitNet di Tether esegue modelli AI da 13 miliardi di parametri su iPhone 16

Tether (USDT) ha rilasciato martedì un framework di fine-tuning LoRA multipiattaforma per i modelli linguistici di grandi dimensioni BitNet di Microsoft, consentendo l’addestramento di IA su smartphone, GPU consumer e laptop senza hardware Nvidia specializzato.

Il framework, parte della piattaforma QVAC Fabric dell’azienda, è il primo a supportare il fine-tuning di BitNet su chip non Nvidia – inclusi AMD, Intel, Apple Silicon e GPU mobile – secondo l’annuncio di Tether.

Il rilascio estende un framework che Tether aveva lanciato per la prima volta nel dicembre 2025.

Il nuovo componente aggiunge in particolare il fine-tuning LoRA nativo per BitNet e l’accelerazione dell’inferenza su hardware consumer eterogeneo, ampliando ciò che prima richiedeva sistemi Nvidia enterprise o infrastrutture cloud.

Cosa mostrano i benchmark

Gli ingegneri di Tether hanno effettuato il fine-tuning di un modello BitNet da 125 milioni di parametri in circa 10 minuti su un Samsung Galaxy S25 utilizzando un dataset biomedico di circa 18.000 token.

Un modello da 1 miliardo di parametri ha completato lo stesso compito in 1 ora e 18 minuti sull’S25 e in 1 ora e 45 minuti su un iPhone 16.

L’azienda ha anche dimostrato il fine-tuning di modelli fino a 3,8 miliardi di parametri su telefoni di fascia alta e fino a 13 miliardi di parametri su iPhone 16.

Su GPU mobile, l’inferenza BitNet è risultata da due a undici volte più veloce rispetto alla CPU. Il consumo di memoria per il modello BitNet da 1 miliardo di parametri (TQ1_0) è stato inferiore del 77,8% rispetto a un modello Gemma-3-1B a 16 bit comparabile, sia per i carichi di lavoro di inferenza sia per quelli di fine-tuning LoRA, secondo i benchmark pubblicati da Tether.

Perché è importante per lo sviluppo dell’IA

BitNet utilizza un sistema di pesi ternario – valori di -1, 0 o 1 – che comprime le dimensioni del modello e riduce drasticamente i requisiti di VRAM rispetto ai modelli standard a 16 bit. LoRA (Low-Rank Adaptation) riduce ulteriormente i costi di fine-tuning aggiornando piccoli livelli adattatori invece di riaddestrare l’intero modello.

La combinazione di entrambi consente l’addestramento su dispositivi edge che in precedenza era fuori portata.

L’amministratore delegato di Tether, Paolo Ardoino, ha dichiarato che il framework supporta flussi di lavoro di federated learning, in cui i modelli vengono aggiornati su dispositivi distribuiti senza inviare i dati a server centralizzati. Il codice è rilasciato come open source sotto licenza Apache 2.0.

Il rilascio arriva mentre il confine tra infrastrutture di criptovalute e calcolo per l’IA continua ad assottigliarsi. I miner di Bitcoin, tra cui Core Scientific e HIVE Digital Technologies, hanno riconvertito una parte significativa della capacità verso l’IA e l’high-performance computing, mentre un numero crescente di piattaforme crypto ha iniziato a integrare funzionalità di agenti AI per transazioni on-chain.

Da leggere dopo: BlackRock's ETHB Staked ETF Turns Ethereum Into A Dividend Play