Framework BitNet da Tether roda modelos de IA de 13B em um iPhone 16

Tether (USDT) lançou na terça-feira um framework de ajuste fino LoRA multiplataforma para os modelos de linguagem de grande porte BitNet da Microsoft, permitindo treinamento de IA em smartphones, GPUs de consumo e laptops sem hardware especializado da Nvidia.

O framework, parte da plataforma QVAC Fabric da empresa, é o primeiro a oferecer suporte a ajuste fino de BitNet em chips que não sejam Nvidia – incluindo AMD, Intel, Apple Silicon e GPUs móveis – de acordo com o announcement da Tether.

O lançamento estende um framework que a Tether introduziu inicialmente em dezembro de 2025.

O novo componente adiciona especificamente ajuste fino LoRA nativo para BitNet e aceleração de inferência em hardware de consumo heterogêneo, expandindo capacidades que antes exigiam sistemas corporativos Nvidia ou infraestrutura em nuvem.

O que mostram os benchmarks

Os engenheiros da Tether ajustaram um modelo BitNet de 125 milhões de parâmetros em aproximadamente 10 minutos em um Samsung Galaxy S25 usando um conjunto de dados biomédicos de cerca de 18.000 tokens.

Um modelo de 1 bilhão de parâmetros concluiu a mesma tarefa em 1 hora e 18 minutos no S25 e 1 hora e 45 minutos em um iPhone 16.

A empresa também demonstrated ajuste fino de modelos de até 3,8 bilhões de parâmetros em smartphones topo de linha e de até 13 bilhões de parâmetros no iPhone 16.

Em GPUs móveis, a inferência BitNet rodou de duas a onze vezes mais rápido do que em CPU. O consumo de memória para o modelo BitNet de 1 bilhão de parâmetros (TQ1_0) foi 77,8% menor do que o de um modelo Gemma-3-1B 16-bit comparável, tanto em cargas de trabalho de inferência quanto de ajuste fino LoRA, segundo os benchmarks publicados pela Tether.

Leia também: Arizona Hits Kalshi With Criminal Charges

Por que isso é importante para o desenvolvimento de IA

O BitNet usa um sistema de pesos ternário – valores de -1, 0 ou 1 – que comprime o tamanho do modelo e reduz drasticamente as exigências de VRAM em comparação com modelos padrão de 16 bits. LoRA (Low-Rank Adaptation) reduz ainda mais os custos de ajuste fino ao atualizar pequenas camadas adaptadoras em vez de retreinar todo o modelo.

A combinação dos dois permite treinamento em dispositivos de borda que antes estavam fora de alcance.

O CEO da Tether, Paolo Ardoino, disse que o framework oferece suporte a fluxos de trabalho de aprendizado federado, nos quais os modelos são atualizados em dispositivos distribuídos sem enviar dados para servidores centralizados. O código é disponibilizado como open source sob a licença Apache 2.0.

O lançamento ocorre enquanto a fronteira entre infraestrutura de criptomoedas e computação de IA continua a se estreitar. Mineradoras de Bitcoin como Core Scientific e HIVE Digital Technologies têm redirecionado capacidade significativa para IA e computação de alto desempenho, enquanto um número crescente de plataformas cripto começou a integrar agentes de IA para transações on-chain.

Leia em seguida: BlackRock's ETHB Staked ETF Turns Ethereum Into A Dividend Play