Framework BitNet da Tether roda modelos de IA de 13B em um iPhone 16

Tether (USDT) lançou na terça-feira um framework de fine-tuning LoRA multiplataforma para os modelos de linguagem de grande porte BitNet da Microsoft, permitindo o treinamento de IA em smartphones, GPUs de consumo e laptops sem hardware especializado da Nvidia.

O framework, parte da plataforma QVAC Fabric da empresa, é o primeiro a oferecer suporte a fine-tuning BitNet em chips que não são da Nvidia — incluindo AMD, Intel, Apple Silicon e GPUs móveis — de acordo com o anúncio da Tether.

O lançamento estende um framework que a Tether introduziu inicialmente em dezembro de 2025.

O novo componente adiciona especificamente fine-tuning LoRA nativo para BitNet e aceleração de inferência em hardware de consumo heterogêneo, expandindo algo que antes exigia sistemas corporativos Nvidia ou infraestrutura em nuvem.

O que mostram os benchmarks

Os engenheiros da Tether fizeram o fine-tuning de um modelo BitNet com 125 milhões de parâmetros em aproximadamente 10 minutos em um Samsung Galaxy S25, usando um conjunto de dados biomédicos de cerca de 18.000 tokens.

Um modelo com 1 bilhão de parâmetros concluiu a mesma tarefa em 1 hora e 18 minutos no S25 e em 1 hora e 45 minutos em um iPhone 16.

A empresa também demonstrou o fine-tuning de modelos com até 3,8 bilhões de parâmetros em smartphones topo de linha e até 13 bilhões de parâmetros no iPhone 16.

Em GPUs móveis, a inferência BitNet rodou de duas a onze vezes mais rápido do que em CPU. O consumo de memória para o modelo BitNet de 1 bilhão de parâmetros (TQ1_0) foi 77,8% menor do que o de um modelo Gemma-3-1B de 16 bits comparável, tanto em cargas de trabalho de inferência quanto de fine-tuning com LoRA, segundo os benchmarks publicados pela Tether.

Leia também: Arizona Hits Kalshi With Criminal Charges

Por que isso importa para o desenvolvimento de IA

O BitNet usa um sistema ternário de pesos — valores de -1, 0 ou 1 — que comprime o tamanho do modelo e reduz drasticamente os requisitos de VRAM em comparação com modelos padrão de 16 bits. LoRA (Low-Rank Adaptation) reduz ainda mais os custos de fine-tuning ao atualizar pequenas camadas adaptadoras em vez de retreinar todo o modelo.

A combinação de ambos permite treinamento em dispositivos de borda que antes estava fora de alcance.

O CEO da Tether, Paolo Ardoino, disse que o framework oferece suporte a fluxos de trabalho de aprendizado federado, nos quais os modelos são atualizados em dispositivos distribuídos sem enviar dados para servidores centralizados. O código foi lançado como open source sob a licença Apache 2.0.

O lançamento ocorre enquanto a fronteira entre infraestrutura de criptomoedas e computação de IA continua a se estreitar. Mineradores de Bitcoin, incluindo a Core Scientific e a HIVE Digital Technologies, redirecionaram uma capacidade significativa para IA e computação de alto desempenho, enquanto um número crescente de plataformas cripto começou a integrar agentes de IA para transações on-chain.

Leia em seguida: BlackRock's ETHB Staked ETF Turns Ethereum Into A Dividend Play