Tethers BitNet-Framework lässt 13B-KI-Modelle auf einem iPhone 16 laufen

Tether (USDT) hat am Dienstag ein plattformübergreifendes LoRA-Feintuning-Framework für Microsofts BitNet-Large-Language-Modelle veröffentlicht, das KI-Training auf Smartphones, Consumer-GPUs und Laptops ohne spezialisierte Nvidia-Hardware ermöglicht.

Das Framework, Teil der QVAC-Fabric-Plattform des Unternehmens, ist laut Tethers announcement das erste, das BitNet-Feintuning über Nicht-Nvidia-Chips – darunter AMD, Intel, Apple Silicon und mobile GPUs – unterstützt.

Die Veröffentlichung erweitert ein Framework, das Tether erstmals im Dezember 2025 eingeführt hat.

Die neue Komponente fügt speziell BitNet-natives LoRA-Feintuning und Inferenzbeschleunigung über heterogene Consumer-Hardware hinweg hinzu und ersetzt damit Setups, die zuvor Enterprise-Nvidia-Systeme oder Cloud-Infrastruktur erforderten.

Was die Benchmarks zeigen

Tethers Ingenieure haben ein BitNet-Modell mit 125 Millionen Parametern in etwa 10 Minuten auf einem Samsung Galaxy S25 mit einem biomedizinischen Datensatz von rund 18.000 Tokens feinabgestimmt.

Ein Modell mit 1 Milliarde Parametern absolvierte dieselbe Aufgabe in 1 Stunde und 18 Minuten auf dem S25 und in 1 Stunde und 45 Minuten auf einem iPhone 16.

Das Unternehmen hat außerdem das Feintuning von Modellen mit bis zu 3,8 Milliarden Parametern auf Flaggschiff-Smartphones und bis zu 13 Milliarden Parametern auf dem iPhone 16 demonstrated.

Auf mobilen GPUs lief die BitNet-Inferenz zwei- bis elfmal schneller als auf der CPU. Der Speicherverbrauch des BitNet-Modells mit 1 Milliarde Parametern (TQ1_0) lag bei den von Tether veröffentlichten Benchmarks 77,8 % unter dem eines vergleichbaren Gemma-3-1B-16-Bit-Modells – sowohl bei Inferenz- als auch bei LoRA-Feintuning-Workloads.

Lesen Sie auch: Arizona Hits Kalshi With Criminal Charges

Warum das für die KI-Entwicklung wichtig ist

BitNet verwendet ein ternäres Gewichtungssystem – Werte von -1, 0 oder 1 –, das die Modellgröße komprimiert und den VRAM-Bedarf im Vergleich zu Standard-16-Bit-Modellen deutlich senkt. LoRA (Low-Rank Adaptation) reduziert die Feintuning-Kosten zusätzlich, indem kleine Adapter-Schichten aktualisiert werden, anstatt das gesamte Modell neu zu trainieren.

Die Kombination beider Ansätze ermöglicht Trainingsläufe auf Edge-Geräten, die zuvor außer Reichweite waren.

Tether-CEO Paolo Ardoino sagte, das Framework unterstütze föderierte Lern-Workflows, bei denen Modelle über verteilte Geräte hinweg aktualisiert werden, ohne dass Daten an zentrale Server gesendet werden müssen. Der Code wird als Open Source unter der Apache-2.0-Lizenz veröffentlicht.

Die Veröffentlichung erfolgt vor dem Hintergrund, dass die Grenze zwischen Krypto-Infrastruktur und KI-Compute zunehmend verschwimmt. Bitcoin-Miner wie Core Scientific und HIVE Digital Technologies haben erhebliche Kapazitäten in Richtung KI und High-Performance-Computing umgeschichtet, während eine wachsende Zahl von Krypto-Plattformen beginnt, KI-Agentenfunktionen für On-Chain-Transaktionen zu integrieren.

Als Nächstes lesen: BlackRock's ETHB Staked ETF Turns Ethereum Into A Dividend Play