Perché l’IA cinese ora costa 30 volte meno dei modelli americani

Due dei laboratori di IA più avanzati della Cina hanno ridotto questa settimana i prezzi dei loro modelli a una frazione di quelli dei rivali occidentali, mentre OpenAI and Anthropic si sono mossi nella direzione opposta.

Punti chiave:

DeepSeek ha reso permanente il 22 maggio lo sconto del 75% su V4‑Pro, fissando l’output a 0,87 $ per milione di token.

Xiaomi ha tagliato il 26 maggio i prezzi di MiMo‑V2.5 fino al 99%, con input Pro in cache fino a 0,0036 $ per milione di token.

OpenAI ha alzato l’output di GPT‑5.5 a 30 $ per milione di token, ampliando il divario con i modelli di frontiera cinesi.

DeepSeek e Xiaomi tagliano le tariffe

DeepSeek ha confermato il 22 maggio che uno sconto temporaneo del 75% sul suo modello V4‑Pro sarebbe diventato permanente, fissando l’output a 0,87 $ per milione di token e l’input a 0,435 $.

La promozione sarebbe dovuta scadere il 31 maggio.

Pochi giorni dopo, il laboratorio cinese Xiaomi ha ridotto drasticamente le tariffe di MiMo‑V2.5 fino al 99% per gli input in cache, a partire dal 27 maggio, con gli hit di cache del livello Pro a soli 0,0036 $ per milione di token.

Al contrario, GPT‑5.5 di OpenAI ha raddoppiato il tasso di output del suo predecessore a 30 $ per milione di token. Claude Opus 4.7 di Anthropic elenca 5 $ per l’input e 25 $ per l’output.

Vedi anche: Anthropic Moves Restricted Claude Mythos Model Closer To Public Release

Gli ingegneri difendono i conti

Xiaomi ha anche ricostruito i suoi piani di token. Il piano Max da 100 $ ora concede 82 miliardi di token, rispetto a 1,6 miliardi, con la stessa spesa che acquista da cinque a otto volte più utilizzo di prima.

Fuli Luo, che guida il team MiMo di Xiaomi e in passato ha co‑sviluppato DeepSeek‑V2, ha collegato i tagli a un modo più intelligente di archiviare e riutilizzare i dati che il modello ha già elaborato.

Questo approccio riduce drasticamente la domanda di calcolo.

Luo ha sostenuto che il laboratorio può lavorare quasi a piena capacità alle nuove tariffe e coprire comunque i costi, il che suggerisce che i prezzi riflettano veri guadagni di efficienza e non una promozione in perdita.

I risparmi contano soprattutto per le attività in produzione che riutilizzano lo stesso contesto. Pipeline di agenti con prompt stabili, processori di documenti e strumenti di retrieval colpiscono continuamente la cache, quindi input in cache più economici riducono direttamente il conto operativo.

I laboratori occidentali affrontano un vincolo diverso. Il cambio di rotta di OpenAI verso funzionalità per consumatori e pubblicità lascia intendere che il solo ricavato dai token possa non essere sufficiente a sostenere la sua valutazione.

Perché il divario continua ad allargarsi

DeepSeek e Xiaomi non hanno aperto questa gara. I modelli cinesi già sottoprezzavano i rivali americani prima di questi annunci.

MiniMax M2.7 funziona a 0,30 $ per l’input e 1,20 $ per l’output per milione di token. Kimi K2.5 di Moonshot AI si colloca a 0,60 $ e 2,50 $.

Gli analisti che confrontano i costi con le prestazioni ai benchmark stimano il divario nel secondo trimestre 2026 tra modelli di frontiera cinesi e americani in circa 15‑30 volte, prima di qualsiasi sconto sulla cache. I tagli di questa settimana restringono ulteriormente il divario per i carichi di lavoro ripetitivi che dominano le implementazioni reali.

Lo schema riecheggia l’inizio del 2025, quando i rilasci a basso costo di DeepSeek hanno scosso i mercati e costretto i provider occidentali a difendere i loro prezzi. Un anno dopo, la pressione si è solo intensificata, e la risposta dei laboratori americani è stata mantenere o aumentare le tariffe invece di inseguire il minimo.