你每次搜尋、瀏覽,或使用 App 互動,都在產生數據。
這些數據對 AI 公司而言價值以十億美元計,但收集數據的平台幾乎攬走所有價值。
新一代去中心化 AI 數據市場想顛覆這種結構——用加密貨幣,在你的數據用來訓練機器學習模型時,直接向你支付報酬。
其運作機制遠不只是句「擁有你的數據」的口號那麼簡單。
當中有多層驗證機制、質押系統、隱私約束,以及代幣經濟設計——這些環節加起來,決定了一位貢獻者能否獲得合理報酬,甚至有沒有報酬。
本文會由底層開始,說清楚這些系統是怎樣運作。
重點整理
- 去中心化 AI 數據市場把握有原始數據的人,與需要標註、驗證訓練集的 AI 開發者連接起來,並以加密代幣在無須信任的情況下處理付款。
- 貢獻者提交數據後,會在鏈上或透過去中心化預言機網路驗證通過後才發放款項,將傳統平台從收益分成中移除。
- 聯邦學習、零知識證明等保護隱私技術,讓數據在不離開貢獻者裝置、且不暴露原始內容的情況下實現變現。
- 質押、懲罰機制與聲譽評分等代幣經濟設計,使貢獻者傾向提交準確數據,而非垃圾數據。
- 建構在 Solana 的 Kled AI 等專案代表了現時的前沿,但這種模式其實已橫跨多條鏈與多種競爭架構。
為何 AI 公司需要那麼多數據,而現在是誰在付錢
大型語言模型和影像辨識系統對數據的渴求,很難被誇大。
一次前沿模型的訓練,就可能消耗數千億個文字 token、數百萬張標註圖片,或以年計的人類行為訊號紀錄。
這些數據總得有個來源。
今天,大部分數據是由幾條主要路徑產生的。
網頁爬蟲會大規模收集可公開存取的文字內容。平台授權協議則讓 AI 實驗室取得專有數據集——例如 Reddit、新聞出版商、與庫存圖片機構都簽過這類合約。
而群眾外包標註平台會付小額酬勞給人工標註員,讓他們替圖片加標籤、轉寫音訊,或評分 AI 回覆的準確度。
標註市場規模龐大,但極具剝削性。集中式平台上的工人常常每小時只賺 1 至 5 美元,而他們產出的標註數據集,賣給 AI 開發者時,每筆資料的價格往往高出數十倍。
問題是結構性的。夾在數據擁有人與 AI 買家之間的集中式平台,攫取了大部分利潤。它決定價格、訂定自己的品質標準,並可隨時把貢獻者踢出平台且不需交代。去中心化市場則以智慧合約、開放協議,以及以代幣計價的支付軌道,取代這個平台層。
延伸閱讀: USDT Briefly Dethrones Ethereum As Crypto’s No. 2 Asset
什麼才算是真正的去中心化 AI 數據市場
從本質上說,去中心化 AI 數據市場是一套協議,讓數據供給與需求在沒有中央控制中介的情況下直接對接。
買方通常是 AI 開發者或研究團隊,他們會發布「數據需求」——列明所需數據類型、品質標準、格式要求,以及每筆通過驗證的數據願意支付的價格。
賣方則是個人貢獻者或數據聚合者,負責滿足這些需求。
智慧合約則扮演資金託管層(escrow)的角色。
當買方發布需求時,會先把資金鎖進合約。當貢獻者提交的數據通過驗證步驟後,合約便自動釋放款項。
雙方互不相識,也不必互相信任,他們只需要信任合約程式碼會照規則執行。
數據本身通常不會存放在鏈上。
把數 GB 的標註圖片直接存在 Ethereum (ETH) 或 Solana (SOL) 上,成本高得難以想像。
取而代之的是,數據會存放在 IPFS 或 Arweave 等去中心化儲存網路上,而鏈上只存一個 content-addressed hash——也就是檔案的唯一指紋。
智慧合約會檢查貢獻者提交的那個 hash,是否對應一個經驗證、未被竄改的檔案,確認無誤後才會釋放付款。
內容雜湊(content hash)是一串由檔案內容計算得來的短字串。就算只改動檔案中的一個 byte,雜湊值也會完全不同。這使得事後想替換或回收舊數據來騙取款項幾乎不可能。
延伸閱讀: Techdollar Raises $3M To Let Startup Workers Cash In Without Selling
沒有中央審核員,驗證數據品質怎麼做
在這種設計裡,驗證是最困難的部分。集中式平台可以僱用專職的品質審核員。
但智慧合約既看不到圖片,也無法判斷一段文字的標註是否正確,它只能執行邏輯。去中心化市場通常透過三種主要方法——經常是混合使用——來解決這問題。
密碼學證明 適用於可用數學方式檢查正確性的結構化數據。若貢獻者提供的是 GPS 軌跡、感測器讀數或財務紀錄,零知識證明可以確認這些數據符合特定條件、是在某個時間記錄、落在合理範圍內、來自某一特定裝置,同時無須透露原始數值。
群眾驗證 則適合主觀標註任務。多位互不相干的貢獻者會審視同一個數據項目並提交評估。合約會比較結果,向與多數意見一致的人支付報酬,同時懲罰經常脫離群體答案的異常者。這是集中式平台「重複標註」手法的去中心化版本,用以抓出偷懶或惡意標註者。
質押與懲罰(slashing) 在上面再疊加一層經濟激勵。貢獻者要先鎖定一定數量平台原生代幣,才能有資格提交數據。如果他們的提交,經群眾驗證層反覆判定為不合格,甚至是詐騙,其質押代幣就會被「削減」,部分或全部沒收。這讓提交低品質數據在經濟上變得代價高昂,使貢獻者的行為與買方的品質要求保持一致。
延伸閱讀: XRP Tests $1 Support As $0.60 Crash Risk Deepens
保護貢獻者的隱私技術是怎麼運作的
這個模式中有一個明顯的張力:如果用戶把自己的瀏覽紀錄或健康數據賣給 AI 開發者,價值是真實的,但暴露風險也一樣真實。去中心化市場主要透過兩種日漸成熟的技術來處理這點。
聯邦學習(Federated learning) 讓原始數據完全留在貢獻者的裝置上。不是把數據送往中央伺服器,而是把 AI 模型送到貢獻者的機器上。在本地用原始數據進行訓練,然後只把更新後的模型權重——也就是不會直接洩露底層數據的抽象數學參數——回傳給開發者。多個貢獻者的權重更新會被匯總,用來產生更好的模型,而訓練數據從頭到尾都沒有離開貢獻者端。
差分隱私(Differential privacy) 則是在分享前,向數據集加入經過精心設計的統計噪音,使外界無法從整體推回任何個體的具體紀錄,同時保留對訓練仍有用的統計結構。噪音量可以調整:噪音越大,隱私保障越強,但數據效用會略微降低。
這些技術在監管層面同樣關鍵。歐洲的 GDPR,以及美國加州《消費者隱私法》(CCPA)等法規,對個人數據的傳輸與使用有嚴格規範。一個能有說服力地證明,其數據處理流程從未傳輸原始個資的市場,在監管上會比單純販售原始數據匯出的模式乾淨得多。
延伸閱讀: HIVE Just Borrowed $115M At Zero Percent To Bet Against Bitcoin Mining
代幣經濟、質押,以及貢獻者實際如何收款
各平台的付款機制略有不同,但多數會使用原生功能型代幣,而不是直接用 Bitcoin (BTC) 這類主流資產支付。這種代幣同時承擔多重角色。
首先,它是數據需求的記價單位。買方用代幣標價自己的需求,意味著代幣會承載需求方的價值:需求越旺盛,發布數據任務所需的代幣就越多。
第二,質押會在供給端形成鎖倉。貢獻者必須持有並質押代幣才能參與市場,這會減少流通供應,並讓貢獻者的利益與整個網路健康狀態綁在一起。
第三,聲譽往往與代幣歷史掛鉤。長期有質押、提交紀錄經常被接受、從未被削減質押的貢獻者,會累積一筆可在鏈上驗證的履歷。這種聲譽分數,能讓他們的數據賣出溢價,因為買方更信任這些有紀錄的人,而不是完全沒有歷史的新帳戶。
實際上的付款流程大致如下:某位買方發布需求,並存入例如 500 枚代幣到合約託管中。一位貢獻者提交了 50 筆已標註紀錄。驗證層檢查並通過後,合約會釋放 50 枚代幣給貢獻者、2 枚代幣給參與審核並批准該提交的驗證者,剩餘的 448 枚代幣則保留給後續貢獻者。付款確認後,買方即可取得這批經驗證的數據紀錄。
代幣經濟只有在數據本身有真實需求時才會運作良好。那些一開始就以高價發行代幣、卻沒有穩健數據買家需求支撐的專案,往往難以為繼,代幣價格也可能在熱度散去後急速下跌。 貢獻者獎勵但市場另一端沒有付費的 AI 開發者買家,會造成通脹式的代幣拋售壓力,這種情況難以為繼。
延伸閱讀: OpenAI 延後 1 兆美元 IPO,市場波動考驗 Altman 野心
Kled AI 及類似項目如何在 Solana 上實作這個模式
Kled AI 代表了目前在 Solana 上的前沿做法。這個協議把自己定位為一個去中心化市場,讓個人可以將自己的個人數據貨幣化,專門用於 AI 模型訓練。Solana 的低交易成本和高吞吐量,使資料市場經濟所需的高頻、小額微支付變得切實可行——在 Solana 上,為一張經標註的圖片支付一小部分代幣在經濟上是可行的,而在以太坊主網上則較難做到。
Solana 的架構在速度上也很關鍵。觸發付款釋放的數據驗證需要快速結算。貢獻者不會接受一個要等上好幾小時才能確認收款的市場。Solana 亞秒級的最終性,讓付款體驗接近傳統平台,同時仍保留智能合約的無需信任特性。
與 Kled AI 一同走紅的 Velvet 則採取不同角度,它是一個由 AI 驅動的鏈上投資組合終端,整合了現貨交易、永續合約及收益策略。它與這個領域的關聯在於,同樣展現了一個基本主題:使用鏈上數據運作並以加密代幣結算的 AI 系統。Kled AI 為原始訓練數據創造市場,而 Velvet 則是消費這類經處理市場數據的 AI 應用範例。它們代表同一個數據經濟管線的兩端。
其他在這個領域建構的項目包括 Ocean Protocol,它率先在以太坊上提出代幣化數據資產的概念,以及 Grass,專門獎勵用戶把閒置頻寬和瀏覽數據貢獻給 AI 訓練管線。各個項目在架構上略有不同,但都共享同一核心模式:對經驗證的數據貢獻,以密碼學強制執行付款。
延伸閱讀: Anthropic 的 Mythos 凍結為亞洲挑戰者 Sakana AI 和 360 打開大門
誰真正受惠,以及風險在哪裡
對個別數據貢獻者來說,吸引力很直接:以往被免費攫取的價值,現在可以直接收回。擁有龐大社交媒體影響力、特定領域專業知識,或能接觸到稀有數據類型的人——例如醫療紀錄、專業法律文件、非英語內容——在一個有真實 AI 開發者需求的市場中,都能取得有意義的溢價。
對 AI 開發者而言,去中心化市場提供了透過爬蟲或傳統授權難以取得的數據類型。人類生成的偏好數據、利基領域標註,以及來自弱勢地區的多語內容都是真正稀缺的。能夠在規模上蒐集並驗證這些數據的協議,具有實質價值。
風險也同樣真實,存在於雙方。代幣價格波動意味著,今天以原生代幣收款的貢獻者,在打算花掉時,可能發現其美元價值已大幅縮水。買方則面臨相反風險:在規劃數據採購與實際執行之間,代幣價格可能暴漲,導致數據取得成本遠高於預算。
在大規模下,數據品質仍是尚未解決的難題。群眾驗證和基於質押的機制能降低詐欺,但無法徹底消除。
精密的惡意行為者可以在時間中操弄聲譽系統,而從全新、尚未驗證的市場購買數據的 AI 開發者,必須承擔品質風險——這在向具有長期紀錄的老牌標註供應商購買時,往往不存在。
監管風險則是最大的未知數。個人數據貨幣化處在數據私隱法、涉入代幣的證券監管,以及仍在制定中的 AI 管治框架的交會點。一個在某司法管轄區合法合規運作的市場,在另一地區可能處於法律灰色地帶。
延伸閱讀: 以太坊失守關鍵支撐後,是否將跌向 1,000 美元?
結語
去中心化 AI 數據市場,為一個真實的經濟問題提供了具體且技術上可行的解答:歷來產生訓練數據的人,幾乎沒有從中獲得任何價值。
智能合約、內容定址儲存、聯邦式學習與代幣質押,共同構建出一個系統,讓這些價值能直接流向貢獻者——而不再由平台中介攫取利潤。
這個模式仍處於早期階段。
代幣經濟學正在成熟中,驗證系統必須證明自己能在不被玩弄的情況下擴展到數百萬名貢獻者,而圍繞個人數據貨幣化的監管環境仍未明朗。
但需求端並不會消失。
AI 開發者需要更多種類、更大規模的數據,而集中化來源無法穩定滿足這種需求。
正是這種結構性需求,支撐了去中心化數據市場的長期論述。





