數據是數字時代的生產要素,也是AI的核心生產力。OpenAI發布ChatGPT之后,
百度迅速發布“文心一言”,但對比之下效果卻不甚理想。很多人說原因是GPT的語料庫是全球互聯網,而“文心一言”的是百度知道和百度貼吧。這當然是言過其實的調侃,但深思其背后的邏輯卻是成立的,即大模型的成功依賴于數據來源的廣度和開放度。僅從一兩個平臺獲取數據進行訓練,必然只會做出有“偏見”的模型。
ChatGPT在這一點上做得很好,依靠互聯網的開放度盡可能多地收集了數據,但其主要來源仍然是中心化的數據平臺,這也是Web2互聯網范式下的數據困境,它會在數據應用層面帶來兩大問題:
1.數據源枯竭
依賴中心化平臺所產生的數據無法保證有穩定持續的數據源來訓練升級模型。Altman提到的互聯網語料已被GPT窮盡只是問題的冰山一角。更嚴重的問題是,缺少數據激勵會導致新的優質數據越來越少,甚至出現AI無數據可用的問題。
讓我們想象這樣一個場景。如果說ChatGPT逐漸完善成為唯一的知識平臺,Quora、Stackoverflow、知乎等一眾知識平臺必將失去生存空間,而它們卻又是ChatGPT訓練的主要數據來源,那未來的ChatGPT又要用什么數據來訓練呢?
2.數據質量低下
對于AI來說,平臺有自己的應用場景,不會考慮AI訓練的需求。平臺不會對所謂的“數據質量”做審核,例如知乎上分享的不一定是知識,也可能是剛編的故事。同時根據不同平臺的使用人群不同還會產生內容偏見。這也是為什么ChatGPT經常會給出一些明顯錯誤甚至荒謬的回答。
以上問題的核心是平臺數據并沒有完成數據要素化。用戶作為數據的生產者無法對數據進行確權,導致數據全部歸平臺所有;平臺作為數據的加工者缺乏激勵,不會對數據進行應有的加工;模型公司作為數據的使用者與數據生產加工環節嚴重割裂。而去中心化數據基礎設施正是這些問題的解決方案。
在《
區塊鏈托管重塑數據要素權益分配機制》一文中,我們提到了Web3是數據要素革命,是數據主權的“還數于民”。在AI新時代里,去中心化數據基礎設施將為AI模型提供全生命周期數據解決方案,包括:
(1)數據確權:用戶數據通過自主數字身份確權,數據生產者直接參與模型建設周期并獲得對等激勵;
(2)數據加工:數據加工者(例如模型數據標注、數據質量評價)通過去中心化數據基礎設施參與模型建設并獲得對等激勵;
(3)數據共享:數據生產者通過去中心化數據托管共享數據給數據使用者(例如建模公司),建模公司可以通過智能合約自動化數據獲取和建模流程,實現快速模型升級。
版權申明:本內容來自于互聯網,屬第三方匯集推薦平臺。本文的版權歸原作者所有,文章言論不代表鏈門戶的觀點,鏈門戶不承擔任何法律責任。如有侵權請聯系QQ:3341927519進行反饋。