• <option id="cacee"><noscript id="cacee"></noscript></option>
  • <table id="cacee"><noscript id="cacee"></noscript></table>
  • <td id="cacee"></td>
  • <option id="cacee"></option>
  • <table id="cacee"></table>
  • <option id="cacee"><option id="cacee"></option></option>
  • <table id="cacee"><source id="cacee"></source></table><td id="cacee"><rt id="cacee"></rt></td>
    <option id="cacee"><option id="cacee"></option></option>
     找回密碼
     立即注冊

    掃一掃,登錄網站

    首頁 區塊鏈生態 查看內容
    • 536
    • 0
    • 分享到

    鄔賀銓院士:AI時代的數據要素開發與治理

    2023-11-10 08:50

    來源: 國家數據局

    培育數據資源,促進開放共享


    數據是生產和生活過程的記錄及對自然觀察的結果。2022 年中國人口占全球 18%,網民占全球 21.5%,GDP 占全球 18.06%。據國家網信辦《數字中國發展報告(2022年)》數據顯示,2022 年我國數據產量達 8.1ZB,同比增長 22.7%,全球占比為 10.5%,位居全球第二;我國數據存儲量達 724.5EB,同比增長 21.1%,全球占比為 14.4%。中國產生和存儲的數據在全球的占比均低于中國的人口、網民和經濟規模在全球的比例。據 Synergy Research Group 截至 2021 年 Q3 季度統計,美國大規模數據中心在全球占比高達 49%,其次是中國占比為 15%。可見我國數據存儲量與美國相比差距還比較大,這反映了我國在社會信息化和產業數字化程度上仍落后于美國,加快數字中國的建設將有望盡快改變這一狀況。

    政府與研究機構及企業都會存儲大量數據,其中政府掌握全社會數據約 80%,而且是高質量數據,但主要卻僅供內部使用甚至是本部門內小單位各自存儲和使用而非共享,數據利用率不高。需要從制度上明確共享內容、權限和責任,促進政府部門間數據共享,更精準地把握社會和經濟運行全局,提升政府部門間工作的協同性。與共享相比,數據開放更是社會數字化的標志之一,政府及企事業單位掌握的公共數據具有很強的社會性,政府開放數據對提升政府公信力、降低社會成本,帶動數字經濟發展有重要作用。國際上將政府數據開放作為數字政府的重要衡量指標,據《聯合國電子政務調查報告2022》數據顯示,從 2012 年到 2022 年的十年間,中國在線服務指數從 0.5294 上升到 0.8876,在 193 個國家中排名從第 62 位上升到第 15 位,愛沙尼亞、芬蘭、韓國位居前三,美國第 8,日本第 9。我國還存在政務數據標準規范體系待健全、政務數據統籌管理機制待完善,政務數據安全保障能力待加強的問題,需要從建設數據流通基礎制度體系入手,加快數據立法,完善制度規范,統籌協調推進,編制數據目錄,分類分級管理,夯實共享開放機制,提升安全保障。

    除了政府開放數據以外,社會公共數據的開源開放也表征數據流通的水平。人工智能生成內容(AIGC)大模型都是利用語料庫訓練的,一些互聯網大廠利用電商、社交、搜索等業務收集和標注了海量的語料供自身訓練大模型使用,沒有語料積累的企業和研究機構雖然可以從網絡獲得語料,但自媒體內容質量良莠不分,未經清洗與標注就用作大模型的訓練語料其效果堪憂。ChatGPT 大模型訓練時使用了開源語料庫,但中文詞元(token)占比不到 0.1%,還不及一些小語種的比例,其中的原因與中文開源語料庫數量少和規模小有關。國內高校也有數億到數十億字的語料庫但尚未開源。國內一些語言大模型直接采用國外開源語料庫訓練,在價值觀的把控上存在潛在風險,建議對面向公眾開放應用的對話類大模型需要做語料來源的評估。面向重要應用場景的大模型不宜強調訓練用數據免標注和無監督學習,還是要采用經過清洗標注的數據集和保留人工微調,即有監督學習環節。

    行業大模型的訓練也面臨挑戰,專業數據沒有通用數據容易獲得,行業內的企業間往往不愿共享專業數據。為此有必要建立高質量國家級重要行業領域基礎知識庫、數據庫、資源庫等。此外要鼓勵社會數據要素的合理流動和利用。中共中央、國務院《關于構建數據基礎制度更好發揮數據要素作用的意見》提出,依法規范、共同參與、各取所需、共享紅利的發展模式,將合理降低市場主體獲取數據的門檻,增強數據要素共享性、普惠性,激勵創新創業創造。

    版權申明:本內容來自于互聯網,屬第三方匯集推薦平臺。本文的版權歸原作者所有,文章言論不代表鏈門戶的觀點,鏈門戶不承擔任何法律責任。如有侵權請聯系QQ:3341927519進行反饋。
    相關新聞
    發表評論

    請先 注冊/登錄 后參與評論

      回頂部
    • <option id="cacee"><noscript id="cacee"></noscript></option>
    • <table id="cacee"><noscript id="cacee"></noscript></table>
    • <td id="cacee"></td>
    • <option id="cacee"></option>
    • <table id="cacee"></table>
    • <option id="cacee"><option id="cacee"></option></option>
    • <table id="cacee"><source id="cacee"></source></table><td id="cacee"><rt id="cacee"></rt></td>
      <option id="cacee"><option id="cacee"></option></option>
      妖精视频