• <option id="cacee"><noscript id="cacee"></noscript></option>
  • <table id="cacee"><noscript id="cacee"></noscript></table>
  • <td id="cacee"></td>
  • <option id="cacee"></option>
  • <table id="cacee"></table>
  • <option id="cacee"><option id="cacee"></option></option>
  • <table id="cacee"><source id="cacee"></source></table><td id="cacee"><rt id="cacee"></rt></td>
    <option id="cacee"><option id="cacee"></option></option>
     找回密碼
     立即注冊

    掃一掃,登錄網站

    首頁 自媒體 查看內容
    • 3990
    • 0
    • 分享到

    研究表明,數據匿名化并保護不了你的隱私

    2019-8-2 12:30

    來源: itechwalker

    過去十年以來,我們收集與存儲個人數據的能力呈現出爆炸式的增長。由于全球三分之二的人口能夠訪問互聯網,電子病歷成為常態,物聯網亦快速興起,這種趨勢很可能迎來愈演愈烈之勢。通過填寫在線調查或者統計瀏覽習慣,從金融或者醫療服務當中大規模收集到的信息擁有令人意外的巨大潛力。其推動了醫學、社會科學以及人工智能的科學進步,并有望徹底改變企業與政府的運作方式。

    然而,大規模收集并使用詳盡的個人級數據也帶來了法律層面的隱私難題。最近,DeepMind共享英國國家健康服務局(NHS)醫療數據以及劍橋分析公司大量購買Facebook數據集等事件,都讓人們愈發關注個人數據的保密性、隱私性與道德使用等問題。

    為此,數據匿名化也開始受到了廣泛關注。所謂匿名化,就是在共享數據集內容之前首先其其中的身份信息進行剔除,這也是各類研究與商業機構所采取的主要個人隱私保護范式。全球范圍內的各類數據法普遍認為匿名數據不再屬于個人數據,允許各方自由使用、共享以及銷售。例如,學術期刊正越來越多地要求作者向研究界提供匿名數據。雖然匿名數據的標準各不相同,但現代數據保護法(例如歐盟〈通用數據保護條例〉(GDPR)以及〈加州消費者隱私法案〉(CCPA)等)都認為數據集中的每個人都應通過匿名化方式得到保護。GDPR提出的要求進一步明確了這種新的匿名化標準:數據不應包含可能導致真實身份復原的明顯身份識別因素,這也將匿名化問題正式歸入法律范疇。

    而為了保護這些有意或者無意間將自己的個人信息交予數據庫的用戶,大多數機構也會消除數據中的身份信息。在具體流程中,他們會刪除明顯的個人身份標識,包括姓名與社保號碼;有時也會采取其他預防性措施,例如向集合中引入隨機“噪聲”數據或者利用常規標識替換特定細節(例如將1990年3月7日出生,調整為1990年1月至4月間出生)。處理完成之后,代理機構即可發布或者出售這部分信息。

    >>> 數據匿名化處理被證明無效

    然而,事實證明,經過匿名化處理的數據集無法成功解決個人身份被復原問題。

    2016年,記者從300萬德國公民的匿名瀏覽歷史數據集當中重新識別出多位政治家,并據此得到了其醫療信息與性取向結論。幾個月前,澳大利亞衛生部公開發布了涵蓋國內10%人口的去身份醫療記錄,但研究人員僅在6周之后就完成了重新識別。在此之前,有研究表明,我們完全可以利用基本人口統計學屬性結合診斷數據、出生年份、性別以及種族等基因組研究數據實現患者身份的唯一性識別。最后,研究人員們還發現,來自紐約的出租車路線、倫敦的共享自行車使用方式、里加的地鐵出行數據以及移動電話與信用卡數據集等所謂匿名信息,都可用于對個人進行唯一性識別。

    關于這個論題,倫敦帝國理工學院計算隱私助理教授Yves-Alexandre de Montjoye作為作者之一,日前在《自然:通訊》雜志發表了名為《利用生成模型估算通過不完整數據集復原個人身份的成功率》(論文鏈接:https://www.nature.com/articles/s41467-019-10933-3)的研究論文,他表示,在過去25年當中,數據匿名化的基本作用就是在幫助我們在利用數據進行統計與研究之外,保護人們的隱私。然而,大部分常用的匿名化技術起源于二十世紀九十年代,也就是互聯網快速發展之前。換言之,這些匿名技術并沒有考慮到互聯網在收集個人健康、財務、購物以及瀏覽習慣等細節方面的強大能力,從而使得我們能夠相對容易地將匿名數據與特定個人關聯起來

    例如,如果私人偵探打算在紐約市尋找某人,已經確定其為男性、年齡在30到35歲之間且患有糖尿病,那么搜索工作將簡單得多。如果再配合其生日、孩子數量、郵政編碼、所在企業以及所擁有的車輛型號,那么他們甚至可以很快推斷出此人的真實身份。

    過去幾年以來,Montjoye和其他研究人員曾先后發表多份研究報告,探討如何通過匿名購物數據或者健康記錄復原個人身份。他們提出了一種基于copula的生成方法,其能夠在完整度極低的數據集當中準確估算出特定人士被正確重新識別的可能性。在總計210名測試對象當中,他們的方法獲得的個體唯一性預測AUC分數范圍在0.84至0.97之間,代表其準確率已經非常可觀。利用這套模型,他們發現在使用15項人口統計屬性的任意數據集當中,美國普通民眾的真實身份有99.98%的機率被成功復原。雖然15項人口統計信息聽起來很多,但其中卻蘊藏著不容忽視的大問題——2017年,一家營銷分析公司曾意外發布了包含248項屬性的匿名數據集,涵蓋美國1.23億個家庭。

    配合社會人口統計學、調查與健康數據集,Montjoye及其團隊證明這套模型在估算群體唯一性時的平均絕對誤差(MAE)為0.018;即使僅利用1%的數據比例進行訓練,其MAE仍可達到0.041。經過訓練,模型能夠準確預測出個體的重新識別結論是否正確:如果設定95%的準確度作為閾值(?????>0.95),則其平均錯誤率低于6.7%——比現有最佳估算方法的錯誤率低39%。

    而隨著可用屬性數量的增加,群體唯一性判斷準確度也將快速提升。此外,他們的研究結果還表明,即使是在重度采集數據集當中,該模型仍可以相當高的準確度估算特定個體被正確重新識別的可能性。實際結果推翻了目前常被提及的兩種觀點:1)重新識別并不構成實際風險;2)抽樣或者發布部分數據集能夠提供理想的匿名保護效果。

    也就是說,在大量采樣條件下,即使是匿名數據集也很難滿足GDPR提出的現代匿名化標準。這無疑給我們習以為常的匿名化處理后直接發布流程在技術與法律兩個層面提出嚴重挑戰。

    >>> 數據保護需要跨學科研究與政策制定并行

    那么,這會給我們的個人數據造成多大的風險?在這項新研究中,研究團隊創建出一款數字工具,允許個人互聯網用戶查看利用匿名信息復原其真實身份的可能性。根據這款工具給出的結論,普通用戶有83%的可能實現成功復原。除非拒絕信息收集,否則人們幾乎沒辦法解決這個難題。

    西北大學凱洛格管理學院營銷學副教授Jennifer Cutler(并未參加此項研究)表示:“偏執的消費者可能會停止在網絡上發布任何內容、停止使用互聯網服務、不使用任何應用程序、放棄智能手機、不使用信用卡等等——但這些在如今這個時代下顯然不切實際。我們目前的生活基本都與網絡密不可分,而且必須要在各種因素之間做出權衡。政策制定者之所以沒有完全限制數據的收集與共享,是因為數據收集與共享確實能夠產生巨大的積極作用。”

    相較于完全禁止收集數據,Montjoye給出的建議是,數據中間商應該開發出新的匿名化技術并加以嚴格測試,從而確保第三方無法根據統計數據識別出個人身份。他解釋稱,“這個問題主要針對當前匿名化方法。目前,我們看到的問題只是冰山一角。但令人擔憂的是,其并不能達到防止個人身份曝光的作用。我們需要制定更高的標準,并對具體方法進行審查。”

    由于個人的數據追索權非常有限,有些人認為數據中間商的標準提升之路可能需要立法層面的推動。此項研究的共同作者、比利時魯汶天文教大學博士生Luc Rocher指出:“由于數據經過匿名化處理,因此數據收集方不必向數據主體征求意見。我認為,這更多屬于法規責任范疇的問題,應由立法機構為我們的個人數據提供保護。”

    Cutler也對立法支持這一觀點表示贊同。她認為,“跨學科研究人員與政策制定者確實需要持續開展工作,按照論文中提到的方式建立基于證據的法規。只有這樣,我們才能夠在保護用戶隱私與實現創新進步之間找到最理想的平衡點。”


    來源 | Scientific American

    編譯整理 |  科技行者



    版權申明:本內容來自于互聯網,屬第三方匯集推薦平臺。本文的版權歸原作者所有,文章言論不代表鏈門戶的觀點,鏈門戶不承擔任何法律責任。如有侵權請聯系QQ:3341927519進行反饋。
    相關新聞
    發表評論

    請先 注冊/登錄 后參與評論

      回頂部
    • <option id="cacee"><noscript id="cacee"></noscript></option>
    • <table id="cacee"><noscript id="cacee"></noscript></table>
    • <td id="cacee"></td>
    • <option id="cacee"></option>
    • <table id="cacee"></table>
    • <option id="cacee"><option id="cacee"></option></option>
    • <table id="cacee"><source id="cacee"></source></table><td id="cacee"><rt id="cacee"></rt></td>
      <option id="cacee"><option id="cacee"></option></option>
      妖精视频