亚洲精品白浆高清久久久久久,窝窝午夜精品一区二区,国语自产少妇精品视频,4399理论片午午伦夜理片

OA

員工郵箱登錄 信息化平臺 云辦公平臺

010-59380808
大事記匯總
新聞資訊
tellhow news

轉載 | 區塊鏈與數據治理

發布日期:2020-04-13 發布人:行政中心 


      摘要

       當下,大數據的“堰塞湖”已經形成,數據治理問題迫在眉睫。傳統的治理概念來自政府、企業、IT領域,數據治理既有其一般性,也有其特殊性。本文提出數據治理的根本保障在于增加大數據價值實現過程的透明性。區塊鏈憑借去中心、公開透明和不可篡改的特性與大數據價值實現的透明性需求相契合,能夠克服當前數據治理存在的問題,為數據治理提供了新的解決思路。同時,基于區塊鏈實現數據治理也面臨諸多挑戰。

    關鍵詞:數據治理;區塊鏈;隱私保護;溯源問責;決策可信



     大數據時代,數據源源不斷產生并自主匯聚至多方數據收集者,數據已經成為企業間競爭的關鍵和影響國家競爭力的重要因素,由此數據治理成為企業治理和國家治理的重點領域和重要方式。然而,大規模數據收集也帶來嚴峻的隱私泄露、數據濫用和數據決策不可信等問題,對傳統的數據治理提出了新的挑戰。例如,“Facebook-劍橋分析”事件就是大規模數據收集導致的隱私泄露、數據濫用和決策不可信的典型案例。進一步,大規模數據自主匯聚還導致數據壟斷困境的出現,使數據被不合理的分配與享用。大數據的“堰塞湖”已經產生,如何使這些問題得到有效解決,并使數據得到正確和規范的使用是決定大數據繼續發揮價值的關鍵,也是目前數據治理亟待解決的問題。


     上述問題產生的主要原因是大數據價值實現過程的不透明。大數據收集和共享流通過程不透明導致隱私泄露和數據濫用等問題追蹤問責困難,并且致使數據壟斷問題悄然形成卻缺乏評估和解決依據;大數據存儲、處理和共享流通等過程中缺乏透明導致數據被篡改等問題難以被發現,影響決策數據質量并最終導致數據決策不可信。由此可以得出,當前數據治理的根本保障在于增加大數據價值實現過程的透明性。數據收集和共享流通過程透明地對數據流向進行記錄,以溯源問責的方式進行隱私保護和為解決數據壟斷提供依據;數據存儲、處理和共享流通等過程透明使決策數據可審計和促進數據決策可信。數據治理實現途徑有多種方式,除了法律法規和政策標準,還需要技術方法的保駕護航。區塊鏈起源于數字貨幣,具有公開透明、去中心和不可篡改的特性。該技術的進步發展為解決當前數據治理面臨的問題帶來新的機遇。


     本文提出了數據治理的根本保障在于增加大數據價值實現過程中的透明性,總結了數據治理的發展歷程和技術上實現數據治理的關鍵內容,并對基于區塊鏈實現數據治理的研究現狀進行分析和總結,最后提出目前數據治理面臨的挑戰。


01

數據治理概述

     “治理”(Governance)一詞起源于拉丁文“掌舵”(Steering),最初用于“政府治理”,目標是協調政府與其他社會主體之間的利益。后來逐漸受到企業的認同和重視,出現了“企業治理”,目標是協調企業內部利益相關者的利益。伴隨著IT資源和數據資源的日益豐富,又出現了“IT治理”和“數據治理”。后來,由于大數據的流通性、多源數據融合和涉及多方參與主體等應用特性,“數據治理”又進一步延伸,出現了“大數據治理”。“大數據治理”關注大數據生命周期中數據生產者、數據收集者、數據使用者、數據處理者和數據監管者等各方參與主體,其目標是在兼顧各方參與主體的權利、責任和利益的前提下發揮數據價值,即大數據價值實現和風險規避。

由于“大數據治理”是“數據治理”的延伸,為避免混淆,本文后續內容采用“數據治理”的概念來探討大數據時代的數據治理。數據治理的發展過程和涉及的參與主體如圖1所示。

     大數據的應用特性與數據治理的目標決定了當下數據治理的關鍵內容。目前,數據治理的關鍵內容和挑戰聚焦在以下3個方面:

    (1) 提高決策數據質量。大數據價值實現需要多源數據的融合,然而大數據來源廣泛且生命周期內涉及多方參與主體,數據是否真實產生、數據被篡改和多源數據的標準和類型不一致等問題都會影響決策數據質量,進而影響數據使用者的數據決策結果。所以,數據治理需要支持大數據在其全生命周期內的溯源。

    (2) 評估與監管個人隱私數據的使用。大數據應用的流通特征使數據生產者對數據獲取和共享缺乏知情權和控制權。作為數據生產者,用戶不知道哪些數據被收集、被誰收集、收集之后流向哪里和作何使用。同時,數據的收集匯聚導致數據壟斷現象出現。數據壟斷可能會阻礙市場競爭、使消費者福利受損、阻礙行業技術創新和帶來更嚴重的個人隱私泄露風險等問題,但數據監管者卻無法對數據應用進行評估和監管;此外,大數據應用的多源數據融合特征還可能會引發更嚴峻的隱私泄露問題。所以,數據治理需要對個人隱私數據使用進行評估與監管。

    (3) 促進數據共享。數據共享可以促進大數據價值實現和緩解數據壟斷,但同時也需要解決隱私保護等問題。一方面,數據共享雙方之間發生數據共享流通時,考慮到隱私問題,需要以有效的方式保護數據生產者的個人隱私。另一方面,限于法律和實際應用中的一些因素,需要在不直接傳輸原始數據情況下,依據多方數據持有者的數據實現分布式數據集進行統計分析和分布式機器學習。由于多方參與者之間不存在完全的可信性,此時應該能夠保護數據使用者對其共享過程進行驗證。所以,數據治理需要在權衡數據生產者和數據使用者等參與主體利益的前提下促進數據共享。


     數據治理需要綜合法律法規、政策標準和技術方法等多種途徑實現。一方面,國際組織和國家相關部門出臺相應的法律法規和政策標準。另一方面,數據治理亟需安全、可靠的技術方法,為大數據應用過程中數據隱私保護、提高決策數據質量、促進數據共享和評估監管數據應用的合規性等問題提供技術支持。

微信圖片_20200413144932.png

圖1 | 數據治理發展過程和涉及的參與主體



02

基于區塊鏈實現數據治理


     區塊鏈本質上是一種去中心化的分布式數據庫,在增加大數據價值實現過程的透明性方面具有天然的優勢,為解決當前數據治理的關鍵問題提供了可行性。 

    (1) 支持審計的數據存儲和處理

     數據決策滲透在人們生產、生活的方方面面,由于涉及多方利益相關者,數據在存儲、處理和共享流通等過程中存在數據被篡改、數據偽造,以及不同來源數據的類型和標準規則差異等問題,這些問題都會影響決策數據質量。所以,數據使用者需要對決策數據進行審計。區塊鏈作為去中心化的分布式數據庫,可以實現支持審計的數據存儲和處理。此外,基于區塊鏈在不同利益主體之間構建去中心分布式數據庫系統,數據通過全網快速廣播至各個利益主體,也能夠保證數據共享流通的真實性和及時性。

     區塊鏈網絡內各節點都存儲數據,數據一旦存入區塊鏈就不會被篡改或者丟失,即使存在通信故障和蓄意攻擊等問題,也仍然能保證數據存儲的正確性,數據使用者可以對其進行審計。此外,將數據存入區塊鏈還支持數據處理過程和處理結果的可審計性。對于傳統的數據庫管理系統,數據庫中存儲和維護當前數據狀態,僅將數據處理過程等信息存在數據庫日志,用于故障恢復,并不支持數據的歷史狀態查詢。然而,區塊鏈作為去中心分布式數據庫,支持數據的歷史狀態查詢,用以確認當前數據狀態是否正確。

     針對不同來源數據的類型和標準規則不一致等問題,可以基于區塊鏈和智能合約制定統一的數據類型和標準規則。智能合約會被存儲和同步在區塊鏈各個節點,區塊鏈會根據智能合約上的代碼自動執行驗證。由于智能合約的執行過程公開透明,使其執行過程和執行結果是可審計的,能提高多源數據共享效率且不存在單點失敗。

    (2)支持溯源問責的數據獲取和共享

     在傳統的數據獲取和數據共享過程,由數據收集者制定數據使用協議并據此告知用戶數據收集、共享和使用等信息。用戶作為數據生產者,對數據的知情權和可控權仍然限于法律約束和第三方信用背書。然而,由于數據獲取和共享等過程對外不可見,其契約履行情況也無從考證。數據獲取和數據共享不透明導致隱私泄露問題更為嚴峻。傳統的加密、差分等隱私保護技術雖然對數據隱私具有一定的保護作用,但是目前還不足以應對大規模數據收集帶來的隱私泄露風險。應用區塊鏈的去中心性和不可篡改性,可以記錄數據的獲取和共享情況,進一步實施追蹤溯源,并結合策略承諾(Policy Compliance)、違反檢測(Violation Detection)和隱私審計(Privacy Audit),可以在隱私保護技術無效的情況下以溯源問責的方式保護隱私,也可以為評估監管數據和解決數據壟斷問題提供技術支持。

     目前,已有研究利用區塊鏈增加移動應用、醫療和物聯網等領域的數據獲取和共享流通的透明性。基于區塊鏈實現數據獲取和共享的框架可以分為四層:數據獲取層—存儲層—區塊鏈層—共享層。在數據獲取層,數據生產者對數據收集內容、形式和目的等具有知情權;在存儲層,采用傳統數據庫管理系統、云存儲和分布式存儲系統等方式存儲數據,并采用加密技術對數據進行加密來保護數據安全和隱私;在區塊鏈層,由區塊鏈執行去中心化的訪問控制,使任何數據訪問情況都通過區塊鏈的交易被記錄在區塊鏈;在共享層,實現數據共享并對共享關系進行保護。正是通過上述四層,區塊鏈增加數據獲取和共享流通的透明性。

    (3) 支持驗證的分布式數據統計分析和機器學習

     在醫學研究、公共安全和商業合作等一些應用領域,需要在大規模分布式數據集上執行統計分析和機器學習任務,但考慮法律法規等因素的限制,需要在不泄露隱私數據前提下進行分布式數據統計分析和機器學習。針對分布式數據集統計分析,現有方案基于安全多方計算、秘密共享、本地化差分隱私和同態加密等技術實現。然而,安全多方計算方法不適用于大規模數據提供者參與;秘密共享使數據提供者失去數據控制權;本地化差分隱私需要平衡數據的可用性和隱私損失;同態加密能夠保證數據提供者不失去數據控制權,而且不需要考慮隱私損失,但是實現的前提是數據提供者提供真實數據和計算節點的可信計算。針對分布式機器學習,由于數據提供者和數據需求者之間不存在完全的信任,各個數據提供者也可能會提供不可靠的數據或參數擾亂最終結果,以及由于經濟利益等因素提前退出。所以,數據使用者需要對分布式數據集統計分析和分布式機器學習進行驗證,以及需要合理的經濟激勵促進其順利執行。

     基于區塊鏈實現可驗證的分布式數據集統計分析常包括數據提供者、多個計算節點、多個驗證節點和數據查詢者。其中,數據提供者提供加密數據,多個結算節點執行密文計算,由區塊鏈組成多個驗證節點并對計算節點的計算進行驗證。除此之外,分布式數據集統計分析需要考慮數據機密性、數據提供者和數據之間不可連接性、查詢結果機密性和計算結果的魯棒性等安全和隱私問題。為此通常采用洗牌和同態加密等技術進行保護。

     基于區塊鏈實現可驗證的和公平的分布式機器學習,數據提供者將本地機器學習參數上傳和存儲至區塊鏈,由區塊鏈執行交叉驗證,將分布式機器學習過程的每一步都記錄在區塊鏈。同時,還可以結合零知識證明和密碼學承諾對惡意的參與方進行經濟懲罰,通過經濟激勵促進公平。除此以外,分布式機器學習需要考慮數據提供者本地參數的安全性,因為本地參數也可能會泄露數據或者機器學習模型。為此通常采用差分隱私、秘密共享和同態加密等技術對其進行保護。

03

挑戰與問題

     區塊鏈為數據治理提供了新的思路,但數據治理具體實現過程中也將面臨諸多挑戰,同時對區塊鏈自身技術有了更高的要求。此外,基于區塊鏈實現數據治理會導致政府和企業的管控機制和業務流程發生重大變革,這將對政府管理和企業管理提出新挑戰。目前,數據治理實現過程面臨的挑戰與問題主要包括以下3個方面:

    (1) 數據治理實現過程中面臨的挑戰。一方面,雖然將數據共享流通信息記錄在區塊鏈可以實現溯源問責,但是在大規模數據收集和數據共享流通錯綜復雜背景下,如何實現跨平臺和跨領域的溯源問責是具有挑戰性的問題。同時,溯源問責也可能會帶來隱私泄露問題,所以溯源問責過程的隱私保護也至關重要。另一方面,雖然將數據存入區塊鏈,可以一定程度上防止數據篡改和保證數據可以進行追蹤溯源,但是保證數據存入區塊鏈之前的真實性和可靠性仍存在挑戰。

    (2) 對區塊鏈自身技術提出的新挑戰。區塊鏈自身的存儲需求限制、隱私與安全、可擴展性和互操作性等方面還存在大量待解決的問題,現有比特幣、以太坊和超級賬本等主流的區塊鏈還不能滿足數據治理的需求。為此應該考慮設計輕量級的、高可擴展的、互聯通性較強的適用于數據治理需求的區塊鏈。同時,伴隨著各類區塊鏈系統的出現,區塊鏈系統評價標準與評估規范也成為亟待解決的問題。

    (3) 對政府管理和企業管理提出的挑戰。區塊鏈的去中心化特性將打破傳統的中心化管理方式,對政府和企業的管理權威帶來挑戰;同時,去中心化特性還會使數據安全和保密的責任置于多方,對政府和企業的數據管理等方面帶來新的挑戰。此外,基于區塊鏈實現數據治理并據此對數據執行相應的監管措施需要一個過程,而且隨著區塊鏈技術的迅猛發展,將會對傳統的監管制度和法律法規政策提出新的要求。

04

結語

     數據治理已經成為國家治理和企業治理的重點領域和重要因素。隨著各個領域數據的不斷開放共享,數據治理對數據共享、數據監管和隱私保護等方面都提出了更高的要求。這些問題通過與區塊鏈相結合可以提升數據治理的效率和透明度,將會有利于構建一個全新的數據信息時代。與此同時也會帶來諸多新的挑戰,需要多學科、多領域和多部門共同的努力去實現數據治理的新篇章。


|本文轉自公眾號“國家自然科學基金委員會”,由北京泰豪重新整理編輯,如有侵權,請聯系刪除;點擊“閱讀原文”,了解更多內容。