大数据经济浪潮已扑面而来。
几十年来,全球IT行业遵循着摩尔定律所预测的速度发展着,直到现在,这一定律依然发挥着效用。当5G、云计算、物联网等技术越来越成熟,海量数据的生产、采集、存储和处理成为了现实,智能化时代来临,数据潜力也得到了空前释放。
据国际数据公司和希捷公司的报告显示,2020年中国数据总量将会超过8万亿GB,占全球数据总量达20%左右,中国将成为数据生产量最大、类型最丰富的国家。
数据量爆发,依托数据的产业经济规模也会空前扩大。据前瞻产业研究院发布报告显示,预测在2020年我国大数据产业市场规模将突破万亿,2023年将增长至15700亿元,同比增长15.4%。
大数据产业上升为国家战略,数据也已成为国家、企业、个人的核心资产,数据共享和流通成为了刚性需求。例如,人工智能的发展就依托于庞大的数据规模和数据多样性。
然而,数据隐私保护与数据流通和使用效率之间的矛盾却日益凸显。2018年,欧洲GDPR数据保护条例的颁发将Facebook、Google等互联网巨头推上了风口浪尖,数据隐私被窃取、安全泄漏等事件层出不穷。
Facebook布局加密货币,表明了利用互联网平台中心化搜集用户数据,实现平台化的精准营销的商业模式不再可持续。
去年,腾讯进行第三次组织架构调整,马化腾发朋友圈强调,鉴于腾讯各平台数据的用户个人隐私性较强,“我们更强调的是数据保护而非打通数据和唯算法论。”
图片来源于网络
以密码学为核心的区块链技术,似乎有望打破数据的流动壁垒,开启数据经济时代新的商业模式。
在保证隐私安全的基础上实现数据共享,已经有越来越多的公司加入这条赛道,但技术发展的速度似乎很难适应日益增长的商业需求。
大厂涌入,赛道注定越来越挤
2019年的科技圈,“数据中台”是最火的概念之一。从去年年中到今年6月,“数据中台”的百度指数从120一路狂奔达到了500多。人们对于数据中台概念的理解普遍为实现大集团各子公司,或者大公司各子部门之间数据交换、资产化和业务化的工具。
公信宝创始人黄敏强却认为,这一概念的内涵似乎可以拓展到企业与企业之间的数据交换与共享,甚至可以从B端迈向C端,实现企业到个人的数据利用和隐私保护。
据锌链接了解,早在2017年,数据共享平台就已经超过了100家,但还未有去中心化的数据共享平台出现。
随后,公信宝便上线了去中心化数据交易平台。
黄敏强对锌链接表示,数据共享与隐私问题可以通过可信计算+区块链技术的方案来解决。“当可信计算运行在区块链上,就拥有了中立性强、合规性高、商务成本低的特点,从而使得商业中的通用型诉求得到解决”。
趣链科技于2018年末开始搭建数据共享平台BitXMesh,大概半年后,一期产品上线。据其负责人汪小益向锌链接介绍,趣链把整个项目的核心技术称为“联邦计算”,主要分三步走。
首先是分布式计算,利用趣链搭建的BitXMesh平台将模型分发到各个数据中心,这些数据中心分属不同的机构或企业,共同配合完成一定的计算任务。
其次是分布式的安全计算,借助TEE(TrustedExecution Environment)可行性执行环境,结合传输网络的安全,实现分布式的安全计算。
最后是联邦学习,这是谷歌在近几年提出的一类机器学习算法。趣链将打造联邦学习平台,支持用户自定义相关学习模型,在保护用户数据隐私的前提下充分发挥分散数据的价值,构建完善的AI模型。
与公信宝和趣链所采用的硬件+密码学结合的可信计算方式不同,PlatON坚持采用纯密码学方式实现数据共享过程中的隐私安全。
PlatON首席投资官唐虹刚向锌链接介绍,PlatON属于这一领域实践较为早期的“首倡者和先行者”。数据流通和共享平台方案将于今年第四季度到明年上半年推出。“这一平台将基于MPC为核心的隐私计算技术,不依赖第三方硬件,实现Trustless下的数据隐私保护和数据确权,且具有更高的灵活性和通用性。”
唐虹刚认为,数据共享和流通是一个非常有潜力的市场。未来,数据是继水电煤网之后第五个基础社会资源,预计市场规模将会超过万亿美元。
黄敏强和唐虹刚的预测并非虚言,除了以上项目还有Trias、ARPA、TEEX等。今年以来,除了这些原生态区块链技术公司,互联网巨头也纷纷抢滩数据共享与隐私安全领域。
蚂蚁金服在区块链技术的隐私保护领域动作不断,投资QEDIT研究零知识证明,并提出TEE+预言机技术方案。
支付宝向锌链接介绍:“支付宝十分重视区块链隐私保护技术领域,认为这个领域是未来各大区块链平台竞争力的核心体现。支付宝从密码学上的同态加密、零知识证明到基于硬件的可信执行环境(TEE)技术都进行了全面布局,并已经在不同的业务线上利用场景反复打磨。”
百度于今年3月份上线了基于区块链的数据流通平台XuperData。百度向锌链接介绍,XuperData计算方案可以实现数据可用不可见,在保障数据隐私和安全的前提下实现组织机构信用数据共享。
“这一平台当前主要用于解决金融机构以及其他组织机构之间信息不对等问题,提升金融机构风控能力,减轻信贷风险,从而也解决企业特别是小微企业的贷款难的问题”。
互联网巨头纷纷涌入,数据共享与隐私安全保护这一赛道,注定越来越挤。
技术拆解:纯密码学与TEE硬件+密码学的较量
在当前的区块链基础架构中,隐私保护功能往往存在着隐私性、可拓展性、链上计算三个维度的“不可能三角”,这意味着任意两个维度都与第三者冲突。
区块链的隐私协议也经历了CryptoNote、Zk-SNARKs、TEE、MimbleWinble、以及Zether(Quorum)、MPC等的演进,应用范围不断扩大,从单纯的保护加密货币交易隐私升级到数据共享的流通隐私。
隐私协议演进锌链接整理
当前国内大部分公司的隐私路径采用MPC等纯密码学、TEE硬件+密码学的两种方向发展。纯密码学方向的主流做法是以MPC(安全多方计算)、零知识证明、同台加密等纯密码学方案,以PlatON、ARPA等项目为代表。
唐虹刚向锌链接透露,MPC既能保证数据输入各方隐私,又能输出正确的计算结果,且是一个成熟的密码学算法,是完全可信的。TEE则是依赖可信第三方提供的硬件来解决安全计算问题,使用TEE则必须信任其生产厂商。
“PlatON已经对两方计算进行了工程化实践和商业应用,多方计算的技术解决方案也已经完成,正在推动工程化落地,加速MPC计算的专用计算硬件也在研发中。”
相对于MPC的纯密码学路线,所需长期的学术投入和技术商业化研究,TEE硬件+密码学的方式则更容易实现商业化落地应用,当前国内大部分公司都采用的是TEE硬件+密码学的方案,包括公信宝、趣链、蚂蚁金服、百度XuperData等。
图片来源于pixaby
不同的公司项目采用的TEE硬件+密码学的特点也有所不同。
支付宝方介绍,“TEE+预言机技术”是因为支付宝判断区块链要在产业大规模落地,还需要突破单条链的局限性,让更多的链下实体参与进来,需要扩展出二层、三层的链下网络,与链上能力互补,形成新的协作网络。
百度称,XuperData是通过区块链构建一个去中心化的数据联盟,“TEE或者安全多方计算是数据联盟里面支持的两种安全计算方式,我们支持用户选择合适的一种来提供。”
趣链汪小益坦言,安全多方计算,就目前的技术手段来说,对参与方的数量是有限制的,三方相对可以的,但是往三方以上再去扩展,复杂度会呈现指数级上升。“我们认为目前这两个技术可以并行来用,选择最优的技术方案赋能具体应用场景。”
就当前所需的场景,通过多个TEE之间共同组成可信计算网络达成相应联邦计算任务对于趣链来说,是更合理的一种技术路线。
由此,隐私技术协议的演化路径反映了市场需求的方向,对于企业而言,自身商业模式选择决定了他们所采用技术的发展路径。
数据隐私安全领域的“现实妥协”
安全多方计算(MPC)的雏形可追溯到中国科学院院士、图灵奖获得者姚期智于1982年提出的百万富翁问题,以及后续以混淆电路为主题的系列研究,姚期智是 Conflux 的联合创始人和首席科学家。
Conflux 研究总监杨光向锌链接介绍,由于适合在区块链上使用的数据共享与数据隐私保护技术还不够成熟,所以该领域目前不是 Conflux 项目最主要的突破方向。
据杨光介绍,安全多方计算、零知识证明、同态加密是以功能划分的抽象概念,而不是具体的技术实现方案,每个方向都有基于不同密码学技术的和基于 TEE 等可信硬件的多种方案。
“就像造汽车一样,‘汽车’是按照最终实现的功能定义的。具体是搞电动的还是烧油的,用哪种电池或者烧哪种油,发动机前置还是后置,都存在很多截然不同的技术路线。”
杨光认为,其实早在比特币诞生之前,丹麦就已经开始大规模使用 MPC 技术解决社会问题。当时的MPC技术主要应用场景是只有两个或少数几个参与者,这跟区块链上的应用场景差距很大,因此直接把现有技术搬到区块链上必然会水土不服。
零知识证明技术也有类似的问题。因为零知识证明是基于交互式证明完成的,需要证明者和验证者之间一来一回的频繁互动才能向验证者完成证明。但是在区块链的应用场景下,不但难以进行多轮交互,往往还要求证明比较简短并且可以被任何第三方(而不仅仅验证者自己)公开验证。
按照当前的研究水平,采用适合区块链的实现方案会提高使用成本,大部分企业会选择在链下进行交互运算,只把最终结果上链完成结算。
在技术尚未发展成熟的条件下,这也不失为一种可行的隐私保护方案,但这样一来,隐私安全性也就打了折扣。
至于TEE硬件+密码学的方式,杨光认为,这个方案本身非常简单,唯一的缺点在于需要用户相信硬件厂商等中心化节点。“但实际上,任何企业或者机构的可靠性都比不上完备的数学证明加上合理的安全性假设。想要正面攻破有严格证明的密码学方案,需要解决某些很难的数学难题,这比搞定一家企业难多了。”
因此,纯密码学技术应用,目前不大可能实现大规模的商业化应用,而TEE+密码学的使用,只是技术为现实应用场景需求的妥协罢了。
技术未满,但需求规模却不断增长,而且需求紧急程度还不一样。