邹传伟:如何建立合规有效的数据要素市场

原标题:邹传伟:如何建立合规有效的数据要素市场

日前发布的《中共中央 国务院发布关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据与土地、劳动力、资本、技术等传统要素并列为要素之一,提出要加快培育数据要素市场,包括推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护等三方面工作。数据要素是一个新命题,有大量前沿问题需要研究。数据要素的收集、组织、使用、分享、流转和管理等活动组成的经济生态被称为数据经济。数据经济的核心问题是数据要素的特征、价值和配置机制。

一、数据要素的技术和经济学特征

(一)数据的技术特征

什么是数据?数据作为信息科学中一个基本但复杂的概念,对其的理解离不开对信息和知识等相关概念的辨析。DIKW模型提供了一个合适的分析框架,其中D指数据,I指信息,K指知识,W指智慧(图1)。

第一,智慧、知识、信息和数据之间依次存在从窄口径到宽口径的从属关系。从数据中可以提取出信息,从信息中可以总结出知识,从知识中可以升华出智慧。信息、知识和智慧尽管也属于数据的范畴,却是“更高阶”的数据。

第二,数据是观察的产物。观察对象包括物体、个人、机构、事件以及它们所处环境等。观察基于一系列视角、方法和工具,并伴随着相应的符号表达系统,比如度量衡单位。数据就是用符号表达系统记录观察对象特征和行为的产物。数据可以采取文字、数字、图表、声音和视频等形式。在存在形态上,数据有数字化的,也有非数字化的。但随着信息和通信技术的发展,越来越多数据被数字化。

第三,数据经过认知过程处理后得到信息,给出关于谁(Who)、什么(What)、何处(Where)和何时(When)等问题的答案。信息是有组织和结构化的数据,与特定目标和情景有关,因此有价值和意义。

第四,与数据和信息相比,知识和智慧更难被准确定义。知识是对数据和信息的应用,给出关于如何做(How)的答案。智慧则有鲜明的价值判断意味,在很多场合与对未来的预测和价值取向有关。

数据的技术特征主要包括以下维度。一是数据的样本分布、时间覆盖和字段等。二是数据容量,比如样本数、变量数、时间序列长度和占用的存储空间等。三是数据质量,比如样本是否有代表性,数据是否符合事先定义的规范和标准,观察的颗粒度、精度和误差,以及数据完整性。四是数据的时效性。因为观察对象的特征和行为可以随时间变化,数据是否还能反映观察对象的情况?五是数据来源。有些数据来自第一手观察,有些数据由第一手观察者提供,还有些数据从其它数据推导而来。数据可以来自受控实验和抽样调查,也可以来自互联网、社交网络、物联网和工业互联网等。数据可以由人产生,也可以由机器产生。数据可以来自线上,也可以来自线下。六是数据类型,包括结构化还是非结构化的,以及存在形式(文字、数字、图表、声音和视频等)。七是不同数据集之间的互操作性和可连接性,比如样本ID是否统一,变量定义是否一致,以及数据单位是否一致等。八是是否为个人数据。个人数据在隐私保护上有很多特殊性,需要专门讨论。

(二)数据的经济学特征

数据有复杂的经济学特征。数据可以产生价值,具有资产属性,兼有商品和服务的特征。一方面,数据可存储、可转移,类似商品。数据可积累,在物理上不会消减或腐化。另一方面,很多数据是无形的,类似服务。数据作为资产具有很多特殊性,可以从非竞争性和非排他性两个维度理解。

非竞争性指,当一个人消费某种产品时,不会减少或限制其他人对该产品的消费。该产品每增加一个消费者,所带来的边际成本等于0。大部分数据可以被重复使用,重复使用不会降低数据质量或容量,并且可以被不同人在同一时间使用,因此具有非竞争性。

非排他性指的是,当某人在付费消费某种产品时,不能排除其他没有付费的人消费这一产品,或者排除的成本很高。很多数据是非排他性的,比如天气预报数据。但通过技术和制度设计,有些数据具有排他性。比如,一些媒体信息终端采取付费形式,只有付费会员才可以阅读。

很多数据同时具有非竞争性和非排他性,属于公共产品,可以由任何人为任何目的而自由使用、改造和分享。比如,政府发布的经济统计数据和天气预报数据。一些数据是非竞争性的,但具有排他性,属于俱乐部产品(准公共产品的一种),比如前面提到的收费媒体信息终端。

数据的所有权不管在法律上还是在实践中都是一个复杂问题,特别对个人数据。数据容易在未经合理授权的情况下被收集、存储、复制、传播、汇集和加工,并且数据汇集和加工伴随着新数据的产生。这使得数据的所有权很难界定清楚,也很难被有效保护。比如,在互联网经济中,互联网平台记录下用户的点击、浏览和购物历史等,是非常有价值的数据。这些数据尽管描述了用户的特征和行为,但不像用户个人身份信息那样由用户提供,很难说由用户所有。互联网平台尽管记录和存储这些数据,但这些数据与用户的隐私和利益息息相关,很难任由互联网平台在用户不知情的情况下使用和处置这些数据,所以互联网平台也不拥有完整产权。因此,需要通过制度设计和密码学技术界定用户作为数据主体以及互联网平台作为数据控制者的权利,这会对他们之间的经济利益关系产生显著影响。

很多文章把数据比喻成新经济的石油。这个比喻实际上不准确。石油具有竞争性和排他性,属于私人产品,产权可以清楚界定,并形成了现货和期货等复杂的市场交易模式。很多数据难以清晰界定所有权,作为公共产品或准公共产品难以有效参与市场交易。因此,把数据比喻成阳光更为合适。

二、数据价值的内涵和计量

(一)数据价值的内涵

根据DIKW模型,从数据中提炼出信息、知识和智慧,隐含着数据价值链的概念。原始数据经过处理并与其他数据整合后,再经分析形成可行动的洞见,最终由行动产生价值。

数据价值可以从微观和宏观两个层面理解。在微观层面,信息、知识和智慧既可以满足使用者的好奇心(即作为最终产品),也可以提高使用者的认知,帮助他们更好做出决策(即作为中间产品),最终都是提高他们的福利。数据对使用者福利的提高,就反映了数据价值。在宏观层面,信息、知识和智慧有助于提高全要素生产率,发挥乘数作用,也是数据价值的体现。本文主要讨论微观层面的数据价值,有三个关键特征。

1.同样数据对不同人的价值可以大相径庭

第一,不同人的分析方法不一样,从同样数据中提炼出的信息、知识和智慧可以相差很大。在科学史上,很多科学家深入研究一些大众习以为常的现象并做出了重大发现。重物落地之于牛顿,闪电之于富兰克林,海水的蓝色之于拉曼,与它们对大众的价值是完全不一样的。

第二,不同人所处的场景和面临的问题不一样,同一数据对他们起的作用也不一样,对一些人可能是垃圾,对另一些人则可能是宝藏。比如,考古发现对历史研究者的价值很大,但对金融投资者则很可能没有价值。比如,另类数据包括个人产生数据、商业过程数据和传感器数据等,能帮助投资者做投资决策,但对非金融投资者则没有太大价值。不同的人可以在不同时间维度上使用数据,比如评估过去、分析当前、预测未来或回溯测试。使用目的不同,对数据的要求不一样,同一数据就意味着不同价值。

第三,不同制度和政策框架对数据使用的限定不一,也会影响数据价值。换言之,数据价值内生于制度和政策。比如,互联网平台获得用户数据后,如果不恰当保护和使用,不尊重用户隐私,将影响品牌形象和用户信任,降低对数据价值和公司价值。2020年4月,美国联邦法院批准Facebook与美国联邦贸易委员会就剑桥分析丑闻的50亿美元和解协议。

2.数据价值随时间变化

第一,数据有时效性。很多数据在经过一段时间后,因为不能很好反映观察对象的当前情况,价值会下降。这种现象称为数据折旧。数据折旧在金融市场中表现得非常明显。在DIKW模型中,将数据提炼为信息、知识和智慧,并且提炼层次越高,就越能抵抗数据折旧。

第二,数据有期权价值。新机会和新技术会让已有数据产生新价值。在很多场合中,收集数据不仅是为了当下需求,也有助于提升未来福利。

3.数据会产生外部性

第一,数据对个人的价值称为私人价值,数据对社会的价值称为公共价值。数据如果具有非排他性或非竞争性,就会产生外部性,并造成私人价值与公共价值之间的差异。这种外部性可正可负,没有定论。

第二,数据与数据结合的价值,可以不同于它们各自价值之和,是另一种外部性。但数据聚合是否增加价值,也没有定论。既可能存在规模报酬递增情形,比如更多数据更好揭示了隐含规律和趋势,也可能存在规模报酬递减情形,比如更多数据引入更多噪声。但总的来说,数据容量越大,数据价值不一定越高,数据内容也很重要。

(二)数据价值的计量

1.绝对估值

鉴于数据价值的三个关键特征,数据的绝对估值比较难,没有公认方法。目前行业实践中有四种主要方法,但都有缺陷。

第一,成本法,也就是将收集、存储和分析数据的成本作为数据估值基准。这些成本有软件和硬件方面的,也有知识产权和人力资源方面的,还有因安全事件、敏感信息丢失或名誉损失而造成的或有成本。数据收集和分析一般具有高固定成本、低边际成本特征,从而有规模效应。成本法尽管便于实施,但很难考虑同样数据对不同人、在不同时间点以及与其他数据组合时的价值差异。

第二,收入法,也就是评估数据的社会和经济影响,预测由此产生的未来现金流,再将未来现金流折现到当前。收入法在逻辑上类似公司估值中的折现现金流法,在理论上比较完善,但实施中面临很多障碍。一是对数据的社会和经济影响建模难度很大。二是数据的期权价值如何评估。实物期权估值法是一个可选方法,但并不完美。

第三,市场法,也就是以数据的市场价格为基准,评估不在市场上的数据的价值。市场法类似股票市场的市盈率和市净率估值方法。市场法的不足在于,很多数据很难参与市场交易。目前,数据交易有一些尝试,但市场厚度和流动性都不够,价格发现功能不健全。另外,一些公司兼并收购价格着包含着对数据的估值,但不易分离出来。

第四,问卷测试法。这个方法主要针对个人数据,通过问卷测试个人愿意收多少钱以出让自己的数据,或愿意花多少钱保护自己的数据,从而评估个人数据的价值。这个方法应用面非常窄,实施成本较高。

2.相对估值

数据相对估值目标是,给定一组数据以及一个共同的任务,评估每组数据对完成该任务的贡献。与绝对估值相比,相对估值要简单一些,特别是针对定量的数据分析任务,可以参考Shapley值。数据相对估值说明,同一数据在用于不同任务,使用不同分析方法,或与不同数据组合时,体现出的价值是不同的。比如,偏离数据集合“主流”的数据,在相对估值上可能比靠近数据集合“主流”的数据高,这显示了“异常值”的价值。

三、数据要素的配置机制

数据有多种类型和不同特征,产生了不同的配置机制。因为很多数据不适合参与市场交易,很多配置机制不属于市场交易模式。换言之,市场化配置不等于市场交易模式。

(一)作为公共产品的数据

数据作为公共产品时,由私人部门提供会有供给不足的问题,一般由政府部门利用税收收入提供。政府部门的数据开放和共享项目可以在这个框架下理解。政府部门应该在不涉密的前提下,尽可能向社会和市场开放政府数据,这样才能最大化政府数据的公共价值。

2009年,美国联邦政府推出数据开放门户网站Data.gov,为之前分散在联邦政府不同机构的网站上数据统一提供托管平台。2019年,美国《开放政府数据法案》要求,除涉及国家安全和其他特殊原因的数据以外,联邦政府应该在线发布它们拥有的数据,并且这些公开数据采取标准化、机器可读形式。2016年以来,我国颁布《政务信息资源共享管理暂行办法》、《公共信息资源开放试点工作方案》等一系列文件,开启政务数据共享开放进程。

(二)作为准公共产品的数据

作为准公共产品的数据如果在所有权上较为清晰,并且具有排他性,主要有三种配置机制。第一,作为俱乐部产品的数据,可以采取付费订购模式,比如收费媒体信息终端。

第二,数据信托模式。数据信托可以采取不同形式,比如法律信托、契约、公司以及公共和社区信托等。数据信托的主要目标包括:一是使数据可被共享;二是促进公共利益以及数据分享者的私人利益;三是尊重那些对数据有法律权利的人的利益;四是确保数据以合乎伦理和数据信托规则的方式共享。

第三,开放银行模式。银行通过应用程序界面(API)将用户数据开放给经授权的第三方机构,以促进用户数据的开发使用。银行既限定哪些用户数据可开放,也限定向哪些机构开放。这实际上是部分实现用户数据的可携带性。

(三)互联网平台的数据获取模式

互联网平台经常为用户提供免费资讯和社交服务,目标是扩大用户量,并获得用户的注意力和个人数据(比如用户喜好、消费特征和社会联系等)。在这个模式中,可以认为用户用自己的注意力和个人数据换取资讯和社交服务。互联网平台一方面是通过广告收入变现用户流量,另一方面基于用户个人数据进行精准营销和开发信贷产品等。

这个模式主要有三个弊端:第一,互联网平台与用户之间地位不平等,容易在未经用户授权的情况下收集用户数据,或过度收集用户数据,或把从甲业务中收集到的个人数据用于乙业务,从而造成隐私侵犯和数据滥用问题。第二,互联网平台如果形成捕获性生态,会锁定用户,并在事实上控制用户数据。用户很难将自己数据开放给或迁移到互联网平台的竞争对手。互联网平台通过数据垄断对竞争者构成不公平竞争。第三,难以保证用户提供个人数据后获得了合理报酬。比如,用户是否为不太有价值的资讯而揭示了重要个人信息?如何纠正这些弊端,是个人数据管理中的核心问题。

(四)数据要素市场

因为数据类型和特征的多样性,以及数据价值缺乏客观计量标准,目前并不存在一个集中化、流动性好的数据交易市场。但数据的点对点交易(类似场外交易)一直在发生,比如另类数据市场。这个市场中存在大量的另类数据提供商,并发展出咨询中介、数据聚合商和技术支持中介等,作为连接数据买方(主要是投资基金)和数据提供方之间的桥梁。但这个市场仍很不透明且非标准化。这是目前数据交易面临的普遍问题。更不容忽视的是非法数据交易,比如交易个人隐私数据的“数据黑市”和“数据黑产”。2019年以来,我国对“数据黑产”开展了集中整顿。

如何建立合规有效的数据要素市场?一个可行选项是使用密码学技术,包括可验证计算、同态加密和安全多方计算。比如,在同态加密和安全多方计算下,对外提供数据时采取密文而非明文形式,从而使数据具备排他性。这些密码学技术支持数据确权,使得在不影响数据所有权的前提下交易数据使用权成为可能,并构建数据交易的产权基础。区块链技术用于数据存证和使用授权,也在数据产权界定中发挥重大作用。

但即便如此,基于密码学的数据要素市场也不同于传统市场。首先,同一数据在加密后可以同时向多方提供,因此仍然是非竞争性的,除非数据使用者与数据控制者之间签署保密协议,或者数据有很强的时效性,一经使用后很快失去价值。换言之,数据很难像私人产品那样参与市场交易。其次,同一数据对不同人的价值可以差别很大。这使得在基于密码学的数据使用权交易中,应用场景对数据价值的影响可能超过了数据本身特征和内容的影响,很难从数据交易价格中提炼出有价值的定价信息。因此,基于密码学的数据要素市场不会采取“对同一商品,多个买方竞价,价高者得”的配置模式。

(五)数据产权界定

数据产权界定是数据要素有效配置的基础。数据产权主要分为所有权和控制权。数据控制权包括谁能使用数据,如何使用数据,以及能否进一步对外分享数据等。在公司治理中,所有权和控制权是统一的——股东拥有公司,股东大会是公司的最高权力机关。但数据的所有权和控制权可以分离,特别是对所有权不清晰的个人数据。数据产权可以通过技术来界定(见前文),也可以通过制度设计来界定。

2018年5月,欧盟开始实施《通用数据保护条例》(GDPR)。GDPR给予数据主体广泛权力,包括:第一,被遗忘权,指数据主体有权要求数据控制者删除其个人数据,以避免个人数据被传播;第二,可携带权,指数据主体有权向数据控制者索取本人数据并自主决定用途;第三,数据主体在自愿、基于特定目的且在与数据控制者地位平衡等情况下,授权数据控制者处理个人数据,但授权在法律上不具备永久效力,可随时撤回;第四,特殊类别的个人数据的处理条件,比如医疗数据。GDPR还提高了对数据控制者的要求,包括:第一,企业作为数据控制者必须在事前数据采集和事后数据泄露两个环节履行明确的告知义务;第二,数据采集与数据使用目标的一一对应原则,以及数据采集(范围、数量、时间、接触主体等)最小化原则;第三,个人数据跨境传输条件。总的来说,GDPR引入了数据产权的精细维度,包括被遗忘权、可携带权、有条件授权和最小化采集原则等,建立了数据管理的制度范式。这些做法被欧盟以外的很多国家和地区所采纳。2019年5月,我国网信办发布《数据安全管理办法(征求意见稿)》。2019年12月,国家网信办、工信部、公安部和市场监管总局四部门联合印发《App违法违规收集使用个人信息行为认定方法》。

个人数据管理的核心问题隐私保护。隐私涉及个人与他人、私有与公开的边界,是个人尊严、自主和自由的重要方面。隐私不排斥共享个人信息,而是要有效控制共享过程,在保护和共享个人数据之间做好平衡。对个人数据,控制权和隐私保护的重要性超过所有权。GDPR体现了这一点。

(作者系万向区块链公司首席经济学家)

文章作者

    邹传伟

责任编辑:

Thenews.cc