前言 PREFACE

信息和网络技术的高速发展使得大数据成为当前学术界和工业界的研究热点,数据爆炸式的增长给人类社会带来了前所未有的机遇与挑战。一方面,基于大数据的处理、分析和共享等技术可以提高企业经济和社会效益。另一方面,隐私已经成为大数据应用领域亟待解决的重要问题。在大数据时代,如何做到获取和利用数据与个人隐私安全的平衡,已然成为当下亟须解决的一个时代命题。公众希望在大数据技术和隐私的矛盾冲突中于哲学里找到一种统一和指导的力量,尤其盼望在科技进步和隐私保护之间寻求汇通和融合,化解科技异化和隐私保护的对立,重塑人的尊严,增进民众幸福和自由。

在大数据时代,个人信息隐私保护技术面临着几个方面的挑战:(1)大数据的海量规模以及飞速的实时性变化使得传统的被动式隐私保护技术很难适应。与此同时,在数据收集阶段,数据生成者无法主动地参与隐私保护,使得传统的被动式隐私保护技术束手无策。(2)大数据多样性带来的多源数据融合使得隐私泄露风险大大增加。由于用户数据的广泛分布,使得多个数据集都有可能存在某个个体或者与之关联的信息,这使得融合之后的数据集的隐私风险相比于单个数据集的隐私风险加大。(3)在大数据的环境下,大数据存储者和拥有者完全分离,如何确保合适的数据及属性能够在合适的时间和地点,给合适的用户访问和利用,是大数据访问和使用阶段面临的主要风险。由于云存储服务提供商并不能保证完全可信,用户的数据面临着被不可信的第三方偷窥或者篡改的风险,同时大数据的查询、统计、分析和计算等操作也需要在云端进行,这为传统加密技术带来了新的挑战。(4)当前的大数据隐私保护领域相关研究在隐私泄露风险的度量方法以及造成损失而进行的妥善事后补救措施等方面稍显不足。尽管数据生产者和收集者使用各种方法来保护隐私,但隐私泄露事件仍频频发生。因此需要一种方法来度量隐私泄露带来的潜在风险,并针对隐私泄露造成的危害采取相应的法律治理手段来规范。

本书针对上述问题,将隐私保护技术与用户的应用场景相结合,考虑整个数据生命周期存在的隐私泄露风险,围绕着不同场景、不同生命阶段采取对应的隐私保护技术进行相关研究。全书共分为6章:第1章为绪论,介绍了大数据时代隐私内涵的构成要素以及发展变迁历史,并从技术层面、社会层面、个人层面列举了大数据环境下隐私安全的表现形式,总结了当前个人隐私被侵害的类型以及呈现的特征;第2章为隐私泄露风险评估与度量方法,针对常用的隐私保护方法,详细介绍了当前隐私量化模型与度量标准的相关研究,并分析了主流的隐私度量方法的性能优劣以及评价指标;第3章为位置服务中隐私保护技术,针对问题挑战一,选取了基于位置服务这一应用场景,在实际路网条件限制下,对当前的位置隐私保护技术研究现状进行了回顾与分析,并介绍了P2P结构与独立架构两种模式下位置隐私保护技术方案。第4章为深度学习训练数据集隐私保护技术,针对问题挑战二,选取了深度学习训练数据集隐私保护作为应用场景,以差分隐私保护作为技术基础,提出了两种差分隐私技术与深度学习模型结合的隐私保护技术方案;第5章为区块链数据隐私保护技术,针对问题挑战三,选取了区块链平台中的数据隐私保护作为研究对象,详细介绍了当前的区块链隐私保护机制以及研究进展。并以电子健康记录数据为例,讨论了该场景下的区块链数据隐私保护方法。第6章为数据隐私治理机制与法律监管,针对问题挑战四,详细介绍了当前数据隐私监管过程中存在的现实困境和监管挑战,阐述了各国对数据隐私监管采取的治理模式以及经验,并结合我国的实际现状,介绍了我国对数据隐私保护治理相关的法律规则。

本书内容主要是基于本人近五年的研究成果汇集而成,写作过程一波三折,几经提笔,几经放下,断断续续若干年,此次出版算是对多年积压任务的一个交代。本书在写作过程中参考了大量隐私保护研究相关的资料文献,详细书目参见每章最后的参考文献。可以说,没有它们的贡献,也就没有本书的出版,在此向有关作者表示由衷的感谢。同时,由于时间仓促,很多参考文献没有一一列出,在此向相关作者表示歉意。

由于信息技术的快速发展和处于不断更迭的状态,加之作者水平有限,书中难免存在一些不足之处,敬请读者批评指正。

毛典辉

2019年2月春节

于北京工商大学耕耘楼