请选择 进入手机版 | 继续访问电脑版

币仑财经-区块链社区媒体

何建平:网络系统中的数据隐私—量化、分析和设计

2018-11-1 12:13| 发布者: 币仑| 查看: 168| 评论: 0

摘要: 10月31日,万向区块链蜂巢学院联合矩阵元举办了“区块链+隐私计算与数据隐私保护”的分享活动,上海交通大学副教授何建平发表了《网络系统中的数据隐私:量化,分析和设计》的主题演讲,从隐私的量化的角度给大家介 ...

10月31日,万向区块链蜂巢学院联合矩阵元举办了“区块链+隐私计算与数据隐私保护”的分享活动,上海交通大学副教授何建平发表了《网络系统中的数据隐私:量化,分析和设计》的主题演讲,从隐私的量化的角度给大家介绍了保护算法分析与设计,带领大家从技术上深入了解数据隐私保护。以下为何建平教授演讲全文,有部分不影响原意的删减:


大家下午好,今天我演讲的题目是《网络系统中的数据隐私:量化,分析和设计》。今天的演讲主要分为四个方面:背景介绍、量化隐私、分析设计、趋势设计


背景介绍

随着互联网的发展以及各种智能设备、智能传感器的出现,我们已经到了信息爆炸的阶段。大数据的时代已经到来,在生活当中各个领域:商业大数据、农业大数据、医疗大数据以及工业大数据。


我们基于大数据可以做什么事情,有了这些数据之后可以进行算法设计、优化、预测,可以进行基于数据的控制和维护等等。从工业角度来说,可以通过大数据的分析提升工业生产的制造效率和质量,支持工业设备进行节能降耗。从互联网的思维来看,基于数据分析可以得到用户的喜好、偏好,可以基于这些分析的结果做一些广告的东西,商家可以更加的了解用户,最终推出用户更喜好的产品。


大数据的实用性决定了其价值,狭义的大数据通常指的是专门用于大数据的软件、硬件及服务。我们根据IDC和Wikibon等预测,全球的大数据核心产业规模约为200-300亿美元,据中国信息通信研究院预测,2017年我国大数据产业规模达到4700亿,现在还在持续的增长,增速达到30.6%,预计在今年可以达到6200亿人民币。增长速度在未来的2年内还会进一步维持。


大数据时代下,数据是一个双刃剑,给我们带来便利的同时,当然也可以给我们带来很多问题,最主要的问题就是隐私的问题。今年已经出现了很多隐私泄露的事件。印度10亿公民身份数据库得到攻击,这些信息都已经泄露、名字、电话号码、邮箱、指纹、虹膜等等都泄露了。今年3月份,一家英国的数据分析公司通过调查问卷的方式收集到Facebook 5000万用户的信息,用来做政治上的操作,对Facebook造成了很大的损失。一方面,互联网企业利用大数据给我们很多用户提供了很多的便利,从个人消费者来说,我们享受便利的同时,也有新的担心,就是各种隐私的信息遭到了泄露。如果利用大数据为生活带来便利的同时,利用技术手段保护用户的隐私这是一件非常有意义的事情。


大数据时代下,关于隐私有如下问题:

l  如何保护隐私?

l  怎么刻画隐私保护的程度?

l  数据的有用性和隐私之间的关系?

l  如何防护和优化?

l  大数据下的隐私保护新技术趋势?


量化隐私

为了回答上述问题我们首先需要了解隐私是如何被保护的,目前常用的隐私保护方法主要有两大类,加密加噪声


加密主要是指以算法的形式改变原有的信息数据,将明文进行加密处理后进行发送,收到数据的一方用已掌握的密钥对密文解密,从而还原出原始数据。未被授权的用户即使收到了信息,由于没有掌握密钥仍然无法获得原始数据。加密通常有两种,一种是对称加密,第二种是非对称加密。对称加密中加解密使用相同密钥,非对称加密中加解密使用不同密钥。但是加密方式存在一些问题,密钥有可能被丢,对称加密算法简单但容易破解,非对称复杂性高,但是要用数据的时候效率非常低。


另一种隐私保护方法是加噪声。这种保护隐私的方式有其优点:首先,它具有量化标准来评价隐私保护的等级;而且,通过设计噪声添加机制,在保护隐私的基础上可以保证数据的可用性。常见的添加的噪声有:拉普拉斯噪声、高斯噪声、均匀噪声,下图是它们的分布情况:

我个人比较喜欢加噪法,数据永远掌握在自己手里最安全的。加密你要用的话肯定要有一个解密的方法,一旦这个解密的方法泄露出去了,别人总是能看到的。


差分隐私

2006年C.Dwork提出差分隐私的概念,为隐私保护提供了一种量化评估方法。


若ϵ为一正实数,A为某一随机算法,如果对于两个只相差一个元素的相邻数据库D1和D2,以及所有的SRange(A),存在:

那么随机算法A可以实现ϵ-差分隐私,这里Range(A)代表随机算法A 的输出范围。


如下图,假设X和Y是比较近似的两个数据,A是你要去保护的技术,你是隐私保护的方法,在A作用下以后,两个数据的输出,给大家可以看到的O应该是差不多的,在这种情况下我们称之为随机保护的机制是差分隐私。差分隐私已经被苹果、谷歌公司应用于它们的产品当中来保护用户隐私。


分析设计

英国数据公司Cambridge Analytica通过调查申请收集了Facebook用户的信息,并将其滥用于政治目的,超过8000万Facebook用户的个人资料受到威胁,这一丑闻曝光后,Facebook损失了数百亿美元。这个事情背后的原因是:

l  第三方服务请求过多信息

l  用户不知道共享信息的潜在威胁


究其原因主要是这两点,针对这样一个事情,我们设计了一个全新的第三方信息共享的框架。我们的研究目标是通过控制与第三方共享的信息,最大限度地实现隐私保障下地安全自我信息披露,所谓自我隐私披露指的是我为了享受社交网络带给我的正常的服务而愿意暴露的个人信息,为了通过巧妙地隐藏用户信息有效降低推理攻击的准确,减少对用户体验的损害,满足不同用户的隐私问题,我们提出了两种隐私保护数据共享算法,EPPD和D-KP,分别侧重于最大化用户体验和降低计算复杂度。


如下图所示是我们的系统实现的展示,在原有的第三方系统认证OAuth2基础上引入了我们的隐私保护算法。左图我们给用户提供了一个对第三方服务信任度选择的接口,并且清楚的告诉用户第三方所请求的各项服务,方便用户决定暴露多少的个人信息。

通过在实际的数据集上仿真,我们可以看出引入了我们提出的算法之后能够大大降低推理攻击,对于机器学习推测用户习惯,我们的算法大大降低了常见分类器的准确性,保证了就算攻击者在一个应用上学习到了我的一些用户习惯,也不能如法炮制到下一个软件。可见我们的算法在最大限度地提高用户数据公开度的基础上提供了更强的隐私保护。

随着大型互联网系统的快速发展,各种灵活多变的系统架构模型层出不穷,主要分为集中式和分布式两大类:

 集中式:依赖中心节点,一旦中心节点遭到攻击,整个系统性能都会受到影响,可拓展性差

l  分布式:不存在中心化的节点,任意节点的权利和义务都是均等的,系统中的数据块由整个系统中具有维护功能的节点来共同维护,任一节点停止工作都会不影响系统整体的运作 


分布式数据统计正是分布式系统的重大应用之一。与传统的数据统计不同:分布式数据利用分布式技术对数据进行统计和学习,将原先集中在单节点上的庞大计算任务均衡的分派给若干台可相互通信的计算机上并行处理。分布式数据统计提供异构的隐私保护一致性框架,这种方法既能准确统计结果,又量身定制般地为每个用户的隐私不同程度地保护。


我们提出了两阶段框架。首先将用户分为不同小组,白色节点表示数据服务器,N个数据服务器构建成分布式网络。一个数据服务器负责从一组用户中收集数据。


阶段一:服务器搜集用户数据

不同的数据服务器从不同的用户组收集私有数据,从用户的角度考虑,用户认为直接上传数据的服务器有泄密风险,因此在数据报告之前,用户首先用高斯噪声扰乱其数据。而噪声方差由用户的隐私需求决定。


阶段二,服务器协作统计数据

当所有服务器完成数据聚合后,如何统计整个用户群体的结果呢?服务器网络执行一致性算法,在一致性过程中,服务器节点要将自己的信息释放出去获得相邻服务器节点的信息从而更新自身的状态。



鲜花

握手

雷人

路过

鸡蛋

最新评论

Powered by 币仑

© 2017-2018 币仑 Inc.

返回顶部