2. 上海电力学院 计算机科学与技术学院, 上海 201300;
3. 中国人民大学 信息学院, 北京 100872
2. School of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 201300, China;
3. School of Information, Renmin University of China, Beijing 100872, China
定位技术、无线通信技术以及移动智能设备(如智能手机、平板电脑)的普及产生了海量位置数据, 这为基于位置的服务(LBS)奠定了基础. LBS是与位置信息相关的服务请求, 它把用户位置信息和查询请求一同发送给位置服务提供商并得到服务结果.典型的LBS服务包括车辆导航、路径规划、兴趣点搜索等.连续查询持续地向LBS服务器发送位置信息, 并获取服务结果(如在车辆行驶过程中连续寻找周边最近的加油站、饭店等).
然而, 用户在享受LBS带来便利的同时, 个人隐私泄露问题也不可回避.攻击者根据用户发起的连续查询, 收集这些位置信息, 再重构出用户轨迹, 从而推测出用户的工作地、居住地, 甚至用户的行为模式等敏感信息.更糟糕的是, LBS服务器可能会因经济利益而把人们的私人信息出售给恶意第三方, 如房地产中介、广告提供商等, 从而对人们的日常生活造成困扰.许多用户会因注重自己的隐私信息而对LBS服务器持保留的态度.因此, 在为用户提供高质量的实时查询服务的同时如何保障用户的个人隐私不泄露, 成为了一个关键问题.
许多学者提出了多个方案来保护轨迹隐私, 例如用虚假轨迹技术[1-2].考虑图 1这样的场景, 用户
鉴于此, 本文提出了一个新方案, 用以提升用户轨迹隐私的保护程度.首先, 考虑到不同地点在历史数据库中的出现频度不同, 在生成假位置/假轨迹时选择与真实位置相似性较高的若干地点作为候选位置; 其次, 候选位置在一个用户可控的范围之内进行挑选, 而不一定靠近某个真实位置, 这样即可以避免候选位置与用户位置聚集在小范围区域内, 又能防止候选位置与用户位置距离过远, 使得服务质量和隐私均得到保障; 最后, 考虑了实际环境下相邻时刻位置间的关系, 使得生成的假轨迹更加合理以便混淆用户轨迹, 提高轨迹隐私保护程度.
本文的贡献总结如下.
(1) 设计了一个新的轨迹隐私度量"标准", 基于该度量标准可计算新方案所取得的隐私保护程度.
(2) 提出了DTG算法, 达到了轨迹
(3) 提出了EnDTG算法, 进一步提高了轨迹
(4) 采取真实数据集对所提方案与现有主流方案进行了对比实验.评价结果表明, 本文提出的新方案在隐私保护方面要优于其他的方案.
本文余下部分组织如下:第1节讨论轨迹隐私保护的一些相关工作; 第2节形式化地定义问题; 第3节介绍本文所提出的方案; 第4节展示实验结果与分析; 第5节总结全文.
![]() |
图 1 虚假轨迹的例子 Fig.1 An example of dummy trajectories |
近几年来, 轨迹隐私保护的研究已经取得了显著的进步, 文献[3]总结了最新的隐私保护技术并将它们划分为空间匿名[4-6]、混合区域[7-8]和虚假轨迹[1-2]等技术.近来, 差分隐私技术和加密技术也被用于保护轨迹隐私.
在基于空间匿名技术中, 借助可信的位置匿名器, 通过位置匿名算法模糊用户精确位置, 将精确位置变成匿名区域来减少用户位置信息的分辨度.文献[5]提出了Interval Cloaking匿名算法, 该算法采取四叉树结构存储用户位置信息, 四叉树的最底层叶子节点的划分以最小匿名面积作为标准, 每次更新均需要采用递归算法, 从上到下对区域进行四叉树划分, 以求得匿名区域.文献[4]介绍了一个系统框架, 该系统框架可以根据隐私要求让用户匿名获取快照查询和连续查询服务.文献[9]用在一个匿名区域内依据最大行驶速度确定用户位置的方法来解决连锁攻击问题.
混合区域技术综合采用混合区和假名两种技术.当用户进出混合区时变化其假名来保护用户的轨迹信息.在混合区中, 所有用户都不允许将自身位置信息发送给LBS服务器, 这样攻击者无法将用户进入与离开混合区的事件相联系, 从而保护了用户的隐私.文献[8]提出了一个基于路网的混合区框架以保护行驶在路网上移动用户的位置隐私, 该框架考虑了路网拓扑结构、用户群体统计、用户移动模式特征等因素.在实际路网上, 为了减少因混合区过多而造成用户服务中断的影响, 文献[7]优化了对混合区的设置, 限制了混合区的数量.
假轨迹技术方案并不依赖于位置匿名器, 而是在客户端上为每条轨迹产生多条相似的虚假轨迹, 从而保护用户轨迹.文献[1]采用旋转方案, 通过旋转虚假轨迹和用户轨迹之间的角度产生虚假轨迹集, 从而实现轨迹
随着计算速度的提高与安全算法的更新, 密码学进入了轨迹隐私保护领域.文献[10]提出了一种支持隐私位置相关查询的隐私信息检索框架, 该框架不必使用第三方可信匿名服务器.文献[11]使用同态加密技术取得了很好的隐私效果, 唯一不足的是它的计算开销远大于传统隐私保护技术.文献[12]在车载网络中运用加密机制来提高轨迹隐私保护程度.文献[13]进一步分析了文献[11]的计算开销, 认为仅仅加密部分数据就能提升性能.
2 问题定义令轨迹
定义1(位置可达性) 令
$ \begin{align} \frac{|\rm {dis}(D_x^{t_{i-1}}, D_x^{t_i})-\rm {dis} (U^{t_{i-1}}, U^{t_i})|}{\rm {dis}(U^{t_{i-1}}, U^{t_i})}\leq \beta \end{align} $ | (1) |
成立.
位置可达性使得拟生成的某个位置不会过分偏离真实位置.当生成一组虚假位置时, 还需要从整体上考虑所生成数据的隐私性.这其中, 信息熵的度量标准被广泛采用[14-15].本文扩展了这个概念, 提出了
定义2(k-匿名集信息熵) 在
$ \begin{align} H^{t_i}=-\sum\limits_{j=1}^ k q_j\times \rm {log}_2q_j \end{align} $ | (2) |
定义.
由于一条轨迹包含多个位置点, 为了从整体上考虑拟生成轨迹的隐私性, 本文基于信息熵提出了轨迹熵的概念.
定义3(轨迹熵) 考虑一个包含
$ \begin{align} HT=\frac{1}{n}\sum\limits_{j=1}^ n(H^{t_i}-\rm {log}_2k)^2, \end{align} $ | (3) |
其中log
易知, 当HT越小, 则用户轨迹的隐私程度越高; 反之, 用户轨迹不确定性程度越低.
3 提出的新方案本节首先介绍系统架构, 然后再介绍DTG算法和EnDTG算法, 最后分析安全性.
3.1 系统架构由于实时位置/轨迹隐私保护方案[14]需要消耗大量计算资源, 全部工作在移动客户端上完成并不可行.因此, 本文采用集中式架构作为方案的系统架构.该架构包括客户端、可信位置匿名服务器和LBS服务器, 如图 2所示.客户端是指用户携带的移动设备, 如智能手机、电脑或者相关车载设备.可信位置匿名服务器包含历史数据库、匿名化模块和结果处理模块:历史数据库保存历史用户轨迹和每个单元格的查询概率; 匿名化模块接收客户端发送过来的位置和查询请求(请求包括隐私等级
![]() |
图 2 系统架构 Fig.2 System architecture |
算法1描述了虚假轨迹生成的详细步骤.为了避免所生成的虚假位置过于集中, 以减少用户位置被推测出来的概率, 本文首先基于用户真实位置
算法1 虚假轨迹生成算法 |
输入: 最小匿名区域面积 |
输出: 虚假位置集DummyList |
1:生成一个随机整数 |
2: |
3: |
4:生成两个随机整数 |
5:构造匿名区域 |
6:构造概率集 |
7: CellListCR中 |
8: return GenerateResult (CellList, |
GenerateResult算法见算法2.首先从CellList中选出
算法2 生成结果集GenerateResult |
输入: 单元格列表CellList, 当前时刻用户位置 |
输出: |
1: for |
2: TempList |
3: 通过公式(2)计算TempList |
4: end for |
5: CandidateList |
6: for |
7: DistanceList |
8: |
9: end for |
10: DummyList |
11: return DummyList; |
图 3描述了一个DTG算法的运行样例.地图区域被栅格化为多个单元格, 白色单元格表示查询概率为0, 灰色单元格表示查询概率大于0, 且不同图案表示查询概率的高低.为简化表示, 只画出用户位置
![]() |
图 3 DTG算法的一个运行实例分析 Fig.3 A running instance of DTG algorithm |
算法1在每个时间点单独生成虚假位置集合, 这样做的效率较高.但是, 由于该算法并未考虑到相邻位置之间的空间相关性, 可能会被拥有背景知识的攻击者攻击.例如, 在图 1中,
EnDTG算法(算法3)新增了对
算法3 增强型虚假轨迹生成算法EnDTG |
输入: 在 |
输出: |
1: Dis |
2: foreach |
3: for |
4: if |
5: LRList |
6: end if |
7: end for |
8: end for |
9: CellList |
10: return GenerateResult(CellList, |
![]() |
图 4 算法的一个运行实例分析 Fig.4 A running instance of the EnDTG algorithm |
时间复杂度是衡量算法性能的一个重要指标.对于DTG算法而言, 比较耗时有3部分:第一部分需要寻找出4
相比于DTG算法, EnDTG算法增加了位置可达性检测部分.首先需要对CR中所有单元格的位置是否满足位置可达性要求进行检测, 因此这部分操作的时间复杂度为O(abk); 然后对LRList进行选出最相似的4
考虑两种类型的攻击者:外部攻击者和内部攻击者.外部攻击者能够窃听可信位置匿名器与LBS服务器之间不安全的无线信道, 从而尝试推断出用户的敏感信息.内部攻击者包含两种类型:一种是能够通过攻击可靠的LBS服务器来获取敏感信息; 另一种是把本身不可控的LBS服务器作为攻击者.在本文中, 由于LBS服务器收集了用户的所有信息, 包括用户的当前位置以及历史的查询请求等, 基于这些内容, 它可能会发起推理攻击推断出用户更多的敏感信息.因此, 本文把LBS服务器当做外部攻击者.
安全性分析将关注本文所提算法是如何抵挡由攻击者发起的一些攻击, 如窃听攻击、联合攻击等.对于窃听攻击而言, 一些常用的加密技术如SSL[16]可以运用到本方案通信信道上, 可有效地抵御窃听攻击的发生.此外, 本文方案还可以有效抵御联合攻击以及推断攻击.
(1) 抵御联合攻击.联合攻击是指攻击者会联合其他一些用户或者LBS服务器, 从用户提交的
(2) 抵御推理攻击.推理攻击是指LBS服务器可以通过监视用户发送过的所有服务请求, 包括当前请求和历史请求, 从而提高推测出用户位置信息的概率.在本文方案中, DTG算法与EnDTG算法在同一个时刻里不但选取了具有与用户位置的查询概率最相似的单元格作为候选集, 而且在该候选集中考虑了两两位置间的最大距离之和; 此外, EnDTG算法还引入了位置可达性条件, 使得相邻时刻位置间的距离更近合理有效, 这样攻击者无法提高推测出用户位置的概率.因此, 本文的方案能够有效抵御推理攻击.
4 实验评估 4.1 实验设置在实验中, 本文选取上海市某12 km
在比较方案中, 将本文提出的DTG算法和EnDTG算法与现有的3种主流算法进行了比较. 3种主流算法为随机Random算法[17]、根据历史轨迹取得轨迹
(1) k与隐私保护程度.分别对各个方案的单个时刻下的匿名集信息熵和连续查询下的轨迹熵进行了分析. 图 5(a)验证了不同
![]() |
图 5 |
(2) k与距离之和. 评估了在特定时刻
![]() |
图 6 |
(3) k与位置可达性LR的数量.评价
![]() |
图 7 |
本文针对实时轨迹隐私保护的问题, 提出了两个算法:虚假轨迹生成(DTG)算法和增强型虚假轨迹生成(EnDTG)算法. DTG算法使用传统的空间匿名和虚假技术, 引入信息熵模型, 构建
[1] | LEI P R, PENG W C, SU I J, et al. Dummy-based schemes for protecting movement trajectories[J]. Journal of Information Science & Engineering, 2012, 28(2): 335-350. |
[2] | NIU B, LI Q, ZHU X, et al. Achieving k-anonymity in privacy-aware location-based services[C]//IEEE Infocom 2014-IEEE Conference on Computer. IEEE, 2014: 754-762. DOI: 10.1109/INFOCOM.2014.6848002. http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6848002 |
[3] | CHOW C Y, MOKBEL M F. Trajectory privacy in location-based services and data publication[J]. ACM SIGKDD Explorations Newsletter, 2011, 13(1): 19-29. DOI:10.1145/2031331 |
[4] | CHOW C Y, MOKBEL M F, AREF W G. Casper*: Query processing for location services without compromising privacy[J]. ACM Transactions on Database Systems, 2009, 34(4): Article No 24. DOI: 10.1145/1620585.1620591. |
[5] | GRUTESER M, GRUNWALD D. Anonymous usage of location-based services through spatial and temporal cloaking[C]//MobiSys 2003: The 1st International Conference on Mobile Systems, Applications, and Services. USENIX Association, 2003: 31-42. http://dl.acm.org/citation.cfm?id=1189037 |
[6] | MOKBEL M F, CHOW C Y, AREF W G. The new Casper: Query processing for location services without compromising privacy[C]//Proceedings of the 32nd International Conference on Very Large Data Bases. 2006: 763-774. http://dl.acm.org/citation.cfm?id=1164193 |
[7] | FREUDIGER J, SHOKRI R, HUBAUX J P. On the optimal placement of mix-zones[C]//International Symposium on Privacy Enhancing Technologies. Berlin: Springer, 2009: 216-234. http://dl.acm.org/citation.cfm?id=1614521 |
[8] | PALANISAMY B, LIU L. Attack-resilient mix-zones over road networks:Architecture and algorithms[J]. IEEE Transactions on Mobile Computing, 2015, 14(3): 495-508. DOI:10.1109/TMC.2014.2321747 |
[9] | GHINITA G, DAMIANI M L, SILVESTRI C, et al. Preventing velocity-based linkage attacks in location-aware applications[C]//ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 2009: 246-255. http://dl.acm.org/citation.cfm?id=1653807 |
[10] | GHINITA G, KALNIS P, KHOSHGOZARAN A, et al. Private queries in location based services: Anonymizers are not necessary[C]//Proceeding the 2008 ACM SIGMOD International Conference on Management of Data. ACM, 2008: 121-132. http://dl.acm.org/citation.cfm?id=1376631 |
[11] | LU R X, LIN X D, SHI Z G, et al. PLAM: A privacy-preserving framework for local-area mobile social networks[C]//IEEE INFOCOM 2014-IEEE Conference on Computer Communications. IEEE, 2014: 763-771. http://ieeexplore.ieee.org/document/6848003/ |
[12] | DAHL M, DELAUNE S, STEEL G. Formal analysis of privacy for vehicular mix-zones[C]//Proceedings of the Computer Security-ESORICS 2010, European Symposium on Research in Computer Security. DBLP, 2010: 55-70. |
[13] | OLUMOFIN F, GOLDBERG I. Revisiting the computational practicality of private information retrieval[C]//International Conference on Financial Cryptography and Data Security. Berlin: Springer, 2011: 158-172. |
[14] | XU T, CAI Y. Location anonymity in continuous location-based services[C]//Proceedings of the 15th Annual ACM International Symposium on Advances in Geographic Information Systems. ACM, 2007: Article No 39. DOI: 10.1145/1341012.1341062. |
[15] | ABUL O, BONCHI F, NANNI M. Never walk alone: Uncertainty for anonymity in moving objects databases[C]//Proceedings of the 2008 IEEE 24th International Conference on Data Engineering. IEEE, 2008: 376-385. DOI: 10.1109/ICDE.2008.4497446. |
[16] | LIM N, MAJUMDAR S, SRIVASTAVA V. Security sieve:A technique for enhancing the performance of secure sockets layer-based distributed systems[J]. International Journal of Parallel Emergent and Distributed Systems, 2015, 31(5): 1-23. |
[17] | KIDO H, YANAGISAWA Y, SATOH T. An anonymous communication technique using dummies for locationbased services[C]//International Conference on Pervasive Services. IEEE, 2005: 88-97. http://doi.ieeecomputersociety.org/10.1109/PERSER.2005.1506394 |
[18] | XU T, CAI Y. Exploring Historical Location Data for Anonymity Preservation in Location-Based Services[C]//IEEE INFOCOM 2008-IEEE Conference on Computer Communications. IEEE, 2007: 547-555. http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4509698 |
[19] | NIU B, LI Q, ZHU X, et al. Enhancing privacy through caching in location-based services[C]//IEEE Conference on Computer Communications. IEEE, 2015: 1017-1025. |