Please wait a minute...

当期目录

    2017年, 第2017卷, 第5期 刊出日期:2017-09-25 上一期    下一期
    全选选: 隐藏/显示图片
    数据管理
    基于分布式系统OceanBase的并行连接
    徐石磊, 王雷, 胡卉芪, 钱卫宁, 周傲英
    2017 (5):  1-10.  doi: 10.3969/j.issn.1000-5641.2017.05.001
    摘要 ( 628 )   HTML ( 18 )   PDF(771KB) ( 993 )  
    随着应用数据的飞速增长以及分布式数据库系统的不断涌现,数据存储在物理独立的节点已经成为一种趋势.在这种情况下,当应用需要进行复杂join查询时,就会不可避免地产生非常多的网络传输代价.所以,如何提高分布式系统中join查询的效率成为研究热点.本文在分析分布式数据库系统OceanBase执行nested loop join、Hashjoin、semi-join等算法的基础上,提出了合理利用硬件资源采用多线程并行执行join操作的优化思想,并在OceanBase数据库中分别对nested loop join、Hashjoin、semi-join等算法进行了并行改造.实验结果表明,在一定线程数内join算法执行效率与并行度呈正相关.
    参考文献 | 相关文章 | 计量指标
    支持非等值连接的分布式数据流处理系统
    陈明珠, 王晓桐, 房俊华, 张蓉
    2017 (5):  11-19.  doi: 10.3969/j.issn.1000-5641.2017.05.002
    摘要 ( 428 )   HTML ( 90 )   PDF(641KB) ( 623 )  
    实时处理的分布式数据流系统在当今大数据时代扮演着越来越重要的角色.其中,连接查询是大数据分析处理中最为重要且开销较大的操作之一.然而,由于现实应用产生的数据普遍存在倾斜分布现象,加之数据流本身的无界性与不可预知性,给在分布式数据流系统上进行连接查询处理提出了严峻的挑战.目前工业界较为主流的数据流系统处理连接查询的通用性较低,没有提供专门针对连接操作的接口;学术界推出的数据流连接查询原型系统虽然提供了接口,但大多面向等值连接,或仅能支持部分theta连接,且存在资源开销大、负载均衡性能低等问题.本文对比分析三种典型数据流系统,将基于Join-Matrix的连接处理技术与Storm系统相结合,设计并实现了通用的、可支持任意连接查询的数据流处理系统.实验展示了本文设计的系统具有更加良好的吞吐量与资源优化表现.
    参考文献 | 相关文章 | 计量指标
    异构Redis集群大规模评论数据存储负载均衡设计
    张敬伟, 丁志均, 杨青, 张会兵, 张海涛, 周娅
    2017 (5):  20-29.  doi: 10.3969/j.issn.1000-5641.2017.05.003
    摘要 ( 699 )   HTML ( 19 )   PDF(643KB) ( 814 )  
    大规模评论数据的存储与查询性能对构建于其上的各类应用的快速响应具有重要影响.同时,异构计算环境中各计算节点性能呈现差异,如何充分开采各节点的计算和存储性能,优化大规模评论数据的存储与查询性能,是一个关键挑战.基于Redis集群的数据管理优势,首先提出了一种同构环境下基于卡槽存储平衡的大规模评论数据存储模型;然后论证了卡槽数目与节点查询效率的关系,以"负载与访问性能相平衡"的原则分配卡槽,进一步设计了异构环境下的集群节点负载计算和存储分配方法,充分开采了异构Redis集群中不同节点的性能.实验结果表明,提出的存储模型具有很好的存储平衡效果,提升了集群的整体查询效率.
    参考文献 | 相关文章 | 计量指标
    面向CLAIMS基于Smart物化策略的列存储设计与实现
    张晗, 周敏奇
    2017 (5):  30-39.  doi: 10.3969/j.issn.1000-5641.2017.05.004
    摘要 ( 409 )   HTML ( 17 )   PDF(621KB) ( 542 )  
    物化是列存储数据库查询中必不可少的操作,物化策略和物化技术在查询执行过程中起着至关重要的作用.因此设计一种针对列存储数据库的物化策略尤为重要.提前物化生成的元组中存在无关属性;而延迟物化对选择率较高的查询可能无法优化其性能,且某些列会被访问多次.针对以上缺点,本文提出了有别于上述两种策略的策略——Smart物化策略.本文提出了在逻辑查询计划中使用结构——projection,该结构是由用户选取查询所需的属性来生成的,相当于对全表进行物理上的切分;在查询开始时,能减少直接加载到内存的数据量,避免额外的开销.在构建逻辑查询计划过程中,Smart物化策略将projection作为扫描操作标准来对数据进行按列划分,根据一组语句集中对列访问的相关性来对下一次查询所需要的列进行预测,将所需要的列加入到一个最合适的projection中来进行物化.本文通过在分布式内存数据库CLAIMS上使用TPC-H数据集来验证其有效性.
    参考文献 | 相关文章 | 计量指标
    基于布谷鸟过滤器的外连接算法
    于洋, 周敏奇, 方祝和
    2017 (5):  40-51.  doi: 10.3969/j.issn.1000-5641.2017.05.005
    摘要 ( 540 )   HTML ( 23 )   PDF(750KB) ( 629 )  
    近十几年,由于互联网的发展异常迅猛,数据规模不断增加,分布式数据库的分析效率亟待优化,其中连接操作更是分布式数据库的主要性能瓶颈.外连接在商业中运用非常广泛.分布式外连接算法涉及到大量的网络传输,严重影响系统性能,虽然有一些研究针对内连接进行了优化,但这些优化方法并不能直接应用于外连接.文章中基于Cuckoofilter(布谷鸟过滤器)的分布式外连接算法,通过构建Cuckoofilter对数据进行筛选和分配,减少数据传输量的同时,提高执行的并行度,使得查询性能得到提升.通过在Ginkgo上实现该算法,并加以充分实验,验证得出该算法提高了分布式外连接操作的效率.
    参考文献 | 相关文章 | 计量指标
    大数据分析
    基于神经网络语言模型的分布式词向量研究进展
    郁可人, 傅云斌, 董启文
    2017 (5):  52-65,79.  doi: 10.3969/j.issn.1000-5641.2017.05.006
    摘要 ( 495 )   HTML ( 20 )   PDF(515KB) ( 1489 )  
    单词向量化是自然语言处理领域中的重要研究课题之一,其核心是对文本中的单词建模,用一个较低维的向量来表征每个单词.生成词向量的方式有很多,目前性能最佳的是基于神经网络语言模型生成的分布式词向量,Google公司在2012年推出的Word2vec开源工具就是其中之一.分布式词向量已被应用于聚类、命名实体识别、词性分析等自然语言处理任务中,它的性能依赖于神经网络语言模型本身的性能,并与语言模型处理的具体任务有关.本文从三个方面介绍基于神经网络的分布式词向量,包括:经典神经网络语言模型的构建方法;对语言模型中存在的多分类问题的优化方法;如何利用辅助结构训练词向量.
    参考文献 | 相关文章 | 计量指标
    基于卷积神经网络的自动问答
    金丽娇, 傅云斌, 董启文
    2017 (5):  66-79.  doi: 10.3969/j.issn.1000-5641.2017.05.007
    摘要 ( 431 )   HTML ( 15 )   PDF(707KB) ( 863 )  
    自动问答是自然语言处理领域中的一个研究热点,自动问答系统能够用简短、精确的答案直接回答用户提出的问题,给用户提供更加精确的信息服务.自动问答系统中需解决两个关键问题:一是实现自然语言问句及答案的语义表示,另一个是实现问句及答案间的语义匹配.卷积神经网络是一种经典的深层网络结构,近年来卷积神经网络在自然语言处理领域表现出强大的语言表示能力,被广泛应用于自动问答领域中.本文对基于卷积神经网络的自动问答技术进行了梳理和总结,从语义表示和语义匹配两个主要角度分别对面向知识库和面向文本的问答技术进行了归纳,并指出了当前的研究难点.
    参考文献 | 相关文章 | 计量指标
    在线广告中点击率预测研究
    肖垚, 毕军芳, 韩易, 董启文
    2017 (5):  80-86,100.  doi: 10.3969/j.issn.1000-5641.2017.05.008
    摘要 ( 780 )   HTML ( 32 )   PDF(548KB) ( 732 )  
    随着互联网的发展和用户的增长,广告行业从传统的线下广告模式,逐步转变为线上广告模式.同时,由于大数据分析技术的运用,线上广告模式相比于传统广告也体现了巨大的优越性.广告主之间相互竞争,通过竞价的方式,将自己的广告投放在运营媒体的广告位上.所以,在投放前预测该广告可能被用户点击的概率(CTR),对于广告主减少成本和增加可能收入来说非常重要.本文在调研了目前常用的广告点击率预测模型的基础上,选取广告主、广告和投放媒体平台信息作为预测模型的特征,采用真实数据集验证说明各种模型的优劣性,以及不同特征对广告点击率预测结果的影响.
    参考文献 | 相关文章 | 计量指标
    面向智能电表隐私保护的电量请求方案
    田秀霞, 李丽莎, 赵传强, 田福粮, 宋谦
    2017 (5):  87-100.  doi: 10.3969/j.issn.1000-5641.2017.05.009
    摘要 ( 414 )   HTML ( 12 )   PDF(781KB) ( 594 )  
    运通过有效融合Shamir(t,n)门限密钥共享方案和Laplace噪音干扰算法提出了一种面向智能电表隐私保护的电量请求方案,实现电力公司分时电价计费的同时保护用户隐私.定量分析了安全性并确定了最优门限值t的选择、测试分析了时间效率、验证分析了Laplace噪音干扰的ε-差分隐私保护效果并作了方案的可行性比较.实验结果表明,提出的方案具有有效性和可行性.
    参考文献 | 相关文章 | 计量指标
    用户行为分析
    跨领域推荐技术综述
    陈雷慧, 匡俊, 陈辉, 曾炜, 郑建兵, 高明
    2017 (5):  101-116,137.  doi: 10.3969/j.issn.1000-5641.2017.05.010
    摘要 ( 659 )   HTML ( 15 )   PDF(865KB) ( 1435 )  
    随着信息技术和互联网的飞速发展,信息过载的问题日趋严重.个性化推荐系统是解决这一问题的热门技术.推荐系统的核心在于推荐算法,在过去的十年里,基于单领域的协同过滤推荐算法应用最为广泛.但用户和项目数量的急剧增长使得传统的协同过滤推荐算法面临冷启动和数据稀疏问题的挑战.跨领域推荐旨在整合来自不同领域的用户偏好特征,针对每个用户自身特点进行智能化感知,精准满足用户个性化需求,从而提高目标领域推荐结果的准确性和多样性,现已成为推荐系统研究领域中的热门话题.本文首先对跨领域推荐技术进行系统地研究和分析,概述跨领域推荐算法的相关概念、技术难点;其次对现有的跨领域推荐技术进行分类,总结出各自的优点及不足;最后对跨领域推荐算法的性能分析方法进行详尽的介绍.
    参考文献 | 相关文章 | 计量指标
    面向食品安全领域的个性化知识搜索系统研究
    袁培森, 任吴北, 任守纲, 朱淑鑫, 徐焕良
    2017 (5):  117-124,137.  doi: 10.3969/j.issn.1000-5641.2017.05.011
    摘要 ( 396 )   HTML ( 13 )   PDF(904KB) ( 580 )  
    大数据时代,从海量的数据中发现对用户有用的知识成为研究领域重要的问题.通过集成多个搜索引擎的查询结果,实现食品安全领域中搜索信息的集成和个性化自适应排序.本文设计基于元搜索技术、知识本体和自适应的排序学习技术,实现多个搜索引擎相关查询结果集成,在对用户点击的标注和知识本体的基础上,利用基于监督学习的排序技术,实现对食品安全领域信息的个性化自适应排序.系统实现了集成多个搜索引擎的食品安全相关知识的提取和相关结果的重新排序.本研究不仅实现了多个搜索引擎食品安全信息查询相关的结果集成,而且能够根据用户的偏好实现结果的自适应排序.
    参考文献 | 相关文章 | 计量指标
    基于混合方法的医疗欺诈行为检测
    潘松松, 张伟佳
    2017 (5):  125-137.  doi: 10.3969/j.issn.1000-5641.2017.05.012
    摘要 ( 509 )   HTML ( 60 )   PDF(1192KB) ( 659 )  
    随着医保制度的不断完善,医保覆盖率的不断扩大,医保基金的正常运转已经与人民大众的切身利益密切相关.然而,频繁就医、分解住院和异常费用支出等欺诈行为的频繁发生,极大地威胁着医保基金的正常运转.本文先使用随机森林的方法分病种进行特征选择,然后通过基于Clustering-Based Local Outlier Factor(CBLOF)的方法以及改进的CBLOF方法检测异常的结算费用.同时通过基于规则的方法检测频繁就医和分解住院行为.通过在真实医保结算数据上进行实验,实验结果证明了方法的可行性和有效性.最后,本文给出了医保基金监督平台的系统框架,通过该平台对透视分析的结果进行可视化展示.
    参考文献 | 相关文章 | 计量指标
    基于隐变量模型的多维用户偏好建模
    王珊蕾, 岳昆, 武浩, 田凯琳
    2017 (5):  138-153.  doi: 10.3969/j.issn.1000-5641.2017.05.013
    摘要 ( 622 )   HTML ( 16 )   PDF(1000KB) ( 534 )  
    从用户行为数据构建用户偏好模型,是解决个性化服务、评分预测和用户行为定向等问题的重要基础.本文从用户的评分数据出发,以多个隐变量分别描述用户在评分对象多个维度的偏好,以含有多个隐变量的贝叶斯网(简称隐变量模型)作为表示用户偏好的基本知识框架.首先根据用户偏好和隐变量的特定含义给出模型构建的约束条件,进而提出基于约束条件的模型构建方法,使用约束条件下的EM算法来计算模型参数,约束条件下的SEM算法来构建模型结构.针对多隐变量情形下模型构建过程中产生大量中间数据带来的计算复杂度急剧上升的问题,本文使用Spark计算框架实现模型构建的方法.建立在Movielens数据集上的实验表明,本文提出的方法是有效的.
    参考文献 | 相关文章 | 计量指标
    基于复杂属性商品的混合协同过滤推荐模型
    周兰凤, 麻双克, 付正, 张晴
    2017 (5):  154-161,185.  doi: 10.3969/j.issn.1000-5641.2017.05.014
    摘要 ( 373 )   HTML ( 79 )   PDF(614KB) ( 629 )  
    协同过滤作为应用最广、研究最多的推荐算法,但依旧面临数据稀疏性、冷启动、数据质量差等固有问题,同时也鲜有研究者从实用角度基于商品性价比方面提高预测精确度.为此,本文综合考虑用户主观评分和商品客观评分,并在此基础上结合情境预过滤、社会网络理论以及专家意见提出了一种混合协同过滤推荐模型,在一定程度上缓解了上述缺点.并通过真实网上汽车销售数据实验,表明该模型相对传统协同过滤具有更高的预测精度,更适用于具有复杂属性的商品.
    参考文献 | 相关文章 | 计量指标
    位置服务
    基于正则表达式的限制性路径规划
    王婧, 刘辉平, 金澈清
    2017 (5):  162-173,235.  doi: 10.3969/j.issn.1000-5641.2017.05.015
    摘要 ( 409 )   HTML ( 16 )   PDF(651KB) ( 793 )  
    传统的路径规划算法大多以长度、时间或代价等为度量标准搜索起止点间的最优路径,不适于解决有位置限制的路径规划需求,如搜索有序或无序地经过全部或部分用户指定的位置点或位置点类别的最短路径.本文主要针对这类应用场景,利用正则表达式表示复杂的限制性路径规划需求,形式化定义了基于正则表达式的限制性路径规划问题并设计了通用的解决框架,在此框架基础上提出了基本的限制性路径规划算法BCRP(Basic ConstrainedRoute Planning)以及加入剪枝策略的改进的限制性路径规划算法ICRP(Improved Constrained Route Planning),有效减少了搜索空间.最后通过在真实路网数据上的实验结果证明了方法的高效性.
    参考文献 | 相关文章 | 计量指标
    基于k-泛化技术的时空数据个人隐私保护方法
    杨姿, 宁博, 李毅
    2017 (5):  174-185.  doi: 10.3969/j.issn.1000-5641.2017.05.016
    摘要 ( 448 )   HTML ( 26 )   PDF(844KB) ( 575 )  
    近些年来,基于位置系统的设备越来越多,从而导致用户的大量位置信息被移动设备获取并利用,从数据挖掘的角度来说,这些数据具有不可估量的价值,但从个人隐私方面来说却恰恰相反,每个人都不希望自己的信息被泄露和利用,从而引发了人们强烈的隐私关注.目前许多文献都提出了隐私保护技术来解决这个问题,概括来说是干扰、抑制和泛化几大类.为了对个人时空数据的隐私进行保护,本文提出了k-泛化的方法.对用户可能出现的点进行范围限定,更好地提高了数据的可用性;对泛化节点的选取要使得用户的安全性最高;考虑了多个敏感节点存在情况下的解决方案,并且出于提高数据效用的目的对多个敏感节点进行了优化.最后通过实验评估了算法的性能并且验证了算法保护个人隐私是有效的.
    参考文献 | 相关文章 | 计量指标
    基于实时路况的top-k载客热门区域推荐
    吴涛, 毛嘉莉, 谢青成, 杨艳秋, 王锦
    2017 (5):  186-200.  doi: 10.3969/j.issn.1000-5641.2017.05.017
    摘要 ( 370 )   HTML ( 14 )   PDF(1033KB) ( 566 )  
    为降低城市出租车的空载率,缓解路网交通拥堵压力,亟需设计有效的出租车载客热门区域推荐方法.针对传统的出租车相关推荐方法忽略实际路况导致推荐精度较低的现状,提出了一个两阶段的载客热门区域实时推荐算法.首先,离线挖掘阶段,基于出租车历史轨迹数据集提取基于时段属性的载客热门区域;随后,在线推荐阶段,根据出租车请求位置及时间,结合实时路况设计潜在空载时间开销函数Tcost对载客热门区域进行评测排序,继而发现Top-k载客热门区域.基于出租车轨迹数据集的实验结果表明,结合实时交通状况的Top-k载客热门区域推荐方法以确保较小潜在空载时间开销,相较于传统的出租车推荐方法具有较好的有效性与鲁棒性.
    参考文献 | 相关文章 | 计量指标
    智能交通刷卡记录中的公交站点恢复方法
    王艺霖, 章志刚, 金澈清
    2017 (5):  201-212.  doi: 10.3969/j.issn.1000-5641.2017.05.018
    摘要 ( 518 )   HTML ( 12 )   PDF(579KB) ( 482 )  
    随着城市公共交通网络的快速发展以及智能交通卡的普及,智能交通卡中隐藏着越来越丰富的个人及群体移动行为信息.但当前很多城市智能公交卡主要用于收费功能,并未包含乘客确切的上下车时间及站点信息,这给分析挖掘交通卡刷卡数据、提供基于精确位置的服务带来了阻碍.本文针对上海市不含公交上下车站点的刷卡数据集,借助于确定的地铁站点刷卡信息,分析个人的整体刷卡历史记录,提出一个基础的基于时空邻近性的恢复算法(STA,Space-Time Adjacencyalgorithm)和一个改进的基于历史的恢复算法(HTB,Historical Trip Basedalgorithm).具体地,STA算法根据刷卡记录线路的时空邻近关系进行恢复,在此基础上,HTB算法将刷卡记录集合根据时间和空间属性进行切分,获得有明确出行意义的出行记录,再利用历史记录集合,提取乘坐线路以及频繁换乘线路,根据线路间的空间关系生成线路带权候选站点列表,再次进行站点恢复.实验证明本文算法可以较好地缩小线路的候选上下车站点范围,且时间效率较高.
    参考文献 | 相关文章 | 计量指标
    应用系统
    研究生学籍系统的设计与实现
    李彦斌, 潘妍虹, 顾航, 王雷, 史兵, 孙晨, 夏帆, 董启文, 宋树彬
    2017 (5):  213-224.  doi: 10.3969/j.issn.1000-5641.2017.05.019
    摘要 ( 849 )   HTML ( 62 )   PDF(1361KB) ( 708 )  
    近十几年,随着高校研究生招生规模的不断扩大,相应的研究生管理业务模式也发生了较大的变化,这使得现有的研究生学籍系统很难适应新的业务需求变化.从业务角度来看,华东师范大学的现有研究生学籍系统不支持学籍异动的申请与流程审批管理等业务;另一方面,从系统角度来看,现有的研究生学籍系统存在着浏览器兼容性差,系统响应速度慢,难以支持对新业务的二次开发,不支持基于移动端的服务访问等问题.为了支持新的学籍业务需求、提升系统性能和改进系统的易用性等,华东师范大学采用自主研发模式,基于流行的开源框架AngularJS和SpringBoot设计并实现了新一代研究生院信息系统,旨在解决现有招生、学籍、培养和学位四大子系统的平台不统一等问题,为将来招生、培养和学位子系统的迁移做准备.新一代研究生学籍系统具备良好的性能,支持移动端的服务访问,通过基于敏捷开发与部署的模式来实现系统功能的快速更新,而且通过构建自主研发团队确保了系统未来不断升级改造的目标.
    参考文献 | 相关文章 | 计量指标
    研究生信息平台中运维系统的设计与实现
    史兵, 夏帆, 宋树彬, 肖李敏, 董启文, 周傲英, 徐林昊
    2017 (5):  225-235.  doi: 10.3969/j.issn.1000-5641.2017.05.020
    摘要 ( 514 )   HTML ( 21 )   PDF(955KB) ( 704 )  
    现代软件系统大多采用基于日志收集与分析的运维模式,帮助系统管理人员确保业务系统的安全性与稳定性.本文首先讨论了现有基于日志分析的运维方案.接下来,基于开源的ELK框架,设计了华东师范大学研究生院信息平台中的运维子系统.通过实时交互可视化的数据分析方式,有效地解决了研究生院业务人员在系统使用中遇到的性能与负载监控,用户行为分析以及服务异常调试等方面的问题.最后针对不同类型的业务运维场景,给出了基于交互式仪表盘的运维服务实现.
    参考文献 | 相关文章 | 计量指标