华东师范大学学报（自然科学版）

Select

“‘智能＋’与数据驱动的科学研究”专辑编委会

2019 (5): 0-00.

摘要 ( 551 )

HTML ( 188 )

PDF(204KB) ( 268 )

（排名不分先后）#br#董启文　研究员　华东师范大学#br#杜小勇　教　授　中国人民大学#br#金澈清　教　授　华东师范大学#br#李战怀　教　授　西北工业大学#br#彭敦陆　教　授　上海理工大学#br#钱卫宁　教　授　华东师范大学#br#王国仁　教　授　北京理工大学#br#印　鉴　教　授　中山大学#br#于　戈　教　授　东北大学#br#岳　昆　教　授　云南大学#br#周傲英　教　授　华东师范大学

相关文章 | 计量指标

Select

“‘智能＋’与数据驱动的科学研究”专辑导语

2019 (5): 0-0.

摘要 ( 182 )

HTML ( 290 )

PDF(276KB) ( 437 )

数据密集型的科学发现已成为继实证范式、理论范式、计算范式后科学发现的“第四范式”，其在物理、化学、生物、天文等自然科学领域，乃至社会学、教育学、新闻传媒、法律等人文社会科学领域的研究中，发挥着越来越大的作用。近年来，人工智能在图像、视频、语音识别，以及人机对弈等领域的技术突破，进一步为数据驱动的科学研究提供了新的技术和方法。人工智能技术作用于科学研究，可充分发挥文献、实验、仿真结果等各种类型科学数据的价值：发现新的科学现象、揭示新的科学规律、验证科学假设、促进不同领域科学研究的交叉融合、探索科学研究的新方法和新思路，这对提升科学研究水平，取得突破性的研究成果，具有重要意义。
本期专辑围绕“‘智能+’与数据驱动的科学研究”这个主题，在全国范围内征集稿件，受到了学术界的广泛关注，经过专辑编委会专家们的认真评阅，总共收录16篇高质量学术论文，分别来自国内11个高校和科研院所，包括东北大学、桂林电子科技大学、华东理工大学、华东师范大学、南京农业大学、南瑞集团、上海电力大学、四川大学、同济大学、中国人民大学、中山大学等。根据主题的不同，上述论文被划分为3个板块：数据驱动的计算教育学、新兴应用中的计算机智能、新时期数据管理技术。
互联网在改变世界的同时也深刻地改变着教育，利用信息技术优化教育过程、提升教学效果显得非常重要。数据驱动的计算教育学板块共收录5篇稿件：东北大学刘恒宇等人介绍了知识追踪及其应用背景，回顾了知识追踪所涉及的教育学与数据挖掘理论，总结了基于概率图、矩阵分解、深度学习的知识追踪研究现状，并展望未来的研究方向；华东师范大学陈远哲等人归纳梳理了共指消解的发展历程，从技术层面将共指消解划分为多个阶段，并介绍了各个阶段的代表性模型，以及它们的优缺点；华东师范大学杨康等人意识到机器阅读理解是理解学生问题和文档内容、快速获取知识的重要途径，综述了新近涌现出来的基于神经网络的机器阅读模型；华东师范大学杨东明等人基于百科语料和远程监督思想提出了基于关系表示的注意力机制，有效提取知识点间的有向关系信息；四川大学申航杰等人提出了一种融合模糊聚类和支持向量回归的成绩预测方法，即先引入模糊逻辑来计算隶属度矩阵，再对学生历史成绩进行聚类，最后对成绩轨迹进行拟合建模，从而提高成绩预测的准确率和可解释性。
除了教育之外，计算机智能也广泛应用在法学、智慧城市、电子商务、智能电网等领域。新兴应用中的计算机智能板块共收录6篇稿件：中国人民大学邵明锐等人意识到FAQ数据集规模有限，给出了数据层面和模型层面的解决方案，在数据层面，利用百度知道爬取数据并挖掘语义等价问题，确保数据的相关性和一致性，在模型层面，提出了面向迁移学习的深度神经网络，以计算句子对之间的语义相似度；同济大学陈亮等人意识到在法学理论和法律实践中缺乏智能决策，采用多种数据分析模型研究智能决策算法，尝试建立法律关系坐标系，实现法律关系分析的空间几何转化；中山大学江群等人研究了基于用户偏好的最优路径搜索，从而在预算约束下寻找满足用户偏好的最优路径，所提的新方法可在查询阶段利用索引结构过滤出候选节点集；桂林电子科技大学傅裕等人观察到在电子商务领域中部分商品的名称可能包含属性等冗余信息，导致信息不一致现象，因而提出了一种基于自注意力机制的商品名称精简模型，以较小的计算代价精简商品名称；南瑞集团黄福兴等人认识到保证海量电能量数据的准确性、可靠性和完整性对智能电网至关重要，设计了一种基于孤立森林的异常检测算法，可检测大规模电能量数据中发生的异常；上海电力大学赵波等人基于机器学习方法，提出了一种优化神经网络的电网稳定性预测模型，并与经典机器学习方法进行了横向对比。
创新的数据管理技术对高效管理海量数据非常关键。新时期数据管理技术板块共收录5篇稿件，作者均来自华东师范大学：丁国浩等人为了支持负载均衡的数据加载，采用选取部分采样块和等间隔选取样本的方式来确定分区之间的切分点，避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销；刘子豪等人意识到LevelDB数据库具有Key-Value结构的局限性，因而无法有效索引空间数据，提出了一种基于LevelDB和R-tree的二级索引，从而支持二维数据的索引和近邻查询，实验结果表明该结构效果良好；祝朝凡等人发现基本的Paxos算法尽管在理论上保证了一致性，但是依然容易产生活锁问题，而且不易工程化，因而提出了一种改进算法，有效降低了网络通信开销；黄皓等人提出了一种基于GPU的流处理系统Serval，通过充分利用CPU-GPU异构资源，高效处理了关系型流查询；张涛等人意识到标准Benchmark负载固定，较难应对用户多样的应用场景，因而设计并实现了一个用户自定义性能测试负载的工具——Woodpecker+，该工具易于使用和可拓展，提供了可高效构造测试案例、做测试安排的测试定义语言（TDL），可灵活控制事务执行模式及数据访问分布，实现了轻量级的细粒度统计信息收集与分析，支持多种主流数据库系统DBMS及提供数据库访问接口的其他数据库。
最后，谨在此感谢各位作者为专辑提供了优质的稿源，感谢各位评审专家，特别感谢我校学报编辑部自然科学版在收稿、审稿、校稿过程中的大力支持和辛勤工作。“智能+”与数据驱动的科学研究在许多领域中都有重要应用，希望本期专辑能够推动相关领域的研究进展和应用实施。

相关文章 | 计量指标

Select

知识追踪综述

刘恒宇, 张天成, 武培文, 于戈

2019 (5): 1-15. doi: 10.3969/j.issn.1000-5641.2019.05.001

摘要 ( 4242 )

HTML ( 416 )

PDF(1936KB) ( 2229 )

在教育领域中，科学地、有针对性地对学生的知识状态进行有效追踪具有十分重要的意义.根据学生的历史学习轨迹，可以对学生与习题的交互过程进行建模.在此基础上，能够自动地对学生各个阶段的知识状态进行追踪，进而预测学生表现，实现个性化导学和自适应学习.首先，对知识追踪及其应用背景进行介绍，总结知识追踪所涉及的教育学与数据挖掘理论；其次，总结基于概率图、矩阵分解、深度学习的知识追踪研究现状，并根据方法的不同特点进行更为细致的分类；最后对目前的知识追踪技术进行分析比较，并对未来的研究方向进行展望.

参考文献 | 相关文章 | 计量指标

Select

共指消解技术综述

陈远哲, 匡俊, 刘婷婷, 高明, 周傲英

2019 (5): 16-35. doi: 10.3969/j.issn.1000-5641.2019.05.002

摘要 ( 3660 )

HTML ( 260 )

PDF(671KB) ( 1201 )

共指消解旨在识别指向同一实体的不同表述，在文本摘要、机器翻译、自动问答和知识图谱等领域有着广泛的应用.然而，作为自然语言处理中的一个经典问题，它是一个NP-Hard的问题.本文首先对共指消解的基本概念进行介绍，对易混淆概念进行解析，并讨论了共指消解的研究意义及难点.本文进一步归纳梳理了共指消解的发展历程，将共指消解从技术层面划分为若干阶段，并介绍了各个阶段的代表性模型，探讨了各类模型的优缺点，其中着重介绍了基于规则、基于机器学习、基于全局最优化、基于知识库和基于深度学习的模型.接着对共指消解的评测会议进行介绍，对共指消解的语料库和常用评测指标进行解释和对比分析.最后，指出了当前共指消解模型尚未解决的问题，探讨了共指消解的发展趋势.

参考文献 | 相关文章 | 计量指标

Select

面向自动问答的机器阅读理解综述

杨康, 黄定江, 高明

2019 (5): 36-52. doi: 10.3969/j.issn.1000-5641.2019.05.003

摘要 ( 1727 )

HTML ( 252 )

PDF(1811KB) ( 828 )

人工智能正在深彻地变革各个行业.AI与教育的结合加速推动教育的结构性变革，正在将传统教育转变为智适应教育.基于深度学习的自动问答系统不仅可帮助学生实时解答疑惑、获取知识，还可以快速获取学生行为数据，加速教育的个性化和智能化.机器阅读理解是自动问答系统的核心模块，是理解学生问题，理解文档内容，快速获取知识的重要技术.在过去的几年里，随着深度学习复兴以及大规模机器阅读数据集的公开，各种各样的基于神经网络的机器阅读模型不断涌现.这篇综述主要讲述3方面的内容:介绍机器阅读理解的定义与发展历程；分析神经机器阅读模型之间的优点及不足；总结机器阅读领域的公开数据集以及评价方法.

参考文献 | 相关文章 | 计量指标

Select

面向初等数学的知识点关系提取研究

杨东明, 杨大为, 顾航, 洪道诚, 高明, 王晔

2019 (5): 53-65. doi: 10.3969/j.issn.1000-5641.2019.05.004

摘要 ( 1714 )

HTML ( 207 )

PDF(897KB) ( 700 )

随着互联网技术的发展，在线教育已经改变了学生的学习方式.但由于缺乏完整的知识体系，在线教育存在着智能化程度低和“信息迷航”的问题.因此，构建知识体系成为在线教育平台的核心技术.知识点间的关系提取是知识体系构建的主要任务之一，目前比较高效的关系提取算法主要是监督式的.但是这类方法受限于文本质量低、语料稀缺、标签数据难获取、特征工程效率低、难以提取有向关系等挑战.为此，基于百科语料和远程监督思想，研究了知识点间的关系提取算法.提出了基于关系表示的注意力机制，该方法能够提取知识点间的有向关系信息.结合了GCN和LSTM的优势，提出了GCLSTM，该模型更好地提取了句子中的多点信息.基于Transformer架构和关系表示的注意力机制，提出了适用于有向关系提取的BTRE模型，降低了模型的复杂度.设计并实现了知识点关系提取系统.通过设计3组对比实验，验证了模型的性能和效率.

参考文献 | 相关文章 | 计量指标

Select

基于模糊聚类和支持向量回归的成绩预测

申航杰, 琚生根, 孙界平

2019 (5): 66-73,84. doi: 10.3969/j.issn.1000-5641.2019.05.005

摘要 ( 1192 )

HTML ( 206 )

PDF(603KB) ( 720 )

现有的成绩预测模型往往过度使用不同类型的属性，导致过于复杂的分数预测方法，或是需要人工参与.为提高学生成绩预测的准确率和可解释性，提出了一种融合模糊聚类和支持向量回归的成绩预测方法.首先引入模糊逻辑来计算隶属度矩阵，根据学生的历史成绩进行聚类，随后对每个聚类簇利用支持向量回归理论对成绩轨迹进行拟合建模.此外，结合学生学习行为等相关属性，对最终的预测结果做调整.在多个基准数据集上进行了实验测试，验证了该方法的有效性.

参考文献 | 相关文章 | 计量指标

Select

基于社区问答数据迁移学习的FAQ问答模型研究

邵明锐, 马登豪, 陈跃国, 覃雄派, 杜小勇

2019 (5): 74-84. doi: 10.3969/j.issn.1000-5641.2019.05.006

摘要 ( 1147 )

HTML ( 256 )

PDF(1735KB) ( 634 )

基于FAQ（Frequent Asked Questions）问答技术构建智能客服系统，是当前业界普遍采用的技术方案.基于FAQ构建的问答系统，其返回的结果具有稳定、可靠、质量高的优点；但因受限于人工标注的知识库规模，识别能力有限，容易遇到瓶颈.为了解决FAQ数据集规模有限的问题，给出了数据层面和模型层面的解决方法:在数据层面，利用百度知道爬取相关数据并挖掘语义等价问题，保证了数据的相关性和一致性；在模型层面，提出了一种面向迁移学习的深度神经网络transAT，该模型融合了Transformer强大的特征抽取能力和注意力机制，适用于句子对之间的语义相似度计算.实验表明，该方法可以显著提升模型在FAQ问答任务中的效果，在一定程度上解决了FAQ数据集规模有限的问题.

参考文献 | 相关文章 | 计量指标

Select

基于法计算学理论的人工智能辅助决策算法研究

陈亮, 郭佳雯, 武建功, 王占全, 史令

2019 (5): 85-99. doi: 10.3969/j.issn.1000-5641.2019.05.007

摘要 ( 1056 )

HTML ( 200 )

PDF(698KB) ( 525 )

针对法学理论和法律实践中缺乏智能决策的问题，综合考虑该领域内的业务数据特征，采用多种数据分析模型进行智能决策算法的研究.法计算学理论以法律关系的数据化智能驱动为核心，在作为法律研究与应用本体的法律关系与计算机科学领域内的数据特征属性之间建立联系，提出了“涵摄分类”概念，并对决策树、朴素贝叶斯等算法进行法律场景下的改进，建立了法律关系坐标系，实现法律关系分析的空间几何转化，最后提出了智能化的辅助决策平台.实验结果表明，该辅助决策与真实律师的办案策略与结果高度吻合，具有辅助律师决策的可行性和有效性.

参考文献 | 相关文章 | 计量指标

Select

基于用户偏好的最优路径搜索

江群, 戴戈南, 张森, 葛又铭, 刘玉葆

2019 (5): 100-112. doi: 10.3969/j.issn.1000-5641.2019.05.008

摘要 ( 1273 )

HTML ( 246 )

PDF(1712KB) ( 610 )

本文研究基于用户偏好的最优路径搜索，在预算约束下寻找一条满足用户偏好即关键字和权重偏好的最优路径.此研究问题是NP-hard.为了高效地解决这类查询问题，本文提出新的索引建立方法，在查询阶段利用索引结构过滤出候选节点集.另外，提出基于A^*的路径搜索算法来做路径查询，并利用几个有效的剪枝策略加快算法的执行速度.在两个真实的签到数据集上的实验结果证明了本文提出方法的有效性.当预算时间设置为4~7h时，与已有最好的PACER算法相比，本文的路径搜索算法消耗的查询时间更短.

参考文献 | 相关文章 | 计量指标

Select

基于自注意力机制的冗长商品名称精简方法

傅裕, 李优, 林煜明, 周娅

2019 (5): 113-122,167. doi: 10.3969/j.issn.1000-5641.2019.05.009

摘要 ( 1262 )

HTML ( 259 )

PDF(857KB) ( 632 )

大部分电子商务网站为了吸引用户的关注，通常将商品的很多属性也纳入到商品名称中，使得商品名称中包括了冗余的信息，并产生不一致性.为解决这一的问题，提出了一个基于自注意力机制的商品名称精简模型，并针对自注意力机制网络无法直接捕捉商品名称序列特征的问题，利用门控循环单元的时序特性对自注意力机制进行了时序增强，以较小的计算代价换取了商品命名精简任务整体性能的提升.在公开商品短标题数据集LESD4EC的基础上，构造了商品名称精简数据集LESD4EC_L和LESD4EC_S，并进行了模型验证.一系列的实验结果表明本，所提出的自注意力机制冗长商品名称精简方法相对于其他商品名称精简方法在效果上有较大的提升.

参考文献 | 相关文章 | 计量指标

Select

基于孤立森林算法的电能量异常数据检测

黄福兴, 周广山, 丁宏, 张罗平, 钱淑韵, 袁培森

2019 (5): 123-132. doi: 10.3969/j.issn.1000-5641.2019.05.010

摘要 ( 1198 )

HTML ( 232 )

PDF(612KB) ( 546 )

随着电力系统信息化建设的深入，用户对于电能量数据的质量要求逐渐提高，因此保证海量电能量数据的准确性、可靠性以及完整性具有重要意义.本文采用一种基于孤立森林的异常检测算法，实现大规模电能量数据的异常检测.孤立森林算法通过划分大规模电能量数据集，生成随机二叉树和孤立森林构建模型，通过计算测试电能量数据样本到每棵树的根结点的距离检测异常数据点.该算法不仅能够快速处理海量数据，而且结果准确、可靠性高.本文在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测，实验结果表明，该算法检测效率较高，并具有较高的检测正确率.

参考文献 | 相关文章 | 计量指标

Select

基于自适应神经网络的电网稳定性预测

赵波, 田秀霞, 李灿

2019 (5): 133-142. doi: 10.3969/j.issn.1000-5641.2019.05.011

摘要 ( 1195 )

HTML ( 184 )

PDF(751KB) ( 673 )

电网安全稳定是电力企业乃至整个社会改革、发展、稳定的基础.随着电网结构复杂度的增加，更需要电网安全和稳定地运行，这是保证国民经济快速良好发展的重要要求.基于机器学习方法，提出了一种优化神经网络的电网稳定性预测模型，并和经典机器学习方法进行了横向对比.通过UCI2018年电网稳定性仿真数据集的实验分析，结果表明，所提出的方法可以达到更高的预测准确率，同时也为电力大数据的研究提供了新思路.

参考文献 | 相关文章 | 计量指标

Select

面向日志结构化数据存储的高效数据加载

丁国浩, 徐辰, 钱卫宁

2019 (5): 143-158. doi: 10.3969/j.issn.1000-5641.2019.05.012

摘要 ( 948 )

HTML ( 17 )

PDF(1535KB) ( 528 )

近年来，随着互联网技术的快速发展，无论是互联网企业还是传统的金融机构，用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题，需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题，业界通常用新型数据库系统替换原有的系统，其中，基于日志结构合并树存储的数据库系统（如OceanBase）被广泛采用，这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中，需要将大量数据加载到新数据库系统中，长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间，提出了一种负载均衡且支持高效容错的数据加载方法；为了支持负载均衡的数据加载，与预确定分区划分数据的方法不同，考虑到目标系统默认存储块大小，采用通过基于文件大小和目标系统默认存储块大小预计算分区数目，并利用分库分表的数据导出往往已经排序的特点，采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点，避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销；为了加快故障恢复速度，利用日志结构合并树存储系统的多备份减少故障恢复时的数据量，提出了基本副本局部故障恢复方式，避免了完全重新加载的故障恢复方式.实验结果表明，相比采用预确定分区数目和全局选取采样块的随机或头部选取样本方法，采用预计算分区数目和部分选取采样块的等间隔选取样本确定切分点的方法，提高了数据加载的性能，并且验证了基于副本局部故障恢复方法相比完全重启加载恢复方法的高效性.

参考文献 | 相关文章 | 计量指标

Select

基于LevelDB的二维数据二级索引实现

刘子豪, 胡卉芪, 徐瑞, 周烜

2019 (5): 159-167. doi: 10.3969/j.issn.1000-5641.2019.05.013

摘要 ( 1085 )

HTML ( 19 )

PDF(459KB) ( 732 )

随着科学研究中产生的空间数据尤其是二维数据量级的增长和NoSQL型数据库技术的发展，越来越多的空间数据被存储到NoSQL数据库中.LevelDB是一款开源的Key-Value型NoSQL数据库，由于它基于LSM架构并拥有较好的写入性能而被广泛应用.但是Key-Value结构的局限性使其无法有效地索引空间数据，对于这个问题本文提出了一种基于LevelDB和R-tree的二级索引，使其可以支持二维数据的索引和近邻查询.实验结果表明该结构有较好的可用性.

参考文献 | 相关文章 | 计量指标

Select

基于Paxos的分布式一致性算法的实现与优化

祝朝凡, 郭进伟, 蔡鹏

2019 (5): 168-177. doi: 10.3969/j.issn.1000-5641.2019.05.014

摘要 ( 1059 )

HTML ( 20 )

PDF(494KB) ( 633 )

互联网的不断发展，企业的信息化程度不断加强，不计其数的数据需要得到及时处理.但是网络环境不稳定，容易发生数据丢失、节点宕机，从而造成严重后果.因此，构建可以容错的分布式存储系统变得越来越受欢迎.为了保证系统的高可用性和一致性，需要引入分布式一致性算法.为了提高系统在不稳定网络下的性能，传统基于Paxos的分布式系统允许日志中存在空洞.然而，当节点进入恢复状态时，这些系统通常需要大量网络交互来补全日志空洞，这极大地增加了节点恢复的时间，从而影响了系统的可用性.针对节点恢复过程中补全日志空洞代价过大的问题，本文重新设计了日志项结构，优化了数据恢复流程，通过实验模拟，验证改进的基于Paxos的一致性算法的有效性.

参考文献 | 相关文章 | 计量指标

Select

基于GPU的关系型流处理系统实现与优化

黄皓, 李志方, 王嘉伦, 翁楚良

2019 (5): 178-189. doi: 10.3969/j.issn.1000-5641.2019.05.015

摘要 ( 1173 )

HTML ( 13 )

PDF(1148KB) ( 767 )

现有的基于CPU的流处理系统在功能上已支持在大规模数据集上的复杂分析查询，但由于CPU计算能力与特性的限制，无法在性能上同时满足高吞吐量和低响应时间的要求.本文提出一种基于GPU的流处理系统框架Serval，通过充分利用CPU-GPU异构资源，实现了关系型流查询的高效处理.Serval框架采用流水线模型和流执行缓存技术以优化吞吐量和响应时间，并实现多种调优策略以适应不同场景.实验表明，单节点Serval的吞吐量与响应时间性能均优于现有GPU数据库MapD和三节点分布式服务器上的Spark Streaming.

参考文献 | 相关文章 | 计量指标

Select

Woodpecker+:基于数据特征的自定义负载性能评测

张涛, 张小磊, 李宇明, 张春熙, 张蓉

2019 (5): 190-202. doi: 10.3969/j.issn.1000-5641.2019.05.016

摘要 ( 1382 )

HTML ( 14 )

PDF(1529KB) ( 634 )

数据库的性能评测随着复杂多样的应用出现变得更加重要.在很多情况下，研究、开发人员的性能评估工作受限于负载的缺乏.虽然OLTP-Bench通用数据库性能测试框架在一定程度上提高了性能测试的效率，但由于标准Benchmark负载固定且针对用户多样的应用场景的代表性差，故无法精准地满足不同应用的系统性能；此外，大部分测试框架使用高级编程语言支持为应用编写测试负载，不仅增加测试负担还会引入大量重复性工作，导致测试效率低下.本文设计并实现了一个用户自定义性能测试负载的工具:Woodpecker+.该工具的主要贡献为:易于使用和可拓展、提供了可高效构造测试案例、做测试安排的测试定义语言（TDL）、可灵活控制事务执行模式及数据访问分布、实现了轻量级的细粒度统计信息收集与分析、支持多种主流数据库系统DBMS及提供数据库访问接口的其他数据库.通过一组详细的运行在主流DBMS上的自定义负载实验来验证Woodpecker+的特性.

参考文献 | 相关文章 | 计量指标

当期目录