华东师范大学学报(自然科学版) ›› 2019, Vol. 2019 ›› Issue (5): 0-0.

• 专辑导语 •    下一篇

“‘智能+’与数据驱动的科学研究”专辑导语

  

  • 出版日期:2019-09-25 发布日期:2019-10-11

  • Online:2019-09-25 Published:2019-10-11

摘要: 数据密集型的科学发现已成为继实证范式、理论范式、计算范式后科学发现的“第四范式”,其在物理、化学、生物、天文等自然科学领域,乃至社会学、教育学、新闻传媒、法律等人文社会科学领域的研究中,发挥着越来越大的作用。近年来,人工智能在图像、视频、语音识别,以及人机对弈等领域的技术突破,进一步为数据驱动的科学研究提供了新的技术和方法。人工智能技术作用于科学研究,可充分发挥文献、实验、仿真结果等各种类型科学数据的价值:发现新的科学现象、揭示新的科学规律、验证科学假设、促进不同领域科学研究的交叉融合、探索科学研究的新方法和新思路,这对提升科学研究水平,取得突破性的研究成果,具有重要意义。
本期专辑围绕“‘智能+’与数据驱动的科学研究”这个主题,在全国范围内征集稿件,受到了学术界的广泛关注,经过专辑编委会专家们的认真评阅,总共收录16篇高质量学术论文,分别来自国内11个高校和科研院所,包括东北大学、桂林电子科技大学、华东理工大学、华东师范大学、南京农业大学、南瑞集团、上海电力大学、四川大学、同济大学、中国人民大学、中山大学等。根据主题的不同,上述论文被划分为3个板块:数据驱动的计算教育学、新兴应用中的计算机智能、新时期数据管理技术。
互联网在改变世界的同时也深刻地改变着教育,利用信息技术优化教育过程、提升教学效果显得非常重要。数据驱动的计算教育学板块共收录5篇稿件:东北大学刘恒宇等人介绍了知识追踪及其应用背景,回顾了知识追踪所涉及的教育学与数据挖掘理论,总结了基于概率图、矩阵分解、深度学习的知识追踪研究现状,并展望未来的研究方向;华东师范大学陈远哲等人归纳梳理了共指消解的发展历程,从技术层面将共指消解划分为多个阶段,并介绍了各个阶段的代表性模型,以及它们的优缺点;华东师范大学杨康等人意识到机器阅读理解是理解学生问题和文档内容、快速获取知识的重要途径,综述了新近涌现出来的基于神经网络的机器阅读模型;华东师范大学杨东明等人基于百科语料和远程监督思想提出了基于关系表示的注意力机制,有效提取知识点间的有向关系信息;四川大学申航杰等人提出了一种融合模糊聚类和支持向量回归的成绩预测方法,即先引入模糊逻辑来计算隶属度矩阵,再对学生历史成绩进行聚类,最后对成绩轨迹进行拟合建模,从而提高成绩预测的准确率和可解释性。
除了教育之外,计算机智能也广泛应用在法学、智慧城市、电子商务、智能电网等领域。新兴应用中的计算机智能板块共收录6篇稿件:中国人民大学邵明锐等人意识到FAQ数据集规模有限,给出了数据层面和模型层面的解决方案,在数据层面,利用百度知道爬取数据并挖掘语义等价问题,确保数据的相关性和一致性,在模型层面,提出了面向迁移学习的深度神经网络,以计算句子对之间的语义相似度;同济大学陈亮等人意识到在法学理论和法律实践中缺乏智能决策,采用多种数据分析模型研究智能决策算法,尝试建立法律关系坐标系,实现法律关系分析的空间几何转化;中山大学江群等人研究了基于用户偏好的最优路径搜索,从而在预算约束下寻找满足用户偏好的最优路径,所提的新方法可在查询阶段利用索引结构过滤出候选节点集;桂林电子科技大学傅裕等人观察到在电子商务领域中部分商品的名称可能包含属性等冗余信息,导致信息不一致现象,因而提出了一种基于自注意力机制的商品名称精简模型,以较小的计算代价精简商品名称;南瑞集团黄福兴等人认识到保证海量电能量数据的准确性、可靠性和完整性对智能电网至关重要,设计了一种基于孤立森林的异常检测算法,可检测大规模电能量数据中发生的异常;上海电力大学赵波等人基于机器学习方法,提出了一种优化神经网络的电网稳定性预测模型,并与经典机器学习方法进行了横向对比。
创新的数据管理技术对高效管理海量数据非常关键。新时期数据管理技术板块共收录5篇稿件,作者均来自华东师范大学:丁国浩等人为了支持负载均衡的数据加载,采用选取部分采样块和等间隔选取样本的方式来确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;刘子豪等人意识到LevelDB数据库具有Key-Value结构的局限性,因而无法有效索引空间数据,提出了一种基于LevelDB和R-tree的二级索引,从而支持二维数据的索引和近邻查询,实验结果表明该结构效果良好;祝朝凡等人发现基本的Paxos算法尽管在理论上保证了一致性,但是依然容易产生活锁问题,而且不易工程化,因而提出了一种改进算法,有效降低了网络通信开销;黄皓等人提出了一种基于GPU的流处理系统Serval,通过充分利用CPU-GPU异构资源,高效处理了关系型流查询;张涛等人意识到标准Benchmark负载固定,较难应对用户多样的应用场景,因而设计并实现了一个用户自定义性能测试负载的工具——Woodpecker+,该工具易于使用和可拓展,提供了可高效构造测试案例、做测试安排的测试定义语言(TDL),可灵活控制事务执行模式及数据访问分布,实现了轻量级的细粒度统计信息收集与分析,支持多种主流数据库系统DBMS及提供数据库访问接口的其他数据库。
最后,谨在此感谢各位作者为专辑提供了优质的稿源,感谢各位评审专家,特别感谢我校学报编辑部自然科学版在收稿、审稿、校稿过程中的大力支持和辛勤工作。“智能+”与数据驱动的科学研究在许多领域中都有重要应用,希望本期专辑能够推动相关领域的研究进展和应用实施。