数据中台应用 栏目所有文章列表

    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    政务中台在数字政府建设中的作用初探
    陈炳, 方海宾, 赵文文
    华东师范大学学报(自然科学版)    2020, 2020 (5): 131-136.   DOI: 10.3969/j.issn.1000-5641.202091008
    摘要455)   HTML39)    PDF (515KB)(205)   
    通过对数字政府发展的回顾, 研究数字政府的特征, 结合IT技术的发展, 说明政务中台的建设是数字政府构建的重要技术支撑. 结合上海市“一网通办”的建设历程, 介绍了政务中台中业务、数据、应用3个方面的建设情况, 并对今后的发展方向做了总结性的说明.
    参考文献 | 相关文章 | 多维度评价
    面向业务的数据资产建设方法论: 标签类目体系
    任寅姿
    华东师范大学学报(自然科学版)    2020, 2020 (5): 137-145.   DOI: 10.3969/j.issn.1000-5641.202091009
    摘要996)   HTML84)    PDF (1226KB)(706)   
    给出了一种面向业务侧的数据资产建设新方法. 数据资产是数据中台概念中核心一环, 需要一种业务导向的资产映射来完成资产业务化过程. 标签类目体系方法论是一种将数据资产按照树状结构组织的方法, 根目录为对象, 枝干分支为类目, 叶/花末端为标签. 各种对象树之间存在能量连接, 并通过业务供给生长. 标签类目体系实例化可以采用整体规划、局部截取两种模式. 资产结果分为资产清单和资产实体两大部分, 它们可以通过服务管理工具快速配置成可供业务使用的数据服务结果, 以实现数据资产价值.
    参考文献 | 相关文章 | 多维度评价
    基于变分自编码器的日线损率异常检测研究
    张国芳, 刘通宇, 温丽丽, 郭果, 周忠新, 袁培森
    华东师范大学学报(自然科学版)    2020, 2020 (5): 146-155.   DOI: 10.3969/j.issn.1000-5641.202091013
    摘要368)   HTML36)    PDF (1034KB)(196)   
    采用一种基于自编码器的异常检测算法, 实现大规模日线损率数据的异常检测. 变分自编码器是一种利用反向传播算法使得输出值近似等于输入值的神经网络, 使用自编码器将原始日线损率时间序列编码, 在重建过程中记录每个时间点的重建概率, 当重建概率大于指定阈值时就判定其为异常数据. 本文利用真实日线损数据进行实验, 试验结果表明, 基于自编码器的日线损率异常检测算法具有较好的检测效果.
    参考文献 | 相关文章 | 多维度评价
    GRS: 一种面向电商领域智能客服的生成-检索式对话模型
    郭晓哲, 彭敦陆, 张亚彤, 彭学桂
    华东师范大学学报(自然科学版)    2020, 2020 (5): 156-166.   DOI: 10.3969/j.issn.1000-5641.202091010
    摘要444)   HTML39)    PDF (992KB)(129)   
    目前大多数智能聊天系统的实现主要有两种方式. 检索式得到的回复准确且有意义, 但回复内容和回复类型却受限于所选择的语料库. 生成式可以获得语料库中没有的回复, 更具灵活性, 但是容易产生一些错误或是无意义的回复内容. 为了解决上述问题, 本文提出一种新的模型GRS(Generative-Retrieval-Score), 此模型可以同时训练检索模型和生成模型, 并用一个打分模块对检索模型和生成模型的结果进行打分排序, 将得分最高的回复作为整个对话系统的输出, 进而巧妙地将两种方法的优点结合起来, 使最终得到的回复具体多样, 且生成的回复形式灵活多变. 在真实的京东智能客服对话数据集上的实验表明, 本文提出的模型比现有的检索式模型和生成式模型在多轮对话建模上有着更优异的表现.
    参考文献 | 相关文章 | 多维度评价
    基于聚合支付平台交易数据的商户流失预测
    徐一文, 黎潇阳, 董启文, 钱卫宁, 周昉
    华东师范大学学报(自然科学版)    2020, 2020 (5): 167-178.   DOI: 10.3969/j.issn.1000-5641.202091016
    摘要451)   HTML40)    PDF (979KB)(199)   
    在聚合支付领域, 为了减少聚合支付平台的运营成本、提高平台利润率, 要解决的一个关键问题是确保平台中达到较低的商户流失率. 本文所关注的是聚合支付平台的商户流失预测问题, 目标是帮助平台及时挽回可能流失的客户. 基于交易流水数据和商户基本信息, 本文提出了与商户流失密切相关的特征, 采用多种传统机器学习模型进行流失预测. 考虑到商户的交易流水数据具有时序性, 增加了基于LSTM的多种时间序列模型来建模. 在真实数据集上的实验结果表明手动提取的特征具有一定的预测能力, 结果具有可解释性; 采用时间序列模型能够较好地学习到数据的时序特征, 从而进一步提升预测结果.
    参考文献 | 相关文章 | 多维度评价
    基于自编码器的旅行同伴挖掘
    李小昌, 陈贝, 董启文, 陆雪松
    华东师范大学学报(自然科学版)    2020, 2020 (5): 179-188.   DOI: 10.3969/j.issn.1000-5641.202091003
    摘要337)   HTML30)    PDF (1668KB)(343)   
    随着移动设备的广泛应用, 当今的位置跟踪系统不断产生大量的轨迹数据. 同时, 许多应用亟需具备从移动物体的轨迹数据中挖掘出一起旅行的物体(旅行同伴)的能力, 如智慧交通系统和智慧营销. 现有算法或是基于模式挖掘方法, 按照特定模式匹配旅行同伴; 或是基于表征学习方法, 学习相似轨迹的相似表征. 前一种方法受限于点对匹配的问题, 后一种方法往往忽略轨迹之间的时间相近性. 为了改善这些问题, 提出了一个基于自编码器的深度表征学习模型Mean-Attn(Mean-Attention), 用于发现旅行同伴. Mean-Attn分别使用低维稠密向量表征和位置编码技术, 将空间和时间信息同时注入轨迹的嵌入表征中; 此外, 还利用Sort-Tile-Recursive(STR)算法、均值运算和全局注意力机制, 鼓励轨迹向邻近的轨迹学习; 从编码器获得轨迹表征后, 利用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)对表征进行聚类, 从而找到旅行同伴. 实验结果表明, Mean-Attn在寻找旅行同伴方面的表现要优于传统的数据挖掘算法和最新的深度学习算法.
    参考文献 | 相关文章 | 多维度评价