华东师范大学学报(自然科学版) ›› 2018, Vol. 2018 ›› Issue (5): 183-194.doi: 10.3969/j.issn.1000-5641.2018.05.016

• 新型互联网应用技术 • 上一篇    

基于知识图谱和LDA模型的社会媒体数据抽取

麻友1, 岳昆1, 张子辰1, 王笑一2, 郭建斌2   

  1. 1. 云南大学 信息学院, 昆明 650500;
    2. 云南大学 民族学与社会学学院, 昆明 650500
  • 收稿日期:2018-07-10 出版日期:2018-09-25 发布日期:2018-09-26
  • 通讯作者: 岳昆,男,教授,博士生导师,研究方向为海量数据处理与知识发现.E-mail:kyue@ynu.edu.cn. E-mail:kyue@ynu.edu.cn
  • 作者简介:麻友,男,硕士研究生,研究方向为海量数据处理与知识发现.E-mail:1172880152@qq.com.
  • 基金资助:
    国家自然科学基金(61472345);云南大学青年英才培育计划(WX173602);云南大学科研基金(2017YDJQ06);云南大学研究生科研创新基金(Y2000211)

Extraction of social media data based on the knowledge graph and LDA model

MA You1, YUE Kun1, ZHANG Zi-chen1, WANG Xiao-yi2, GUO Jian-bin2   

  1. 1. School of Information Science and Engineering, Yunnan University, Kunming 650500, China;
    2. School of Ethnology and Sociology, Yunnan University, Kunming 650500, China
  • Received:2018-07-10 Online:2018-09-25 Published:2018-09-26

摘要: 社会媒体数据的抽取,是社会舆论集散、新闻信息传播、企业品牌推广、商业营销拓展等研究和应用的基础,准确的抽取结果是数据分析有效性的重要保证.本文针对社会媒体数据的非结构、多主题特征,基于LDA(Latent DirichletAllocation)模型挖掘数据中的隐含主题,利用数据特征词序列和知识图谱描述的实体及实体间的关联关系,实现对特定领域数据的抽取.建立在"今日头条"新闻数据和新浪微博数据之上的实验结果表明,本文提出的方法能有效地实现社会媒体数据的抽取.

关键词: 社会媒体数据, 数据抽取, 隐含狄利克雷分配, 知识图谱

Abstract: Social media data extraction forms the basis of research and applications related to public opinion, news dissemination, corporate brand promotion, commercial marketing development, etc. Accurate extraction results are critical to guarantee the effectiveness of the data analysis. In this paper, we analyze the underlying topics in data based on the LDA (Latent Dirichlet Allocation) model; we further implement data extraction in specific domains by adopting featured word sequences and knowledge graphs that describe entities and relevant relationships. Experimental results using "Headline Today" news and Sina Weibo data show that our proposed method can be used to extract social media data effectively.

Key words: social media, data extraction, LDA (Latent Dirichlet Allocation), knowledge graph

中图分类号: