一种知识型网络爬虫的设计与实现

华东师范大学学报(自然科学版) ›› 2006, Vol. 2006 ›› Issue (3): 93-98.

一种知识型网络爬虫的设计与实现

杨德仁, 顾君忠

华东师范大学计算机应用研究所，上海 200062

收稿日期:2005-07-30 修回日期:2006-01-09 出版日期:2006-05-25 发布日期:2006-05-25
通讯作者: 杨德仁

Design and Implement of a Knowledge-Based Crawler(Chinese)

YANG De-ren, GU Jun-zhong

Institute of Computer Application,East China Normal University,Shanghai 200062,China

Received:2005-07-30 Revised:2006-01-09 Online:2006-05-25 Published:2006-05-25
Contact: YANG De-ren

摘要/Abstract

摘要： 介绍了网页可达性原理、一种知识建模方法以及知识模型与网页知识之间的映射机制；阐述了知识型网络爬虫的组件及其实施的关键技术，提出了一种知识相关度计算模型，可计算页面的知识含量.这种知识提取方法可用于构建新一代智能搜索引擎.

关键词: 知识, 网络爬虫, 模型, 映射机制, 实施技术, 知识, 网络爬虫, 模型, 映射机制, 实施技术

Abstract: Web page arrival principles,a knowledge modeling method,and a mapping mechanism between the model and pages were introduced. The main components of knowledge-based Crawler and its several key implementation techniques were presented. A knowledge relativity model was offered. This knowledge extraction method is useful to build next generation intelligent search engine.

Key words: crawler, model, mapping mechanism, implementing techniques, knowledge, crawler, model, mapping mechanism, implementing techniques

中图分类号:

TP393

杨德仁;顾君忠. 一种知识型网络爬虫的设计与实现[J]. 华东师范大学学报(自然科学版), 2006, 2006(3): 93-98.

YANG De-ren;GU Jun-zhong. Design and Implement of a Knowledge-Based Crawler(Chinese)[J]. Journal of East China Normal University(Natural Sc, 2006, 2006(3): 93-98.

[1]	高钦钦，朱建荣，端义宏，孙明华. 对称和非对称台风对东海南海风暴潮影响比较[J]. 华东师范大学学报(自然科学版), 20120, 2012(6): 57-72.
[2]	裴壮, 田秀霞, 李冰雪. 知识图谱赋能的面向对象程序设计C++教学改革与实践[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 104-113.
[3]	王畅, 马丹, 许华容, 陈攀峰, 陈梅, 李晖. SA-MGKT: 基于自注意力融合的多图知识追踪方法[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 20-31.
[4]	孔超, 陈家会, 孟丹, 刁华彬, 王维, 张丽平, 刘涛. 面向MOOCs的个性化知识概念推荐[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 32-44.
[5]	任俊霖, 王欢, 黄骁迪, 李艳婷, 琚生根. 基于序列感知与多元行为数据的MOOCs知识概念推荐[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 45-56.
[6]	刘佳, 孙新, 张宇晴. 知识图谱与大语言模型协同的教育资源内容审查[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 57-69.
[7]	曲克晨, 李锦昌, 黄德铭, 宋佳. 基于知识图谱的学习系统设计对在线学习效果的影响研究[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 70-80.
[8]	寇思佳, 闫凤云, 马晶. 国内大语言模型在学科知识图谱自动标注上的应用——以道德与法治和数学学科为例[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 81-92.
[9]	陈郅睿, 陆雪松. 基于开源代码大语言模型提示的学生代码修复[J]. 华东师范大学学报（自然科学版）, 2024, 2024(5): 93-103.
[10]	谢琳玎, 张远, 蔡亦红. 基于生物信息学构建肝癌免疫预后基因模型及初步验证[J]. 华东师范大学学报（自然科学版）, 2024, 2024(4): 100-110.
[11]	张枨宇, 诸嘉逸, 黄怿豪, 杨迪, 李建文, 缪炜恺, 阎迪, 顾斌, 詹乃军, 蒲戈光. 一种基于机器学习的模型检查算法性能预测方法[J]. 华东师范大学学报（自然科学版）, 2024, 2024(4): 18-29.
[12]	乔莉文, 彭家鑫, 朱百强, 张可烨. 基于Jaynes-Cummings模型的量子参数估计与初态优化[J]. 华东师范大学学报（自然科学版）, 2024, 2024(3): 128-135.
[13]	曾杰, 袁春华. 损耗SU(2)和SU(1,1)干涉仪中灵敏度过高估计的研究[J]. 华东师范大学学报（自然科学版）, 2024, 2024(3): 91-100.
[14]	强书敏, 吕成, 许菲. 基于胶原异三聚体的成骨不全症机理研究[J]. 华东师范大学学报（自然科学版）, 2023, 2023(6): 108-118.
[15]	俞融, 杨攀飞, 王清帅, 张蓉. 数据同步机制自适应优化的HTAP数据库原型系统[J]. 华东师范大学学报（自然科学版）, 2023, 2023(5): 11-25.