摘要: 针对从模板生成的网页中自动抽取web数据的问题, 提出了一种新的树对齐算法. 该算法能够确定输入网页的最大匹配结构. 经过一系列的对齐操作之后, 多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树, 树对齐算法可以发现合并树中的重复模式, 在最可能内容块上构建包装器, 并按照重复模式从网页上抽取数据. 实验结果表明, 该算法的抽取结果具有较高的准确性和良好的稳定性.
中图分类号:
景寒星;陈少红;俞 琨. 自动抽取web数据的树对齐算法[J]. 华东师范大学学报(自然科学版), 2010, 2010(5): 96-102.
JING Han-xing;CHEN Shao-hong;YU Kun. Automatic web data extraction based on tree alignment[J]. Journal of East China Normal University(Natural Sc, 2010, 2010(5): 96-102.