为加强研究生学术交流活动,推进学术创新,特开通“研究生学术报告预告区”。我校研究生和教师可以在预告区及时发布和了解有关研究生学术报告的信息,届时参加。也可就某学术报告展开专题讨论与交流。
针对现有网页信息抽取方法普遍存在人工设计特征,准确率低的问题,本次报告介绍一种基于DOM树的论坛网页信息抽取方法。该方法首先是对网页进行预处理,然后将HTML网页转化为DOM树,在DOM树中寻找n个相似子树,最终将找到的n个子树中的文本信息进行抽取即得到了论坛网页信息。然后进行分享该方法抽取论坛网页信息的实验结果并且与其他论坛网页信息抽取方法进行比较,验证了该方法的可行性,同时讲述了实验过程中遇到的问题。最后与大家分享了该方法的优点以及网页信息抽取目前的研究现状以及研究意义。