[转载, 申江] 扫盲:存款准备金 XML的转义字符
Mar 01

需要编写从网页中抽取信息的程序,看了两天资料。整理一些有用的链接:

XPath Tutorial:

http://www.zvon.org/xxl/XPathTutorial/General/examples.html

HTML Tidy Library Project
http://tidy.sourceforge.net/

XPointer Tutorial
http://www.zvon.org/xxl/XPointerTutorial/Output/index.html

[收集Web数据抽取的相关文档]

从半结构化文本与自由格式文本中学习信息抽取规则
Learning Infomation Extraction Rules For
Semi-Structured and Free Text
?

作者Stephen
Soderland为华盛顿州立大学计算机科学系教授。本文的被引用次数高达50多次。论文以信息抽取系统WHISK系统为例,描述了如何以机器学习的方式,利用小规模样本训练系统自动学习目标文本的抽取模式,从而实现自动化信息抽取的一种技术。这种技术不但极具启发意义而且很有实用价值。

?
从WWW中抽取模式与关系
Extracting Patterns and Relations from the
World Wide Web
?
这是Sergey
Brin的另外一篇力作。该论文提出一种叫DIPRE的方法,利用机器学习理论从大量文本中自动提取模式与关系。文中利用这种方法从互联网上分散的文本中提取图书信息,即作者,标题二元组。结果仅用了5本书的样本集,就自动扩展到了15,000本书,而且有些书是最大的网上书店亚马逊也没有的。
?
利用标准的XML技术进行有效的Web数据抽取
Effective Web Data Extraction with Standard
XML Technologies
?
作者是IBM Almaden研究中心的Jussi
Myllymaki博士。文中描述了一种叫ANDES的,首先把HTML文档转化为XHTML文档,然后再利用XML与XSLT进行数据抽取的软件框架。
?
演示:一种健壮的具有高召回率与高精度的Web数据抽取技术
Demonstration: A Robust Web Data-Extraction
Technique With High Recall and Precision
?
文中图文并茂地演示了如何自动化地从半结构化的HTML页面中抽取指定数据到数据库中。
?
利用XML技术高效地进行Web数据抽取
Effective Web Data Extraction with Standard
XML Technologies
?

作者Jussi Myllymaki
为IBM研究员,在文中提出了一种先将HTML转变为XHTML,然后利用XSLT抽出XHTML中的数据,最后再利用XSLT精化结果,形成最后的XML输出数据。
?
Web数据抽取工具综述
A Brief Survey of Web Data Extraction
Tools
?

作者将目前的几种Web数据抽取工具按照六种分类:Wrapper开发语言,可感知HTML的工具,基于NLP的工具,Wrapper归纳工具,基于建模的工具,基于语义的工具依次介绍了各Web数据抽取工具的工作原理与特点,并且比较了它们的一般输出质量。
?
信息抽取概述
网上信息抽取技术纵览–信息抽取概述 陈鸿标 译

信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。

本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别;第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。

?
?基于可视线索的HTML页面分析
HTML Page Analysis Based on Visual
Cues
?
作者为微软亚洲研究院的张玉东与张亚勤,文中提出根据网页内容中的并行结构的子标题或者记录具有相似的结构这一特点,可以应用一种模式检测算法来检测出目标对象,从而进行HTML文档的语义结构抽取。
?
利用Lixto进行可视化的信息抽取
Visual Web Information Extraction with
Lixto
?
作者分析了Lixto抽取系统的架构,介绍了一种半自动化的Wrapper生成技术与自动化Web信息抽取技术。
?
信息抽取研究综述
Research On Information Extraction: A
Survey
? 文本信息抽取?
本文出自北京大学计算机科学与技术系,综述了信息抽取的一些基本概念。

随机日志

Leave a Reply