19. 结构化标记处理工具 — Python 文档
来自菜鸟教程
Python/docs/2.7/library/markup
19. 结构化标记处理工具
Python 支持各种模块来处理各种形式的结构化数据标记。 这包括使用标准通用标记语言 (SGML) 和超文本标记语言 (HTML) 的模块,以及使用可扩展标记语言 (XML) 的几个接口。
需要注意的是,xml 包中的模块要求至少有一个符合 SAX 的 XML 解析器可用。 从 Python 2.3 开始,Expat 解析器包含在 Python 中,因此 xml.parsers.expat 模块将始终可用。 您可能仍然想知道 PyXML 附加包 ; 该包为 Python 提供了一组扩展的 XML 库。
xml.dom 和 xml.sax 包的文档是 DOM 和 SAX 接口的 Python 绑定定义。
- 19.1.
HTMLParser
— 简单的 HTML 和 XHTML 解析器 - 19.2.
sgmllib
— 简单的 SGML 解析器 - 19.3.
htmllib
— HTML 文档解析器 - 19.4.
htmlentitydefs
— HTML 通用实体的定义 - 19.5. XML 处理模块
- 19.6. XML 漏洞
- 19.7.
xml.etree.ElementTree
— ElementTree XML API - 19.8.
xml.dom
— 文档对象模型 API - 19.9.
xml.dom.minidom
— 最小的 DOM 实现 - 19.10.
xml.dom.pulldom
— 支持构建部分 DOM 树 - 19.11.
xml.sax
— 支持 SAX2 解析器 - 19.12.
xml.sax.handler
— SAX 处理程序的基类 - 19.13.
xml.sax.saxutils
— SAX 实用程序 - 19.14.
xml.sax.xmlreader
— XML 解析器的接口 - 19.15.
xml.parsers.expat
— 使用 Expat 的快速 XML 解析