主要用以记录网络爬虫相关技术文档

BeatufulSoup4 - 网页格式解析工具

文档网址 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

pip2 install BeaufulSoup4
from bs4 import BeautifulSoup

lxml - 网页解析引擎
pip install lxml

多种解析器,以及它们的优缺点:

解析器 使用方法 优势 劣势
python标准库 BeautifulSoup(doc,"html.parse") 内置标准库、执行速度适中、文档容错能力强 python 2.7.3 or 3.22之前容错差
lxml HTML BeautifulSoup(doc,"lxml") 速度快、文档容错能力强 需要安装C语言库
lxml XML BeautifulSoup(doc,"xml") 速度快、唯一支持MXL的解析器 需要安装C语言库
html5lib BeautilfulSoup(doc,"html5lib") 容错性更好、以浏览器方式解析、生成H5方式的文档、不依赖外部拓展 速度慢

推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定. 提示: 如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的,查看 解析器之间的区别 了解更多细节

results matching ""

    No results matching ""