主要用以记录网络爬虫相关技术文档

BeatufulSoup4 - 网页格式解析工具

文档网址 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

pip2 install BeaufulSoup4
from bs4 import BeautifulSoup

lxml - 网页解析引擎
pip install lxml

多种解析器,以及它们的优缺点:

解析器	使用方法	优势	劣势
python标准库	BeautifulSoup(doc,"html.parse")	内置标准库、执行速度适中、文档容错能力强	python 2.7.3 or 3.22之前容错差
lxml HTML	BeautifulSoup(doc,"lxml")	速度快、文档容错能力强	需要安装C语言库
lxml XML	BeautifulSoup(doc,"xml")	速度快、唯一支持MXL的解析器	需要安装C语言库
html5lib	BeautilfulSoup(doc,"html5lib")	容错性更好、以浏览器方式解析、生成H5方式的文档、不依赖外部拓展	速度慢

推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定. 提示: 如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的,查看解析器之间的区别了解更多细节

网络爬虫

results matching ""

No results matching ""