python 解析库 lxml
1.介绍
lxml 是 XML 和 HTML 的解析器,其主要功能是解析和提取 XML 和 HTML 中的数据;lxml 和正则一样,也是用 C 语言实现的,是一款高性能的 python HTML、XML 解析器,也可以利用 XPath 语法,来定位特定的元素及节点信息
HTML 是超文本标记语言,主要用于显示数据,他的焦点是数据的外观
XML 是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容
2.安装 lxml 方法
pip install lxml
3. 基本使用
我们可以利用他解析 HTML 代码,并且在解析 HTML 代码的时候,如果 HTML 代码不规范或者不完整,lxml 解析器会自动修复或补全代码,从而提高效率
实例 1:
解析 HTML 代码块
#提取 html 中的数据
from lxml import etree
text = '''
<html>
<div class="clearfix">
<div class="nav_com">
<ul>
<li class="active"><a href="/" rel="external nofollow" >推荐</a></li>
<li class=""><a href="/nav/python" rel="external nofollow" >Python</a></li>
<li class=""><a href="/nav/java" rel="external nofollow" >Java</a></li>
<li class=""><a href="/nav/web" rel="external nofollow" >前端</a></li>
<li class=""><a href="/nav/arch" rel="external nofollow" >架构</a></li>
<li class=""><a href="/nav/db" rel="external nofollow" >数据库</a></li>
<li class=""><a href="/nav/5g" rel="external nofollow" >5G</a></li>
<li class=""><a href="/nav/game" rel="external nofollow" >游戏开发</a></li>
<li class=""><a href="/nav/mobile" rel="external nofollow" >移动开发</a></li>
<li class=""><a href="/nav/ops" rel="external nofollow" >运维</a></li>
</ul>
</div>
</div>
</html>>
</html>>
'''
#将字符串解析为html文档
html = etree.HTML(text)
#print(html)
#将字符串序列化为html
result = etree.tostring(html).decode('utf-8')
print(result)
实例 2:
读取并解析 html 文件
#将html文件进行解析
from lxml import etree
#将html文件进行读取
html = etree.parse('data.html')
#将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)
实例3:
xpath 解析
from lxml import etree
import requests
rep=requests.get('https://www.baidu.com')
html=etree.HTML(rep.text)
aa=html.xpath('//*[@id="s_xmancard_news"]/div/div[2]/div/div[1]/h2/a[1]/@href')
print(aa)