python 解析库 lxml

1.介绍

lxml 是 XML 和 HTML 的解析器，其主要功能是解析和提取 XML 和 HTML 中的数据；lxml 和正则一样，也是用 C 语言实现的，是一款高性能的 python HTML、XML 解析器，也可以利用 XPath 语法，来定位特定的元素及节点信息

HTML 是超文本标记语言，主要用于显示数据，他的焦点是数据的外观
XML 是可扩展标记语言，主要用于传输和存储数据，他的焦点是数据的内容

2.安装 lxml 方法

pip install lxml

3. 基本使用

我们可以利用他解析 HTML 代码，并且在解析 HTML 代码的时候，如果 HTML 代码不规范或者不完整，lxml 解析器会自动修复或补全代码，从而提高效率

实例 1：
解析 HTML 代码块

#提取 html 中的数据

from lxml import etree

text = '''

<html>

    <div class="clearfix">

    <div class="nav_com">

     <ul>

       <li class="active"><a href="/" rel="external nofollow" >推荐</a></li>

       <li class=""><a href="/nav/python" rel="external nofollow" >Python</a></li>

       <li class=""><a href="/nav/java" rel="external nofollow" >Java</a></li>

       <li class=""><a href="/nav/web" rel="external nofollow" >前端</a></li>

       <li class=""><a href="/nav/arch" rel="external nofollow" >架构</a></li>

       <li class=""><a href="/nav/db" rel="external nofollow" >数据库</a></li>

       <li class=""><a href="/nav/5g" rel="external nofollow" >5G</a></li>

       <li class=""><a href="/nav/game" rel="external nofollow" >游戏开发</a></li>

       <li class=""><a href="/nav/mobile" rel="external nofollow" >移动开发</a></li>

       <li class=""><a href="/nav/ops" rel="external nofollow" >运维</a></li>

     </ul>

    </div>

    </div>

</html>>

</html>>

'''

#将字符串解析为html文档

html = etree.HTML(text)

#print(html)

#将字符串序列化为html

result = etree.tostring(html).decode('utf-8')

print(result)

实例 2：
读取并解析 html 文件

#将html文件进行解析
from lxml import etree
#将html文件进行读取
html = etree.parse('data.html')
#将html内容序列化
result = etree.tostring(html).decode('utf-8')
print(result)

实例3：

xpath 解析

from lxml import etree
import requests
rep=requests.get('https://www.baidu.com')
html=etree.HTML(rep.text)
aa=html.xpath('//*[@id="s_xmancard_news"]/div/div[2]/div/div[1]/h2/a[1]/@href')
print(aa)

python 解析库 lxml

1.介绍

2.安装 lxml 方法

3. 基本使用

最新文章：