Python+requests 爬取网站遇到中文乱码怎么办

如题所述

举报该问题

推荐答案 2017-11-13

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url = 'http//www.pythonscraping.com/'

req = requests.get(url)

print(req.text)

tree = html.fromstring(req.text)

print(tree.xpath("//h1[@class='title']/text()"))

点击(此处)折叠或打开

url = 'http://sports.sina.com.cn/g/premierleague/index.shtml'

print(tree.xpath("//span[@class='sec_blk_title']/text()"))

点击(此处)折叠或打开

print(req.headers['content-type'])

print(req.encoding)

print(req.apparent_encoding)

print(requests.utils.get_encodings_from_content(page_content.text))

点击(此处)折叠或打开

if req.encoding == 'ISO-8859-1':

encodings = requests.utils.get_encodings_from_content(req.text)

if encodings:

encoding = encodings[0]

else:

encoding = req.apparent_encoding

encode_content = req.content.decode(encoding, 'replace').encode('utf-8', 'replace')

温馨提示：答案为网友推荐，仅供参考

当前网址：http://11.wendadaohang.com/zd/SPMvMqvSFM8844q72P.html

其他回答

第1个回答 2023-08-05

八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器，可以帮助您快速采集网站数据。对于Python+requests爬取网站遇到中文乱码的问题，您可以：1. 设置编码：在使用requests库发送请求时，可以通过设置`response.encoding`来指定网页的编码方式，例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码，避免中文乱码问题。2. 使用自动识别功能：八爪鱼采集器提供了智能识别功能，可以自动识别网页的编码方式，并进行相应的解码操作。在采集任务设置中，可以选择启用智能识别功能，让八爪鱼自动处理中文乱码问题。3. 自定义解码规则：如果智能识别功能无法解决中文乱码问题，可以手动设置解码规则。在采集任务设置中，可以通过设置解码规则，指定网页的编码方式，以确保正确解码中文内容。八爪鱼采集器为用户准备了一系列简洁易懂的教程，帮助大家快速掌握采集技巧，轻松应对各类网站数据采集，请前往官网教程与帮助了解更多详情。

相似回答

Python|爬取书籍信息答：发送请求并获取响应，注重头部信息的设置。处理乱码，将响应文本转换为'gbk'编码。利用re模块解析数据，找到书籍链接。递归爬取每个书籍详情页，提取标题、价格等信息。4. 爬虫代码示例下面是一个完整的Python代码片段，展示了爬取过程：import requestsimport reurl = "http://www.wsgph.com/...

大家正在搜