用python抓取编码为gb2312的网页，结果抓取的都是乱码怎样才能将它弄成正常的HTML格式？

data = urllib.request.openurl(url)
data = data.decode('gb2312','ignore').encode('utf-8')

推荐答案推荐于2016-08-07

你试试下面的代码

#!/usr/bin/env python
# -*- coding:utf8 -*-

import urllib2

req = urllib2.Request("http://www.baidu.com/")
res = urllib2.urlopen(req)
html = res.read()
res.close()

html = unicode(html, "gb2312").encode("utf8")
print html

温馨提示：答案为网友推荐，仅供参考

当前网址：http://11.wendadaohang.com/zd/M7SS8v2q8SFM7FF44M.html

相似回答

python 抓取的网页链接,链接中的中文乱码问题答：应该是shell的编码和listinfo编码不一样导致的，部分正常，部分乱码有可能是因为两种编码部分字符恰好一样。试试 import sysprint i[i].encode(sys.getdefaultencoding())

大家正在搜

python 网页抓取 python3抓取网页数据 python自动抓取网页用python爬取网页数据 python爬虫爬取网页所有数据 gb2312编码是什么意思 python怎么用 python爬取网站 gb2312和gbk的区别

用python抓取编码为gb2312的网页，结果抓取的都是乱码 怎样才能将它弄成正常的HTML格式？

用python抓取编码为gb2312的网页，结果抓取的都是乱码怎样才能将它弄成正常的HTML格式？