11问答网
所有问题
用python抓取编码为gb2312的网页,结果抓取的都是乱码 怎样才能将它弄成正常的HTML格式?
data = urllib.request.openurl(url)
data = data.decode('gb2312','ignore').encode('utf-8')
举报该问题
推荐答案 推荐于2016-08-07
你试试下面的代码
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
req = urllib2.Request("
http://www.baidu.com/"
)
res = urllib2.urlopen(req)
html = res.read()
res.close()
html = unicode(html, "gb2312").encode("utf8")
print html
温馨提示:答案为网友推荐,仅供参考
当前网址:
http://11.wendadaohang.com/zd/M7SS8v2q8SFM7FF44M.html
相似回答
python 抓取的网页
链接,链接中的中文
乱码
问题
答:
应该是shell的编码和listinfo编码不一样导致的,部分正常,部分乱码有可能是因为两种编码部分字符恰好一样
。试试 import sysprint i[i].encode(sys.getdefaultencoding())
大家正在搜
python 网页抓取
python3抓取网页数据
python自动抓取网页
用python爬取网页数据
python爬虫爬取网页所有数据
gb2312编码是什么意思
python怎么用
python爬取网站
gb2312和gbk的区别
相关问题
python爬虫抓取到的数据用网页打开时是乱码,怎么解决
抓取一个网页,上面标注的是 gb2312 我用jsoup抓取...
用python抓取的网页保存后为什么乱码?
我在写一个python的网络爬虫,写入记事本的内容都是乱码如...
python爬虫抓下来的网页,中间的中文乱码怎么解决
python爬到的html乱码怎么解决
python,抓取的网页为二进制乱码,怎么解决
网页gbk编码改成UTF-8后网页显示乱码,怎么做才能gbk...