python 抓取的网页链接，链接中的中文乱码问题

我的系统是win7，在idel中编辑脚本，并按F5在shell中执行的。
python抓取的网页链接，并把每个链接都保存到list中，然后遍历list将网址输出到python的shell上面，
网页的编码是gb2312，但是我的脚本是code：utf-8 。因为我要把抓取的数据保存到excel中。

所以我用：
html = urllib2.urlopen(url).read()
html = html.decode('gb2312','ignore').encode('utf-8')
应该可以把网页的编码转成html
然后我用正则表达式去匹配我要抓取的网址，
pattern = re.compile("<TD width='(.*?)'><a href='../(.*?)'",re.S)
listinfo = re.findall(pattern,html)

listinfo应该是一个list
然后我要把输入list
for i in listinfo:
print i[1]
在输出的时候，有的链接里含有中文，最奇怪的是：有的链接里中文乱码，链接是不能访问的。有的是没有乱码的，链接可以访问。请问这是为什么？如何才能不乱码？

部分截图如下：
如果中文乱码的话，为什么不是所有链接里含有的中文都乱码呢？

举报该问题

推荐答案 2015-06-01

è¯è¯

import sys
print i[i].encode(sys.getdefaultencoding())è¿½é®

è¯äºä¸ä¸
print url.encode(sys.getdefaultencoding())
ï¼ä½¿ç¨è·å¾ç³»ç»é»è®¤ç¼ç è¿æ¯ä¸è¡ï¼è¯¥ä¹±ç çè¿æ¯ä¹±ç

è¿½çfor i in listinfo:
print i[i].encode(sys.getdefaultencoding())
ä¹ä¸è¡ï¼

ä»£ç é½è´´åºæ¥å§ãã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://11.wendadaohang.com/zd/2vF87S24FM48Fq24vS.html

相似回答

Python+requests 爬取网站遇到中文乱码怎么办答：对于Python+requests爬取网站遇到中文乱码的问题，您可以：1. 设置编码：在使用requests库发送请求时，可以通过设置`response.encoding`来指定网页的编码方式，例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码，避免中文乱码问题。2. 使用自动识别功能：八爪鱼采集器...

大家正在搜

用python抓取网页数据的代码基于python的网页数据抓取 python 网页抓取 python自动抓取网页 python抓取网页内容 python3抓取网页数据 python爬取网页内的指定内容 python爬取网页数据代码 python爬虫爬取网页所有数据