python 爬虫中文编码转换出错

最近用python写了个小爬虫自动下点东西，但是url 是含中文的，而且中文似乎是 gbk 编码然后转成 url的。举个例子吧，我如果有个unicode字符串“历史上那些牛人们.pdf”，那么我转换成url之后是，
t="%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf"，

但是对方网站给的是 s="%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"，

我折腾了好久，也不知道怎么把后面这串东西decode 成“历史上那些牛人们.pdf”。求大神指点。另外我用的python3.

举报该问题

推荐答案 2015-05-04

import urllib
if __name__ == '__main__':
    enc = r"%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"
    string = urllib.unquote(enc).decode('gb2312')
    print type(string), string

这是python2的，简单点。只能帮这么多了。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://11.wendadaohang.com/zd/FMS7qvqMq4q277P8477.html

其他回答

第1个回答 2015-05-04

去我的csdn 博客的Python栏，我使用Python3 也碰到过中文显示问题，我总结了
你可以去看看，上面的代码可以运行

可以百度 csdn IT孤鹜

相似回答

Python编写爬虫时遇到的编码问题:网页源码是uft-8,.read()的输出包含...答：python打印a list of unicode string，就是这种格式的。你循环一下就不会这样了。for item in items: print(item)

大家正在搜

python编码转换 pep8 python 编码规范 python中文编码爬虫python代码 python为什么叫爬虫 python爬虫有什么用爬虫python能做什么爬虫python入门 python爬虫教程