python 爬虫中文编码转换出错

最近用python写了个小爬虫自动下点东西,但是url 是含中文的,而且中文似乎是 gbk 编码然后转成 url的。举个例子吧,我如果有个unicode字符串“历史上那些牛人们.pdf”,那么我转换成url之后是,
t="%20%E5%8E%86%E5%8F%B2%E4%B8%8A%E9%82%A3%E4%BA%9B%E7%89%9B%E4%BA%BA%E4%BB%AC.pdf",

但是对方网站给的是 s="%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF",

我折腾了好久,也不知道怎么把后面这串东西decode 成“历史上那些牛人们.pdf”。 求大神指点。 另外我用的python3.

import urllib
if __name__ == '__main__':
    enc = r"%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"
    string = urllib.unquote(enc).decode('gb2312')
    print type(string), string

这是python2的,简单点。只能帮这么多了。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2015-05-04
去我的csdn 博客的Python栏,我使用Python3 也碰到过中文显示问题,我总结了
你可以去看看,上面的代码可以运行

可以百度 csdn IT孤鹜