Feb 21
某种意义上Python可以看作有2种字符串:str和unicode,一个字符串可以使用type()来检查属于那种类型。str可以看作非常基本的byte数据。在Python中处理中文,需要额外做一些编码解码工作,比如:
- 生成一个xml文件,open()的编码是ascii,而且没有指定编码的地方,如果想用utf-8怎么办呢?OK,import codes,然后codes.open(filename, mode, encoding)
- 把一个网页html文件从gb2312,转换成utf8编码呢?读入一行到strLine, 然后strLine.decode(’gb2312′).encode(’utf-8′),不过这个比较慢,呵呵
- 怎么知道缺省的编码呢?sys.getdefaultencoding()和sys.getfilesystemencoding()
- 如何检查一个串的编码方式?”chardet, auto-detecting character encodings” @ http://chardet.feedparser.org/,使用这个工具,给出网页地址,它会自动下载并检测编码方式
?
最新评论