博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 字符编码
阅读量:5041 次
发布时间:2019-06-12

本文共 629 字,大约阅读时间需要 2 分钟。

采用标准库codecs模块

codecs.open(filename, mode='r', encoding=None, errors='strict', buffering=1)
1 import codecs2 f = codecs.open(filename, encoding='utf-8')

使用上边这种方式读进来utf-8文件,会自动转换为unicode。但必须明确该文件类型为utf8类型。如果是文件中有汉字,不是一个字节一个字节地读而是整个汉字的所有字节读进来然后转换成unicode(猜想跟汉字的utf8编码有关)。

下边的代码也是一种使用codecs的读写方式

 
#coding=utf-8import codecsfin = open("test.txt", 'r')fout = open("utf8.txt", 'w')reader = codecs.getreader('gbk')(fin)writer = codecs.getwriter('gbk')(fout)data = reader.read(10)#10是最大字节数,默认值为-1表示尽可能大。可以避免一次处理大量数据while data:    writer.write(data)    data = reader.read(10) 注意 unicode 至少16位

转载于:https://www.cnblogs.com/p0yz/p/7407244.html

你可能感兴趣的文章
在内存中创建原图的副本
查看>>
Ext ApplicationController&ref的使用
查看>>
【HDU】5249-KPI(线段树+离散化)
查看>>
USACO humble
查看>>
通过包名打开另外一个应用程序和获取手机中已安装apk文件信息(PackageInfo、ResolveIn ......
查看>>
[LeetCode] Random Pick with Blacklist 带黑名单的随机选取
查看>>
php+ajax+js模板引擎art-template相关笔记(一)
查看>>
mysql part1---DDL(数据定义语言)
查看>>
支持向量机(SVM)(三)-- 最优间隔分类器(optimal margin classifier)
查看>>
第6周作业
查看>>
java解决共享资源竞争
查看>>
模板——无旋Treap
查看>>
【实践】jquery实现滑动动画及轮播
查看>>
web service 参考文档
查看>>
android.widget--->toast
查看>>
缓存技术PK
查看>>
mvn install
查看>>
Python入门笔记(1):列表解析
查看>>
Triangular Sums 南阳acm122
查看>>
Using the Dialog Platform
查看>>