字面意思,文件操作,无非就是找到文件,打开文件,写入/删除文件,找不到文件就去创建文件,并没有什么特殊的。如果你是这么认为的,那就太天真了,在python中提供了更为合理的数据管理方式。并非是你想像中的那么简单。
首先是打开文件,打开文件需要调用open函数,提供文件名,及打开方式。打开方式有(默认为r):
r: 只读模式w: 只写模式a: 追加模式(从文件结尾追加)r+: 读写模式w+: 读写模式(会先清空,后写入,然后读取,写读更合理吧)a+: 读写模式(还是只会从结尾处追加)rb: 二进制只读模式wb: 二进制只写模式ab: 二进制追加模式rb+: 二进制读写模式wb+: 二进制读写模式ab+: 二进制读写模式
读取文件
通过读模式打开文件后,可以对文件中的内容进行读取操作。
以test.txt文本为例,内容如下:
1 fukuda2 jingyuz3 music4 doit
下面介绍几种常用的文件读取方式
首先是读取文件中的所有内容read()
>>> f = open('test.txt')
>>> a = f.read()>>> print(a)1 fukuda2 jingyuz3 music4 doit>>> type(a)<class 'str'>>>> a'1 fukuda\n2 jingyuz\n3 music\n4 doit'>>> f.close()这种读取方式,将文件中的所有的数据都会加载到内存中,文件小还好说,文件大的话就惨了,有可能会造成死机的说,别问我为什么会知道。而且这个函数会将所有的文本内容全部赋给一个字符串变量,对,想像一个场景,一个容量为几十个G的字符串。
刚接触python的时候学习的第一个读取函数是readlines(),同样会读取文件中所有的内容,但是会按行划分为列表。
>>> f = open('test.txt','r')>>> a = f.readlines()>>> type(a)>>> print (a)['1 fukuda\n', '2 jingyuz\n', '3 music\n', '4 doit']>>> f.close()
但是通过这种方式同样会面临读取大文件内存不足的问题,python提供了readline()函数,可以逐行阅读。
>>> f = open('test.txt','r')>>> a = f.readline()>>> while a:... print (a,end="")... a = f.readline()...1 fukuda2 jingyuz3 music4 doit >>>f.close()
是的,感觉操作特别复杂,而且效率并不会特别高。据官方介绍,自python2.5版本以后,文本流采用了可迭代的方式,即你可以用for循环的方式遍历文本流,而不用担心内存不足什么的。
>>> f = open('test.txt','r')>>> for line in f:... print(line,end="")...1 fukuda2 jingyuz3 music4 doit
有时通过以上的读取方式可能会出现乱码什么的,这是由于文件编码方式不同的原因。可以通过二进制方式打开文件(open('test.txt','rb'))或者直接在打开文件是规定enconding为哪种编码方式(open('test.txt','r',encoding='utf-8'))。
写文件
可以通过写模式进行写文件操作,这里需要注意几点,w会先清空原有的文本文件,然后再在上面写操作,a只会在原有文件上面进行追加操作,r+则会在指定位置处覆盖内容的写方式。写的操作通常都是调用date.write(str)的方式写入文件流。下面以r+操作test.txt文件为例
第一行第二行第三行第四行
>>> f = open('test.txt','r+')>>> f.readline()>>> b = f.tell()>>> f.seek(b)8>>> f.write("第五行\n")4>>> f.close()
而此时test.txt文件则变为:
第一行第五行第三行第四行
这里简单介绍了文件的写操作,上面用到了两个陌生函数tell和seek,这两个函数在不能用鼠标来定位自己想到达的位置的python代码里,是很重要的操作文本文件的函数。
首先tell用来获取当前读操作的位置,返回值为当前位置的长度(字节码)什么的,seek则是定位想要去的位置,然后到那里去,进行读写操作,二者结合使用。
另外python还为文件操作提供一些其他的功能:
f.flush() 将缓存区的内容写入硬盘
f.next()返回下一行,并将文件操作标记位移到下一行。把一个file用于for ... in file这样的语句时,就是调用next()函数来实现遍历的。
f.seekable()查看节点是否可以被定位。
f.writable()查看文件是否可写
f.truncate()截断指针位置之后的数据,与seek结合使用