前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫基础——06-文件的读写

Python爬虫基础——06-文件的读写

作者头像
冷影玺
发布2023-10-12 13:56:25
1810
发布2023-10-12 13:56:25
举报
文章被收录于专栏:冷影玺

2.12文件

2.12.1文件的打开和关闭:

在python中,使用open函数,可以打开一个已存在的文件夹,或者创建一个新文件

open( 文件路径,访问模式 )

示例如下:

代码语言:javascript
复制
f = open('test.txt','w')

文件路径:

绝对路径:指的是绝对位置,完整的描述目标所在地,所有目录层级关系是一目了然的。

E:\python

从电脑的盘符开始,表示的就是一个绝对路径。

相对路径::是从文件所在的文件夹开始的路径。

路径

说明

test.txt

是在当前文件夹中查找test.txt文件。

./test.txt

也是在当前文件夹中里查找test.txt,文件 ./表示得是当前文件夹。

../test.txt

是从当前文件夹的上一级文件夹里查找test.txt文件。 .// 表示的是上一级文件。

demo/test.txt

在当前文件夹中里面查找demo这个文件夹,并在这个文件夹里查找test.txt文件。

访问模式:

访问

说明

r

以只读的方式打开文件。文件的指针将会放在文件的开头。如果文件不存在则报错

w

打开一个文件只用于写入。如果该文件已存在则覆盖,不存在则创建新文件

a

打开一个文件用于追加。如果文件已存在,文件指针将会放在文件末尾。没有则创建进行写入

r+

打开一个文件用于读写,文件指针将会放在文件开头

w+

打开一个文件用于读写,该文件已存在则进行覆盖,没有则创建新文件

a+

打开一个文件用于读写,如果已存在则将指针放在文件的结尾,文件打开时是追加模式,不存在创建用于读写

rb

已二进制格式打开一个文件用于只读。文件指针将会放在文件的开头

wb

已二进制格式打开一个文件用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件

ab

已二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入

rb+

已二进制格式打开一个文件用于读写。文件指针将会放在文件的开头

wb+

已二进制格式打开一个文件用于读写。如果文件已存在则将其覆盖。如果文件不存在,创建新文件

ab+

已二进制格式打开一个文件用于读写。如果文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写

代码语言:javascript
复制
# 创建一个test.txt文件
# open(文件的路径/模式)
# 模式: w表示可写   r 表示可读
open('test.txt','w')

# 向刚刚创建的test.txt文件书写内容为hello,world
fp = open('test.txt','w')
fp.write('hello,world')

# 文件夹是不可以被创建的
# 例如我们没有demo文件夹而我们在此创建一个test文件
fp =  open('demo/test.txt','w')  # 执行失败
fp =  open('demo/test.txt','w')  # 左边目录创建好一个demo目录之后执行成功
fp.write('hello')  # 执行成功输入内容


# 文件的关闭
fp = open('a.txt','r')
fp.write('hello')
fp.close()

2.12.2文件的读写:

写数据(write)

使用write()可以完成向文件写入数据

demo: 新建一个文件file_write_test.py,向其中写入如下代码:

代码语言:javascript
复制
f = open('test.txt','w')
f.write('hello world, i an here!\n' * 5)
f.close()
# 运行之后会在file_write_test.py文件所在的路径中创建一个文件test.txt并写入内容
代码语言:javascript
复制
# (1)写数据
# write方法
fp = open('test.txt','w')
fp.write('hello world, i am here' * 5)  # 连续输出在一行
fp.write('hello world, i am here\n' * 5)  # 加上\n之后一句一句输出连续输出5行显示的整洁
fp.close()

# 如果我再次来运行这行代码  会打印10次还是5次呢?   还是5次
# 如果文件存在  会先清空原来的数据  然后在写入
# 我想在每一次执行之后追加新的数据   把 其中的'w' 替换成'a'即可追加数据  如下

fp = open('test.txt','a')  # 运行几次则就追加几次
fp.write('hello world, i am here\n' * 5)
fp.close()
代码语言:javascript
复制
# (2)读数据
fp = open('test.txt','r')

# 默认情况下read是一字节一字节进行读取  效率比较低
content = fp.read()
print(content)  # 即可输出test.txt中的内容

# readline 是一行一行的读取  不过只能读取一行内容
content = fp.readline()
print(content)

# readlines  可以按照行来读取 可以将所有的数据都读取到  并且以一个列表的形式返回
# 而列表的元素是一行一行的数据
content = fp.readlines()
print(content)

2.12.3文件的序列化和反序列化:

通过文件操作,我们可以将字符串写入到一个本地文件。但是如果一个对象(例如列表,字典,元组等),就无法直接写入到一个文件里,需要对这个对象进行序列化,然后才能写入到文件里。

设计一套协议,按照某种规则,把内存中的数据转换为字节序列,保存到文件,这就是序列化,反之,从文件的字节序列恢复到内存中,就是反序列化。

对象---字节序列 ==== 序列化

字节序列---对象 ==== 反序列化

python中提供了JSON这个模块用来实现数据的序列化和反序列化。

JOSN模块

JOSN---是一种轻量级的数据交换标准,JOSN的本质是字符串。

使用JOSN实现序列化

JOSN提供了dump和dumps方法,将一个对象进行序列化。

dumps方法的作用是把对象转换成字符串,它本身不具备将数据写入到文件的功能。

代码语言:javascript
复制
fp = open('test.txt','w')
# 默认情况下我们只能将字符串写入到文件内
fp.write('hello world')
fp.close()

fp = open('test','w')
name_list = ['zhangsan','lisi']

fp.write(name_list)  # 例如我们将一个列表写入到文件内  结果输入不进去  所以我们需要进行转换

序列化   json.dumps

代码语言:javascript
复制
# 序列化的两种方式
# (1)dumps()

# 创建一个文件
fp = open('test.txt','w')

# 然后定义一个列表
name_list = ['zhangsan','lisi']

# 因为默认列表不能进行写入所以需要导入json
# 导入json模块到该文件中
import json

# 序列化
# 将python对象 变成json字符串
names = json.dumps(name_list)
print(names)  # 输出["zhangsan", "lisi"]

# 查看数据类型是否变成字符串
print(type(names))  # 输出<class 'str'>

# 将names写入到test.txt文件中
fp.write(names)  # 已经写入成功
fp.close()

# json的使用场景是在scrapy框架的时候  该框架返回一个对象 我们需要将对象写入到文件中 需要使用json.dumps

序列化json.dump

代码语言:javascript
复制
# dump
# 在将对象转换为字符串的同时  指定一个文件的对象  然后把转换后的字符串写入到这个文件里

# 创建一个文件
fp = open('test.txt','w')

# 创建一个列表
name_list = ['kenan','xinyi']

# 导入json模块
import json

# 进行调用
# # 相当于names = json.dumps(name_list)  和 fp.write(names)
json.dump(name_list,fp)

fp.close()

反序列化json.loads

代码语言:javascript
复制
# 反序列化
# 将json的字符串变成一个python对象

fp = open('test.txt','r')
content = fp.read()

# 读取之后 是字符串类型
print(content)
print(type(content))  # 输出类型是字符串<class 'str'>

# 两种方法
# (1) loads

import json
# 将json字符串变成python对象
result = json.loads(content)
print(result)
print(type(result))  # 输出类型是列表<class 'list'>
fp.close()

反序列化json.load

代码语言:javascript
复制
# (2)load
fp = open('test.txt','r')

import json
result = json.load(fp)

print(result)
print(type(result))
fp.close()

2.12.3文件的异常:

格式:

代码语言:javascript
复制
# try:
#     可能出现的异常代码
# except  异常类型
#         友好的提示
代码语言:javascript
复制
try:
    fp = open('test.txt','r')
    fp.read()
except FileExistsError:
    print('系统正在升级请稍后再试。。。')
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-03-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2.12文件
    • 2.12.1文件的打开和关闭:
      • 2.12.2文件的读写:
        • 2.12.3文件的序列化和反序列化:
          • 2.12.3文件的异常:
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档