为什么使用文件
如果没有⽂件,我们写的程序的数据是存储在电脑的内存中,如果程序退出,内存回收,数据就丢失了,等再次运⾏程序,是看不到上次程序的数据的,如果要将数据进⾏持久化的保存,我们可以使⽤⽂件,因为文件是存放在硬盘上的
磁盘上的⽂件和文件夹都是⽂件。 但是在程序设计中,我们⼀般谈的⽂件有两种:程序⽂件、数据⽂件(从⽂件功能的⻆度来分类 的)。
程序⽂件包括源程序⽂件(后缀为.c), ⽬标⽂件(windows环境后缀为.obj), 可执⾏程序(windows环境后缀为.exe)。
程序文件
目标文件
可执行程序
⽂件的内容不⼀定是程序,⽽是程序运⾏时读写的数据,⽐如程序运⾏需要从中读取数据的⽂件,或者输出内容的⽂件。
本篇讨论的是数据⽂件。
在以前各章所处理数据的输⼊输出都是以终端为对象的,即从终端的键盘输⼊数据,运⾏结果显⽰到显⽰器上。
其实有时候我们会把信息输出到磁盘上,当需要的时候再从磁盘上把数据读取到内存中使⽤,这⾥处理的就是磁盘上⽂件。
⼀个⽂件要有⼀个唯⼀的⽂件标识,以便⽤⼾识别和引⽤。 ⽂件名包含3部分:⽂件路径+⽂件主⼲名+⽂件后缀 例如: c:\code\test.txt 为了⽅便起⻅,⽂件标识常被称为⽂件名。
根据数据的组织形式,数据⽂件被称为⽂本⽂件或者⼆进制⽂件。 数据在内存中以⼆进制的形式存储,如果不加转换的输出到外存,就是⼆进制⽂件。 如果要求在外存上以ASCII码的形式存储,则需要在存储前转换。以ASCII字符的形式存储的⽂件就是⽂本⽂件。
⼀个数据在内存中是怎么存储的呢 字符⼀律以ASCII形式存储,数值型数据既可以⽤ASCII形式存储,也可以使⽤⼆进制形式存储。 如有整数10000,如果以ASCII码的形式输出到磁盘,则磁盘中占⽤5个字节(每个字符⼀个字节),⽽⼆进制形式输出,则在磁盘上只占4个字节(VS2019测试)。
⼆进制形式输出不一定占用字节小,比如给一个整数1,ASCII码形式输出占⽤1个字节,二进制的占⽤4个字节
文本文件我们是可以看到的
二进制
下面这个fwite(a的地址,多少字节,写多少次,写到关联的p)
int main()
{
int a = 10000;
FILE* p = fopen("test.txt", "wb");//打开文件
fwrite(&a, 4, 1, p);//写入二进制
fclose(p);//关闭文件
p = NULL;
return 0;
}
输出的东西我们都看不懂,因为存放的是二进制
我们可以用vs的二进制编辑器打开查看
这个是小端存放的,所以是倒过来的
我们程序的数据需要输出到各种外部设备,也需要从外部设备获取数据,不同的外部设备的输⼊输出操作各不相同,为了⽅便程序员对各种设备进⾏⽅便的操作,我们抽象出了流的概念,我们可以把流想象成流淌着字符的河。C程序针对⽂件、画⾯、键盘等的数据输⼊输出操作都是通过流操作的。 ⼀般情况下,我们要想向流⾥写数据,或者从流中读取数据,都是要打开流,然后操作。
为什么我们从键盘上输入数据,向屏幕输出数据,并没有打开流呢?
那是因为C语⾔程序在启动的时候,默认打开了3个流:
这是默认打开了这三个流,我们使⽤scanf、printf等函数就可以直接进⾏输⼊输出操作的。 stdin、stdout、stderr三个流的类型是: FILE* ,通常称为⽂件指针。 C语⾔中,就是通过 FILE* 的⽂件指针来维护流的各种操作的。
缓冲⽂件系统中,关键的概念是“⽂件类型指针”,简称“⽂件指针”。
每个被使⽤的⽂件都在内存中开辟了⼀个相应的⽂件信息区,⽤来存放⽂件的相关信息(如⽂件的名字,⽂件状态及⽂件当前的位置等)。这些信息是保存在⼀个结构体变量中的。该结构体类型是由系统声明的,取名FILE.
例如,VS2013编译环境提供的 stdio.h 头⽂件中有以下的⽂件类型申明:
struct _iobuf
{
char *_ptr;
int _cnt;
char *_base;
int _flag;
int _file;
int _charbuf;
int _bufsiz;
char *_tmpfname;
};
typedef struct _iobuf FILE;
不同的C编译器的FILE类型包含的内容不完全相同,但是⼤同⼩异。 每当打开⼀个⽂件的时候,系统会根据⽂件的情况⾃动创建⼀个FILE结构的变量,并填充其中的信 息,使⽤者不必关⼼细节。 ⼀般都是通过⼀个FILE的指针来维护这个FILE结构的变量,这样使⽤起来更加⽅便。
下⾯我们可以创建⼀个FILE*的指针变量:
FILE* p;//文件指针变量
定义pf是⼀个指向FILE类型数据的指针变量。可以使pf指向某个⽂件的⽂件信息区(是⼀个结构体变量)。通过该⽂件信息区中的信息就能够访问该⽂件。也就是说,通过⽂件指针变量能够间接找到与它关联的⽂件。
比如:
打开文件就是打开流
读写文件就是读写流
关闭文件就是关闭流
我们只需要关注文件操作进行,流的操作是底层的操作我们不用关心
⽂件在读写之前应该先打开⽂件,在使⽤结束之后应该关闭⽂件。
在编写程序的时候,在打开⽂件的同时,都会返回⼀个FILE*的指针变量指向该⽂件,也相当于建⽴了指针和⽂件的关系。
ANSIC?规定使⽤ fopen 函数来打开⽂件, fclose 来关闭⽂件。
int main()
{
//打开文件
//打开文件成功,返回有效指针
//打开失败,返回NULL
//当然也可以用路径打开文件
FILE* p = fopen("data.txt", "w");
//判断是不是NULL
if (p == NULL)
{
//是就报错
perror("fopen");
return 1;
}
//关闭文件
fclose(p);
//给p赋值NULL
p = NULL;
return 0;
}
⽂件使⽤⽅式 | 含义 | 如果指定⽂件不存在 |
---|---|---|
“r”(只读) | 为了输⼊数据,打开⼀个已经存在的⽂本⽂件 | 出错 |
“w”(只写) | 为了输出数据,打开⼀个⽂本⽂件 | 建⽴⼀个新的⽂件 |
“a”(追加) | 向⽂本⽂件尾添加数据 | 建⽴⼀个新的⽂件 |
“rb”(只读) | 为了输⼊数据,打开⼀个⼆进制⽂件 | 出错 |
“wb”(只写) | 为了输出数据,打开⼀个⼆进制⽂件? | 建⽴⼀个新的⽂件 |
“ab”(追加) | 向⼀个⼆进制⽂件尾添加数据? | 建⽴⼀个新的⽂件 |
“r+”(读写) | 为了读和写,打开⼀个⽂本⽂件 | 出错 |
“w+”(读写) | 为了读和写,建议⼀个新的⽂件 | 建⽴⼀个新的⽂件 |
“a+”(读写) | 打开⼀个⽂件,在⽂件尾进⾏读写 | 建⽴⼀个新的⽂件 |
“rb+”(读写) | 为了读和写打开⼀个⼆进制⽂件 | 出错 |
“wb+”(读写) | 为了读和写,新建⼀个新的⼆进制⽂件 | 建⽴⼀个新的⽂件 |
“ab+”(读写) | 打开⼀个⼆进制⽂件,在⽂件尾进⾏读和写 | 建⽴⼀个新的⽂件 |
顺序读写函数介绍:
前6个函数是读和写的都是文本信息,后面2个是二进制信息
函数名 | 功能 | 适用于 |
---|---|---|
fgetc | 字符输⼊函数(读字符) | 所有输⼊流 |
fputc | 字符输出函数(写字符) | 所有输出流 |
fgets | ⽂本⾏输⼊函数(读字符串) | 所有输⼊流 |
fputs | ⽂本⾏输出函数(写字符串) | 所有输出流 |
fscanf | 格式化输⼊函数(可以读所有类型) | 所有输⼊流 |
fprintf | 格式化输出函数 | 所有输出流 |
fread | 二进制输入 | 文件 |
fwrite | 二进制输出 | 文件 |
l
fputc是写字符的,这个函数一次只能输出一个字符
int main()
{
//打开文件
FILE* p = fopen("data.txt", "w");
if (p == NULL)
{
perror("fopen");
return 1;
}
//写入文件
fputc('a', p);
fputc('b', p);
fputc('c', p);
fputc('d', p);
fputc('e', p);
fputc('f', p);
//关闭文件
fclose(p);
p = NULL;
return 0;
}
fputc可以循环写入
int main()
{
//打开文件
FILE* p = fopen("data.txt", "w");
if (p == NULL)
{
perror("fopen");
return 1;
}
//写入文件
for (int i = 'a'; i <= 'z'; i++)
{
fputc(i, p);
}
//关闭文件
fclose(p);
p = NULL;
return 0;
}
读取正常的时候,返回读取到的字符的ASCII码值
读取失败的时候,返回EOF
EOF是一个文件的结束标志
下面这个代码我们可以看到从文件里读取了5个字符。
int main()
{
//打开文件
FILE* p = fopen("data.txt", "r");
if (p == NULL)
{
perror("fopen");
return 1;
}
//读文件
int r = fgetc(p);
printf("%c\n", r);
r = fgetc(p);
printf("%c\n", r);
r = fgetc(p);
printf("%c\n", r);
r = fgetc(p);
printf("%c\n", r);
r = fgetc(p);
printf("%c\n", r);
//关闭文件
fclose(p);
p = NULL;
}
我们也可以用循环的方式进行读
int main()
{
//打开文件
FILE* p = fopen("data.txt", "r");
if (p == NULL)
{
perror("fopen");
return 1;
}
//读文件
int r = 0;
while ((r = fgetc(p)) != EOF)
{
printf("%c\n", r);
}
//关闭文件
fclose(p);
p = NULL;
}
int main()
{
int r = fgetc(stdin);//标准输入流(从键盘读)
fputc(r, stdout);//标准输出流(写到屏幕上)
return 0;
}
这个函数可以往文件里写字符串
int main()
{
//打开文件
FILE* p = fopen("data.txt", "w");
if (p == NULL)
{
perror("fopen");
return 1;
}
//写入文件
fputs("您好小明,今天有空吗", p );
//关闭文件
fclose(p);
p = NULL;
}
这个函数是从文件里,读取字符串出来
下面这代码,我们要读取3个字符,我们可以看到实际上只读取了2个字符,编译器会在后面加个\0
下面这个代码,没有读取到w,这是为什么呢,因为这个函数是文本行的读取,所以读取到\n会停下来,然后呢编译器在后面加\0
int main()
{
char arr[20] = { 0 };
//从键盘读数据
fgets(arr, 10, stdin);
//写到屏幕上
fputs(arr, stdout);
}
fprintf和printf的写法是一样的只不过fprintf是将数值写到文件里,所以第一个参数是流。
只要是printf能打印的,fprintf都能写到文件里
int main()
{
char a[20] = "小明";
int b = 18;
float c = 75.5f;
//打开文件
FILE* p = fopen("data.txt", "w");
if (p == NULL)
{
perror("fopen");
return 1;
}
//写入文件
fprintf(p ,"%s %d %f", a, b, c);
//关闭文件
fclose(p);
p = NULL;
}
下面这代码我们也可以用结构体的方式
fscanf和scanf也是差不多一样的,scanf是读取键盘,fscanf是读取文件数据
下面这个代码是读取文件的数据放到结构体变量里,然后进行打印结构体
struct a
{
char a[20];
int b;
float c;
};
int main()
{
struct a arr = { 0 };
//打开文件
FILE* p = fopen("data.txt", "r");
if (p == NULL)
{
perror("fopen");
return 1;
}
//读文件
fscanf(p , "%s %d %f", &arr.a, &arr.b, &arr.c);
//打印到屏幕上
printf("%s %d %.2f", arr.a, arr.b, arr.c);
//关闭文件
fclose(p);
p = NULL;
}
struct a
{
char a[20];
int b;
float c;
};
int main()
{
struct a arr = { 0 };
//读取键盘
fscanf(stdin, "%s %d %f", &arr.a, &arr.b, &arr.c);
//打印到屏幕上
fprintf(stdout,"%s %d %.2f", arr.a, arr.b, arr.c);
}
scanf / fscanf / sscanf printf / fprintf / sprintf
scanf和printf 针对标准输入流/标准输出流的 格式化 输入/输出函数
fscanf和fprintf 针对所有输入流/所有输出流的 格式化 输入/输出函数
sprintf:将格式化的数据转换成字符串。
sscanf:从字符串中提取格式化的数据。
sprintf:其实是将格式化的数据写到字符串中(可以理解为将格式化的数据转换成字符串)
如果有很多数据需要整合成字符串就可以使用sprintf
struct a
{
char a[20];
int b;
float c;
};
int main()
{
char arr[99] = { 0 };
struct a p = { "小虎",33,65.9};
//将p里的数据转换成字符串,放到arr数组中
sprintf(arr,"%s %d %.2f", p.a, p.b, p.c);
printf("%s", arr);
return 0;
}
sscanf:是从字符串中提取格式化的数据,可以理解为将字符串转换成格式化的数据
struct a
{
char a[20];
int b;
float c;
};
int main()
{
char arr[99] = { 0 };
struct a p = { "小虎",33,65.9 };
//将p里的数据转换成字符串,放到arr数组中
sprintf(arr, "%s %d %.2f", p.a, p.b, p.c);
struct a kk = { 0 };
//从字符串里读取格式化的数据,转换后,放到kk中
sscanf(arr,"%s %d %f", kk.a, &kk.b, &kk.c);
//打印
printf("%s %d %.2f", kk.a, kk.b, kk.c);
return 0;
}
这个函数是以二进制形式写到文件里,
fwrite第一个参数是数据,第二个参数是类型的大小,第三个参数是要写多少,第四个参数是流(把数据写到文件里)。
下面这代码我们可以看到以二进制文件写到文件里,二进制我们当然是看不懂的。
struct a
{
char a[20];
int b;
float c;
};
int main()
{
struct a ps = { "asdfyg",25,88.8f };
//打开文件
FILE* p = fopen("data.txt", "wb");
if (p == NULL)
{
perror("fopen");
return 1;
}
//写入二进制到文件
fwrite(&ps, sizeof(struct a), 1, p);
//关闭文件
fclose(p);
p = NULL;
return 0;
}
这个函数是读取二进制信息
fwrite第一个参数是读到的数据放的位置,第二个参数是类型的大小,第三个参数是要读多少,第四个参数是流(从流读取数据)。
下面这代码我们可以看到,从二进制读取信息,打印在屏幕上
struct a
{
char a[20];
int b;
float c;
};
int main()
{
struct a ps = { 0 };
//打开文件
FILE* p = fopen("data.txt", "rb");
if (p == NULL)
{
perror("fopen");
return 1;
}
//读取二进制文件
fread(&ps,sizeof(struct a), 1 , p );
//打印
printf("%s %d %f", ps.a, ps.b, ps.c);
//关闭文件
fclose(p);
p = NULL;
}
顺序读写是一行一行的读写,随机读写是想读写那个就读写那个
fseek根据⽂件指针的位置和偏移量来定位⽂件指针(文件内容的光标)。
第一个参数是流,第二个参数是偏移量,
第三个参数定位文件指针:
SEEK_SET(是文件开头的位置) SEEK_CUR(文件指针的当前位置(光标)) SEEK_END(文件末尾)
作用是:
用SEEK_SET从文件开头的位置偏移到后面 用SEEK_CUR从光标的位置向后面偏移 用SEEK_END文件末尾向前面偏移 向前面偏移用正数,向后偏移用负数
读取a和b后,定位文件指针,SEEK_SET从文件开头向后偏移了6,读取了后面的3个hhh
当我们读取了a和b光标会在b的后面,定位文件指针,SEEK_CUR从光标的位置向后面偏移4个,读取了后面的3个hhh。
SEEK_END从文件末尾向前面偏移了-6,读取了后面的3个d e f
ftell返回⽂件指针相对于起始位置的偏移量。
ftell计算从起始位置到光标的偏移量。
int main()
{
//打开文件
FILE* p = fopen("data.txt", "r");
if (p == NULL)
{
perror("fopen");
return 1;
}
//读文件
int r = 0;
//定位文件指针
fseek(p, -6, SEEK_END);
r = fgetc(p);//d
printf("%c\n", r);
r = fgetc(p);//e
printf("%c\n", r);
r = fgetc(p);//f
printf("%c\n", r);
printf("%d\n", ftell(p));
//关闭文件
fclose(p);
p = NULL;
}
让⽂件指针的位置回到⽂件的起始位置
就是让光标来到起始位置
int main()
{
//打开文件
FILE* p = fopen("data.txt", "r");
if (p == NULL)
{
perror("fopen");
return 1;
}
//读文件
int r = 0;
r = fgetc(p);//a
printf("%c\n", r);
r = fgetc(p);//b
printf("%c\n", r);
r = fgetc(p);//c
printf("%c\n", r);
//将文件指针重新定位到文件的起始位置
rewind(p);
r = fgetc(p);//a
printf("%c\n", r);
r = fgetc(p);//b
printf("%c\n", r);
r = fgetc(p);//c
printf("%c\n", r);
//关闭文件
fclose(p);
p = NULL;
}
被错误使⽤的 feof
牢记:在⽂件读取过程中,不能⽤feof函数的返回值直接来判断⽂件的是否结束。 feof 的作⽤是:当⽂件读取结束的时候,判断是读取结束的原因是否是:遇到⽂件尾结束。
⽂本⽂件读取是否结束,判断返回值是否为 EOF ( fgetc ),或者 NULL ( fgets ) 例如:
fgetc 判断是否为 EOF . fgets 判断返回值是否为 NULL .
⼆进制⽂件的读取结束判断,判断返回值是否⼩于实际要读的个数。 例如:
fread判断返回值是否⼩于实际要读的个数。
EOF也可以拿来文件的结束标志 feof函数不是用来判断文件是否结束的!!! 1 在读取文件的过程中,有可能读取文件结束 结束的原因: 1.遇到文件末尾 2.遇到错误了
⽂本⽂件的例⼦:
feof是在已经结束了,判断结束的原因是什么。
#include <stdio.h>
#include <stdlib.h>
int main(void)
{
int c; // 注意:int,⾮char,要求处理EOF
FILE* fp = fopen("test.txt", "r");
if (!fp) {
perror("File opening failed");
return EXIT_FAILURE;
}
//fgetc 当读取失败的时候或者遇到⽂件结束的时候,都会返回EOF
while ((c = fgetc(fp)) != EOF) // 标准C I/O读取⽂件循环
{
putchar(c);
}
//判断是什么原因结束的
if (ferror(fp))
//遇到错误了
puts("I/O error when reading");
else if (feof(fp))
//遇到文件末尾
puts("End of file reached successfully");
fclose(fp);
}
⼆进制⽂件的例⼦:
#include <stdio.h>
enum { SIZE = 5 };
int main(void)
{
double a[SIZE] = { 1.,2.,3.,4.,5. };
FILE* fp = fopen("test.bin", "wb");
fwrite(a, sizeof * a, SIZE, fp); // 写 double 的数组
fclose(fp);
double b[SIZE];
fp = fopen("test.bin", "rb");
size_t ret_code = fread(b, sizeof * b, SIZE, fp); // 读 double 的数组
if (ret_code == SIZE) {
puts("Array read successfully, contents: ");
for (int n = 0; n < SIZE; ++n)
printf("%f ", b[n]);
putchar('\n');
}
else { // error handling
if (feof(fp))
printf("Error reading test.bin: unexpected end of file\n");
else if (ferror(fp)) {
perror("Error reading test.bin");
}
}
fclose(fp);
}
下面这代码我们可以看到只读取了一个字符,没有遇到文件末尾,feof返回0
当我们读取完到遇到文件末尾返回1
#include<stdio.h>
#include <stdlib.h>
int main()
{
//打开文件
FILE* p1 = fopen("data1.txt", "r");
if (p1 == NULL)
{
perror("fopen");
return 1;
}
FILE* p2 = fopen("data2.txt", "w");
if (p2 == NULL)
{
perror("fopen");
fclose(p1);
p1 = NULL;
return 1;
}
//复制
int r = 0;
while ((r = fgetc(p1)) != EOF)
{
fputc(r, p2);
}
fclose(p1);
p1 == NULL;
fclose(p2);
p2 = NULL;
return 0;
}
ANSIC 标准采⽤“缓冲⽂件系统”处理的数据⽂件的,所谓缓冲⽂件系统是指系统⾃动地在内存中为程序中每⼀个正在使⽤的⽂件开辟⼀块“⽂件缓冲区”。从内存向磁盘输出数据会先送到内存中的缓冲区,装满缓冲区后才⼀起送到磁盘上。如果从磁盘向计算机读⼊数据,则从磁盘⽂件中读取数据输⼊到内存缓冲区(充满缓冲区),然后再从缓冲区逐个地将数据送到程序数据区(程序变量等)。缓冲区的⼤⼩根据C编译系统决定的。
系统会在内存中开辟一块文件缓冲区,当我们把数据写到文件里(也就是硬盘),会先把数据放到输出缓冲区,放满了输出缓冲区,才⼀起送到硬盘上。
输入缓冲区元素一样,读的数据,放满了输入缓冲区,然后再从缓冲区逐个地将数据送到程序数据区(程序变量等)。
下面这有个代码
#include <stdio.h>
#include <windows.h>
//VS2019 WIN11环境测试
int main()
{
FILE*pf = fopen("test.txt", "w");
fputs("abcdef", pf); //先将代码放在输出缓冲区
printf("睡眠10秒-已经写数据了,打开test.txt⽂件,发现⽂件没有内容\n");
Sleep(10000);
printf("刷新缓冲区\n");
fflush(pf); //刷新缓冲区时,才将输出缓冲区的数据写到⽂件(磁盘)
//注:fflush 在⾼版本的VS上不能使⽤了
printf("再睡眠10秒-此时,再次打开test.txt⽂件,⽂件有内容了\n");
Sleep(10000);
fclose(pf);
//注:fclose在关闭⽂件的时候,也会刷新缓冲区
pf = NULL;
return 0;
}
下面这代码我们可以看到,把字符串放到了输出缓冲区,但是还没有刷新缓冲区(也就是还没有放到硬盘)
下面代码,已经刷新缓冲区了(也就是放到硬盘了),我们可以看到,字符串已经放到文件(硬盘)里了
这⾥可以得出⼀个结论: 因为有缓冲区的存在,C语⾔在操作⽂件的时候,需要做刷新缓冲区或者在⽂件操作结束的时候关闭⽂件。如果不做,可能导致读写⽂件的问题。