我们在使用Pandas时,需要先将其导入,这里我们给它取了一个别名pd。
import pandas as pd
文件数据以逗号分隔。
userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931
………………
使用pd.read_csv读取数据,使用默认的标题行、逗号分隔符。
除此之外,pd.read_csv还可以读取tsv、txt文件。
## 设置文件路径
data_path = "./datas/01/ratings.csv"
## 读取csv文件
ratings = pd.read_csv(data_path)
## 查看数据前5行
ratings.head()
# userId movieId rating timestamp
#0 1 1 4.0 964982703
#1 1 3 4.0 964981247
#2 1 6 4.0 964982224
#3 1 47 5.0 964983815
#4 1 50 5.0 964982931
## ①查看数据形状,返回(行数、列数)
ratings.shape
#(100836, 4)
## ②查看数据列名
ratings.columns
#Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
## ③查看数据索引列
ratings.index
#RangeIndex(start=0, stop=100836, step=1)
## ④查看每列的数据类型
ratings.dtypes
#userId int64
#movieId int64
#rating float64
#timestamp int64
#dtype: object
文件数据以tab分隔,且无列名。
2019-09-10 139 92
2019-09-09 185 153
2019-09-08 123 59
2019-09-07 65 40
2019-09-06 157 98
………………
使用pd.read_csv进行读取,指定分隔符和列名。
## 设置文件路径
data_path = "./datas/01/access_pvuv.txt"
## 读取txt文件
pvuv = pd.read_csv(
data_path,
sep = "\t",
header = None,
names=['pdate', 'pv', 'uv']
)
使用pd.read_excel读取xls或者xlsx文件。
## 设置文件路径
data_path = "./datas/01/access_pvuv.xlsx"
## 读取文件
pvuv = pd.read_excel(data_path)