前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫系列:存储 CSV 文件

爬虫系列:存储 CSV 文件

原创
作者头像
太后
发布2021-12-09 16:01:27
3740
发布2021-12-09 16:01:27
举报
文章被收录于专栏:短信接收服务

上一期:爬虫系列:存储媒体文件,讲解了如果通过爬虫下载媒体文件,以及下载媒体文件相关代码讲解。

本期将讲解如果将数据保存到 CSV 文件。

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)是存储表格数据常用文件格式。Microsoft Excel 和很多应用都支持 CSV 格式,因为它很简洁。下面是一个 CSV 文件的例子:

代码语言:javascript
复制
code,parentcode,level,name,parentcodes,province,city,district,town,pinyin,jianpin,firstchar,tel,zip,lng,lat
110000,100000,1,北京,110000,北京,,,,Beijing,BJ,B,,,116.405285,39.904989
110100,110000,2,北京市,"110000,110100",北京,北京市,,,Beijing,BJS,B,010,100000,116.405285,39.904989
110101,110100,3,东城区,"110000,110100,110101",北京,北京市,东城区,,Dongcheng,DCQ,D,010,100000,116.418757,39.917544

和 Python 一样, CSV 里留白(whitespace)也是很重要的:每一行都用一个换行符,列与列之间用逗号分隔(因此也叫“逗号分隔值”)。CSV 文件还可以用 Tab 字符或其他字符分隔行,但是不太常见,用得不多。

如果你只想从网页上把 CSV 文件下载到电脑里,不打算做任何修改和解析,那么接下来的内容就不要看了,只用上一篇文章介绍的方法下载并保存 CSV 文件就可以了。

Python 的 CSV 库可以非常简单的修改 CSV 文件,甚至从零开始创建一个 CSV 文件:

代码语言:javascript
复制
import csv
import os
from os import path
class DataSaveToCSV(object):
代码语言:txt
复制
@staticmethod
代码语言:txt
复制
def save_data():
代码语言:txt
复制
    get_path = path.join(os.getcwd(), 'files')
代码语言:txt
复制
    if not path.exists(get_path):
代码语言:txt
复制
        os.makedirs(get_path)
代码语言:txt
复制
    csv_file = open(get_path + '\\test.csv', 'w+', newline='')
代码语言:txt
复制
    try:
代码语言:txt
复制
        writer = csv.writer(csv_file)
代码语言:txt
复制
        writer.writerow(('number', 'number plus 2', 'number times 2'))
代码语言:txt
复制
        for i in range(10):
代码语言:txt
复制
            writer.writerow((i, i + 2, i * 2))
代码语言:txt
复制
    finally:
代码语言:txt
复制
        csv_file.close()
代码语言:javascript
复制
if name == 'main':
代码语言:txt
复制
DataSaveToCSV().save_data()

如果 files 文件夹不存在,新建文件夹。如果文件已经存在,Python 会用新的数据覆盖 test.csv 文件,newline='' 去掉行与行之间得空格。

运行完成之后,你会看到一个 CSV 文件:

代码语言:javascript
复制
number,number plus 2,number times 2
0,2,0
1,3,2
2,4,4
3,5,6
4,6,8
5,7,10
6,8,12
7,9,14
8,10,16
9,11,18

下面一个示例是采集某博客文章,并存储到 CSV 文件中,具体代码如下:

代码语言:javascript
复制
import csv
import os
from os import path
from utils import connection_util
from config import logger_config
class DataSaveToCSV(object):
代码语言:txt
复制
def __init__(self):
代码语言:txt
复制
    self._init_download_dir = 'downloaded'
代码语言:txt
复制
    self._target_url = 'https://www.scrapingbee.com/blog/'
代码语言:txt
复制
    self._baseUrl = 'https://www.scrapingbee.com'
代码语言:txt
复制
    self._init_connection = connection_util.ProcessConnection()
代码语言:txt
复制
    logging_name = 'write_csv'
代码语言:txt
复制
    init_logging = logger_config.LoggingConfig()
代码语言:txt
复制
    self._logging = init_logging.init_logging(logging_name)
代码语言:txt
复制
def scrape_data_to_csv(self):
代码语言:txt
复制
    get_path = path.join(os.getcwd(), 'files')
代码语言:txt
复制
    if not path.exists(get_path):
代码语言:txt
复制
        os.makedirs(get_path)
代码语言:txt
复制
    with open(get_path + '\\article.csv', 'w+', newline='', encoding='utf-8') as csv_file:
代码语言:txt
复制
        writer = csv.writer(csv_file)
代码语言:txt
复制
        writer.writerow(('标题', '发布时间', '内容概要'))
代码语言:txt
复制
        # 连接目标网站,获取内容
代码语言:txt
复制
        get_content = self._init_connection.init_connection(self._target_url)
代码语言:txt
复制
        if get_content:
代码语言:txt
复制
            parent = get_content.findAll("section", {"class": "section-sm"})[0]
代码语言:txt
复制
            get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 mb-lg-0"})[0]
代码语言:txt
复制
            get_child_item = get_row.findAll("div", {"class": "col-md-4 mb-4"})
代码语言:txt
复制
            for item in get_child_item:
代码语言:txt
复制
                # 获取标题文字
代码语言:txt
复制
                get_title = item.find("a", {"class": "h5 d-block mb-3 post-title"}).get_text()
代码语言:txt
复制
                # 获取发布时间
代码语言:txt
复制
                get_release_date = item.find("div", {"class": "mb-3 mt-2"}).findAll("span")[1].get_text()
代码语言:txt
复制
                # 获取文章描述
代码语言:txt
复制
                get_description = item.find("p", {"class": "card-text post-description"}).get_text()
代码语言:txt
复制
                writer.writerow((get_title, get_release_date, get_description))
代码语言:txt
复制
        else:
代码语言:txt
复制
            self._logging.warning('未获取到文章任何内容,请检查!')

if name == 'main':

代码语言:txt
复制
DataSaveToCSV().scrape_data_to_csv()

代码大部分复用了前几篇文章的内容,这里需要着重说明的是:

代码语言:txt
复制
logging_name = 'write_csv'
代码语言:txt
复制
init_logging = logger_config.LoggingConfig()
代码语言:txt
复制
self._logging = init_logging.init_logging(logging_name)

设置日志名称,并实例化日志,用于后面记录日志。

代码语言:txt
复制
with open(get_path + '\\article.csv', 'w+', newline='', encoding='utf-8') as csv_file:

with() 定义了在执行 with 语句时要建立的运行时上下文。with() 允许对普通的 try...except...finally 使用模式进行封装以方便地重用。

newline='' 避免在 CSV 文件中行与行之间空行内容产生。

同时也设置了文件的编码为 utf-8 ,这样做的目的是避免文件含有中文或者其他语言造成乱码。

以上就是关于将采集的内容保存为 csv 文件的内容,本实例的所有代码托管于 github。

github: https://github.com/sycct/Scrape_1_1.git

如果有任何问题,欢迎在 github issue。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档