如何使用Python读取目录中的所有HTML文件并将内容写入CSV文件？

使用Python读取目录中的所有HTML文件并将内容写入CSV文件的步骤如下：

导入所需的模块：

import os
import csv
from bs4 import BeautifulSoup

定义函数来读取HTML文件并提取内容：

def read_html_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        html_content = file.read()
        soup = BeautifulSoup(html_content, 'html.parser')
        # 在这里根据HTML结构提取所需的内容
        # 示例：假设需要提取标题和正文内容
        title = soup.find('title').text
        body = soup.find('body').text
        return title, body

定义函数来遍历目录中的HTML文件并调用上述函数提取内容：

def process_html_files(directory):
    html_files = [f for f in os.listdir(directory) if f.endswith('.html')]
    data = []
    for file in html_files:
        file_path = os.path.join(directory, file)
        title, body = read_html_file(file_path)
        data.append([title, body])
    return data

定义函数来将提取的内容写入CSV文件：

def write_to_csv(data, output_file):
    with open(output_file, 'w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(['Title', 'Body'])  # 写入CSV文件的表头
        writer.writerows(data)  # 写入提取的内容

调用上述函数来完成操作：

directory = '目录路径'  # 替换为实际的目录路径
output_file = '输出文件路径.csv'  # 替换为实际的输出文件路径
data = process_html_files(directory)
write_to_csv(data, output_file)

以上代码将遍历指定目录中的所有HTML文件，提取标题和正文内容，并将其写入CSV文件中。你可以根据实际需要修改提取内容的方式和CSV文件的表头。

如何使用Python读取目录中的所有HTML文件并将内容写入CSV文件？

、、

我正在尝试读取一个目录中的所有HTML文件，并将它们写入CSV文件。CSV文件中的每一行将包含一个HTML文件的内容。我似乎能够读取一个HTML文件并将其写入

浏览 21提问于2019-09-23得票数 1

1回答

php中的HTML到csv文件

、、

我想读取一个HTML文件作为和转换的html里面的表内容到csv格式的文件使用php。通常，在HTML目录中，我有一个html文件列表，如下所示KMC_Doctors_list_B.html KMC_Doctors_list_C.<em

浏览 1提问于2011-06-10得票数 1

1回答

CSV文件读取限制

、

例如，我在本地目录中有500个CSV文件，我想要操作这500个文件中的数据，逐个从每个文件中读取数据并将其写入到新的CSV文件中。我知道在python中有一个参数glob，我们用它来读取多个CSV文件。使用Python脚本

浏览 13提问于2017-08-23得票数 1

2回答

在python* 3.6中将多行写入csv文件时面临的问题*

、

我的要求是读取目录中的所有文件，并获取文件的长度和每个文件的字数，并将其作为一行存储在CSV文件中。 for filename in os.listdir(passedArgument1): #Opening each f

浏览 12提问于2017-07-08得票数 0

回答已采纳

1回答

在_spark_metadata中什么也没有发现

、、

我试图从一个特定的文件夹中读取CSV文件，并将相同的内容写入到本地pc上不同位置的其他CSV文件中，以供学习。我可以读取文件并在控制台上显示内容。但是，如果我想将它写入指定输出目录下的另一个CSV文件，则

浏览 3提问于2018-06-09得票数 0

回答已采纳

1回答

如何在JMeter中将文件传递到CSV采样器

、、

我有一个包含CSV文件的目录。每个文件都包含一个我想用JMeter发出的GET请求列表。我想要做的是读取一个目录中的所有文件，然后遍历每个CSV，以JMeter格式发送请求。文件的数量不一致，所以我不想将文件名硬编码到CSV采样器中。因此，实际上我希望<e

浏览 0提问于2018-09-21得票数 0

1回答

通过终端创建文件，并在script python3中连接两个文件

、

我有一个叫做'dir‘的递归目录。我在终端上使用linux中的以下命令将所有子目录中的文件列表写入CSV文件。我正在使用解毒代码来改变文件名。我正在做一个新的</em

浏览 0提问于2019-01-22得票数 0

4回答

如何顺序读取一个目录下的所有文件，并导出Python中的内容？

、

我有一个目录/directory/some_directory/，在这个目录中我有一组文件。171738_somestring.logDE-456_20162005-171738_somestring.log 我想读取这些文件的一个子集(例如，名为ABC1-123*.log的只读文件)，并将其所有<

浏览 1提问于2016-05-31得票数 1

2回答

从串口绘制数据

、、、、

我有一个Python脚本，它从串行端口读取数据，然后将数据写入CSV文件。然后，我有另一个Python脚本，它使用matplotlib绘制CSV文件中的数据，并将其保存为图像。如何在从串口读取数据的同时绘制我的第一个脚本？换句话说，如何在不使用中间CSV<e

浏览 0提问于2012-02-06得票数 1

1回答

如何用python在html中实现“另存为”选项？

、、、、

我正在尝试从一个网站上获取一个文件，这是一个.edf文件。单击它时，它将在浏览器中打开相应的文本视图。但是，如果我将内容保存为目录，一切都可以正常工作。问题是，由于我有很多这样的文件，所以我想使用python自动获取所有文件并保存在目录中。那么，我如何使用漂亮汤、硒或任何库来获取目录中

浏览 0提问于2018-01-07得票数 0

回答已采纳

1回答

如何在条件语句和循环中使用diff命令

我已经创建了一个脚本，它递归地读取路径并将其目录和子目录打印到csv文件中，以便写入excel列。现在我想修改这个脚本，让它首先递归地读取一个路径并打印它的内容，然后找出这个路径和另一个路径的递归差异，我想打印任何目录是否发生了变化。第一个代码： if [[ -d "$file&quo

浏览 3提问于2019-03-30得票数 0

1回答

Powershell递归搜索以选择.txt文件，然后将所有文件的内容输出到单个.txt文件中

、、

我有一个包含30+文件夹的文件夹，每个文件夹都有一个.txt文件，我可以搜索这些文件以供使用：我希望读取已发现的每个.txt文件的内容，并将其输出到桌面上的一个新的.csv文件中，该文件还包

浏览 1提问于2018-11-21得票数 2

3回答

如何将dataframe to csv写入当前工作目录python

、、、

我的代码应该是这样的： import os cwd = os.getcwd() df= pd.read_csv(f"{cwd}{csv_name}", skiprows=2, nrows=100, names=['X','Y','Z' ],deli

浏览 105提问于2020-12-02得票数 1

回答已采纳

1回答

如何使用python从csv打开文件路径？

、

我需要能够使用python在csv单元中打开文件路径。目前，我能够使用python读取csv，但我不确定如何打开文件路径并使用python从文件中检索我想要的信息。我不知道如何在读取csv之后继续读取文件路径并转到

浏览 9提问于2022-05-22得票数 0

2回答

使用Python、Pandas和/或Jinja2将原始csv数据合并到html模板中的干净代码

、、、、

包含原始CSV数据字段的HTML模板：<pre id="csv" style="display: none"></pre>这篇简短的教程展示了如何读取模板并呈现一个新的html，但没有展示如何将输出另存为另一个文

浏览 1提问于2021-07-09得票数 0

2回答

如何使用gawk脚本编写其他文件？

、、、、

我已经编写了一个从CSV文件中删除重复文件的代码&现在我想用它的原始名称保存文件。我不想用不同的名字存钱。x[$0]++" *.csv > "{print FILENAME, $0 > FILENAME ".csv"}" file* 我的目标是:我想要构建动态批处理脚本，它将运行在任何CSV文件

浏览 3提问于2014-07-08得票数 0

回答已采纳

4回答

向现有csv文件添加新列

我有一个有5列的csv文件，我想在第6列中添加数据。我拥有的数据在一个数组中。现在，我的代码将只在csv文件中已经存在的所有数据之后插入我想要的第6列中的数据。---> this is the value I want to add in a 6th column but it puts it after all the data fr

浏览 0提问于2014-05-15得票数 9

2回答

Python 3用行换行读取CSV文件

、

我有一个大的CSV文件，它的一些行中有一个列和行分隔符。我想读取每个单元格的内容并将其写入文本文件，但是CSV读取器将这些单元格拆分为多行(多行)，并将每个单元格写入一个单独的文本文件。在MAC Sierra上使用Python 3.6.2"con

浏览 3提问于2017-09-05得票数 7

1回答

读取多个csv文件，将文件名连接到单个DataFrame中

、、、

我在目录中有多个csv文件，我会循环使用csv文件，找到一个文件名列表，然后读取每个文件名，并将它们连接到一个数据帧中。对于单个数据集，只需将数据集读入。下面是我目录中csv文件的示例： 2015_nba.<em

浏览 0提问于2016-03-13得票数 2

回答已采纳

1回答

Python/BS -从存储在目录中的html文件获取URL，保存到CSV

、、、、

我有一个装满html文件的文件夹，我试图刮掉所有导致不同页面的urls，并将这些urls保存到CSV文件中。我一个月前写了我的第一个Python代码，所以我仍然是新手

浏览 2提问于2014-03-10得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Python读取目录中的所有HTML文件并将内容写入CSV文件？

相关·内容

如何使用Python读取目录中的所有HTML文件并将内容写入CSV文件？

php中的HTML到csv文件

CSV文件读取限制

在python* 3.6中将多行写入csv文件时面临的问题*

在_spark_metadata中什么也没有发现

如何在JMeter中将文件传递到CSV采样器

通过终端创建文件，并在script python3中连接两个文件

如何顺序读取一个目录下的所有文件，并导出Python中的内容？

从串口绘制数据

如何用python在html中实现“另存为”选项？

如何在条件语句和循环中使用diff命令

Powershell递归搜索以选择.txt文件，然后将所有文件的内容输出到单个.txt文件中

如何将dataframe to csv写入当前工作目录python

如何使用python从csv打开文件路径？

使用Python、Pandas和/或Jinja2将原始csv数据合并到html模板中的干净代码

如何使用gawk脚本编写其他文件？

向现有csv文件添加新列

Python 3用行换行读取CSV文件

读取多个csv文件，将文件名连接到单个DataFrame中

Python/BS -从存储在目录中的html文件获取URL，保存到CSV

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐