前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用chatgpt和迅雷来批量下载arxiv论文

用chatgpt和迅雷来批量下载arxiv论文

作者头像
AIGC部落
发布2024-06-24 18:19:07
890
发布2024-06-24 18:19:07
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

arxiv论文一个个手动下载比较麻烦,可以借助chatgpt和迅雷来批量下载。

首先把arxiv论文的网址,保存到Excel表格中:

然后在ChatGPT中输入提示词:

你是一个Python编程专家,要写一段代码。具体步骤如下:

打开F盘的文件:URL.xlsx

读取第一列每一个单元格的内容;

截取单元格内容中最后一个”/”和“.”之间的字符,然后前面加上“https://arxiv.org/ftp/arxiv/papers/”,后面加上单元格内容中最后一个”/”后的字符,然后加上“.pdf”,构建一个pdf文件下载URL;

截取单元格内容中最后一个”/”后的字符,然后前面加上“https://arxiv.org/pdf/”,后面加上“.pdf”,构建一个pdf文件下载URL;

举个例子:

如果第一列第一行单元格的内容是:https://arxiv.org/abs/2401.17788

那么第二列第一行单元格的内容是:https://arxiv.org/ftp/arxiv/papers/2401/2401.17788.pdf

第三列第一行单元格的内容是:https://arxiv.org/pdf/2401.17788.pdf

Chatpgt给出的Python代码:

import pandas as pd

# 打开Excel文件

df = pd.read_excel('F:/URL.xlsx')

# 初始化两个空列表来存储FTP和直接下载链接

ftp_download_urls = []

direct_download_urls = []

# 遍历每个URL来生成新的下载链接

for url in df.iloc[:, 0]: # 假设URL在第一列

# 截取单元格内容中最后一个"/"和"."之间的字符

paper_id = url.split('/')[-1]

# 截取纸张ID中的数字部分(假设它总是在最后一个点之前)

id_parts = paper_id.split('.')

paper_id_number = id_parts[0] if len(id_parts) == 2 else paper_id # 考虑到可能没有点号

# 构建FTP下载URL

ftp_url = f'https://arxiv.org/ftp/arxiv/papers/{paper_id_number[:4]}/{paper_id}.pdf'

ftp_download_urls.append(ftp_url)

# 构建直接下载URL

direct_url = f'https://arxiv.org/pdf/{paper_id}.pdf'

direct_download_urls.append(direct_url)

# 将新的下载链接作为新列添加到DataFrame

df['FTP Download URL'] = ftp_download_urls

df['Direct Download URL'] = direct_download_urls

# 将更新后的DataFrame保存到新的Excel文件中

df.to_excel('F:/URL_with_download_links.xlsx', index=False)

程序运行后,得到对应的arxiv论文的pdf下载地址,然后复制,迅雷会自动识别,批量下载:

很快下载完成:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档