前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >编程遇到瓶颈?别再看Stack Overflow了!「论文矿工」帮你快速找到论文

编程遇到瓶颈?别再看Stack Overflow了!「论文矿工」帮你快速找到论文

作者头像
新智元
发布2023-05-22 16:17:51
2010
发布2023-05-22 16:17:51
举报
文章被收录于专栏:新智元


新智元报道  

来源:Reddit

编辑:好困

【新智元导读】让自己的代码告别告别「融合怪」,网友亲情推荐全新工具「论文矿工」!经过同行评审的权威论文是你最好的老师。(大部分时候)

程序不会编怎么办?上 Stck Overflow 啊。报错过不去怎么办?上 Stck Overflow 啊。

有些人是面向对象编程,还有一些人是面向Stackoverflow编程,当然还可能是面向工资编程

初级选手

进阶选手

当然事情的进展通常不会这么顺利,比如当 Stack Overflow 维护的时候,或者你关注的问题没有人回答,或者你的问题被关闭的时候,咋整?

况且,如果不理解 Stack Overflow 上的代码,不仅检查不出来原本的bug,而且在复用的时候会让你的项目充斥更多的bug。

那你说怎么办?当然是去 Google 了,当然是去读论文了!

近日,一位博主开源了自己制作的文献搜索引擎「Sci-Genie」的核心库:「ArXiv-Miner」。

搜索引擎:https://sci-genie.com

ArXiv-Miner:https://arxiv-miner.turing-bot.com/#/README

ArXiv-Miner 是一个 Python 库,可帮助用户从 ArXiv 中提取、解析和挖掘文献的 LaTeX 源码。

作者表示,自己在学习机器学习和人工智能的时候 Stack Overflow 上还没有相关的内容,而「野生」的资料又多又乱,不方便查找。

所以决定自己做一个搜索引擎,从而可以对文献研究进行解析、索引、挖掘其中的信息等。简而言之就是:「make the life easier」。

ArXiv-Miner环境配置

ArXiv-Miner 最简单的功能就是作为一个独立的库来快速挖掘 ArXiv 上的内容。当然,首先需要 pip 一下。

代码语言:javascript
复制
pip install -r git+https://github.com/valayDave/arxiv-minerpip install arxiv-miner

Latex 挖掘工具安装

主要依赖:texlive-full (Ubuntu) , texshop (OSX) 和,opendetex。

setup_latex_parsing.sh 脚本将为 ubuntu 安装 texlive-full 和其他依赖项,并在当前工作目录中为 opendetex 创建二进制文件。

代码语言:javascript
复制
sh setup_latex_parsing.sh

本体分类器安装

在开始挖掘过程时,需要安装 cso-classifier 从而涵盖对本体挖掘。

代码语言:javascript
复制
sh cso_setup.sh

运行ArXiv-Miner

抓取数据提取

scripts/scrape_papers.py 利用 ArXiv 提供的提要来存储记录以供进一步挖掘。

提取过去 24 小时内发布的记录并存储在数据库中。

代码语言:javascript
复制
python scripts/scrape_papers.py --with-config default_config.ini daily-harvest

提取特定日期范围内发布的记录并存储在数据库中。

代码语言:javascript
复制
python scripts/scrape_papers.py --with-config default_config.ini date-range --start_date '2020-05-29' --end_date '2020-06-30'

数据挖掘和存储

scripts / mine_papers.py 可以提取LaTeX源码并解析数据。

代码语言:javascript
复制
python scripts/mine_papers.py --with-config default_config.ini start-miner

Streamlit Dashboard

scripts/arxiv_search_dash.py 可以进行搜索以及对抓取和挖掘后存储的搜索结果进行可视化。

代码语言:javascript
复制
streamlit run scripts/arxiv_search_dash.py -- --config default_config.ini

有兴趣的读者可以前往作者提供的文档进行学习和应用。如果不会使用的话,等等Stack Overflow,没准之后也会有相关的问题。

最后,作者希望能够进一步丰富项目的功能:

  1. 从论文中提取方程,以便用于进一步的研究和挖掘。
  2. 整理来自 Twitter、Reddit 等关于评论、喜欢、转发、讨论等的信息,为需要进一步挖掘或分析的论文提供更多有趣的内容。
  3. 创建测试用例。

少不了的赞

「我爱这个搜索!曾经也在做类似的项目,但是一个又快又好的搜索很难做!」

「这是我最近看到最有趣的项目之一了。随着深度学习的应用领域呈指数级增长,这会是一个非常有用的工具。我已经加入到了书签中,谢谢分享。」

「针对网友的建议,作者表示感谢,并将它们列为了待解决的问题。」

参考资料:

https://arxiv-miner.turing-bot.com/#/README

https://github.com/valayDave/arxiv-miner

https://sci-genie.com

https://www.reddit.com/r/MachineLearning/comments/nn9q8s/p_arxivminer_a_toolkit_for_scraping_parsing_and/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】让自己的代码告别告别「融合怪」,网友亲情推荐全新工具「论文矿工」!经过同行评审的权威论文是你最好的老师。(大部分时候)
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档