我正在尝试创建一个项目
每隔5分钟就会自动从网站上抓取数据,并将其保存到db烧瓶应用程序中与用户进行交互。用户从db请求数据。
抓取数据的python脚本如下所示:
import os
import time
while True:
os.system(scrape.py)
time.sleep(5*60)
我最初试图在每次用户请求数据时从网站上抓取数据。但我发现它工作得太慢了。
因此,现在我正在尝试制作另一个python脚本,它从网站中抓取数据并自动保存到db中。而烧瓶应用程序只需要从db获取数据。
我的问题是,如何同时运行python脚本和烧瓶应用程序?或者有什么更好的方法来解决
我运行一个python网络爬行器来收集各种网站上的文章,然后将其保存为csv文件。我一直在手动运行它们,但最近一直在尝试在google cloud shell中运行它们。我在依赖项方面遇到了一些问题,所以我决定构建一个docker映像来运行我的python刮板程序。
到目前为止,我已经成功地创建了一个Dockerfile,我使用它来构建一个包含所有必要依赖项的容器。
FROM python:3
# Set the working directory to /app
WORKDIR /app
# Copy the current directory contents into the cont
for link in soup.find_all('a', {'class': 'post-tag'}): # href = link.get('href') for i in link: title = link.string print(title)
输出: python浮点舍入python非谷歌合作python flask python漂亮汤python nonetype python ubuntu等。
在从堆栈溢出站点提取数据时,我们在抓取问题的标签
我正在尝试安装抓取,以便在python中进行网络抓取。但却犯了个错误。
Using cached PyDispatcher-2.0.6.tar.gz (38 kB)
ERROR: Error [WinError 225] Operation did not complete successfully because the file contains a
virus or potentially unwanted software while executing command python setup.py egg_info
Preparing metadata (setup.py) ..