前往小程序,Get更优阅读体验!
立即前往
社区首页 >专栏 >Kimi仅用5秒钟就帮我抓取了5页文章素材(附源码以及提示词)

Kimi仅用5秒钟就帮我抓取了5页文章素材(附源码以及提示词)

作者头像
码农飞哥
发布于 2024-06-18 03:26:33
发布于 2024-06-18 03:26:33
34400
代码可运行
举报
文章被收录于专栏:好好学习好好学习
运行总次数:0
代码可运行

大家好,我是码农飞哥。一个专注于AI+RPA提效的资深Python开发工程师,全网15万粉丝,影刀高级认证工程师,关注并私聊我即送公众号爆文机器人。

熟悉我的宝子们,都知道我现在开发各类RPA机器人,目前已经投入使用的机器有十几款,有需要的小伙伴可以私聊我。

周末我在家里唱着歌儿,搬着砖的时候,突然微信一个弹框提醒提示我该生财打卡了。我一看,哦,原来是我报名了生财有术的AI编程大航海了呀。

其中一个很重要的任务就是通过AI大模型,让大模型编写代码爬取公众号的文章。

1. 编写提示词

代码语言:javascript
代码运行次数:0
复制
你是一个资深爬虫开发工程师,擅长使用Python语言编写爬虫程序,现在有如下任务:
写一个爬虫程序,按下面的要求在我的 windows 电脑上帮我抓取微信公众号文章。
使用 python3 和最新版的 selenium
目标网站:https://weixin.sogou.com/
输入关键字[ RPA ],点击[ 搜文章 ]按钮
爬取内容: 爬取标题、摘要、链接、来源
爬取后的内容保存到Excel文件中,Excel文件命名为AI_微信_时间
爬取前5页,每爬完1页休眠5s
请首先解析目标网站,然后给我完整可运行的程序,让我看到浏览器中操作的过程,并指导我安装程序依赖的所有库。
你可以先执行步骤 2 和步骤 3 了解网页的结构,然后再生成代码。

2. Kimi快速生成代码中

3.生成代码

代码语言:javascript
代码运行次数:0
复制
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from openpyxl import Workbook

# 配置WebDriver
chrome_drive_path = r'E:\develop\chromedriver-win64\chromedriver.exe'
# 设置ChromeDrive服务
service = Service(chrome_drive_path)

# 初始化WebDriver
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)

# 目标网站
url = "https://weixin.sogou.com/"

# 爬取前5页
pages_to_scrape = 5

# 打开目标网站
driver.get(url)

# 等待页面加载
time.sleep(2)

# 找到搜索框并输入关键字
search_box = driver.find_element(By.CSS_SELECTOR, "input.sec-input")
search_box.send_keys("RPA")

# 找到搜索按钮并点击
search_button = driver.find_element(By.XPATH, "//input[@uigs=\"search_article\"]")
search_button.click()

# 创建Excel工作簿
wb = Workbook()
ws = wb.active
ws.append(["标题", "摘要", "链接", "来源"])

# 开始爬取
for page in range(pages_to_scrape):
    # 等待页面加载
    time.sleep(5)

    # 找到所有文章的容器
    articles = driver.find_elements(By.XPATH, "//ul[@class=\"news-list\"]/li")

    for article in articles:
        # 爬取标题
        title = article.find_element(By.XPATH, ".//section/h3").text

        # 爬取摘要
        summary = article.find_element(By.XPATH, ".//section/p").text

        # 爬取链接
        link = article.find_element(By.XPATH, ".//section/h3/a").get_attribute("href")

        # 爬取来源
        source = article.find_element(By.XPATH, ".//section/section").text

        # 将爬取的数据写入Excel
        ws.append([title, summary, link, source])

    # 如果不是最后一页,点击下一页
    if page < pages_to_scrape - 1:
        next_page_button = driver.find_element(By.XPATH, ".//a[@id=\"sogou_next\"]")
        next_page_button.click()
        time.sleep(5)  # 休眠5秒

# 保存Excel文件
current_time = time.strftime("%Y%m%d_%H%M%S")
file_name = f"RPA_微信_{current_time}.xlsx"
wb.save(file_name)

# 关闭浏览器
driver.quit()

print(f"爬取完成,数据已保存至 {file_name}")

4. 代码运行效果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 码农飞哥 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫 selenium自动化 利用搜狗搜索爬取微信公众号文章信息
下面以在搜狗里搜索 网易云热评墙 为例,爬取得到的全部文章信息(包括标题、日期、链接),并保存到Excel,使用Selenium来实现。
叶庭云
2020/09/17
3.2K0
Python爬虫  selenium自动化  利用搜狗搜索爬取微信公众号文章信息
python之抓取微信公众号文章系列2
微信公众号历史的所有文章(来源???) 每篇文章的阅读量和点赞量(电脑上浏览文章只显示内容,没有阅读量、点赞量、评论……)
周小董
2019/03/25
4.2K1
python之抓取微信公众号文章系列2
Python网络爬虫实战使用Requests、Beautiful Soup和Selenium获取并处理网页数据
在网络数据变得日益丰富和重要的今天,网络爬虫成为了获取和分析数据的重要工具之一。Python作为一种强大而灵活的编程语言,在网络爬虫领域也拥有广泛的应用。本文将介绍如何使用Python中的两个流行库Beautiful Soup和Requests来创建简单而有效的网络爬虫,以便从网页中提取信息。
一键难忘
2024/04/23
1.7K0
Python抓取亚马逊指定商品的所有页面
随着全球疫情逐步缓解,外贸出口市场正在逐步恢复。作为全球最大的电商平台之一,亚马逊的数据反映了外贸出口的趋势和变化。
jackcode
2023/06/01
6510
Python抓取亚马逊指定商品的所有页面
一键自动化博客发布工具,用过的人都说好(简书篇)
然后一个网站一个网站打开要发布的博客站点,手动点创建文章,然后拷贝粘贴写的markdown文件。
程序那些事
2024/05/03
3600
一键自动化博客发布工具,用过的人都说好(简书篇)
一键自动化博客发布工具,用过的人都说好(简书篇)
然后一个网站一个网站打开要发布的博客站点,手动点创建文章,然后拷贝粘贴写的markdown文件。
程序那些事
2024/04/30
2670
一键自动化博客发布工具,用过的人都说好(简书篇)
Python 爬虫之Selenium终极绝招
这里简单解释一下什么是Selenium,它其实是一个网站前端压力测试框架,更通俗的说,它能直接操作浏览器,试想一下,网页是在浏览器里面加载的,如果我们能用代码操控浏览器,那我们想要爬取什么数据不能通过浏览器获取?无所不爬!
arcticfox
2019/06/26
1.3K0
Python 爬虫之Selenium终极绝招
Selenium 4 有哪些不一样?
众所周知,Selenium在2021年10月13号发布了Selenium4,目前最新的版本应该是Selenium 4.4.0。
测试蔡坨坨
2022/08/28
2K0
Selenium 4 有哪些不一样?
基于python语言识别验证码(自动化登录,接口验证)
对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》
山河已无恙
2023/11/04
6830
软件测试/人工智能|熟练使用web控件定位技巧,提升测试工作效率!
在做 Web 自动化时,最根本的就是操作页面上的元素,首先要能找到这些元素,然后才能操作这些元素。工具或代码无法像测试人员一样用肉眼来分辨页面上的元素。那么要如何定位到这些元素,本章会介绍各种定位元素的方法。
霍格沃兹测试开发Muller老师
2024/02/20
1740
Selenium自动化|爬取公众号全部文章,就是这么简单
大家好,今天我们来讲点Selenium自动化,你是否有特别喜欢的公众号?你有思考过如何将一个公众号历史文章全部文章爬下来学习吗?现在我们以早起Python为例,使用Selenium来实现
刘早起
2020/05/13
2.5K0
Selenium自动化|爬取公众号全部文章,就是这么简单
手把手教你用Selenium爬取拉勾网数据!
大家好,在之前我们讲解过很多基于requests+bs4的爬虫,现在换个口味,本文将基于Selenium讲解如何爬取并使用openpyxl存储拉勾网招聘数据。
刘早起
2020/11/05
1.4K0
Python3网络爬虫(九):使用Selenium爬取百度文库word文章
本文通过分析网络爬虫技术的实现,探讨了如何从网络中爬取所需信息。通过使用Python的BeautifulSoup和Selenium库,可以爬取网站的内容。同时,文章还讨论了如何爬取动态加载的内容和网站,并分析了爬取效率的问题。最后,作者分享了自己在爬虫实践中的经验和教训,并指出了爬虫技术的优缺点。
Jack_Cui
2018/01/08
3.4K0
Python3网络爬虫(九):使用Selenium爬取百度文库word文章
深入selenium三种等待方式使用
from selenium.webdriver.support.wait import WebDriverWait
小小咸鱼YwY
2019/09/11
5.2K0
python爬虫 senlenium爬取拉勾网招聘数据
用selenium爬虫实现,输入任意关键字,比如 python 数据分析,点击搜索,得到的有关岗位信息,爬取下来保存到Excel。
叶庭云
2020/09/17
1.4K0
python爬虫   senlenium爬取拉勾网招聘数据
Web网页自动化实战《3.在艺龙网中,根据城市+日期+关键词精准匹配了酒店》下篇
手工测试是怎么点的,自动化测试就怎么点击。(截图讲解的技术知识是正确的。因为艺龙网站的页面元素有变动,所以你实操起来,看到的元素和截图上的会有区别。)
清菡
2022/06/21
6340
Web网页自动化实战《3.在艺龙网中,根据城市+日期+关键词精准匹配了酒店》下篇
彻底学会Selenium元素定位
最近收到不少初学UI自动化测试的小伙伴私信,对于元素的定位还是有些头疼,总是定位不到元素,以及不知道用哪种定位方式更好。
测试蔡坨坨
2022/12/21
7.2K0
彻底学会Selenium元素定位
用Selenium来爬取数据?真挺简单的!
于是Selenium就应运而生了,它可以算的上是自动化测试框架中的佼佼者,因为它解决了大多数用来爬取页面的模块的一个永远的痛,那就是Ajax异步加载 。今天将给大家详解如何用Selenium爬取数据,并最后附上一个真实的案例。
快学Python
2021/08/09
4.7K0
selenium4的一些相关更新
使用 Python 的最重要变化是所需的最低版本,Selenium 4 将至少需要 Python 3.7 或更高版本。
Meccer
2021/12/20
1.6K0
探索自动化测试工具:Selenium的威力与应用
Selenium可以在多种主流浏览器中运行,包括Chrome、Firefox、Edge等。这使得开发人员可以确保他们的Web应用程序在各种浏览器中都能正常运行。
小馒头学Python
2023/11/30
5600
探索自动化测试工具:Selenium的威力与应用
推荐阅读
相关推荐
Python爬虫 selenium自动化 利用搜狗搜索爬取微信公众号文章信息
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文