Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >70 个群都来问我的 AI 日报,是这么做的。

70 个群都来问我的 AI 日报,是这么做的。

作者头像
米开朗基杨
发布于 2024-11-15 02:48:44
发布于 2024-11-15 02:48:44
28800
代码可运行
举报
文章被收录于专栏:云原生实验室云原生实验室
运行总次数:0
代码可运行

最近我给 FastGPT 用户交流群里接入了 AI 日报,每天早上 10 点会自动向群里推送 AI 日报,让群里的小伙伴们第一时间了解到昨天 AI 领域都发生了哪些大事。

效果大概是这个样子的:

除此之外,我还同步一份到公司的飞书群里,这样公司的小伙伴们也能及时了解到 AI 领域的最新动态。

每一条资讯除了提供标题和概要之外,还附上了相关链接,方便大家进一步了解。

你以为这就完了?

我还给公司飞书群里每天发送一份 AI 领域的最新论文摘要,帮助研发同学汲取最新的科研成果。

为什么我要做这么一个日报呢?

因为现在 AI 领域的发展速度实在是太快了,每天都有新的论文、新的技术、新的产品发布,如果不持续关注,真的很容易被时代抛弃。

但是网上的信息量实在是太多太杂了,往往读上几十分钟都感觉没啥收获,但是又怕自己错过什么信息。

所以我就想,如果能开发个机器人,自动爬取并总结一些最新的信息,将简化后的信息每天定时发给我,如果感兴趣可以再进一步搜索,这样我就能每天都能高效获取到有价值的信息了。

有了需求之后,再进一步分析,可以发现这个需求主要的难点有两个:

  1. 写一个爬虫,爬取对应网站的信息
  2. 将获取到的信息,通过工作流编排总结归纳

恰好这两个需求分别可以被两个工具快速解决。

创建爬虫

首先,我需要创建一个爬虫,爬取对应网站的信息。

这就需要用到一个牛叉的开源项目 Crawl4ai

这个项目性能超快,还能输出适合大语言模型的格式,比如 JSON、清理过的 HTML 和 markdown。它还支持同时爬取多个网址,能提取所有媒体标签 (图片、音频、视频),以及所有内外部链接。目前 star 数已经超过 1.5k。

问题来了,这个项目是基于 Python 开发的,而我既不懂 Python,也不会写爬虫

这个倒是难不倒我,我可以用 Cursor 嘛,让它帮我写就好了。

但是我一想到写完之后还要打包部署,以及配置域名解析、申请 SSL 证书等各种繁琐的事情,瞬间就头大。

嘿嘿,这个问题也可以解决,直接用 Sealos Devbox 就好了,Devbox 直接摒弃了各种繁琐的配置,开箱即用,让你写完爬虫就能直接上线,啥都不需要配置

我用 Devbox 和 Cursor 半个小时就写完了爬虫并且上线了,你就说快不快吧?

直接来看步骤。

创建开发环境

首先进入 Sealos 桌面:https://hzh.sealos.run

然后打开 Debox 应用,创建一个新项目。Devbox 支持多种主流语言与框架,这里我们需要开发爬虫服务,所以直接选择 Python 作为运行环境。

点击创建,几秒钟即可启动开发环境。

接下来在操作选项中点击 Cursor,将会自动打开本地的 Cursor 编程 IDE

接着会提示安装 Devbox 插件,安装后即可自动连接开发环境。

Cursor 打开开发环境之后,执行 ./entrypoint.sh 就能看到项目成功跑起来了。

是不是非常简单?直接省略了配置域名解析、申请 SSL 证书,配置网关等与开发无关的繁琐操作,爽!

开发爬虫

接下来,我们就可以开始写爬虫了。

整个开发过程 Cursor 都可以全权代理,你只需要告诉他你要做什么,Cursor 就能帮你完成。

可以看到 Cursor 已经帮我们写好了 crawler 这个基础函数,只要填上需要爬取的地址,就能自动爬取。

它甚至还帮我们想好了下一步应该做什么,即添加一个新的路由来处理请求。

于是我顺着他的话继续往下问。

它也是非常快速地帮我们修改出了路由,这样我们就可以通过请求某个接口实现对应网站的爬取了。

接下来我想优化一下性能,便直接让它在代码上改,也是很快地帮我们优化好了。

最终爬取的效果如下:

有标题,有内容,有时间,有链接,这不就齐活了嘛。

整个开发过程我一行代码都没有写,都是 Cursor 帮我写的,包括爬虫库的使用、路由接口的编排、性能的优化等等,你说爽不爽?

上线爬虫

这个爬虫服务不需要一直运行,只需要每天定时运行一会儿,等我发完了日报就可以关闭了。最重要的是这样省钱啊,每天运行一小会儿,一个月下来也没多少钱,比自己买服务器划算多了。

而 Sealos 正好是按量付费的,运行多长时间就花多长时间的钱,用多少资源就花多少资源的钱,非常划算。

我们需要往 entrypoint.sh 这个文件中写入项目的启动命令 (因为 Devbox 项目发布之后的启动命令就是执行 entrypoint.sh 脚本)。

脚本修改完并保存之后,点击【发布版本】:

填写完信息后点击【发版】。

注意:发版会暂时停止 Devbox,发版后会自动启动,请先保存好项目避免丢失数据。

稍等片刻,即可在版本列表中找到发版信息,点击上线后会跳转到部署页面,点击部署应用即可部署到生产环境。

CPU 和内存可以根据自己的项目情况进行调整。

生产环境分配的 HTTPS 域名与开发环境独立,部署后即可通过生产环境域名访问这个爬虫的接口。

接入 FastGPT 工作流

现在有了爬虫接口,获取了资讯信息,就可以借助 AI 来总结提炼其中的核心信息了。

使用 AI 最简单的方式就是 FastGPT 工作流。

FastGPT 国内版:https://fastgpt.cn FastGPT 国际版:https://tryfastgpt.ai

以我们要抓取的一个网站为例,直接使用 HTTP 节点接入即可。

在 HTTP 节点中,我们使用 GET 方法请求爬虫接口,并且设置超时时长为三分钟 (防止信息过多)。

因为爬虫接口的原始响应就是一个文章数组,所以我们可以不用自定义输出字段,直接将原始响应发送给 AI 对话节点即可。

这里用到的是李继刚老师研究的结构化提示词,以 lisp 语言的形式极简高效地实现了对 AI 的提示,我实测下来效果相当不错。

然后进行二次排版,将前面获取到的多个来源的文章总结进行进一步的整合和排版,便于输出。

最后调用 FastGPT 的飞书机器人插件,将整合好后的信息输出到公司的飞书群。

接下来配置一下工作流的定时执行,那么每天十点,早报机器人就会自动运行,总结过去 24h 发生的科技大事,然后以简洁准确的报告形式发送到工具群。

整体的工作流大致如下:

省钱

既然 Sealos 是按量付费,那我干嘛要一直运行着爬虫服务?

我只需要每天早上十点运行一次,然后爬取信息,总结信息,发送信息,然后就可以关闭服务了。

这样每天运行爬虫服务的时间也就几分钟,太省钱了哈哈 😄

那么该如何定时开机关机爬虫服务呢?

哈哈,我直接写到 FastGPT 的工作流里,在工作流的最前面和最后面分别接入一个 HTTP 节点,这样就可以在每天运行工作流之前和之后分别运行爬虫服务,然后关闭爬虫服务,我真是太有才了!

具体的步骤如下。

首先从 Sealos 桌面下载 kubeconfig 文件。

然后执行以下命令,将输出的内容作为请求接口时的 Authorization Header 值:

  • 1
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cat kubeconfig.yaml | jq -sRr @uri

在 FastGPT 工作流的最前面接入一个 HTTP 节点,URL 填入 Sealos【应用管理】的 API 接口地址:

  • 1
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://applaunchpad.hzh.sealos.run/api/v1alpha/updateReplica

请求方法选择 POST。

在 Header 中添加 Authorization 字段,值为上一步获取到的内容。

然后在 Body 中输入以下内容 (在 x-www-form-urlencoded 中填入参数):

其中 appName 是你的爬虫服务名称,可以在【应用管理】中查看:

而 replica 就是你的服务需要启动的实例数量,一般设置为 1 即可。

下面点击【调试】来测试一下:

搞定!

下面再接入一个 HTTP 节点,URL 填入以下地址:

  • 1
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://applaunchpad.hzh.sealos.run/api/getAppPodsByAppName

这个接口可以获取到当前爬虫服务运行的 Pod 信息,然后我们就可以根据 Pod 信息来判断爬虫到底有没有启动成功

请求方法选择 GET。

在 Header 中添加 Authorization 字段,值和前面一样。

然后在 Params 中输入以下内容:

其中 name 是你的爬虫服务名称。

输出字段添加一个变量 data[0].status.containerStatuses[0].state.running,类型为 String。

再添加一个没用的【变量更新】节点,然后再接到【判断器】节点。

  • 如果变量 data[0].status.containerStatuses[0].state.running 存在,则表示爬虫服务还没运行成功,则接回到前面的【获取爬虫服务状态】节点,继续获取服务状态。
  • 如果变量 data[0].status.containerStatuses[0].state.running 不存在,则表示爬虫服务已经运行成功,则接入后面的 HTTP 节点开始调用爬虫服务。

最后发送完日报后,再接入一个 HTTP 节点来关闭爬虫服务。参数和前面的【自动开启爬虫服务】节点一样,只需要把 replica 设置为 0 即可。

这样就搞定了,每天早上十点,爬虫服务会自动运行,发送完日报后会自动关闭,爽!

总结

好啦!到这里我们就完成了一个自动化的爬虫服务,它会在每天早上十点准时上班 (启动),完成工作 (发送日报) 后就自动下班 (关闭),比我们还自觉呢!😂

如果你也想搭建一个这样的 “自动打工人”,可以参考以下资源:

  • 爬虫源码:https://github.com/newfish-cmyk/crawl

快去试试吧,让 AI 帮你完成这些重复性的工作,解放双手享受生活!🎉

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云原生实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
MaxKB = Max Knowledge Base,是一款基于 LLM 大语言模型的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一下,你有一个虚拟助手,可以回答各种关于公司内部知识的问题,无论是政策、流程,还是技术文档,MaxKB 都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等等
汀丶人工智能
2024/08/05
11.5K0
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
搞了一个非常牛逼的 FastGPT 塔罗牌工作流,解决专业占卜难题
这是一种神奇的占卜工具,起源于 15 世纪的欧洲。它由 78 张牌组成 - 22 张大阿尔卡纳和 56 张小阿尔卡纳。每张牌都藏着独特的寓意,能帮你探索生活中的困惑,窥探未来的可能。有趣的是,现在塔罗牌不仅仅可以用来占卜,很多人把它当作一面镜子,用来认识自己、探索内心。
米开朗基杨
2024/12/20
5330
搞了一个非常牛逼的 FastGPT 塔罗牌工作流,解决专业占卜难题
别再手动处理数据了!FastGPT 这个新功能让你提前下班
大家好!今天给大家介绍 FastGPT 4.8.11 版本新增的一个超强节点 - 【循环运行】节点。如果你经常需要处理大量数据,这个功能绝对能让你事半功功倍!
米开朗基杨
2024/11/05
2150
别再手动处理数据了!FastGPT 这个新功能让你提前下班
如何利用 FastGPT 和 Dify.AI 构建第二个大脑
在信息爆炸的时代,我们每天接触到的数据量惊人,记忆所有信息几乎不可能。因此,一个个人知识库显得至关重要。它就像你的第二个大脑,帮您储存和整理重要信息,随时随地轻松访问。
renhai
2024/05/22
3.2K0
如何利用 FastGPT 和 Dify.AI 构建第二个大脑
大型语言模型智能应用Coze、Dify、FastGPT、MaxKB 对比,选择合适自己的LLM工具
Coze、Dify、FastGPT 和 MaxKB 都是旨在帮助用户构建基于大型语言模型 (LLM) 的智能应用的平台。它们各自拥有独特的功能和侧重点,以下是对它们的简要对比:
星哥玩云
2025/04/08
4280
大型语言模型智能应用Coze、Dify、FastGPT、MaxKB 对比,选择合适自己的LLM工具
真牛逼,又有新的 AI 员工入职了,但是他不想远程开发,非要来线下,我强制让他 Devbox 远程开发了嘿嘿
最近招了一个新的 AI 员工,昨天刚入职,小伙活干的不错,正在考虑要不要给它交社保。
米开朗基杨
2025/01/22
3090
真牛逼,又有新的 AI 员工入职了,但是他不想远程开发,非要来线下,我强制让他 Devbox 远程开发了嘿嘿
Dify 与 FastGPT 流程编排能力对比分析
在人工智能快速发展的今天,大语言模型(LLM)应用平台正在重塑各行各业的工作流程。其中,Dify 和 FastGPT 作为两款具有重要影响力的工具,凭借各自独特的流程编排能力,为开发者和使用者提供了强大的支持。流程编排的优劣直接影响着应用的效率、灵活性和可扩展性,因此深入理解这两个平台的特点对于选择合适的工具至关重要。
井九
2024/10/12
2.5K0
Dify 与 FastGPT 流程编排能力对比分析
23.5K star!零代码构建AI知识库,这个开源神器让问答系统开发像搭积木一样简单!
嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
小华同学ai
2025/04/11
1860
23.5K star!零代码构建AI知识库,这个开源神器让问答系统开发像搭积木一样简单!
什么是网络爬虫?有什么用?怎么爬?终于有人讲明白了
导读:网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。
IT阅读排行榜
2019/04/25
3.4K0
什么是网络爬虫?有什么用?怎么爬?终于有人讲明白了
ComfyUI Party:将LLM与图片工作流集成,图片、语音、文本、视觉一体!(graphRAG、ollama)
我们正在使用一些Agent平台如FastGPT和Dify,他们注重于快速生成文本内容,知识库问答,提供自定义能力和与现有系统的集成性。
AI进修生
2024/12/02
1.1K0
ComfyUI Party:将LLM与图片工作流集成,图片、语音、文本、视觉一体!(graphRAG、ollama)
深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
时间过的真快呀,又是一周结束了,最近AI和机器人的热度越来越高,能看到相关话题的文章越来越多。我在想,作为一个普通打工仔,我们能做什么,除了不断问AI生成答案,然后问完解决完就扔在脑后?想必不是长久之计,所以将知识沉淀,搭建一个私人知识库,来辅助自己建立脑中的知识库才是最重要的,今天就来给大家介绍如何利用开源项目打造一款私有AI知识库!
希里安
2025/03/31
2870
深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
​Python爬虫 --- 2.1 Scrapy 爬虫框架的安装与基本介绍
原文链接:https://www.fkomm.cn/article/2018/8/1/26.html
圆方圆PYTHON学院
2018/12/19
5300
​Python爬虫 --- 2.1 Scrapy 爬虫框架的安装与基本介绍
如何快速搭建AI智能客服?
在这个AI时代,把AI客服融入你的业务,不仅能让客户体验升级,还能让你的服务更高效。那么,如何快速接入AI客服能力呢?接下来,我就带你一起探索用扣子Coze智能体模版+飞书表格搭建你的专属AI智能客服。
陈宇明
2025/02/26
5430
如何快速搭建AI智能客服?
得物小程序平台设计与实践
得物小程序平台致力于整合并管理微信、支付宝等渠道的得物数字资产,实现数字化管理。通过该平台,小程序和公众号等功能纳入公司工作流,以提升用户体验和管理效率。
得物技术
2025/02/25
1590
得物小程序平台设计与实践
Coze bot 使用&变现手册,核心是动起来
今天,我们就来聊一聊字节跳动刚推出的一个非常酷的平台——coze.cn。这个平台简直是为编程小白和资深程序员都准备的“AI梦工厂”。(体验过,0代码,比 GPTs 配置还顺畅,还可以自己的知识库拓展等等功能)
老表
2024/02/06
5.4K0
Coze bot 使用&变现手册,核心是动起来
智能问答再升级:快速部署FastGPT大语言模型的知识库系统
3.1 选择服务器环境,这里我选择Linux系统的centos环境,然后再自己安装宝塔面板,大家可以自行先安装一下。
快乐的小白
2024/03/01
4.4K1
智能问答再升级:快速部署FastGPT大语言模型的知识库系统
我用AI监控了奥特曼,当他一发推特AI就会自动给我打电话。
我信了他的邪,明明出差1周,每天早上9点不到就要起来参加活动,但是晚上根本不敢睡觉,天天蹲到凌晨3点半,蹲到他们那边时间中午12点多,我才敢去睡觉。
数字生命卡兹克
2025/04/23
670
我用AI监控了奥特曼,当他一发推特AI就会自动给我打电话。
腾讯云AI代码助手初体验:3步打造AI日报机器人,每天自动推送行业动态!
最近,腾讯云开发者社区推出了@你的 AI 编码搭子,满血开发拿鹅厂周边~的活动,只需要在 DeepSeek R1 满血版的腾讯云AI代码助手之后,在B站/小红书/腾讯云开发者社区 /CSDN/今日头条等任何技术社区分享发布 tencent-deepseekR1 模型使用体验,就可以参与 100% 获得鹅厂周边的抽奖活动,每日再评选 3位 优质反馈用户加赠腾讯定制周边露营桌。
AI大眼萌
2025/03/10
4451
腾讯云AI代码助手初体验:3步打造AI日报机器人,每天自动推送行业动态!
如何利用AI构建第二个大脑
在信息爆炸的时代,我们每天接触到的数据量惊人,记忆所有信息几乎不可能。因此,一个个人知识库显得至关重要。它就像你的第二个大脑,帮您储存和整理重要信息,随时随地轻松访问。
renhai
2024/05/27
3650
如何利用AI构建第二个大脑
不敢相信!极空间还能这样玩?部署AstrBot,聊天机器人随心所欲! - 熊猫不是猫QAQ
25年互联网的开年第一王炸就是AI大模型,Deepseek的爆火无疑昭示着AI将成为未来的主导趋势。如今,各式各样的AI机器人已经悄然成为我们日常生活和工作中不可或缺的助手。它们不仅能自动回复消息、提供信息查询服务,还能进行情感交流,极大地提升了我们的沟通效率和工作效率。那么,问题来了:如何在NAS上高效、稳定地部署聊天机器人,并将其对接到各个平台呢?
熊猫不是猫
2025/02/09
2000
推荐阅读
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
11.5K0
搞了一个非常牛逼的 FastGPT 塔罗牌工作流,解决专业占卜难题
5330
别再手动处理数据了!FastGPT 这个新功能让你提前下班
2150
如何利用 FastGPT 和 Dify.AI 构建第二个大脑
3.2K0
大型语言模型智能应用Coze、Dify、FastGPT、MaxKB 对比,选择合适自己的LLM工具
4280
真牛逼,又有新的 AI 员工入职了,但是他不想远程开发,非要来线下,我强制让他 Devbox 远程开发了嘿嘿
3090
Dify 与 FastGPT 流程编排能力对比分析
2.5K0
23.5K star!零代码构建AI知识库,这个开源神器让问答系统开发像搭积木一样简单!
1860
什么是网络爬虫?有什么用?怎么爬?终于有人讲明白了
3.4K0
ComfyUI Party:将LLM与图片工作流集成,图片、语音、文本、视觉一体!(graphRAG、ollama)
1.1K0
深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
2870
​Python爬虫 --- 2.1 Scrapy 爬虫框架的安装与基本介绍
5300
如何快速搭建AI智能客服?
5430
得物小程序平台设计与实践
1590
Coze bot 使用&变现手册,核心是动起来
5.4K0
智能问答再升级:快速部署FastGPT大语言模型的知识库系统
4.4K1
我用AI监控了奥特曼,当他一发推特AI就会自动给我打电话。
670
腾讯云AI代码助手初体验:3步打造AI日报机器人,每天自动推送行业动态!
4451
如何利用AI构建第二个大脑
3650
不敢相信!极空间还能这样玩?部署AstrBot,聊天机器人随心所欲! - 熊猫不是猫QAQ
2000
相关推荐
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验