Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >神奇工具!把网页转换为markdown

神奇工具!把网页转换为markdown

作者头像
chuckQu
发布于 2024-04-24 07:23:12
发布于 2024-04-24 07:23:12
1.3K03
代码可运行
举报
文章被收录于专栏:前端F2E前端F2E
运行总次数:3
代码可运行

你知道吗?有一种工具叫做Reader,它能够帮你把任何网址转换成更适合大型语言模型(LLM)处理的输入格式。就像给网页穿上了一件“智能外衣”,让它们更容易被理解和使用。而且,这个服务完全免费哦!

今天就给大家详细介绍下如何使用这款工具。

如何使用

使用Reader非常简单,你只需要在任何网址前加上一个简单的前缀 https://r.jina.ai/ 就可以了。比如,如果你想把 https://en.wikipedia.org/wiki/Artificial_intelligence 转换成一个更适合语言模型处理的输入,你只需要访问:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

而且,Reader还有一个实时演示,你可以亲自去体验一下:

  • 访问 https://jina.ai/reader 进行实时演示。

更新日志

Reader最近还增加了一个新功能,那就是支持图像阅读。它能够为指定URL中的所有图像添加标题,并在图片缺少alt标签的情况下,添加 Image [idx]: [caption] 作为替代。这样,下游的语言模型就能在推理、总结等过程中与图片进行交互了。你可以在这里看到一个示例:点击查看示例[1]

安装指南

如果你想自己运行这个项目,你需要准备以下工具:

  • Node v18(注意:Node版本不能超过18,否则构建可能会失败)
  • Firebase CLI(通过 npm install -g firebase-tools 安装)

对于后端,你需要进入 backend/functions 目录并安装npm依赖:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone git@github.com:jina-ai/reader.git
cd backend/functions
npm install

模式选择

Reader提供了几种不同的模式,以适应不同的使用场景:

标准模式:直接在URL前加上 https://r.jina.ai/ 即可。这种方式简单直接,适用于大多数情况。

流式模式:如果你发现标准模式下的结果不够完整,可以尝试流式模式。它会等待页面完全渲染后再提供内容。你可以通过设置请求头来启用流式模式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
curl -H "Accept: text/event-stream" <https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page>

这种方式下,数据会以流的形式分块传输,每个后续块都包含更完整的信息。最后一个块通常提供最完整和最终的结果。这对于需要即时内容交付或希望以块处理数据以交错输入/输出和模型处理时间的下游系统非常有用。

JSON模式:虽然目前这个模式还处于早期阶段,输出的JSON并不是特别“有用”,但它提供了 urltitlecontent 三个字段。你可以通过设置请求头来控制输出格式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
curl -H "Accept: application/json" <https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page>

总结

这个工具对于希望提高语言模型输入质量的开发者来说非常有用,尤其是需要处理网页内容的场景。通过Reader,可以更轻松地将网页内容转换为适合语言模型处理的格式,从而提升模型的性能和输出结果的质量。

Reference

[1]

点击查看示例: https://x.com/JinaAI_/status/1780094402071023926

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 前端F2E 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
编辑精选文章
换一批
2024年AI+爬虫指南:使用JinaAI、FireCrawl、Crawl4AI(别用Beautiful Soup了)
在这篇文章中,我们将介绍多种数据抓取工具,包括开源、免费和付费的工具,帮助你从网页中提取数据。众所周知,大型语言模型(LLMs)需要大量数据,而这些数据大部分来自网页。
AI进修生
2024/12/02
3.2K0
2024年AI+爬虫指南:使用JinaAI、FireCrawl、Crawl4AI(别用Beautiful Soup了)
让LLM更懂网络:Jina AI Reader的力量
在这个信息爆炸的时代,大型语言模型(LLMs)如通义千问等成为连接知识与用户的桥梁,但它们往往受限于输入质量——网络资源虽丰富,却非全都“消化”得了。而“Jina AI Reader”,正是那把钥匙,巧妙开启了网络资源宝库,让LLMs能更聪明地吸收、理解与运用网络信息。
埃兰德欧神
2024/09/20
5640
让LLM更懂网络:Jina AI Reader的力量
Java + LangChain 开发大语言模型应用!
在 Baeldung 上看到了一篇介绍基于 Java + LangChain 开发大语言模型应用的基础入门文章,写的非常不错,非常适合初学者。于是,我抽空翻译了一下。
码农编程进阶笔记
2025/03/29
4570
Java + LangChain 开发大语言模型应用!
大模型到底有没有智能?一篇文章给你讲明明白白
生成式人工智能 (GenAI[1]) 和大语言模型 (LLM[2]),这两个词汇想必已在大家的耳边萦绕多时。它们如惊涛骇浪般席卷了整个科技界,登上了各大新闻头条。ChatGPT,这个神奇的对话助手,也许已成为你形影不离的良师益友。
米开朗基杨
2024/06/14
2350
大模型到底有没有智能?一篇文章给你讲明明白白
一款由字节复刻Manus的开源AI自动化任务处理工具:LangManus,它通过LLM和网络搜索、网页爬取、浏览器控制等各种工具结合来实现任务自动化,可以实现本地部署使用,支持国产AI大模型API
在人工智能和自动化技术不断发展的今天,如何高效地将多个工具和智能体结合在一起,以完成复杂的任务,成为了众多开发者的挑战。LangManus应运而生,它通过集成大语言模型(LLM)、网络搜索、网页爬取和浏览器控制等多种工具,能够自动化处理多步骤复杂的研究任务。本文将详细介绍LangManus的架构、功能、安装和使用方法。
猫头虎
2025/03/23
2.1K0
一款由字节复刻Manus的开源AI自动化任务处理工具:LangManus,它通过LLM和网络搜索、网页爬取、浏览器控制等各种工具结合来实现任务自动化,可以实现本地部署使用,支持国产AI大模型API
[AI Embedchain] 开始使用 - 快速开始
本节提供了一个快速入门示例,展示了如何使用 Mistral 作为开源 LLM(大型语言模型)和 Sentence transformers 作为开源嵌入模型。这些模型是免费的,并且主要在您的本地机器上运行。
从零开始学AI
2024/08/07
940
​爬虫+动态代理助力 AI 训练数据采集
近年来,AI 技术飞速发展,很多朋友都投身于 AI 模型的训练。然而,相较于模型的获取,高质量的数据往往更加难以收集。一方面,互联网每天都在源源不断地产生新数据,另一方面,各大网站普遍设有反爬机制,阻止自动化程序抓取信息。在这种情况下,动态代理服务成为破解难题的关键工具。通过动态代理,我们的爬虫程序可以模拟不同的用户身份,在访问网站时伪装 IP 地址,从而有效降低被封禁的风险。
袁袁袁袁满
2025/03/19
1170
「首席架构师推荐」深度学习软件比较
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。 [1]
架构师研究会
2019/10/09
5740
「首席架构师推荐」深度学习软件比较
【强烈推荐】Java工程师如何从一名普通的码农成长为一位大神
本文源自 http://www.hollischuang.com/archives/489 写在前面 java作为一门编程语言,在各类编程语言中作为弄潮儿始终排在前三的位置,这充分肯定了java语言的魅力,在实际项目应用中,我们已经无法脱离javaa(Ps当然你可以选择不使用),但它的高性能,稳定性,扩展性已经深入到每一个java编程工程师的骨髓里,随着时间的推移,我相信更多的项目会加入到java这个大家庭。 然而要想成为一名合格的java工程师并不容易,难于上青天,此话怎讲
用户1257215
2018/01/30
1.5K0
Jina AI + Milvus Lite:搭建 RAG 问答机器人
开发人员特别重视那些易于设置、启动迅速且能在生产环境中无缝扩展的基础组件。针对这一需求,我们推出了最新的轻量级向量数据库产品——Milvus Lite。对于 Python 开发者而言,Milvus Lite 是一个极具价值的工具,尤其适用于追求高质量、易用性的搜索应用。
Zilliz RDS
2024/06/25
4860
Jina AI + Milvus Lite:搭建 RAG 问答机器人
葵花宝典之机器学习:全网最重要的AI资源都在这里了(大牛,研究机构,视频,博客,书籍,Quora......)
翻译 | AI科技大本营(rgznai100) 参与 | Joe,焦燕 2000年早期,Robbie Allen在写一本关于网络和编程的书的时候,深有感触。他发现,互联网很不错,但是资源并不完善。那时候,博客已经开始流行起来。但是,Youtube还不是很普遍,Quora、 Twitter和播客同样用者甚少。 在他转向人工智能和机器学习10年过后,局面发生了天翻地覆的变化:网上资源非相当丰富,以至于很多人出现了选择困难,不知道该从哪里开始(和停止)学习! 为了使大家能够更加便利地使用这些资源,Robbie A
AI科技大本营
2018/04/26
1.2K0
如何用AI打造全能网页抓取工具?我的实战经验分享!
最近,我一直在研究网页抓取技术。鉴于人工智能领域的快速发展,我尝试构建一个 “通用” 的网页抓取工具,它可以在网页上迭代遍历,直到找到需要抓取的信息。这个项目目前还在开发中,这篇文章我将分享一下该项目目前的进展。
米开朗基杨
2024/07/10
3680
如何用AI打造全能网页抓取工具?我的实战经验分享!
如何利用 FastGPT 和 Dify.AI 构建第二个大脑
在信息爆炸的时代,我们每天接触到的数据量惊人,记忆所有信息几乎不可能。因此,一个个人知识库显得至关重要。它就像你的第二个大脑,帮您储存和整理重要信息,随时随地轻松访问。
renhai
2024/05/22
3.2K0
如何利用 FastGPT 和 Dify.AI 构建第二个大脑
K8S 1.26 这个新特性,支持大规模并行批处理工作负载
Kubernetes 1.26 版本包括一个稳定的 Job[1] 控制器实现,可以可靠地跟踪大量具有高并行度的作业。自 Kubernetes 1.22 以来, SIG Apps[2] 和WG Batch[3] 一直致力于这项基础改进。经过多次迭代和规模验证,现在这是 Job 控制器的默认实现。
我的小碗汤
2023/03/20
1.2K0
K8S 1.26 这个新特性,支持大规模并行批处理工作负载
【独家】自然语言处理(NLP)入门指南
致谢 钟崇光博士参与了数据派THU于6月5日、THU数据派于6月8日发布的《循序渐进提升Kaggle竞赛模型精确度,以美国好事达保险公司理赔为例》一文的校对工作,并且给出了许多有建设性的意见,在此数据派翻译组对钟博士表达诚挚的感谢! 作者:Melanie Tosik 翻译:闵黎 校对:丁楠雅 本文长度为1100字,建议阅读3分钟 Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程,她为期望入门自然语言处理的初学者
数据派THU
2018/01/29
2K0
【独家】自然语言处理(NLP)入门指南
程序员能力提升:你应该知道的那些编程原则!!
每个程序员都可以从理解编程原理和模式中受益。这篇概述用于我个人参考,同时我也把它放在这。也许这在设计、讨论或复查中对你有所帮助。但请注意,这还远远不够,你常常需要在相互矛盾的原则之间做出权衡。
小明互联网技术分享社区
2021/02/26
3410
LLM生态下爬虫程序的现状与未来
最近出现一批与LLM有关的新的爬虫框架,一类是为LLM提供内容抓取解析的,比如 Jina Reader 和 FireCrawl ,可以将抓取的网页解析为markdown这样的对LLM友好的内容,例如markdown,这类本质上还是传统的爬虫解决方案。还有一类是通过LLM+agent工作流方式来构建的下一代爬虫程序,比如Skyvern、 Scrapegraph-ai等。
JadePeng
2024/05/10
6310
LLM生态下爬虫程序的现状与未来
自然语言处理中的语言模型简介
语言模型常常与单词嵌入混淆。主要的区别在于,在语言模型中,单词顺序很重要,因为它试图捕捉单词之间的上下文,而在单词嵌入的情况下,只捕捉语义相似度(https://en.wikipedia.org/wiki/Semantic_similarity) ,因为它是通过预测窗口中的单词来训练的,而不管顺序如何。
磐创AI
2020/05/25
9630
GitHub项目:自然语言处理领域的相关干货整理
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概览。选取的参考文献与资料都侧重于最新的深度学习研究成果。这些资源能为想要深入钻研一个NLP任务的人们提供一个良好的开端。 指代消解 https://github.com/Kyubyong/nlp_tasks#coreference-resolution 论文自动评分 论文:Automatic Text Scoring Using Neural Net
AiTechYun
2018/03/05
2.8K0
一文掌握异常检测的实用方法 | 技术实践
【导读】今天这篇文章会向大家介绍几个有关机器学习和统计分析的技术和应用,并展示如何使用这些方法解决一些具体的异常检测和状态监控实例。相信对一些开发者们来说可以提供一些学习思路,应用于自己的工作中。
AI科技大本营
2019/07/03
9770
一文掌握异常检测的实用方法 | 技术实践
推荐阅读
相关推荐
2024年AI+爬虫指南:使用JinaAI、FireCrawl、Crawl4AI(别用Beautiful Soup了)
更多 >
LV.1
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验