首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2017前端开发手册四-前端开发人员应该掌握的Web技术

前端开发人员应掌握以下核心网络技术(考虑此顺序学习): 统一资源定位器(又名URL) 超文本传输协议(又称HTTP) 超文本标记语言(又名HTML) 层叠样式表(CSS又名) JavaScript编程语言...尽管最经常用来改变网页和写在HTML和XHTML用户界面的风格,语言可以适用于任何类型的XML文档,其中包括XML,SVG和XUL。...它具有与文本,数组,日期和正则表达式工作的API,但不包括任何I / O,如网络,存储或图形设施,但其被嵌入的宿主环境依赖这些。...- 维基百科 大多数相关规范/文档: ECMAScript®2017年语言规范 5 网络的API(又名HTML5API) 当使用JavaScript网页编写代码,有许多可用的API。...- Mozilla 最相关的文档: 网络API接口 6 超文本传输协议(又名HTTP) 超文本传输协议(HTTP)是用于分布式,协作,超媒体信息系统的应用协议。HTTP是数据通信对万维网的基础。

1.4K80

如何用AI打造全能网页抓取工具?我的实战经验分享!

相关部分提取文本信息; 3. 进行必要的页面交互; 4. 重复上述步骤,直至达成目标。 使用的工具 尽管这是一个后端工程,但我使用了 NextJs 作为开发框架,便于未来扩展前端。...起步 我需求约束出发,反向设计。由于底层使用 Playwright 爬虫,我知道如果要与页面交互,最终必须要从页面中获取元素的选择器。 元素选择器是一个字符串,用于唯一标识页面上的某个元素。...获取 “目标元素” 的方法 方法 1:截图 + 视觉模型 HTML 数据通常都很复杂和冗长。大部分内容用于定义样式、布局和交互逻辑,而非文本内容本身。...方法 2:HTML + 文本模型 文本的 GPT-4-Turbo 速率限制较宽松,上下文窗口有 128k,所以我试着直接输入整个页面 HTML,要它识别相关元素。...当然,如果使用足够多的搜索词,可能会获取很多 HTML 数据,这可能会触发 API 限制或者影响后续步骤的性能。所以我设计了一种方案,它可以智能地填充相关元素列表,直到达到一个预设长度。

14610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python入门教程:Day11-文件和异常

    说到“文件”这个词,可能需要先科普一下关于文件系统的知识,对于这个概念,维基百科上给出了很好的诠释,这里不再浪费笔墨。...下面的例子演示了如何读取一个文本文件。...是“JavaScript Object Notation”的缩写,它本来是JavaScript语言中创建对象的一种字面量语法,现在已经被广泛的应用于跨平台跨语言的数据交换,原因很简单,因为JSON也是文本...,任何系统任何编程语言处理文本都是没有问题的。...下面的例子演示了如何使用requests模块(封装得足够好的第三方网络访问模块)访问网络API获取国内新闻,如何通过json模块解析JSON数据并显示新闻标题,这个例子使用了天行数据提供的国内新闻数据接口

    87620

    数据结构思维 第六章 树的遍历

    我描述了搜索引擎的元素,并介绍了第一个应用程序,一个维基百科下载和解析页面的 Web 爬行器。本章还介绍了深度优先搜索的递归实现,以及迭代实现,它使用 JavaDeque实现“后入先出”的栈。...搜索引擎的基本组成部分是: 抓取:我们需要一个程序,可以下载网页,解析它,并提取文本和任何其他页面的链接。 索引:我们需要一个数据结构,可以查找一个检索项,并找到包含它的页面。...测试这个猜想需要我们构建爬虫的基本部分,而不必爬取整个网络,甚至是所有维基百科。而且我觉得这个练习很有趣! 在几个章节之内,我们将处理索引器,然后我们将到达检索器。...结果是没有任何标记的 HTML 段落的文本。...有两个原因: 如果你将自己限制于一小部分方法 - 也就是小型 API - 你的代码将更加易读,更不容易出错。例如,如果使用列表来表示栈,则可能会以错误的顺序删除元素。

    82720

    自然语言处理(NLP)相关

    中科院 (Java) LTP 语言技术平台 by 哈工大 (C++) FudanNLP by 复旦 (Java) BosonNLP by Boson (商业API服务)...HanNLP (Java) SnowNLP (Python) Python library for processing Chinese text YaYaNLP (Python) python...使用2017年6月20日中文维基百科语料训练的脚本和模型文件。...corpus 用于训练中英文对话系统的语料库 Datasets for Training Chatbot System 八卦版問答中文語料 中国股市公告信息爬取 通过python脚本巨潮网络的服务器获取中国股市...Martin 52nlp 我爱自然语言处理 hankcs 码农场 文本处理实践课资料 文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算

    2.2K80

    论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加

    即使通过爬虫获取不同时间相同网页作为编辑历史也不可行,因为没有对该次编辑做出计划或解释的相关文本。...但仅依靠维基百科作为训练数据的唯一来源也存在各种缺点: 1、仅使用维基百科训练得到的模型在预期文本内容的样子和预测的计划和编辑方面需要和维基百科相似; 2、维基百科中的评论是有噪音的,因此在许多情况下,...PEER的所有变体模型都用来生成合成数据,既生成缺失的部分来补充的训练数据,也用来替换现有数据中的「低质量」部分。...数据三个英文网络资源中收集获得:维基百科中收集百科全书式的页面,Wikinews收集新闻文章,StackExchange的烹饪、园艺、法律、电影、政治、旅游和工作场所子论坛收集问题,所有这些网站都提供了带有评论的编辑历史...在Wikinews和StackExchange子集的训练中,只提供文本数据,而非实际的编辑,从而测试在没有编辑历史的领域的编辑能力。

    36020

    钱塘干货 | 数据收集和处理工具一览

    Hypothesis可供用户订阅一系列已标注的活动信息,而且能按照自己的兴趣获取通知,而且还能分享评注、链接词典。程序员还可以获取有限的网站许可,通过第三方应用创建、更新、删除、搜索注释。 3....如果你觉得不够,我们还推荐: Wikipedia list of open source text mining software:维基百科上整合的开源文本挖掘软件列表 ?...Tika content analysis toolkit: 文档和文件抽取文本和元数据 CSV Manager:将csv表格输入Solr为基础的搜索引擎 想从PDF文件抽取数据、转化为可编辑的文本...免费软件Tabula可以直接PDF文件抽取数据表格,神奇吧? 图片识别和文本扫描:光学字符识别(OCR) 图片识别文本(OCR) Tesseract: 光学识别软件,图片识别文本 ?...输入、修改、转换数据 将数据转换成文本的超强工具: Tika content analysis toolkit ?

    2.5K70

    LlamaIndex使用指南

    - embedting -ada-002来获取和嵌入文本。...NotionPageReader:Notion获取数据。 lackReader:Slack导入数据。 ApifyActor:能够抓取网页,抓取,文本提取和文件下载。 如何找到正确的数据连接器?...Retrievers Retrievers模块规定了针对查询知识库获取相关上下文的技术。...任何合成器的主要工作都是接受一个问题和一些文本片段,并返回一串文本作为答案。 下面是每个响应合成器应该具有的基本结构。他们应该能够接受一个问题和部分文本,然后给出答案。...数据代理的两个组成部分是: 推理循环:指示代理的决策过程,决定使用哪些工具、它们的顺序,以及基于输入任务的每个工具调用的参数。 工具抽象:代理与一组api或工具交互以获取信息或改变状态。

    3.5K21

    ​解密Prompt系列33. LLM之图表理解任务-多模态篇

    上一章我们介绍了文本模态的表格理解任务,这一章我们聚焦多模态图表数据。先讨论下单纯使用prompt的情况下,图片和文字模态哪种表格模型理解的效果更好更好,再说下和表格相关的图表理解任务的微调方案。...论文猜测的点是FinQA的上文更长,导致文本表征模型容易混淆信息,而WikiTQ和TabFact是维基百科的数据,文本模型可能在预训练时见过才导致的效果更好。...评估集由以下三个数据集构成(点击链接可以看到数据)VWTQ:维基百科表格问答的数据集WTQ,通过wiki网页链接获取原始表格的HTML截图得到图片,并通过Table Renderer对表格属性进行修改...,降低维基百科在预训练中的数据泄露问题再通过截图获取图片数据(VWTQ-Syn)VTabFact: 表格事实检查的另类QA问题,这里未提供原始html,因此使用csv数据转换成伪html,再使用Table...,整体上还是文本模态的表格要更好些,但确实可能存在不同上下文和表格类型上表现不同的差异性~说完prompt的方案,我们再来看下图表理解相关的微调方案,这里的微调方案更多是针对图表数据中的图,例如饼图,

    51810

    Python 自动化指南(繁琐工作自动化)第二版:十六、使用 CSV 文件和 JSON 数据

    另一方面,CSV 和 JSON 文件只是文本文件。您可以在文本编辑器(如 Mu)中查看它们。但是 Python 还附带了特殊的csv和json模块,每个模块都提供了帮助您处理这些文件格式的函数。...CSV 代表“逗号分隔值”,CSV 文件是存储为文本文件的简化电子表格。Python 的csv模块使得解析 CSV 文件变得很容易。... IMDb、烂番茄和维基百科中提取数据,放入你电脑上的一个文本文件中,为你的个人电影收藏创建一个“电影百科全书”。 您可以在参考资料中的看到一些 JSON APIs 的例子。...实际上,如果你有一个程序可以下载未来几天的天气预报并以文本格式打印出来,那么你可以跳过很多无聊的步骤。这个程序使用第 12 章中的requests模块网上下载数据。...多个站点获取天气数据并一次显示,或者计算并显示多个天气预测的平均值。 总结 CSV 和 JSON 是存储数据的常见文本格式。

    11.5K40

    【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类

    【新智元导读】本文计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整理,每个数据集均附有下载链接,是做 AI 研究不容错过资源。...虽然不算人工智能这列火车的车头,但 AI 革命的幕后英雄是数据——得益于各大研究机构和企业的辛苦工作,我们有机会获取大量有标签和注释的数据。...地址:https://www.cs.toronto.edu/~kriz/cifar.html 【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像 API 公司其 REST 接口获取标签...,样本大小120K到3.6M,问题范围2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!...地址:http://nlp.stanford.edu/sentiment/code.html 【经典、陈旧】20 Newsgroups:一个文本分类的经典数据集,通常用于分类或作为任何 IR/索引算法的基准

    1.7K90

    最好用的 AI 开源数据集(涵盖计算机视觉、NLP、语音等 6 大类)

    1 新智元编译 来源:medium.com 编译:刘小芹 【新智元导读】本文计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整理,每个数据集均附有下载链接,是做 AI...虽然不算人工智能这列火车的车头,但 AI 革命的幕后英雄是数据——得益于各大研究机构和企业的辛苦工作,我们有机会获取大量有标签和注释的数据。...地址:https://www.cs.toronto.edu/~kriz/cifar.html 【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像 API 公司其 REST 接口获取标签...,样本大小120K到3.6M,问题范围2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!...地址:http://nlp.stanford.edu/sentiment/code.html 【经典、陈旧】20 Newsgroups:一个文本分类的经典数据集,通常用于分类或作为任何 IR/索引算法的基准

    1.2K60

    ChatGPT 数据集之谜

    维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的英文过滤版作为数据集。 1.2. ...维基百科(英文版)分析 下面类别[9]列出了维基百科的详细信息,涵盖了2015年抽样的1001篇随机文章,研究人员注意到随时间推移文章传播的稳定性。...BookCorpus: 确定的数据集为4.6GB,如上面的GPT-1部分所示。 维基百科:公开的数据集为“16GB(BookCorpus加上英文维基百科)”。...主要参考文献如下,或者参见http://lifearchitect.ai/papers/,获取大语言模型领域的主要基础论文。以下论文本文顺序显示。...经过去重和一些基于启发式的清理后,其中包含大约超过800万个文档,总共40GB文本。我们WebText中移除了所有维基百科文档...” 14.

    70940

    ChatGPT数据集之谜

    维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的英文过滤版作为数据集。 1.2. ...维基百科(英文版)分析 下面类别[9]列出了维基百科的详细信息,涵盖了2015年抽样的1001篇随机文章,研究人员注意到随时间推移文章传播的稳定性。...BookCorpus: 确定的数据集为4.6GB,如上面的GPT-1部分所示。 维基百科:公开的数据集为“16GB(BookCorpus加上英文维基百科)”。...扩展阅读及脚注 考虑到简洁和可读性,本文使用了脚注而非文本/括弧式引文。主要参考文献如下,或者参见http://lifearchitect.ai/papers/,获取大语言模型领域的主要基础论文。...经过去重和一些基于启发式的清理后,其中包含大约超过800万个文档,总共40GB文本。我们WebText中移除了所有维基百科文档...” 14.

    66440

    包含近 20 万本图书,OpenAI 级别的训练数据集上线

    关键词:自然语言处理 文本数据集 近日,机器学习社区的一篇资源热贴「用于训练 GPT 等大型语言模型的 196640 本文本书籍数据集」引发了热烈的讨论。...这些数据集中共包含 196640 册文本数据,可以用于训练 GPT 等大型语言模型。...数据集中 books1 数据集部分内容示例 据介绍,books1 数据集中 1800 本图书文本数据,都来自于大型文本语料库 BookCorpus,其中包括诗歌类、小说类等。...GPT-3 训练数据集一览 据介绍,GPT-3 使用的训练数据集十分庞大,基于包含近 1 万亿单词量的 CommonCrawl 数据集、网络文本、数据、维基百科等数据,它使用的最大数据集在处理前容量达到了...超神经目前已经将 books1 数据集搬运至 https://hyper.ai,搜索关键词「书籍」或「文本」,或点击原文获取数据集。 ?

    93321

    学界 | 谷歌大脑提出通过多文档摘要方法生成维基百科,可处理较长序列

    之前的研究主要是提取摘要(输入中选择句子或词组来形成摘要),而不是生成新文本。抽象神经模型的应用有限,一个可能的原因是缺少大型标注数据集。...研究者首先描述了基于参考文本抽象生成维基百科文章的第一部分或主要部分。...引用资料:一篇符合体例指南的维基百科文章在「References」(参考文献)部分应该有引用资料。...对于每篇文章,对于一篇文章 a_i,研究者可抓取的引用文档中提取无标记的所有文本 C_i(C_i ⊂ D)作为模型的输入。 2....因此,研究者首先通过抽取摘要粗略地选择输入的子集,然后基于此训练一个生成维基百科文本的抽象模型。这两步受到人们多个长文档中提取摘要的启发:首先突出显著信息,然后基于此生成摘要。 ?

    1.5K70
    领券