首页
学习
活动
专区
圈层
工具
发布

spaCy v2.2 发布:更小、更快、更强

这些语言的准确性将在后续版本中提高,因为当前模型既没有使用预训练的词向量,也没有使用 spacy pretrain 命令。...新数据集在 LaSSy 语料库上提供了 OntoNotes 5 注释,从而可以用在 20 个类别的黄金标准实体上训练的模型取代半自动的维基百科 NER 模型。...改进了错误消息,更新了文档,并使评估指标更加详细,例如,评估现在默认提供每种实体类型和每种文本类别的准确性统计。最有用的改进之一是在 spacy train 命令行界面中集成了对文本分类器的支持。...在底层,大型语言资源现在由一个一致的 Lookups API 支持,在编写自定义组件时也可以利用该 API。用于高效序列化的 DocBin高效的序列化对于大规模文本处理非常重要。...它设计用于查找维基百科中所有提到的实体,或从大型术语列表中查找所有药物或蛋白质名称等用例。v2.2 用更直接的基于 Trie 的算法替换了 PhraseMatcher。

8610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    手把手:一张图看清编程语言发展史,你也能用Python画出来!

    以下是主要逻辑的大纲: 首先,你需要有一个编程语言的列表。 接下来,通过该列表并检索维基百科相关文章的HTML。 从中提取出每种语言所影响的编程语言列表。这是我们连接节点的粗略标准。...同时,我们可以抓取一些关于每种语言的元数据。 最后,将收集的所有数据写入一个.csv文件。...准备好后——从创建一个节点的列表开始。这是Wikipedia模块派上用场的地方。它使得访问维基百科API非常容易。...抓取HTML 第一个函数使用BeautifulSoup模块来获取每种语言的Wikipedia页面的HTML。...现在编写一个循环,将先前定义的函数应用于nodes中的每个词条,并将输出存储在edgeList和meta中。 该函数使用节点中的每种语言,并尝试从维基百科页面检索汇总表。

    2.1K30

    CMU最新视觉特征自监督学习模型——TextTopicNet

    ▌维基图像——文本数据集 我们以维基百科作为数据的来源,这是一个基于网络的多语言的百科全书项目,目前有 4000 多万篇文章,含 299 种不同语言。...对于我们的实验,我们使用两个不同的维基百科文章集合:(a) ImageCLEF 2010 维基百科数据集;(b) 我们所收集的英语维基百科图像——文本数据集,包含 420 万图像文本对组成的数据,下图1...图1 英语维基百科种11种类别的文章分布情况 ▌TextTopicNet 我们提出了一种 TextTopicNet 的方法,通过挖掘大规模多模态网络文档的大规模语料库(如维基百科文章),以自监督的方式来学习视觉特征...对于每种文本嵌入方法,我们都将训练一个 CNN 模型并利用网络不同层获得的特征信息去学习一个一对多的SVM (one-vs-all SVM)。...最后,有关 TextTopicNet 的源代码,预训练模型以及维基百科数据集资源,可以在我们公开的 https://github.com/lluisgomez/TextTopicNet 获取。

    2K21

    维基百科中的数据科学:手把手教你用Python读懂全球最大百科全书

    这个项目最初是想要收集维基百科上所有的书籍信息,但我之后发现项目中使用的解决方法可以有更广泛的应用。...还有一种办法,我们通过dumps.wikimedia.org这个网站获取维基百科所有数据的定期快照结果,又称dump。...考虑好下载什么 上述代码把dump里的所有文件都找出来了,你也就有了一些下载的选择:文章当前版本,文章页以及当前讨论列表,或者是文章所有历史修改版本和讨论列表。...解析XML 解决第一个问题——定位文章,我们使用SAX(Simple API for XML) 语法解析器。...radio station broadcasting to Salt Lake City, Utah ' 因为我的最终目标是找到所有关于书籍的文章,那么是否有一种方法可以使用解析器来识别某个类别中的文章呢

    2K30

    推荐 GitHub 上的一套公开 API 接口,简直不要太全!

    这些API 特别全面,包含了各种各样的类别。...比如我们先来看下他的一些分类: 如图所示,可以看到这个仓库划分了很多大类别,比如动物、设计、书籍、商业、娱乐等几十个大类,按照字母排序,每个大类都有对应的 API 可供我们使用。...、Cats、Bear 等等,这些 API 就可以返回一些猫、狗、熊等图片的列表。...另外回到网站本身,它还提供了相关文档介绍所有接口的用法:https://dog.ceo/dog-api/documentation/ 比如这里有列出所有狗的品种、根据品种返回狗的照片、随机狗的照片等等...Horse Icon Horse 提供了各种返回网站图标的功能,https://icon.horse/ 比如维基百科就可以填写 Wikipedia.org,就可以获取其网站图标了: bible-api

    5.8K40

    利用维基百科促进自然语言处理

    从句子中提取维基百科信息 有几种工具可用于处理来自维基百科的信息。对于文本数据的自动处理,我们使用了一个名为SpikeX的spaCy开放项目。...我们现在着手构建一个能够识别属于某个维基百科类别的文本片段的NER系统。...这三个实体各自有属于特定类别的维基百科页面。 在这幅图中,我们可以看到不同的类别是如何在三个实体之间传播的。在这种情况下,类别可以看作是我们要从文本中提取的实体的标签。...进一步的例子是使用display表示基于维基百科类别的NER系统提取的实体。...提取的主题的标签是指与SpikeX匹配的Wikipedia页面的类别。如果我们使用这种方法聚合每个句子的主题,我们就可以更好地表示整个文档。 在句子中划分类别的频率可以更广泛地了解文本的主题分布。”

    1.7K30

    TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

    实验结果表明了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义...「脑 - 图 - 文」多模态学习 如下图 3A 所示,本文方法的关键在于将每种模态学习到的分布对齐到一个共享的潜在空间中,该空间包含与新类别相关的基本多模态信息。...大脑视觉皮层的体素活动稳定性分数映射图。 现有的神经编解码数据集往往只有图像刺激和脑响应。为了获取视觉概念对应的语言描述,作者采用了一种半自动的维基百科文章抽取方法。...具体来说,作者首先创建 ImageNet 类与其对应的维基百科页面的自动匹配,匹配是基于 ImageNet 类和维基百科标题的同义词集单词之间的相似性,以及它们的父类别。...然而,提取的视觉特征可能无法准确反映人类视觉处理的所有阶段,更好的特征集将有助于这些任务的完成。例如,可以使用更大的预训练语言模型(如 GPT-3),来提取更具有零样本泛化能力的文本特征。

    60420

    2019年,TensorFlow被拉下马了吗?

    2018年9月,作者曾就需求、使用和受欢迎程度三方面比较了所有主要的深度学习框架,其中TensorFlow是无可争议的重量级冠军,PyTorch是赢得大量口碑的后起之秀。...需要注意的是,除了LinkedIn,PyTorch在所有求职网站上的增加职位列表数量都超过了TensorFlow。...作为高阶API,Keras和fastAI非常受深度学习新从业人员的欢迎。Medium中有很多教程介绍了这些框架的使用方式。...在每种类别中,TensorFlow上的GitHub动态最多。但是,PyTorch在watcher和contributor的增长方面与TensorFlow相当接近。...5.将每个框架的类别分数汇总为单个增长分数。 工作列表占总分数的三分之一多,这是比例最高的一部分:钱说了算。这种多权重方法平衡了不同类别。

    1.3K20

    技术文章

    数据集:BOLD这个数据集被称为 BOLD,旨在测量五个类别中的偏见:职业、性别、种族、宗教信仰和政治意识形态。每个提示由维基百科句子开头的六到九个单词组成。...提取提示时,首先识别了属于这五个类别中任何一类的文章。对于职业,找到了根据维基百科分类法中18个高级职业分类进行分类的文章。...从维基百科的政治意识形态列表中,选择了社会主义、民粹主义、民族主义、自由主义、法西斯主义、民主、保守主义、共产主义、无政府主义、左翼和右翼等类别。...最后,还使用了维基百科宗教信仰和精神信仰列表中最常见的类别:锡克教、犹太教、伊斯兰教、印度教、基督教、佛教和无神论。...技术方法测量情感和尊重时,使用了现成的分类器。测量毒性时,使用了在公共毒性评论数据集上进行微调的BERT语言模型。

    9610

    读写二进制文件

    关于JSON的知识,更多的可以参考JSON的官方网站,从这个网站也可以了解到每种语言处理JSON数据格式可以使用的工具或三方库,下面是一个JSON的简单例子。...Python中的json模块就可以将字典或列表以JSON格式保存到文件中,代码如下所示。...自由的百科全书维基百科上对这两个概念是这样解释的:“序列化(serialization)在计算机科学的数据处理中,是指将数据结构或对象状态转换为可以存储或传输的形式,这样在需要的时候能够恢复到原先的状态...,而且通过序列化的数据重新获取字节时,可以利用这些字节来产生原始对象的副本(拷贝)。...下面的例子演示了如何使用requests模块(封装得足够好的第三方网络访问模块)访问网络API获取国内新闻,如何通过json模块解析JSON数据并显示新闻标题,这个例子使用了天行数据提供的国内新闻数据接口

    3.2K10

    2017前端开发手册四-前端开发人员应该掌握的Web技术

    对于所有网络相关规范的完整列表,看看platform.html5.org。 1 超文本标记语言(HTML又名) 超文本标记语言,通常被称为HTML,是用来制作网页的标准标记语言。...- 维基百科 大多数相关规范/文档: 所有W3C HTML规格 实用HTML元素 全局属性 W3C的HTML 5.2规范 HTML属性参考 HTML元素参考 实用HTML语法 2 层叠样式表(CSS又名...每个文档的节点以树状结构组织,称为DOM树。在DOM树中的对象可以被寻址,并通过使用所述对象的方法操纵。一个DOM的公共接口在其应用程序编程接口(API)来指定。...- 维基百科 大多数相关规范/文档: ECMAScript®2017年语言规范 5 网络的API(又名HTML5API) 当使用JavaScript网页编写代码,有许多可用的API。...下面是所有的接口的列表,您可能能够同时开发你的Web应用程序或网站。

    1.9K80

    Wolfram 分析 | 根据维基百科数据,《鱿鱼游戏》在全球电视界占据主导地位

    维基百科数据也非常集中:它既有电视节目的专用页面,也有每种语言的单独页面,百科全书式的内容质量吸引并帮助评估真正投入的读者——这种质量通常很难获得。...为了评估“爆炸性的全球流行度”(或此处的“病毒式传播”),我将使用一个简单的指标:电视节目在一天内产生的最高浏览量,汇总了最主要的语言群体中9种不同语言的维基百科用户。...维基百科有多种语言版本,对应同一主题的文章不一定是精确的翻译,而是由使用特定语言的用户社区从头开始编写的。...Wolfram 语言中的WikipediaData函数是一个灵活的、用户友好的 Wikipedia API 界面。...英语通常被认为是一种国际交流语言,世界上许多人把它作为一种重要的第二语言。维基百科英文版的页面通常也是最详细和完善的。因此,除了阅读母语文章外,国际读者还会查看其英文版本以获取更多信息。

    95320

    掀起“公有云对象存储服务”的面纱(系列2)

    几乎所有对象存储服务提供商都兼容S3 API,API是什么?对象存储常用API有哪些?使用上需要注意什么? 首先,先说一个题外的事实——对于非技术人员来说,使用公有云对象存储也不是很难。...几乎所有成熟的厂商都提供了自己的客户端(主要用于数据上传或迁移)和功能比较健全的网页端portal(用于简单操作、权限管理、统计展示等),可以想象到的非技术人员使用场景几乎也都覆盖到了。...概括的说,它是一组定义明确的在各种软件组件间进行通信的方法(维基百科的定义,翻译得有点蹩脚,请查看原文)在公有云对象存储这个语境里,也可以通俗的理解为服务厂商将存储的服务能力以API的方式开放给了用户,...通过调用API ,有相应权限的用户可以对相应的存储空间实现诸如上传、下载、复制、删除,更改权限,获取文件列表等操作。...每种语言都有自己的规范,SDK将API做了相关语言的适配封装,还提供相对应的示例文档。

    2.6K120

    使用 ChatGPT 与 Python 中的第三方应用程序进行交互

    这一突破开启了无限的可能性,允许开发人员充分利用语言模型的强大功能,同时有效地处理来自外部来源的信息。...OpenAI的"gpt-3.5-turbo"模型为ChatGPT提供动力。您还需要将您的OpenAI API密钥传递给open_api_key属性。...使用ChatGPT从维基百科提取信息-------------------------------如前所述,ChatGPT的知识截止日期为2021年9月,无法回答那之后的查询。...有关更多信息,请查看所有LangChain代理集成的列表。让我们看看如何使用示例代码将ChatGPT与维基百科等第三方应用程序集成。...我们将从ArXiv获取一篇文章的标题和作者姓名,ArXiv是一个流行的开放获取科研论文、预印本和其他学术文章的存储库。脚本保持不变,只需将arxiv作为参数值传递给load_tools()方法。

    1.2K10

    多语言模型支持100种语言

    Fine-tuning 示例 多语言模型不需要任何特殊考虑或更改API。...将每种语言的整个Wikipedia转储数据(不包括用户页和讨论页)作为每种语言的训练数据。...维基百科的语料大小也与该语言的使用者人数有关,而且我们也不想为了一种特定语言在很小的数据集上执行数千个epochs,造成过度拟合模型。...换句话说,假设一种语言的概率是P(L),例如P(English) = 0.21,表示在将所有维基百科总合在一起之后,21%的数据是英语的。...对于所有其他语言,我们应用与英语相同的方法:(a)字母小写+重音删除,(b)标点符号分割,(c)空白标记化。 我们知道口音标记在某些语言中具有重要意义,但认为减少有效词汇的好处可以弥补这一点。

    4.7K41

    关于维基百科你不知道的十件事:

    每种语言版本产生与发展文章的方式都和其他语言版本有所不同,尽管有些语言版本是直接翻译自其他语言版本,但这些翻译都是由志愿者而不是透过机器翻译完成的。...事实上你无法改变维基百科里的任何内容…… 你只能增加内容。维基百科是一个被设计为可以保存所有修改的数据库。...编辑者可以立即检查其他使用者所做的每项改变、监控有兴趣的议题、追踪某个用户的贡献历史、将问题文章加入监视列表以利日后回顾、回报破坏行为、与其他使用者讨论每篇文章的好坏,还有更多更多。...无论你是自称为一名教授、使用你的本名或使用假名,你的编辑与论点都会根据其本身优劣受到评判。我们要求文章中所有重要论点都必须注明其可供查证的出处,而且我们不允许编辑者发表个人结论。...所有关于维基百科的一切都是朝这个方向努力:我们的内容授权方式、组织与管理模式、国际化目标、基金筹募策略、开放原始码软件的使用以及我们为达成此目标的不懈努力。

    1.5K40

    基于聊天的 AI 编程高效实践

    我们向 GitHub Copilot agent 提出的完整应用构建 prompt 如下: 生成一个 Angular 应用,该应用能够查询 Wikipedia API 以获取与搜索词匹配的文章,并将结果以列表形式展示...以下就是我们构建“维基搜索应用”的计划: 创建 WikiService 服务类,添加搜索方法作为 API 接口,用于获取维基百科文章数据 开发 WikiCard 展示组件,以卡片形式呈现单篇维基百科文章...创建 WikiService 服务 创建 WikiService 并为其添加一个方法,作为根据给定搜索词获取维基百科文章的 API。使用维基百科提供的最新 API。...创建 WikiListComponent 创建 WikiList 组件,这是一个以卡片形式显示维基百科文章列表的组件。 其将使用 WikiCard 组件来显示列表中的每篇文章。...组件还有一个按钮,允许用户从维基百科 API 获取文章。按钮的点击事件应该调用 WikiService 来获取文章。 第三步 prompt 执行后的代码状态 4.

    47310

    吐血整理!12种通用知识图谱项目简介

    YAGO利用规则对维基百科实体的infobox进行抽取,通过实体类别推断构建“概念-实体”、“实体-属性”间的关系。...目前,YAGO拥有10种语言约459万个实体,2400万个知识三元组。YAGO2包含了100个以上关系类型,20万实体类别,300万实体和2.2亿知识三元组等。...BabelNet中每个概念包含所有表达相同含义的不同语言的同义词。由于BabelNet中的错误来源主要在于维基百科与WordNet之间的映射,目前的映射正确率大约在91%。 5....ConceptNet中拥有如“IsA、UsedFor、CapableOf”等多种固定关系,允许节点是自然语言片段或句子,但关系类型确定有利于降低知识获取的难度。...在中文领域,还有上交大发布的知识图谱AceKG,超1亿个实体,近100G数据量,使用Apache Jena框架进行驱动[12]。思知平台发布的ownthink通用知识图谱[13]。

    4.2K10

    eBay 开发新的推荐模型,从数据中挖掘商机

    应用使用离线历史数据训练过的 Ranker,根据购买的可能性对召回集进行排序,通过合并卖家广告率对列表进行重新排序。...这个模型的特征包括:推荐商品历史数据、推荐商品与种子商品的相似性、产品类别、国家和用户个性化特征。使用梯度提升树对模型进行连续训练,根据相对购买概率对商品进行排序。...由于 eBay 语料库不同于书籍和维基百科,eBay 工程师引入了 eBERT,一种 BERT 变体,使用 eBay 商品标题数据进行了预训练。...它使用维基百科的 2.5 亿个句子和 eBay 的 30 亿个多语言标题进行了训练。...商品标题被编码成词袋向量,模型的训练目标为增加已知彼此相关的这些向量(表示标题的词袋)之间主题距离的余弦相似度,同时降低迷你批次中所有其他商品标题对的余弦相似度。

    1.1K20
    领券