AI 科技评论按:语言词汇的多义性已经是一个越发让人头疼的问题。比如女生对男朋友说:「生日礼物我想要MAC」,本来心怀期待地揣测他买来的唇彩会是什么色,结果收到的可能是一台苹果笔记本电脑…… 苹果电
作者:Miriam Redi、Jonathan Morgan、Dario Taraborelli、Besnik Fetahu
韩国新剧《鱿鱼游戏》风靡全球,成为全球爆款。其发行商 Netflix 宣布,“鱿鱼游戏正式拥有 1.11 亿粉丝——这是我们有史以来最大的系列发行!” 它在包括美国在内的 90 个不同国家/地区的排行榜上名列前茅,并被称为“口碑全球轰动”,在新闻和社交媒体中随处可见。
前文回顾: 「Python爬虫系列讲解」一、网络数据爬取概述 「Python爬虫系列讲解」二、Python知识初学 「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试 「Python爬虫系列讲解」四、BeautifulSoup 技术 「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息 「Python爬虫系列讲解」六、Python 数据库知识 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取 「Python爬虫系列讲解」八、Selenium 技术
选自OpenAI 作者:Jonathan Raiman 机器之心编译 参与:许迪、黄小天 本文通过让神经网络决策一个词是否属于 100 个自动发现的「类别」(非专属范畴)之一,从而建立了一个可以自动计算单词指称对象的神经网络。该方法在若干个实体消岐(entity disambiguation)数据集上实现了当前最优的提升。 通过让神经网络决策一个词是否属于 100 个自动发现的「类别」(非专属范畴)之一,我们已建立一个神经网络,可以自动计算一个词所指称的对象。比如对于语句「猎物看到美洲虎(Jaguar)穿过
「遇事不决先谷歌」已经是现在很多人查找信息的标准起手了。如果搜索一个词条,百科网站的结果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息,虽然可能不够严谨,但也被很多人作为重要的信息、知识来源。
Miriam Adelson是一位很有成就的医生,已发表了大约一百篇关于成瘾生理学和治疗的研究论文。她还在拉斯维加斯经营一家备受瞩目的药物滥用诊所。并且,她是以色列最大的报纸的出版商,还有她的丈夫谢尔顿,是一位慈善家和有影响力的共和党捐助者(亿万富翁)。
AI 科技评论:不久前,斯坦福大学的计算机科学博士陈丹琦的一篇长达 156 页的毕业论文《Neural Reading Comprehension and Beyond》成为「爆款文章」,一时引起了不小轰动。而本文是她与同样师从 Christopher Manning 的同学 Peng Qi 一起发表的文章,两位来自斯坦福大学的 NLP 大牛在文中一起探索了机器阅读的最新进展。AI 科技评论编译如下。
今天为大家介绍的是来自Fabio Petroni团队的一篇论文。可验证性是维基百科的核心内容政策之一:所有的陈述都需要有引用来支撑。维持和提高维基百科参考资料的质量是一个重要挑战。作者展示了如何借助人工智能(AI)来应对改善参考资料的过程,这一AI系统由信息检索系统和语言模型驱动。我们称这个基于神经网络的系统为SIDE,它能够识别那些不太可能支持其声明的维基百科引用,并随后从网上推荐更好的引用。
知识图谱技术原理介绍(转载) 王昊奋 近两年来,随着LinkingOpen Data 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(DocumentWeb)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(DataWeb)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为KnowledgeGraph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。下面我将从以下几个方面来介绍知识
下载地址:https://github.com/ymcui/Chinese-BERT-wwm
---- 新智元报道 编辑:好困 【新智元导读】这个模型只用了64个例子,就在自然问题上达到了42%的准确率,并且超过了5400亿参数的PaLM。 最近,Meta推出了一个全新的检索增强的语言模型——Atlas。 和那些动辄上千亿参数的前辈们不同,Atlas只有110亿的参数。 不过值得注意的是,Atlas虽然只有PaLM的1/50,但它只用了64个例子就在NaturalQuestions达到了42%以上的准确率,比PaLM这个5400亿参数的模型还高出了3%。 论文链接:https://arx
近两年来,随着Linking Open Data等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。 知识图谱的表示和本质 正如Google的辛格博士在介绍知识图谱时提
Kiwix是由志愿者们开源的一个项目,允许人们离线下载和浏览网站,最重要的是,它免费!
从搜索引擎,一直到自动问答系统,自然语言处理(NLP)系统的发展已经极大地增强了我们获取文本信息的能力,帮我们节省了很多用来记忆和查找的时间精力。今天,每当我们脑海中涌现出问题的时候,我们的第一反应都是去搜索引擎(谷歌、百度、必应)上搜索一下。
大数据文摘作品 作者:Peter Gleeson 编译:周佳玉、丁慧、叶一、小鱼、钱天培 今天文摘菌要教大家制作一张编程语言的关系网络图。如果不知道什么是关系网络图,可以点击下方链接先来看一下最终成果: http://programming-languages.herokuapp.com/#, 我们可以在这里看到从过去到现在的250多种编程语言之间的“设计影响”的关系,下面是该演示的截图: 接下来,就让我们一起来学做这个关系网络图吧! 在当今的超连接世界,网络在现代生活中无处不在。举个栗子,文摘菌的周末这
Flux Security 博客系列的下一篇是我们如何在 Flux 及其控制器中实现 fuzzing(模糊测试),以及如何让项目变得更安全。
维基百科社区以人身攻击的评论臭名昭著。这个问题非常糟糕,以至于活跃的贡献者或编辑在八年期间下降了40%。尽管没有一个解决方案可以解决这个问题,但支持维基百科的非营利组织维基媒体基金会决定使用AI来更多地了解问题,并考虑如何解决这个问题。
主讲嘉宾:王昊奋 主持人:阮彤 承办:中关村大数据产业联盟 嘉宾简介: 王昊奋,华东理工大学讲师,上海交通大学计算机应用专业博士,对语义搜索、图数据库以及Web挖掘与信息抽取有浓厚的兴趣。在博士就读期间发表了30余篇国际顶级会议和期刊论文,长期在WWW、ISWC等顶级会议担任程序委员会委员。作为Apex数据与知识管理实验室语义组负责人,他主持并参与了多项相关项目的研发,长期与IBM、百度等知名IT企业进行合作,在知识图谱相关的研究领域积累了丰富的经验。 以下为分享实景全文: 王昊奋: 近两年来,随着开放链
编程,偏理科的东西要先上手实践,再做理论理解。因为所有的理论提出,也都是建立有了实践结果后,抽象出来的理论。但你上来就要用理论去反推结果,并不是一件容易的事情。就像不少的 DDD 文章,往往会用一个理论,去讲另外一个理论,这也导致很多没有实践过的小白伙伴,压根不知道讲的是什么。最终觉得 DDD 太难!
缓冲区溢出是一个场景,其中程序向缓冲区或内容区域写入数据,写入的数据比实际分配的区域要多。使用冰格来考虑的话,你可能拥有 12 个空间,但是只想要创建 10 个。在填充格子的时候,你添加了过多的水,填充了 11 个位置而不是 10 个。你就溢出了冰格的缓存区。
No.48期 众包的定义 Mr. 王:平常遇到不知道的概念或者名词,你一般会怎么办? 小可:有维基百科啊,我去查一查就知道了。对于一个名词,维基百科能给出很多的解释,而且这些解释往往非常准确和专业。
你可以使用描述性统计方法将原始观测数据转换为你可以理解和共享的信息,也可以使用推断统计方法,通过数据的小样本对整个域进行推理。
几年前谁能想到,匿名贡献者们的义务工作竟创造出前所未有的巨大在线知识库?维基百科不仅是你写大学论文时最好的信息渠道,也是一个极其丰富的数据源。
选自arXiv 作者:Peter J. Liu、Mohammad Saleh 等 机器之心编译 参与:白悦、路雪 近日,谷歌大脑发布论文,提出一种通过提取多文档摘要来生成英文维基百科文章的方法,该方法可以处理长序列。 序列到序列框架已被证明在自然语言序列转导任务(如机器翻译)中取得了成功。最近,神经技术被应用于提取新闻文章中的单文档、抽象(释义)文本摘要(Rush et al. (2015), Nallapati et al. (2016))。之前的研究以端到端的方式训练监督模型的输入——从一篇文章的第一
启发式算法(heuristic)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。
来源:OneFlow 机器学习算法与自然语言处理 作者:Alan D. Thompson本文约9100字,建议阅读10+分钟本文帮助有志于开发“类ChatGPT”模型的团队少走一步弯路。 半个月以来,ChatGPT这把火越烧越旺。国内很多大厂相继声称要做中文版ChatGPT,还公布了上线时间表,不少科技圈已功成名就的大佬也按捺不住,携巨资下场,要创建“中国版OpenAI“。 不过,看看过去半个月在群众眼里稍显窘迫的Meta的Galactica,以及Google紧急发布的Bard,
你是否曾经在谷歌上随意搜索过一些问题?比如「世界上有多少个国家」,当你看到谷歌向你展示的是准确的答案,而不只是链接列表时,你是否感到十分惊讶?这个功能显然很酷炫也很有用,但是它仍然有局限。如果你搜索一个稍微复杂的问题,比如「我需要骑多长时间的自行车才能消耗掉一个巨无霸汉堡的卡路里」,你不会直接从谷歌搜索那里得到一个好的答案(即使任何人都可以通过谷歌搜索给出的第一个或第二个链接的内容得到答案)。
通用知识图谱大体可以分为百科知识图谱(Encyclopedia Knowledge Graph)和常识知识图谱(Common Sense Knowledge Graph)。
近期,大型语言模型(LLM)在零样本文本任务中展现了令人印象深刻的性能。特别是,近期的研究设计出了能够根据用户指示处理多样任务的模型[6, 30, 41]。在这个背景下,经典的方法是在多种通过自然语言描述的任务上微调模型[7, 34],从而使模型能够吸收外部提供的指示,并促进在多个领域内的强大泛化能力。 在这些进展之后,计算机视觉界开始研究将这些模型扩展到视觉和语言的情境中,从而生成多模态大型语言模型(MLLMs)。在这方面,通过视觉到语言的 Adapter 将视觉特征融合到LLM的主干中,引起了显著的性能提升,使得对需要精心设计的视觉描述的视觉和语言任务能够广泛泛化。
源 / stratechery 文 / Ben Thompson 译 / 36氪 一切都是一种权衡,都需要取舍。 编者按:著名分析师Ben Thompson近日发表了一篇文章,详细阐述了Facebook数据泄露事件背后的根源以及其带来的影响。原题为“THE FACEBOOK BRAND”,文章由36氪编译。 上周,路透社报道了哈里斯品牌调查( Harris Brand Survey)的结果: 苹果公司和Alphabet公司的谷歌企业品牌在年度调查中的排名下降,而亚马逊公司连续第三年位居榜首,
问耕 编译整理 量子位 出品 | 公众号 QbitAI 今天一大早,Yann LeCun就转发了一条消息:Facebook开源了DrQA的代码。 DrQA是一个开放域问答系统。 关于DrQA,Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions(阅读维基百科来回答开放域问题)》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。 论文的作者为来自斯坦福的Danqi Chen(陈丹琦,之前毕业于清华姚班),以及来自Fac
作者 | Yash Patel,Lluis Gomez,Raul Gomez,Marcal Rusinol,Dimosthenis Karatzas, C.V. Jawahar
为了检测图片是否对焦,现代消费类相机使用复杂的相位检测电路和专用传感器。但是拍摄后如何确定拍摄的照片是否对焦。拥有这些测量信息可以在很多方面提供帮助(选择序列中的最佳图片、控制电动镜头、清晰的延时视频等等)。
以下文章来源于OneFlow,作者Alan D. Thompson 半个月以来,ChatGPT这把火越烧越旺。国内很多大厂相继声称要做中文版ChatGPT,还公布了上线时间表,不少科技圈已功成名就的大佬也按捺不住,携巨资下场,要创建“中国版OpenAI”。 不过,看看过去半个月在群众眼里稍显窘迫的Meta的Galactica,以及Google紧急发布的Bard,就知道在短期内打造一个比肩甚至超越ChatGPT效果的模型没那么简单。 让很多人不免感到诧异的是,ChatGPT的核心算法Transformer最
在这里,页中不存储元组数据,只会存储日志记录,即通过日志记录我们插入的数据以及我们如何更新系统中的数据,包括:插入元组的语句日志,删除元组的语句日志,更新元组的语句日志。 这种设计写得很快,因为不用在一个页里寻找并更新单个元组,就是在末尾追加写,这样写起来非常快,对于磁盘 I/O 也很好。
---- 新智元报道 编辑:LRS 【新智元导读】Meta最近放出全新写作语言模型PEER,完全模拟人类写作过程,从打草稿到重复编辑修改都帮你干了,还能解释修改原因! 2020年5月至今,GPT-3发布近两年半的时间里,在其神奇的文本生成能力加持下,已经能够很好地辅助人类进行写作了。 但GPT-3说到底也就是个文本生成模型,与人类的写作过程可以说是完全不同了。 比如要写一篇论文或者作文,我们需要先在脑海里构造一个框架,查相关资料,打草稿,再找导师不断地修改、润色文字,期间可能还会修改思路,最终才可
关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结;
本文共2400字,建议阅读10分钟。 本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。
2016年,知识经济很火。分答、知乎Live等平台先后入局,最近就连那个一直低调潜行的豆瓣也推出了内容付费产品:豆瓣时间,用时髦的话说内容付费俨然已成互联网风口。 一项互联网业务到了风口,就可能被315点名。 在一年一度的“公关节”315晚会上知识分享平台互动百科就被点名了,理由是因为它的付费服务:企业缴纳费用之后具有更强的编辑权限,甚至可以发布虚假信息,来龙去脉不必赘述,但“互动百科”这家百科知识平台为什么会采取“付费”模式,却值得深究。 百科是互联网最古老的内容形态之一。说到百科,人们首先会想到2001
很多人可能都听说人工智能已经可以写文章了,但是你可能不知道编辑机器人早就已经是维基百科最重要的贡献群体之一。 2001 年,维基百科引入了机器人编辑者的概念,任何用户可以为自己研发的机器人单独建立一个维基百科帐号,只要根据维基百科社区官方的规定对帐号进行标注,即可让机器人参与维基百科的编辑。 2014 年,机器人在维基百科的所有语言中完成了 15% 的编辑动作,他们识别、撤销破坏行为,锁定遭到频繁篡改的页面、识别错别字和病句、创建不同语言之间的链接、自动导入站外内容、进行数据挖掘、识别侵权的内容并为新手
维基百科作为一个开放协同式的百科网站,是全世界最受欢迎的十大网站之一。目前,维基百科已经累积了超过上百万个词条。
Google现在想到了一个办法能让AI来回答这个问题,他们开放了一个名叫自然问题(Natural Questions, NQ)的数据集,能够训练AI阅读维基百科,并找到各种开放领域问题的答案。
AI 研习社按:本文由图普科技编译自《Medical Image Analysis with Deep Learning Part2》,是最近发表的《深度学习下的医学图像分析(一)》的后续文章。雷锋网
我们通常使用 Chrome, Firefox, Safari, Internet Explorer 和 Edge 等浏览器来浏览网页。你也许正在使用其中一种浏览器阅读本文!虽然浏览器对于访问互联网内容的任务来说非常流行,它们还有一些我们从未过多关注过的竞争对手。这些竞争对手以 WebView 的形式被我们所熟知。这片文章将讲解 WebView 的神秘之处以及为什么它这么棒。
作者 | Nicola Melluso 编译 | VK 来源 | Towards Data Science
Semantics (from Ancient Greek: σημαντικός sēmantikós, "significant")[1][a] is the linguistic and philosophical study of meaning in language, programming languages, formal logics, and semiotics. It is concerned with the relationship between signifiers—like words, phrases, signs, and symbols—and what they stand for in reality, their denotation.
梯度下降算法的公式非常简单,”沿着梯度的反方向(坡度最陡)“是我们日常经验得到的,其本质的原因到底是什么呢?为什么局部下降最快的方向就是梯度的负方向呢?也许很多朋友还不太清楚。没关系,接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。
Uber 的全球用户每天会产生500万条行程,保证数据的准确性至关重要。如果所有的数据都得到有效利用,t通过元数据和聚合的数据可以快速检测平台上的滥用行为,如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确,也因此更可靠。
领取专属 10元无门槛券
手把手带您无忧上云