大家好!我是开源君,一个热衷于软件开发和运维的工程师。本频道我专注于分享Github和Gitee上的高质量开源项目,并致力于推动前沿技术的分享。
针对这些棘手的问题,百度深耕产业界,选取NLP领域三大高频场景——检索、问答、情感分析,推出面向真实应用场景的系统功能,覆盖金融、电商零售、文娱、旅游、房地产、生活服务等多个行业,等均已基于相关方案成功完成业务上线。
暨2021年“十四五”规划将数字政府提上国家顶层设计后,今年两会期间,数字经济、智慧城市再一次成为各界关注的焦点。
问答系统是自然语言处理领域一个很经典的问题,它用于回答人们以自然语言形式提出的问题,有着广泛的应用。其经典应用场景包括:智能语音交互、在线客服、知识获取、情感类聊天等。常见的分类有:生成型、检索型问答系统;单轮问答、多轮问答系统;面向开放领域、特定领域的问答系统。本文涉及的主要是在检索型、面向特定领域的问答系统,通常称之为——智能客服机器人。
大模型(LLM)相关理论研究与工程实践随着 GPT3 的发布,在学术界、工业界大爆发,备受各行各业关注,并涌现出一些赋能行业、促进生产力、生产关系变革的实践。GPT3 [1] 以及斯坦福计算机学院近 100+ 教授联名论文 [2] 将大模型列为第三轮 AI 浪潮,相对于传统的机器学习与深度学习,以 GPT3 为例的大模型涌现出处理各类任务的新范式:zero-shot、few-shot、in-context 等,同时也支持深度学习领域的 finetune,新范式让大模型能够低成本、快速处理各种任务,极大的缩短了数据准备与工程开发流程。
https://tianchi.aliyun.com/competition/entrance/532126/information
我们也很激动地看到 AI 巨头不断地开源最新、最快的模型,例如谷歌开源了语言模型 BERT,已经在所有 benchmark 数据集上取得了突破。
信息爆炸的时代,更需要我们拥有高效获得文档信息的能力。随着人工智能技术的快速发展,智能问答系统已逐渐成为提升这一能力的重要手段之一。2022 年以来,以 GPT-3 模型为代表的大规模语言模型能力的不断提升,为智能文档问答带来了新的机遇,前不久 GPT-4 模型的震撼发布更是再次颠覆人们的认知。 GPT 爆火后,人们往往聚焦于其巨大的模型和令人惊叹的自然语言生成能力,而少有人谈到如此具体的技术解析。 近日,亚马逊云科技联合 Jina AI 举办 Tech Talk 主题活动。Jina AI 联合创始人兼 C
1调研问卷系统 DWSurvey 项目简介:DWSurvey 是一款方便、高效、实用的调研问卷系统,一款基于 JAVA WEB 的开源问卷表单系统。 项目特色: 全新体验、流程简单 以一种全新的设计体
问耕 编译整理 量子位 出品 | 公众号 QbitAI 今天一大早,Yann LeCun就转发了一条消息:Facebook开源了DrQA的代码。 DrQA是一个开放域问答系统。 关于DrQA,Facebook还发表了一篇论文《Reading Wikipedia to Answer Open-Domain Questions(阅读维基百科来回答开放域问题)》。这篇论文也入选了下周即将在温哥华召开的ACL 2017大会。 论文的作者为来自斯坦福的Danqi Chen(陈丹琦,之前毕业于清华姚班),以及来自Fac
前面介绍了使用RAG-GPT和OpenAI快速搭建LangChain官网智能客服。有些场景,用户可能无法通过往外网访问OpenAI等云端LLM服务,或者由于数据隐私等安全问题,需要本地部署大模型。本文将介绍通过RAG-GPT和Ollama搭建智能客服。
随着chatgpt等大型语言模型(LLM)能力越来越强大,如何将这些模型精准地应用于特定垂直领域,让各行业开发者快速利用LLM赋能也成为热点和痛点。众所周知,LLM在处理超出其训练数据或涉及最新实事时,常会产生“幻觉”现象,简单理解就是会出现一本正经的胡说八道,回答不准确。针对此问题,RAG通过从外部知识库检索相关文档作为上下文输入到LLM有效地减少了生成内容不符合实际的情况。
工欲善其事必先利其器。做人工智能,必然少不了基础框架。深度学习领域两大主流框架TensorFlow和PyTorch,一个是来自Google,另一个来自于Facebook. 国内其实也有不少框架,百度的Paddle算是做得最早的,除此之外,还有华为的MindSpore等等。
ChatWiki是一款开源的知识库 AI 问答系统。系统基于大语言模型(LLM )和检索增强生成(RAG)技术构建,提供开箱即用的数据处理、模型调用等能力,可以帮助企业快速搭建自己的知识库 AI 问答系统。
Django Django - Django。 Channels - Channels旨在增强Django的异步能力,同时让Django不仅仅局限于Request-Response模型,能够支持WebSocket、HTTP2推送和背景任务。2015年出现的十大流行Python库 。 Django-Baker - Django Baker可以帮助开发者快速启动项目。只要提供app名称,Django Baker就可以根据models.py文件中的models,自动生成视图、表单、URL、admin页面以及
从搜索引擎,一直到自动问答系统,自然语言处理(NLP)系统的发展已经极大地增强了我们获取文本信息的能力,帮我们节省了很多用来记忆和查找的时间精力。今天,每当我们脑海中涌现出问题的时候,我们的第一反应都是去搜索引擎(谷歌、百度、必应)上搜索一下。
前面介绍了使用RAG-GPT和OpenAI快速搭建LangChain官网智能客服,目前国内也有一些比较不错的云端大模型API服务。本文将介绍通过RAG-GPT集成智谱AI和DeepSeek,快速搭建OpenAI Cookbook智能客服。
结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表 词性标注 [python] 使用Jieba工具中文分词及文本聚类概念 jieba分词词性标记含义 Toolkits 综合NLP工具包 THULAC 中文词法分析工具包 by 清华 (C++/Java/Python) NLPIR by 中科院 (Java) LTP 语言技术平台 by 哈工大 (C++) FudanNLP
自从 ChatGPT、Stable Diffusion 发布以来,各种相关开源项目百花齐放,着实让人应接不暇。
我们正在经历一个 Data + AI 的黄金时期,AI 已在大数据领域展现出巨大的潜力。QCon 全球软件开发大会·广州站邀请到 Datafuse Labs 联合创始人张雁飞老师分享题为《Databend: 大模型时代的 Cloud Warehouse 设计探索》的演讲,本文为 Databend 公众号由此整理。 完整幻灯片下载: https://qcon.infoq.cn/2023/guangzhou/presentation/5257
A knowledge graph for Chinese cookbook(中式菜谱知识图谱),可以实现知识图谱可视化和知识库智能问答系统(KBQA)
若朴 编译整理 量子位 出品 | 公众号 QbitAI 刚刚,Google开源了一套问答游戏App系统。 通过一套模板工具可以,你只要给出问题和答案,就能搞出一套功能齐备的AI问答游戏。这套问答系统基
推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可直达:
最近有点小忙。但是,由于前几天答应了一位读者自己会推荐一些开源的论坛系统,所以,昨晚就简单地熬了个夜,对比了很多个开源论坛系统之后,总结成了这篇文章。
MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。MaxKB = Max Knowledge Base,旨在成为企业的最强大脑。
智能问答 (Intelligent Question Answering, IQA) 是自然语言处理(NLP)中的一个核心子领域,旨在设计和开发可以解析、理解并回答用户提出的自然语言问题的系统。这些系统的目标不仅仅是返回与问题相关的文本,而是提供精确、凝练且直接的答案。
为了从整体上描述基于文档的限定领域对话式问答系统要实现的功能,使用户能够对本系统有一个全面正确的认识,同时给程序开发者一个关于系统的使用,系统的功能模块,以及系统的各种技术解决方案一个详细的说明。
ChatGPT 所取得的巨大成功,使得越来越多的开发者希望利用 OpenAI 提供的 API 或私有化模型开发基于大语言模型的应用程序。然而,即使大语言模型的调用相对简单,仍需要完成大量的定制开发工作,包括 API 集成、交互逻辑、数据存储等。
本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案:技术知识前置【一】-文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障讲解了文本匹配算法的综述,从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型,期间也涉及了近几年前沿的对比学习模型,之后提出了文本匹配技巧提升方案,最终给出了DKG的落地方案。这边主要以原理讲解和技术方案阐述为主,之后会慢慢把项目开源出来,一起共建KG,从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。
机器之心报道 编辑:李泽南 企业智能化转型才是 AI 应用最先成熟的方向? 港交所 8 月 13 日披露,知名人工智能平台公司第四范式已向港交所主板提交上市申请。高盛、中金公司为联席保荐人。 第四范式成立于 2014 年 9 月,根据灼识咨询报告,在 2020 年,第四范式在中国以平台为中心的决策型 AI 市场排名第一。不同于计算机视觉赛道上众所周知的「AI 四小龙」,第四范式聚焦决策型 AI 领域,提供以平台为中心的人工智能解决方案,可帮助企业实现人工智能快速规模化的转型落地,发掘数据隐含规律并以超越人
自动问答系统是当前自然语言处理领域一个非常热的方向。它综合运用了知识表示、信息检索、自然语言处理等技术。自动问答系统能够使用户以自然语言提问的形式而不是关键词的组合,提出信息查询需求,系统依据对问题进行分析,从各种数据资源中自动找出准确的答案。从系统功能上讲,自动问答分为开放域自动问答和限定域自动问答。开放域是指不限定问题领域,用户随意提问,系统从海量数据中寻找答案;限定域是指系统事先声明,只能回答某一个领域的问题,其他领域问题无法回答。 为了测试这个方面可行与否,近期,利用百度知道的相关问答语料,
大家好!我是 Guide 哥,Java 后端开发。一个会一点前端,喜欢烹饪的自由少年。
对话系统是自然语言处理的一个热门话题,而自然语言理解则是对话系统的关键组成部分,现有的很多自然语言理解工具往往以服务的方式获取(Google 的 API.ai, Facebook 的 Wit.ai 等),使用这些服务往往需要向服务提供商提供自己的数据,并且根据自己业务调试模型很不方便。本文为大家介绍了一种新方法,即如何基于 rasa 搭建一个中文对话系统。 在近期 AI 研习社举办的线上免费公开课上,来自北京邮电大学网络技术研究院的张庆恒分享了基于 rasa nlu 构建自己的自然语言理解工具,并结合 r
本篇介绍聊天机器人中出现的比较早的一种:问答系统。问答系统跟检索技术很相似,基本的功能就是,用户可以向系统咨询信息,系统通过“检索”,向用户返回精准、有效的信息。所以,常常有人说,问答系统是搜索引擎的最终形态。
周末的时候,整理了 6 个不错的基于 Spring Boot 开发的社区类项目,每个都非常不错!
机器之心发布 机器之心编辑部 机器之心《2020-2021 全球 AI 技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。 2021 年伊始,机器之心发布《2020-2021 全球 AI 技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性 AI 技术领域。 此外,该报告还邀请了近 100 位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于 2015-2020 年间的开源论文与专利语料,结合机器之心自有的新闻
在这篇文章中,我们将介绍这几天开源的三种数据集,它们与已有的通用数据集都不太一样,且更关注精细化的任务。例如在谷歌开源的 QA 数据集中,它里面都是真实的搜索问题,答案也都是从维基百科查找的。这种大型的真实数据集更适合训练一个不那么「低智商」的 QA 对话系统,也更符合成年人实际会问的一些问题。
3.1 选择服务器环境,这里我选择Linux系统的centos环境,然后再自己安装宝塔面板,大家可以自行先安装一下。
AI 科技评论按:当前,整个人工智能领域对自然语言处理技术的热情可谓空前高涨。一方面,这是由于借着深度学习的东风,计算机在各种自然语言处理任务中的表现有了突飞猛进的提高;另一方面,人们生活中大量的信息检索、语音识别、文本分析等应用对粒度更细、精度更高的专用自然语言模型提出了越来越高的要求。可以预见,随着信息时代数据量的不断增长以及人类社会中语料资源的不断丰富,自然语言处理研究将不断面临新的挑战。
市场调研公司MarketsandMarkets提供的数据显示,预计全球向量数据库市场的价值将从2020年的3亿2000万美元激增至2025年的10亿5000万美元,这一增长对应的年均复合增长率为26.8%。
前段时间敖丙在和腾讯云工作人员接触的时候,他们发现我骨骼惊奇还在对手工作过有丰富的经验,所以希望我跟他们共事,但是前提是希望我对向量数据库足够了解。
你是否曾经在谷歌上随意搜索过一些问题?比如「世界上有多少个国家」,当你看到谷歌向你展示的是准确的答案,而不只是链接列表时,你是否感到十分惊讶?这个功能显然很酷炫也很有用,但是它仍然有局限。如果你搜索一个稍微复杂的问题,比如「我需要骑多长时间的自行车才能消耗掉一个巨无霸汉堡的卡路里」,你不会直接从谷歌搜索那里得到一个好的答案(即使任何人都可以通过谷歌搜索给出的第一个或第二个链接的内容得到答案)。
【导读】知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。我们专知的技术基石之一正是知识图谱-构建AI知识体系-专知主题知识树简介。下面我们特别整理了关于知识图谱的技术全面综述,涵盖基本定义与架构、代表性知识图谱库、构建技术、开源库和典型应用。主要基于的参考文献来自[22]和[40], 本人(Quan)做了部分修整。 昨天我们介绍了《知识图谱的概念以及构建技术-知识提取、知识表示、知识融合》,今天介绍知识图谱的知识推理和典型应用。 知识图谱构建的关键技术 1
问答系统对结构化知识的整理和运营成本高,使企业场景中问答应用的扩展性受到较大挑战。文档问答对数据的组织形式要求降低,是对更少的人工、更多的智能的一种有价值的探索。本次直播从问答系统的发展历程谈起,聊聊问答系统的现状和应用;介绍文档问答系统的优势及困难、应用场景;分享一些我们的算法技术实践工作;最后谈谈从算法到产品的思考。
自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。
对于智能问答系统的部署过程和创新应用,这里将展示详细的部署步骤,并结合实际示例和代码解释。智能问答系统的应用在客户服务中具有重要意义,可以提高服务效率和用户体验,下面是部署过程的详细说明:
自从2020年OpenAI发布GPT-3之后,大型语言模型(LLM)就在世界上广受欢迎,一直保持稳定的增长。直到2022年底,对于LLM和生成AI等广泛领域的兴趣才开始迅速增长,这可能是因为大量关于GPT-3的重大进展推动了这一趋势。Google发布了名为LaMDA的具有“有感知能力”的聊天机器人,首个高性能且开源的LLM——BLOOM也已经发布。此外,OpenAI还发布了他们的下一代文本嵌入模型和下一代“GPT-3.5”模型。在LLM领域取得巨大飞跃后,OpenAI推出了名为ChatGPT的新模型,使LLM成为人们关注的焦点。同时,Harrison Chase创造的LangChain也应运而生,这个库的创建者只花费了几个月的时间就构建出了令人惊叹的功能,尽管它还处于早期阶段。
在数字化时代,数据的安全存储与高效检索是科技界持续关注的热点。近年来,大语言模型(LLM)的崛起不仅在自然语言处理领域引起了革命性的变革,也对知识库问答系统提出了新的解决方案。最近,一个名为Langchain-Chatchat的开源项目,利用最新的技术研发动态,引起了科技界的广泛关注。本文旨在深入探索Langchain-Chatchat的核心技术、实现机制、安装配置及其未来发展前景。
AI 科技评论:不久前,斯坦福大学的计算机科学博士陈丹琦的一篇长达 156 页的毕业论文《Neural Reading Comprehension and Beyond》成为「爆款文章」,一时引起了不小轰动。而本文是她与同样师从 Christopher Manning 的同学 Peng Qi 一起发表的文章,两位来自斯坦福大学的 NLP 大牛在文中一起探索了机器阅读的最新进展。AI 科技评论编译如下。
领取专属 10元无门槛券
手把手带您无忧上云