智能文本处理

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

注1：本文整理自我在今年3 月 11 日 “中国人工智能学会”主办、达观数据承办的「ChatGPT 及大模型专题研讨会」上《大型语言模型的涌现能力：现象与解释》的现场分享，介绍了大语言模型中的涌现现象，以及关于涌现能力背后原因的相关猜想。感谢CSDN帮助整理的文字稿。

新浪张俊林：大语言模型的涌现能力——现象与解释

4月14日，由成都市新经济发展委员会指导，成都市人工智能产业生态联盟主办，达观数据承办，智慧蓉城研究院与趋动科技协办的ChatGPT与大模型技术创新与应用发展专题研讨会在蓉圆满落幕。本次专题研讨会围绕ChatGPT和大规模语言模型的发展应用，聚集众多人工智能产学研用大咖，旨在聚焦全球ChatGPT现象级热点，从技术、应用、伦理等多维视角出发，共同探讨ChatGPT和大模型对不同领域研究产生的颠覆性影响和变革，同时深度讨论人类社会在智能技术深度塑造下可能发生的机遇、挑战和变革，呈现一场精彩的思想交流盛宴。

ChatGPT及大模型专题研讨会在蓉成功举办共探前沿技术与产业发展

掌握了人工智能就掌握了新时代的生产力密码。在ChatGPT爆火的当下，大模型火遍全球，中国产业也激发了对人工智能应用的新热情。因此，这个时间点，36氪数字时氪团队正式启动《年度AI对话》专栏，希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨，通过一系列报道，还原AI新的技术能力与应用潜力。

年度AI对话|达观陈运文：做私有部署的大模型，数据安全更具优势

在通用领域，以ChatGPT为代表的生成式大规模语言模型展现出卓越的知识学习和文字创作能力，受到国内外的广泛关注。垂直领域的GPT大模型同样拥有广阔的应用前景。达观基于多年文本智能技术积累和垂直领域场景业务经验，正在积极探索大语言模型LLM的实践，研发国产版GPT“曹植”系统，作为垂直、专用、自主可控的国产版ChatGPT模型，不仅能实现专业领域的AIGC智能化应用，且可内置在客户各类业务系统中提供专用服务。

达观数据研发“曹植”大语言模型，致力于国产GPT模型

中国科学院自动化研究所研究员张家俊以ChatGPT中的提示与指令学习为题，从ChatGPT简要技术回顾、迈向通用性的提示学习、从提示学习到指令学习、相关探索与学习等角度和在场听众展开技术分享。大模型主要有两个方向，一个是“预训练+参数微调”，就是大模型有了之后针对下游任务进行微调，然后得到一个面向下游任务的大的模型，二是“预训练+提示学习”，预训练之后不变，用提示学习激发大模型来完成特定的任务。相关实践证明，学习提示对于模型性能提升非常有效，怎样学到或者找到提示语非常关键。下面是分享的详细内容。

中科院张家俊：ChatGPT中的提示与指令学习

在经历寒冬、雾霾，甚至大家纷纷看不到希望之际，ChatGPT 犹如一场春雨，给做 AI 甚至 NLP 等研究的人带来了新的希望。

“国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

本文整理自 3月11日 《ChatGPT 及大规模专题研讨会》上，达观数据董事长兼CEO 陈运文博士关于《探索大语言模型垂直化训练技术和应用》的分享，将介绍达观数据在大语言模型应用中的探索与思考。

达观数据陈运文：探索大语言模型，“对症下药”很关键

ChapGPT 自问世以来，便展现出了令世人惊艳的对话能力。仅用两个月时间，ChatGPT 月活跃用户就达一亿，是史上用户增速最快的消费应用。对于学术界、工业界、或是其他相关应用来说都是一个非常大的机会和挑战。事实上，ChatGPT 的成功并不是偶然结果，其背后多有创新之处。本文整理于达观数据参与承办的「ChatGPT 及大模型专题研讨会」上，复旦大学邱锡鹏教授带来的《对话式大型语言模型》主题分享，他从大规模预训练语言模型带来的变化、ChatGPT 的关键技术及其局限性等角度深入地介绍了大规模语言模型的相关知识。

复旦邱锡鹏：深度剖析 ChatGPT 类大语言模型的关键技术

智能写作指使用自然语言处理技术来自动生成文本内容。这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

达观数据:AIGC用于智能写作的技术综述

中文语法纠错任务旨在对文本中存在的拼写、语法等错误进行自动检测和纠正，是自然语言处理领域一项重要的任务。同时该任务在公文、新闻和教育等领域都有着落地的应用价值。但由于中文具有的文法和句法规则比较复杂，基于深度学习的中文文本纠错在实际落地的场景中仍然具有推理速度慢、纠错准确率低和假阳性高等缺点，因此中文文本纠错任务还具有非常大的研究空间。

达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查（Chinese Spelling Check）任务中取得了冠军,赛道二中文语法纠错（Chinese Grammatical Error Diagnosis）任务中获得了亚军。本文基于赛道二中文语法纠错任务的内容，对比赛过程中采用的一些方法进行分享，并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道一中文拼写检查的冠军方案会在后续的文章分享。

中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

中文拼写检查任务是中文自然语言处理中非常具有代表性和挑战性的任务，其本质是找出文本段落中的错别字。这项任务在各种领域，如公文，新闻、财报中都有很好的落地应用价值。而其任务的困难程度也赋予了它非常大的研究空间。达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查（Chinese Spelling Check）任务中取得了全国冠军,赛道二中文语法纠错（Chinese Grammatical Error Diagnosis）任务中获得了亚军。本文基于赛道一中文拼写检查任务的内容，对比赛过程中采用的一些方法进行分享，并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道二中文语法纠错的获奖方案已经分享在达观数据官方公众号中。

全国中文纠错大赛达观冠军方案分享：多模型结合的等长拼写纠错

文本语义纠错的使用场景非常广泛，基本上只要涉及到写作就有文本纠错的需求。书籍面市前就有独立的校对的环节来保障出版之后不出现明显的问题。在新闻中我们也时不时看到因为文字审核没到位造成大乌龙的情况，包括上市公司在公开文书上把“临时大会”写成为“临死大会”，政府文件把“报效国家”写成了“报销国家”。有关文本纠错的辅助工具能给文字工作人员带来较大的便利，对审核方面的风险也大幅降低。

文字语义纠错技术探索与实践

在大数据时代，通过对目标人物的轨迹、通信、社交、出行、网络等多模态行为进行挖掘并建立人物画像模型，并依托人物基础特征和高层特征，实例化人物画像，支撑有关部门分析人员全方位了解目标人物的行为、活动、状态、基本属性等信息，同时能够基于人物画像指导人物活动规律分析、人物能力分析、人物动向分析等应用。

达观桂洪冠：海量文本中挖掘人物关联关系核心技术介绍

办公文档是各行各业最基础也是最重要的信息载体，不管是金融、政务、制造业、零售行业等等，各种类型的文档都是业务流转过程中必不可少的数字资料。以银行信贷为例，一笔信贷业务在贷前贷中到贷后全流程中，需要涉及财报、银行流水、贸易合同、发票、尽职调查报告、审批意见书、会议纪要等等材料，材料的格式和内容均差异很大，但都是针对同一笔信贷业务、从不同角色视角、不同业务角度的情况描述。每一种材料都承载了重要的业务数据，对这些材料进行全面而准确的价值提取，并汇集所有材料实现全流程数据穿透，是前述信贷业务目前急需解决的问题。如何提取海量历史文档中的关键要素和数据，构建数据资产，也是当前各个行业做数字化智能化转型的重要课题。

达观纪传俊：多模态文档LayoutLM版面智能理解技术演进

达观数据与同济大学联合共建的“知识图谱与语义计算联合实验室”，近期发布了围绕新冠肺炎的多跳问答数据集和智能问答系统，该数据集基于COVID-19的七个方面（即百科、防控、物资、诊疗、健康、流行病、英雄）进行数据集梳理并进一步生成1跳（1-hop）、2跳（2-hop）、3跳（3-hop）的问答数据集，智能问答的主题涉及病理、症状、药物等相关的问题。其中论文成果《COKG-QA: Multi-hop Question Answering over COVID-19 Knowledge Graphs》发表于期刊《Data Intelligence》。

达观数据联合同济大学发布新冠肺炎知识图谱数据集及智能问答系统

什么是RPA？RPA（Robotic Process Automation，机器人流程自动化）是通过特定的、可模拟人类在计算机界面上进行操作的技术，它可以按规则自动执行相应的流程任务，代替或辅助人类完成相关的计算机操作，从而节约人力成本，提高生产效率。

达观金克：RPA界面元素智能自适应定位与操控技术

在自然语言处理和知识图谱中，实体抽取、NER是一个基本任务，也是产业化应用NLP 和知识图谱的关键技术之一。BERT是一个大规模预训练模型，它通过精心设计的掩码语言模型（Masked Language Model，MLM）来模拟人类对语言的认知，并对数十亿个词所组成的语料进行预训练而形成强大的基础语义，形成了效果卓绝的模型。通过 BERT来进行实体抽取、NER的方法是当前在NLP和知识图谱的产业化应用中最常用的方法，是效果与成本权衡下的最佳选择。本文详细讲解使用BERT来进行实体抽取，看完本文就会用当前工业界最佳的模型了。

达观王文广：一文详解BERT模型实现NER命名实体抽取

随着互联网技术的迅速发展，尤其是移动互联网的兴起，新产生的信息呈现爆炸式的增长。为了更好地解决信息获取中的信息过载（Information Overload）和长尾问题（Long Tail），推荐系统应运而生，目前基本上已经成为了各种产品的标配功能。推荐系统是信息过滤系统的一个分支，它可以自动地挖掘用户和物品之间的联系。具体来说，它试图基于用户本身的多维度属性数据（如年龄、地域、性别等）以及行为数据的反馈（如点击、收藏、点赞、购买等），结合物品自身属性数据（如标题、标签、类别、正文等），以预测用户对待推荐物品的评分或偏好。从用户的角度来看，推荐系统是基于用户个人的兴趣偏好进行千人千面的自动推荐，则有助于缓解信息过载问题。从物品的角度来看，其自身属性及对应的交互行为差异，通过各种推荐方式是可以触达到对其更感兴趣的用户群体中，缓解了曝光不足带来的长尾问题。从企业的角度来看，推荐系统带来了更好的产品交互方式，达到了沉浸式体验的效果，从而进一步提升了用户的黏性，并最终大幅度提升了转化收益。

达观于敬：知识图谱增强下的智能推荐系统与应用

问答系统（Qusstion Answering System,QA System）在大家的日常生活中随处可见，2014年微软率先推出了小冰智能聊天机器人，直至现在越来越多如siri移动生活助手和智能音箱等的面市，问答作为一种信息获取方式愈发受到大众和厂商的关注和投入。问答系统能够接受用户以自然语言形式描述的提问，并从大量的异构数据中查到或者推理出用户想要的答案。相比传统的信息检索系统，问答系统场景的核心在于用户的信息需求相对比较明确，而系统直接输出用户想要的答案，这个答案的形式可能是文档、结构化的表格或者推理加工的自然语言文本。

达观文辉：知识图谱构建下的自动问答KBQA系统实战

什么是智能文档处理？针对文本数据处理尤其是纯文本，大家通常会想到使用自然语言处理（Natural language processing，NLP）技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史，针对不同层面文本处理和分析有很多技术点，常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。

达观高翔：智能文档处理IDP关键技术与实践

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了智能文本处理专栏，为你提供了智能文本处理的相关文章，致力于帮助开发者快速成长与发展。

智能文本处理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐