首页
学习
活动
专区
工具
TVP
发布

深度学习自然语言处理

专栏成员
1035
文章
1385093
阅读量
164
订阅数
大语言模型越狱攻击综述
今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks and Defenses Against Large Language Models: A Survey》。本文聚焦于大模型安全领域,探讨了目前大模型所面临的“越狱攻击”(Jailbreak)问题。
zenRRan
2024-07-26
4290
解决问题而非制造问题!GLM-4-AllTools API革新大模型使用体验
把时间推回到250万年前,旧石器时代见证了人类从简单工具的使用者到复杂技术创造者的转变。我们的祖先南方古猿、直立人等,逐步发展出更高级的工具,如手斧和刮刀,以适应狩猎和生活的需求。大约4万年前,现代人类——智人——的出现标志着技术和文化的飞跃,工具进一步精致化如骨针、鱼钩,艺术创作如洞穴壁画和雕塑也随之兴起。这一时期,火的利用、语言和社会结构的形成,为人类文明的后续发展奠定了坚实的基础。
zenRRan
2024-07-15
2400
Qwen2大模型微调入门实战-命名实体识别(NER)任务
以Qwen2作为基座大模型,通过指令微调的方式做高精度的命名实体识别(NER),是学习入门LLM微调、建立大模型认知的非常好的任务。
zenRRan
2024-07-04
1.4K0
陈丹琦团队发布CharXiv数据集:重新定义图表理解的评估标准
这篇文章的标题是《CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs》,由普林斯顿大学、威斯康星大学麦迪逊分校和香港大学的研究人员撰写。文章主要关注多模态大型语言模型(MLLMs)在理解和分析图表方面的能力和局限。
zenRRan
2024-07-04
1990
优化AI输出:长度约束下的指令遵循模型研究
这篇文章的标题是《Following Length Constraints in Instructions》,作者是Weizhe Yuan、Ilia Kulikov、Ping Yu、Kyunghyun Cho、Sainbayar Sukhbaatar、Jason Weston和Jing Xu,来自Meta FAIR和纽约大学。文章主要探讨了在人工智能领域,特别是在指令遵循模型中,如何处理和优化输出响应的长度限制问题。
zenRRan
2024-07-04
1420
复旦+上海AI Lab提出统一主动检索RAG,减少延迟,提升响应
这篇文章的标题是《Unified Active Retrieval for Retrieval Augmented Generation》,作者是Qinyuan Cheng等人,来自复旦大学和上海人工智能实验室。文章主要研究了在检索增强型生成(Retrieval-Augmented Generation, RAG)中,如何智能地决定何时使用检索来增强大型语言模型(LLMs)的输出。
zenRRan
2024-07-04
4810
ENVISIONS:一种无需人类标注的LLM自训练框架
这篇论文提出了一个名为ENVISIONS的环境引导的神经符号自训练框架,旨在解决以下两个问题:
zenRRan
2024-07-04
1680
现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?
知乎:真中合欢 链接:https://www.zhihu.com/question/627258986/answer/3262812950
zenRRan
2024-07-04
3090
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
这篇论文试图解决的问题是如何自动构建高质量的训练数据,以增强大型语言模型(LLMs)遵循复杂自然语言指令的能力。具体来说,论文指出了以下几个关键问题:
zenRRan
2024-07-04
3350
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,由于其自回归生成过程,容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题,引入了一个通用、多功能且灵活的框架,通过有意识的规划引导LLMs的解码过程。
zenRRan
2024-07-04
3080
ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!
标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? 录取:ACL2024 Main 论文链接:https://arxiv.org/abs/2406.09072 代码链接:https://github.com/zhaochen0110/Cotempqa 单位:苏州大学、上海人工智能实验室
zenRRan
2024-06-21
1970
突破性进展:简单有效的新型Masked扩散模型革新语言生成,与自回归模型媲美
文章旨在解决扩散模型(diffusion models)在生成高质量图像方面表现出色,但在语言建模(language modeling)任务中与自回归(autoregressive, AR)方法存在显著性能差距的问题。作者指出,尽管扩散模型在生成离散数据(如文本、生物序列和图)方面具有潜力,但在语言建模的性能上,与AR方法相比,先前工作的扩散模型报告了较大的对数似然差距。
zenRRan
2024-06-18
2070
BERT的逆袭:揭秘如何在无需额外训练下释放语言模型的生成能力
文章探讨了掩码语言模型(MLMs,例如BERT和DeBERTa)在上下文学习(in-context learning)方面的能力,挑战了普遍观点,即这种能力在这些模型中不会“显现”。作者意图证明,即使没有额外的训练,MLMs也能够展现出与著名的GPT-3相当的生成能力。
zenRRan
2024-06-18
1640
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
在人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。但是,它们真的能够像人类一样,洞悉图片中的深层含义吗?为了探讨多模型大模型与人类的差距,来自中科院深圳先进院,M-A-P,华中科技大学,零一万物,滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型(MLLMs)图像隐喻理解能力的综合性基准测试II-Bench。
zenRRan
2024-06-18
2930
3万字详细解析清华大学最新综述工作:大模型高效推理综述
大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因,即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后,引入了一个全面的分类法,将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外,本文还对关键子领域的代表性方法进行了对比实验,以及分析并给出一定的见解。最后,对相关工作进行总结,并对未来的研究方向进行了讨论。
zenRRan
2024-06-07
1.4K0
YOCO:全新Decoder-Decoder架构,内容减少6倍,推理速度提升30倍
这篇论文介绍了一种名为YOCO(You Only Cache Once)的新型解码器-解码器架构,旨在提高大型语言模型的推理效率和性能。
zenRRan
2024-05-29
4140
仅用250美元,Hugging Face技术主管手把手教你微调Llama 3
我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。
zenRRan
2024-05-11
3250
陈丹琦团队提出最新MoE架构Lory
陈丹琦团队提出了一种名为 Lory 的新型混合专家(Mixture-of-Experts,简称 MoE)模型,专门用于自回归语言模型的预训练。以下是对文章内容的详细解读。
zenRRan
2024-05-11
2810
大语言模型对齐的四种方法!
语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关注。
zenRRan
2024-05-11
4020
全新神经网络架构KAN来了!
比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。
zenRRan
2024-05-11
7560
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档