Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >模型多样性能好,语言应用没烦恼 | 开源专题 No.71

模型多样性能好,语言应用没烦恼 | 开源专题 No.71

作者头像
小柒
发布于 2024-04-30 09:56:20
发布于 2024-04-30 09:56:20
3140
举报
文章被收录于专栏:开源服务指南开源服务指南

facebookresearch/llamahttps://github.com/facebookresearch/llama

Stars: 36.0k License: NOASSERTION

LLaMA 2 是一个开源项目,用于加载 LLaMA 模型并进行推理。

该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型的权重和起始代码。这些模型参数范围从 7B 到 70B 不等。

以下是该项目的关键特性和核心优势:

  • 支持多种规模 (7B、13B 和 70B) 的语言模型。
  • 所有模型都支持最长 4096 个标记长度,并根据硬件配置预分配缓存空间。
  • 预训练版本适用于文本补全任务,需要按照指定格式输入提示以获得期望答案作为自然延伸。
  • 微调聊天版可以应用在对话场景中,在输入输出上遵循特定格式定义来获取所需功能与性能。

QwenLM/Qwenhttps://github.com/QwenLM/Qwen

Stars: 8.2k License: Apache-2.0

Qwen 是由阿里云提出的聊天和预训练大型语言模型的官方存储库。 该项目主要功能、关键特性、核心优势包括:

  • 提供了强大的基础语言模型,覆盖多个领域和语言(重点是中文和英文),在基准数据集上表现出竞争力
  • 提供了与人类偏好对齐的聊天模型,能够进行对话、创作内容、提取信息等,并且能够使用工具或扮演代理人角色
  • 支持不同规模的预训练模型,并提供量化版本以及推理性能统计等详细信息
  • 提供了快速入门指南、微调教程以及部署说明等相关资源
  • 在一系列基准数据集上,Qwen 模型在自然语言理解、数学问题求解等任务上表现优异,超过了类似规模基线模型。

openlm-research/open_llamahttps://github.com/openlm-research/open_llama

Stars: 6.8k License: Apache-2.0

OpenLLaMA 是 Meta AI 的 LLaMA 大型语言模型的开源复制品,提供了一系列 3B、7B 和 13B 模型,并在不同数据混合下进行训练。该项目发布了 PyTorch 和 JAX 格式的预训练 OpenLLaMA 模型权重,并与原始 LLaMA 模型进行评估比较。其 v2 版本优于使用不同数据混合方式训练的旧版 v1 模型。

SCIR-HI/Huatuo-Llama-Med-Chinesehttps://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese

Stars: 3.8k License: Apache-2.0

本项目是一个开源的中文医学知识指令微调大语言模型集。主要功能是通过基于医学知识图谱和医学文献构建数据集,并对各种基础模型进行指令微调,以提高在医疗领域问答效果。该项目的核心优势和特点包括:

  • 提供了多个基于不同数据来源进行指令微调的大语言模型
  • 使用半精度 LoRA 方式进行训练,在计算资源与性能之间取得平衡
  • 支持活字、Bloom、Alpaca-Chinese 等多种基础模型
  • 提供 LoRA 权重文件下载并解压使用

lyogavin/Animahttps://github.com/lyogavin/Anima

Stars: 1.2k License: Apache-2.0

Anima 是一个开源的基于 QLoRA 的 33B 中文大语言模型,支持了基于 DPO 的对齐训练。该项目具有以下核心优势和特点:

  • 支持 100K 输入长度:可以将整个知识库或一本书直接放入 Prompt 进行处理。
  • 基于 QLoRA 的 DPO RLHF 实现:提供最新、高效且傻瓜化的 RLHF 训练方法,使得使用 GPU 机器即可完成 33B 模型的 DPO 训练。
  • 开源大语言模型:通过堆叠各种最新技术 (如 XEntropy、Paged 8bit Adamw、LORA 和 Flashattention2),并针对长输入做出修改定制,在单卡上就能够进行 100k 窗口大小下的训练和推理。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源服务指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Llama Factory 使用指南
访问 http://localhost:8000/v1/chat/completions,可用 curl 或任何 OpenAI SDK 调用。
用户2945413
2025/09/17
950
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3.5K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
大模型开发实战:(五)使用 LLaMA Factory 微调与量化模型并部署至 Ollama
LLaMA Factory 是一个开源的全栈大模型微调框架,简化和加速大型语言模型的训练、微调和部署流程。它支持从预训练到指令微调、强化学习、多模态训练等全流程操作,并提供灵活的配置选项和高效的资源管理能力,适合开发者快速定制化模型以适应特定应用场景。下面通过一个简单的示例来展示如何使用 LLaMA Factory 进行模型微调并部署至 Ollama。
张高兴
2025/05/21
2.8K0
大模型开发实战:(五)使用 LLaMA Factory 微调与量化模型并部署至 Ollama
医疗大语言模型:CareGPT
CareGPT (关怀GPT)是一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。
机器学习AI算法工程
2024/06/08
6140
医疗大语言模型:CareGPT
大模型关于Lora论文集合
论文地址:https://arxiv.org/pdf/2401.04151.pdf
致Great
2024/01/12
7100
大模型关于Lora论文集合
本地运行多种大语言模型:一行代码即可完成 | 开源日报 No.167
ollama/ollamahttps://github.com/ollama/ollama
小柒
2024/01/28
5280
本地运行多种大语言模型:一行代码即可完成 | 开源日报 No.167
使用LLaMA-Factory对LLM大模型进行微调!训练专属于你的模型!
如今也是出现了各种各样的大模型,如果想要针对性的让他扮演某个角色我们通常采用的是给他输入prompt(提示词)。
MGS浪疯
2024/11/22
2.6K3
开源中文类LLaMA大语言模型汇总
近日笔者在调研开源中文大模型时发现LLaMA可以说是今年最受欢迎的大语言模型之一,LLaMA的开源带动了大语言模型社区的兴起,许多模型例如Vicuna、Alpaca等应运而生。
siri
2023/09/24
2.3K1
开源中文类LLaMA大语言模型汇总
AI 模型训练与优化:提升中文理解能力 | 开源专题 No.88
100-Days-Of-ML-Code 是一个由 Siraj Raval 提出的机器学习编程挑战项目。 该项目的主要功能、关键特性和核心优势包括:
小柒
2024/06/11
1820
AI 模型训练与优化:提升中文理解能力 | 开源专题 No.88
永久安装任何 IPA 文件:TrollStore 助你打破限制 | 开源日报 No.106
这个项目是 Azure Resource Manager QuickStart Templates,它包含了社区贡献的所有当前可用的 Azure 资源管理器模板。维护着一个可搜索的模板索引,并提供如何使用或向该存储库做出贡献的 Contribution guide。
小柒
2023/12/20
5200
永久安装任何 IPA 文件:TrollStore 助你打破限制 | 开源日报 No.106
开源日报 0827 | Discourse: 开源社区应用
Discourse 是一个在线社区平台,提供给那些希望完全控制其网站运行方式和位置的用户。该平台经过十多年的实战测试,并不断发展以满足用户对强大社区平台的需求。此外,他们还为各种功能提供了广泛插件支持,包括由 Discourse AI 驱动的聊天机器人以及使用 Data Explorer 插件进行 SQL 分析等功能。
小柒
2023/09/02
4520
开源日报 0827 | Discourse: 开源社区应用
从0到1!得物如何打造通用大模型训练和推理平台
近期,GPT大模型的发布给自然语言处理(NLP)领域带来了令人震撼的体验。随着这一事件的发生,一系列开源大模型也迅速崛起。依据一些评估机构的评估,这些开源模型大模型的表现也相当不错。一些大模型的评测情况可以去这里查询:Huggingface的Open LLM排行榜,UC伯克利发布大语言模型排行榜等。
得物技术
2023/07/31
1.6K0
从0到1!得物如何打造通用大模型训练和推理平台
高性能运营级流媒体服务框架:支持多协议互转 | 开源日报 No.250
hey 是使用 Lens Protocol 构建的去中心化和无需许可的社交媒体应用程序。 该项目可以创建一个去中心化和无需许可的平台,使用户可以相互交流、分享和参与,并专注于隐私、安全性和用户控制。
小柒
2024/04/26
3340
高性能运营级流媒体服务框架:支持多协议互转 | 开源日报 No.250
高效微调 100 多种大语言模型:先计算法,急速推理! | 开源日报 No.305
LLaMA-Factory 是一个用于高效微调 100 多个大型语言模型(ACL 2024)的 WebUI。
小柒
2024/07/22
3230
高效微调 100 多种大语言模型:先计算法,急速推理! | 开源日报 No.305
大模型在金融领域的综述
本综述调查了大语言模型(LLM)在金融领域的应用,重点关注现有解决方案。我们回顾了利用预训练模型、微调特定领域数据以及从头开始训练定制LLM的方法,为金融专业人士根据数据、计算和性能需求选择合适的LLM解决方案。最后,我们讨论了金融应用中利用LLM的局限性和挑战,为金融人工智能提供路线图。
算法进阶
2024/03/18
1.9K0
大模型在金融领域的综述
开源知识管理和协作平台:插件丰富,主题精美 | 开源日报 No.209
pytorch-lightning 是一个深度学习框架,可以在多个 GPU、TPU 上进行预训练、微调和部署 AI 模型,而无需进行任何代码更改。
小柒
2024/03/18
2240
开源知识管理和协作平台:插件丰富,主题精美 | 开源日报 No.209
Zulip:开源团队协作工具,高效沟通与远程办公 | 开源日报 No.126
Zulip 是一个开源的团队协作工具,拥有独特的基于主题的线程功能,结合了电子邮件和聊天的优点,使远程工作更加高效和愉快。它是唯一设计用于实时和异步对话的现代团队聊天应用程序。其核心优势包括:
小柒
2023/12/26
5410
Zulip:开源团队协作工具,高效沟通与远程办公 | 开源日报 No.126
Tauri:构建高效安全的桌面应用程序 | 开源日报 No.124
Tauri 是一个开源项目,它可以通过 Web 前端构建更小、更快和更安全的桌面应用程序。
小柒
2023/12/26
6100
Tauri:构建高效安全的桌面应用程序 | 开源日报 No.124
开源大语言模型LLMs汇总
大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
机器学习AI算法工程
2023/09/04
2.6K0
开源大语言模型LLMs汇总
大语言模型生态系统:助你自由调教 AI 模型
这些开源项目都是在语言模型领域具有重要影响力的优秀项目。它们共同的特点是强调了对大规模语言模型进行训练和推理的高效性、灵活性和可扩展性。无论是通过提供定制化的语言模型、支持并行计算和分布式训练,还是通过优化内存管理和硬件资源利用效率来提高运算速度,这些项目都致力于使得人工智能技术更加便捷、高效地应用于各个领域。如果您正在寻找一个功能强大且易于使用的开源语言模型项目,我强烈推荐阅读此篇文章。
小柒
2023/08/10
7720
大语言模型生态系统:助你自由调教 AI 模型
推荐阅读
相关推荐
Llama Factory 使用指南
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档