首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每日HuggingFace Top20热门大模型(0824)

每日HuggingFace Top20热门大模型(0824)

作者头像
AgenticAI
发布2025-08-25 09:57:19
发布2025-08-25 09:57:19
4750
举报
文章被收录于专栏:AgenticAIAgenticAI

每天 5 分钟,速览今日 Hugging Face 热门大模型

今日 HuggingFace 上 20 个热门 AI 模型展现了多模态、模型压缩和特定任务性能提升的最新进展。技术趋势聚焦于多模态图像编辑、混合模式推理、高效代码生成和语音识别优化。这些模型为开发者提供了更强大的工具和更广泛的适用性,对研究者而言则是探索新领域和优化算法的宝贵资源。

1. Qwen/Qwen-Image-Edit

多模态图像编辑利器。Qwen/Qwen-Image-Edit 是一款专注于图像编辑的多模态模型,基于 20B Qwen-Image 模型构建。该模型具备语义和外观编辑能力,支持中英文文本编辑,并在多个基准测试中表现出色。其核心能力在于将文本编辑与图像编辑相结合,提供精确的图像编辑体验。模型定位为多模态模型,具有 Apache 2.0 开源协议,适用于图像编辑、文本修改等场景。

原文链接:https://huggingface.co/Qwen/Qwen-Image-Edit

2. deepseek-ai/DeepSeek-V3.1-Base

混合模式通用大模型。DeepSeek-V3.1 是一款支持思考模式和非思考模式的混合模型,定位为通用大模型。其核心技术包括 Transformer 架构和 Hybrid thinking mode,具有较长的上下文长度和较大的参数量。在性能上,模型在多个基准测试中表现出色,具有代码生成、数学推理、多语言能力等优势。开源协议为 MIT,适用于对推理效率有较高要求的场景。

原文链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

3. deepseek-ai/DeepSeek-V3.1

通用大模型,多语言支持。DeepSeek-V3.1 是一款支持思考模式和非思考模式的混合模型,定位为通用大模型。其核心技术包括 Transformer 架构和自定义代码,支持长上下文处理。在性能上,模型在多个基准测试中表现出色,具有代码生成、多语言和指令遵循等能力。模型开源协议为 MIT,适用于对推理效率有较高要求的场景。

原文链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

4. google/gemma-3-270m

Transformer 架构,长文本生成强。google/gemma-3-270m 是一款定位在通用大模型范畴内的 LLM,具备 270M 参数量,支持长文本生成。其核心技术基于 Transformer 架构,并采用 GEMMA3 文本生成模型。在性能上,该模型在多个基准测试中表现出色,尤其在代码生成和数学推理方面具有优势。模型开源协议为 Apache 2.0,适合在多种硬件和推理框架上使用。

原文链接:https://huggingface.co/google/gemma-3-270m

5. ByteDance-Seed/Seed-OSS-36B-Instruct

通用大模型,推理强。Seed-OSS-36B-Instruct 是由 ByteDance Seed Team 开发的一款开源大型语言模型,定位为通用大模型。该模型具有灵活的推理预算控制、增强的推理能力和优秀的通用能力。它采用了 Apache-2.0 许可协议,支持国际(i18n)使用场景。在性能上,Seed-OSS-36B-Instruct 在多个基准测试中表现出色,尤其在推理任务上具有显著优势。该模型适用于需要强大长文本处理、推理和通用能力的应用场景,如对话系统、代码生成等。

原文链接:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct

6. nvidia/NVIDIA-Nemotron-Nano-9B-v2

多语言推理优化模型。NVIDIA-Nemotron-Nano-9B-v2 是一款由 NVIDIA 开发的推理优化版本的大型语言模型,定位为推理模型。该模型采用混合架构,结合 Mamba-2 和 MLP 层,并使用 Megatron-LM 和 NeMo-RL 进行训练。模型支持多语言,包括英语、德语、西班牙语、法语、意大利语和日语。在 Reasoning-On 模式下,模型在多个基准测试中表现出色,特别是在需要推理的复杂任务上。该模型适用于商业用途,并遵循 NVIDIA Open Model License 协议。

原文链接:https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2

7. xai-org/grok-2

高性能代码生成多语言 AI 模型。Grok-2 是一款由 xAI 训练的模型,定位为特定领域微调模型,具有 500GB 的参数量和长达 200K 的上下文长度。其核心技术包括 Transformer 架构和 SGLang 推理引擎,支持代码生成和指令遵循。在性能上,Grok-2 在权威基准测试中表现良好,具有开源协议 Apache 2.0,适用于需要高性能代码生成和多语言能力的场景。

原文链接:https://huggingface.co/xai-org/grok-2

8. Qwen/Qwen-Image

多模态文本图像高效渲染。Qwen/Qwen-Image 是一款专注于复杂文本渲染和精确图像编辑的多模态模型,定位为特定领域多模态模型。该模型采用 diffusers 库,具有 Transformer 架构,支持中英文文本到图像的转换。在性能上,Qwen-Image 在图像生成和编辑方面表现出色,尤其在文本渲染方面具有显著优势。开源协议为 Apache 2.0,适合在多种硬件平台上运行,与 diffusers 框架兼容性良好。

原文链接:https://huggingface.co/Qwen/Qwen-Image

9. openai/gpt-oss-20b

21B 参数开源模型,强大推理与灵活定制。openai/gpt-oss-20b 是一款针对通用推理、代理任务和开发者用例设计的开源模型。该模型具有 21B 参数,支持低延迟、本地或专用场景。其核心能力包括可配置的推理努力、完整的思维链、可微调性和代理能力。在性能上,该模型在 MMLU、GPQA、IFEval 等基准测试中表现出色,具有与 MXFP4 量化的 MoE 权重相结合的创新技术。适用于需要强大推理能力和灵活定制的企业级应用。

原文链接:https://huggingface.co/openai/gpt-oss-20b

10. nvidia/canary-1b-v2

德语语音识别最佳模型。nvidia/canary-1b-v2 是一款专注于自动语音识分的领域大模型,具备 1B 参数量,采用 Transformer 架构,支持多种语言。其在 FLEURS 数据集上的测试 WER 表现优异,尤其在德语上表现最佳。该模型基于 nemo 库,支持自动语音识别和自动语音翻译,适用于需要高精度语音识别的场合。模型开源,采用 cc-by-4.0 协议,适用于多种硬件平台,推理效率较高。

原文链接:https://huggingface.co/nvidia/canary-1b-v2

11. openai/gpt-oss-120b

120B 大模型,推理强,应用广。openai/gpt-oss-120b 是一款通用大模型,具备强大的推理能力和广泛的应用场景。该模型采用 Transformer 架构,参数量高达 120B,支持长上下文处理。其在 MMLU、GPQA 等基准测试中表现出色,尤其在代码生成和数学推理方面具有显著优势。模型采用 Apache 2.0 开源协议,可在 80GB GPU 上高效运行,兼容多种推理框架。

原文链接:https://huggingface.co/openai/gpt-oss-120b

12. tencent/Hunyuan-GameCraft-1.0

多模态游戏视频生成神器。Hunyuan-GameCraft-1.0 是一款专注于游戏视频生成的多模态模型,由腾讯开发。该模型采用 image-to-video 的 pipeline,具有高动态交互性,能够生成高质量的互动游戏视频。模型开源,支持 Gradio 和 Hugging Face Demo,适合游戏视频生成等应用场景。

原文链接:https://huggingface.co/tencent/Hunyuan-GameCraft-1.0

13. nvidia/parakeet-tdt-0.6b-v3

FastConformer 高效语音识别。nvidia/parakeet-tdt-0.6b-v3 是一款专注于自动语音识别的领域大模型,采用 FastConformer 架构,具有高效的推理性能。该模型在多个基准测试中表现出色,如 LibriSpeech 等数据集上的 Test WER 指标。模型基于 nemo 库开发,支持多种语言,适用于语音识别和音频处理领域。

原文链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

14. AIDC-AI/Ovis2.5-9B

多模态推理 LLM,视觉感知强。Ovis2.5-9B 是一款专注于多模态推理的 LLM,具备原生分辨率视觉感知能力。其核心技术包括 NaViT 视觉编码器和深度推理能力,支持自检和修订。在 OpenCompass 基准测试中,Ovis2.5-9B 取得了 78.3 的平均分,处于开源 MLLM 中的领先地位。该模型适用于需要高精度和复杂输入的场景,如图表和文档 OCR。其开源协议为 Apache 2.0,适合在资源受限的环境中使用。

原文链接:https://huggingface.co/AIDC-AI/Ovis2.5-9B

15. google/gemma-3-270m-it

高效通用大模型。google/gemma-3-270m-it 是一款热门的通用大模型,具备 270M 参数量,支持文本生成。该模型基于 transformers 库,采用 GEMMA3 架构,上下文长度可达 2000。在权威基准测试中表现优异,尤其在代码生成和数学推理方面具有显著优势。模型开源,易于集成,适用于多语言对话和文本生成等场景。

原文链接:https://huggingface.co/google/gemma-3-270m-it

16. QuantStack/Qwen-Image-Edit-GGUF

多模态图像编辑,性能卓越。QuantStack/Qwen-Image-Edit-GGUF 是一款基于 Qwen/Qwen-Image-Edit 的图像编辑模型,定位为多模态模型。该模型采用 gguf 库,支持图像到图像的转换,具有强大的图像编辑能力。模型参数量适中,上下文长度较长,能够处理复杂的图像编辑任务。在性能上,模型在图像编辑任务中表现出色。开源协议为 Apache 2.0,适用于需要图像编辑功能的场景。

原文链接:https://huggingface.co/QuantStack/Qwen-Image-Edit-GGUF

17. Phr00t/WAN2.2-14B-Rapid-AllInOne

14B 参数快速视频生成。Phr00t/WAN2.2-14B-Rapid-AllInOne 是一款专注于图像到视频生成的多模态模型,定位为通用大模型。该模型基于 WAN 2.2 架构,结合了 CLIP 和 VAE 等组件,提供快速、一体化的视频生成解决方案。模型具有 14B 参数量,支持 FP8 精度,适用于多种视频生成任务。模型适用于需要快速生成视频的场景,如内容创作、教育演示等。

原文链接:https://huggingface.co/Phr00t/WAN2.2-14B-Rapid-AllInOne

18. DatarusAI/Datarus-R1-14B-preview

14B 参数高效推理模型。Datarus-R1-14B-preview 是一款基于 Qwen2.5-14B-Instruct 微调的 14B 参数语言模型,旨在作为虚拟数据分析师和高级问题解决者。该模型在效率、推理接口、性能和效率方面表现出色,具有高效的假设推理和避免循环推理的能力。它在 AIME 2024/2025 和 LiveCodeBench 等基准测试中取得了优异的成绩,适用于需要高效分析和推理的场景。

原文链接:https://huggingface.co/DatarusAI/Datarus-R1-14B-preview

19. zai-org/GLM-4.5V

通用大模型,多模态推理强。zai-org/GLM-4.5V 是一款基于 GLM-4.5-Air 的多模态推理模型,定位为通用大模型。它具有大规模参数(106B)和长上下文处理能力,支持中英等多语言。在视觉语言基准测试中表现优异,具备图像和视频理解能力。模型开源,采用 MIT 许可协议,适用于需要多模态推理能力的应用场景。

原文链接:https://huggingface.co/zai-org/GLM-4.5V

20. NexaAI/OmniNeural-4B

多模态 NPU 加速,隐私保护 AI 模型。NexaAI/OmniNeural-4B 是一款定位为多模态模型的 NPU-aware 模型,具有处理文本、图像和音频的能力。该模型采用 NPU 优化的架构,支持多模态输入,在 NPU 上的性能表现优异。其核心技术包括 NPU-optimized architecture 和 Hardware-Aware Attention,使得模型在音频和图像处理上具有显著的速度提升。模型在 MMLU、GPQA、IFEval 等基准测试中表现出色,具有隐私保护的特点。主要应用场景包括移动设备、PC、汽车、物联网和机器人等领域。

原文链接:https://huggingface.co/NexaAI/OmniNeural-4B

你更关注哪类模型?欢迎留言讨论 👇

欢迎关注、点赞、收藏、转发,让更多人一起关注最新 LLM 动态!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Qwen/Qwen-Image-Edit
  • 2. deepseek-ai/DeepSeek-V3.1-Base
  • 3. deepseek-ai/DeepSeek-V3.1
  • 4. google/gemma-3-270m
  • 5. ByteDance-Seed/Seed-OSS-36B-Instruct
  • 6. nvidia/NVIDIA-Nemotron-Nano-9B-v2
  • 7. xai-org/grok-2
  • 8. Qwen/Qwen-Image
  • 9. openai/gpt-oss-20b
  • 10. nvidia/canary-1b-v2
  • 11. openai/gpt-oss-120b
  • 12. tencent/Hunyuan-GameCraft-1.0
  • 13. nvidia/parakeet-tdt-0.6b-v3
  • 14. AIDC-AI/Ovis2.5-9B
  • 15. google/gemma-3-270m-it
  • 16. QuantStack/Qwen-Image-Edit-GGUF
  • 17. Phr00t/WAN2.2-14B-Rapid-AllInOne
  • 18. DatarusAI/Datarus-R1-14B-preview
  • 19. zai-org/GLM-4.5V
  • 20. NexaAI/OmniNeural-4B
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档