前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >微软发布Phi系列新成员:Phi-4-multimodal与Phi-4-mini,引领小型语言模型新潮流

微软发布Phi系列新成员:Phi-4-multimodal与Phi-4-mini,引领小型语言模型新潮流

作者头像
GPUS Lady
发布2025-02-28 12:51:27
发布2025-02-28 12:51:27
1650
举报
文章被收录于专栏:GPUS开发者GPUS开发者

本周,微软宣布推出Phi家族的最新成员——Phi-4-multimodal和Phi-4-mini,这两款小型语言模型(SLMs)旨在为开发者提供先进的AI能力,开启智能应用的新篇章。

现在可以在Azure AI Foundry、HuggingFace和NVIDIA API目录中使用,开发人员可以在其中探索Phi-4-multimodal在NVIDIA API目录中的全部潜力,使他们能够轻松地进行实验和创新。

Phi-4-multimodal:多模态融合的创新里程碑

Phi-4-multimodal作为微软首个多模态语言模型,标志着AI发展领域的新里程碑。该模型拥有56亿参数,能够同时处理语音、视觉和文本信息,将这三种不同的输入模态无缝集成到一个统一的架构中。这一创新直接源自对客户反馈的积极响应,旨在实现更加自然和上下文感知的交互体验。

Phi-4-multimodal的核心在于其先进的跨模态学习技术,这使得设备能够同时理解和推理来自多个输入模态的信息。无论是解释口语、分析图像还是处理文本信息,该模型都能提供高效、低延迟的推理能力,同时优化了在设备端执行和减少计算开销的需求。它支持更大的词汇量以改进处理效果,具备多语言能力,并将语言推理与多模态输入相结合,所有这些都在一个强大、紧凑且高效的模型中实现,非常适合在设备和边缘计算平台上部署。

在性能上,Phi-4-multimodal展现出了卓越的多模态处理能力。在图表/表格理解和文档推理任务中,当视觉内容的输入查询为合成语音时,该模型在多个基准测试中表现出色,远超其他现有的先进全能模型。特别是在语音识别(ASR)和语音翻译(ST)领域,Phi-4-multimodal已跃居Huggingface OpenASR排行榜首位,其词错率仅为6.14%,较2025年2月的最佳表现6.5%有了提升。此外,该模型还成功实现了语音摘要功能,其性能水平可与GPT-4o模型相媲美。

尽管在语音问答(QA)任务上,由于模型规模较小导致保留事实性QA知识的能力有限,Phi-4-multimodal与Gemini-2.0-Flash和GPT-4o-realtime-preview等模型相比存在一定差距,但微软正致力于在后续迭代中改进这一能力。在视觉方面,Phi-4-multimodal也在数学和科学推理等多个基准测试中表现强劲,尽管体积较小,但在文档和图表理解、光学字符识别(OCR)以及视觉科学推理等一般多模态能力上,其性能仍能与或超越如Gemini-2-Flash-lite-preview/Claude-3.5-Sonnet等模型。

Phi-4-mini:紧凑高效,文本处理佼佼者

Phi-4-mini则是一款38亿参数的小型模型,采用密集、仅解码器的变压器结构,具备分组查询注意力、20万个词汇量和共享输入输出嵌入等特点,专为速度和效率而设计。尽管体积紧凑,但Phi-4-mini在文本处理任务中的表现却超越了许多更大的模型,包括推理、数学、编码、指令跟随和函数调用等。它支持长达128,000个标记的序列,提供高精度和可扩展性,是高级AI应用的强大解决方案。

Phi-4-mini的强大之处在于其函数调用、指令跟随、长上下文处理和推理能力。通过标准化协议,函数调用允许模型与结构化编程接口无缝集成。当用户发出请求时,Phi-4-mini能够推理查询内容,识别并调用相关函数及适当参数,接收函数输出,并将这些结果融入其响应中。这创建了一个可扩展的基于代理的系统,其中模型的能力可以通过连接到外部工具、应用程序编程接口(API)和数据源来增强。

跨平台与定制化优势

得益于其较小的体积,Phi-4-mini和Phi-4-multimodal模型可以在计算资源受限的推理环境中使用。特别是当通过ONNX Runtime进一步优化后,这些模型可以实现跨平台可用性。它们的计算需求较低,因此成本更低且延迟更优。较长的上下文窗口使得它们能够处理和推理大量文本内容,如文档、网页、代码等。Phi-4-mini和多模态模型展现出强大的推理和逻辑能力,使其成为分析任务的理想选择。

此外,它们的小体积还使得微调或定制化变得更加容易和经济实惠。开发者可以根据特定需求对模型进行微调,以适应不同的应用场景。下表展示了Phi-4-multimodal的微调场景示例。

综上所述,微软Phi家族的最新成员Phi-4-multimodal和Phi-4-mini以其独特的多模态处理能力和紧凑高效的文本处理能力,为开发者提供了强大的AI工具。这些模型不仅推动了小型语言模型的技术边界,还为创新应用的开发提供了无限可能。随着这些模型的广泛应用和不断优化,我们有理由相信,它们将在未来的AI领域发挥重要作用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档