首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >超低功耗AI处理器设计与开发解析

超低功耗AI处理器设计与开发解析

原创
作者头像
用户11764306
发布2025-09-28 23:19:34
发布2025-09-28 23:19:34
960
举报

编辑注:本文是某中心科学系列文章的最新篇,聚焦某中心投资企业的科技产品与服务背后的科学原理。某机构成立于2017年,已向全球客户发货超1000万单元,并从包括某中心Alexa基金在内的领先科技公司获得6500万美元融资。

7月下旬,某中心举办了Alexa Live活动,推出了50多项功能,助力开发者和设备制造商构建环境语音计算体验,推动语音计算发展。

活动包含某中心Alexa初创企业展示环节,某机构分享了其将语音作为未来计算接口的愿景。2017年,某机构首席执行官与首席科学家Jeremy Holleman专注于解决一个问题:如何在功耗和成本受限的硬件上优化机器学习模型性能?

据某机构称,其资深管理团队构想出一种处理器架构,能实现200倍能效提升、20倍性能提升,且成本仅为现有边缘处理器的一半。其方法关键在于优化内存访问,而非传统处理器的逻辑运算重心。

这一洞见促使他们成立某机构。过去四年间,某机构一直为网络边缘计算设计开发超低功耗、高性能深度神经网络处理器,帮助降低延迟,并提升运行于从耳机到汽车等设备上的功耗与成本受限应用的隐私和安全性。

某机构的处理器为大多数电池供电设备提供始终在线的语音控制功能,从手机、耳机到无人机、笔记本电脑等语音激活产品。其神经决策处理器以极小封装提供高精度唤醒词、命令词和事件检测功能,功耗近乎为零。

Holleman是超低功耗集成电路领域的权威,在北卡罗来纳大学夏洛特分校指导集成硅系统实验室。他也是《无线神经接口超低功耗集成电路设计》一书的合著者。

某中心科学就超低功耗AI处理器设计开发挑战及语音成为未来主流用户接口的前景向Holleman提出三个问题:

问:您参与合著的论文《MLPerf Tiny Benchmark》已被NeurIPS 2021会议接收。该基准测试套件包含什么?对tinyML领域为何重要?

MLPerf Tiny基准测试包含四项测试,旨在衡量微型设备在ML推理上的性能和能效:关键词检测、人员检测、图像识别和异常检测。每个测试都有参考模型和用于测量参考平台延迟与功耗的代码。

从系统开发者的角度思考,他们需要在给定能耗预算和系统要求下找到合适的解决方案。因此需了解不同硬件的功耗和速度。现有信息中各方使用不同标准测量硬件,难以直接比较。该基准明确了测量内容,在封闭组别中所有提交都运行完全相同模型,实现直接对比。

开放组别采用相同原则,但允许通过定义问题并运行可能利用硬件特定方面的不同模型来进行权衡,最终形成准确率、功耗和速度的帕累托前沿。这在"微型"领域尤为重要,因为通过联合优化模型、硬件和特性,可获得高性能和高效率的端到端系统。

问:您认为某机构超低功耗AI处理器开发设计的关键要素是什么?团队工作如何推动语音成为未来主流用户接口?

成功要素主要有两方面。首先是边缘ML需要硬件与算法的紧密耦合。某机构从创立之初就让芯片设计人员与建模人员紧密合作,体现在硬件和软件团队交叉办公、代码和设计评审等各个方面。这种协作带来了实际效益:算法能轻松映射到硬件,因为硬件专为协调ML工作负载中常见计算类型的内存访问而设计,并在功耗和性能上展现出优势。

其次,深度学习仍是新兴领域,具备生产级解决方案专业知识的专家稀缺。虽然可以轻松下载演示项目进行训练,但当设备部署给数百万日常用户时,工作变得复杂许多。需要获取数据、验证数据、调试模型,这是项艰巨任务。某机构意识到对多数客户不能仅提供芯片而将剩余工作交给他们,因此投入大量精力构建完整的数据处理、训练和评估流程,为缺乏内部ML专业知识的客户提供完整解决方案。

问:边缘处理面临哪些特殊挑战?

硬件方面的主要挑战是功耗和成本。无论是手表、耳机还是手机,消费者对电池续航时间和设备价格都有严格要求。在建模方面,边缘设备面临多样化的环境,语音助手需在厨房、汽车、工厂车间、足球比赛等任何想象得到的地点准确识别指令。

成本、功耗和性能三者相互制约。若选择低端处理器以降低成本,可能因吞吐量不足导致模型运行缓慢,输入信号采样不足而错过事件;或找到运行良好的模型并以足够快速度运行,但所需功耗限制了电池寿命。这对始终在线的功能尤其困难,如唤醒词检测器或安防摄像头的人员检测。

某机构必须同时解决所有这些问题,因此让所有团队紧密连接、梳理用例并了解每个环节如何影响其他环节至关重要。完成这些工作后,现代ML的强大功能就能以几乎不影响电池寿命的方式在微型设备中实现。这对语音接口可能性尤其令人兴奋。

某机构的技术使得在更小更便宜的设备上实现本地处理成为可能。许多设备因接口成本过高而无法共享有用信息。想象能够询问"电视遥控器,你在哪里?"或"烟雾报警器,为什么发出哔哔声?"并得到清晰快速回答。我们已经习惯了某些本可解决的问题。

当然,人们不希望因将所有信息发送到云端而产生额外成本和隐私担忧。因此某机构专注于将这种智能级别直接嵌入设备。为实现这一目标,需要数据流水线、模型和硬件所有环节协同工作。传统通用处理器在边缘设备约束下无法高效运行强大模型。通过新架构,强大的机器学习首次能够部署到几乎任何地方。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档