Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品

A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品

作者头像
机器之心
发布于 2023-09-08 01:45:18
发布于 2023-09-08 01:45:18
1.3K00
代码可运行
举报
文章被收录于专栏:机器之心机器之心
运行总次数:0
代码可运行

机器之心报道

编辑:泽南

英伟达 GPU 买不到的问题,就这样解决了?

最近,科技领域有很多人都在为算力发愁。

OpenAI CEO 奥特曼:我整天在都想着 flops。

自预训练大模型兴起以来,人们面临的算力挑战就变得越来越大。为此,人们为大语言模型(LLM)提出了许多训练和推理的解决方案。显然,大多数高性能推理解决方案都基于 CUDA 并针对英伟达 GPU 进行了优化。

但在动辄千亿参数的模型体量,多家科技公司激烈竞争,以及单一供应商的合力作用下,想抢到 GPU 又变成了一件难事。

最近,微软、OpenAI 等公司都表示正在采取必要措施来缓解用于 AI 任务的 H100、A100 专用 GPU 的短缺问题。微软正在限制员工访问 GPU 的时间,Quora 首席执行官表示,硬件短缺掩盖了人工智能应用程序的真正潜力。伊隆・马斯克还开玩笑说,企业级 GPU 比买「药」还难。

马斯克预测 GPT-5 大概需要三到五万块 H100 来训练。

旺盛的需求除了推动英伟达的股价,使其改变生产计划之外,也让人们不得不去寻求其他替代方式。好消息是,图形芯片市场上并不只有 N 卡一家。

昨天,卡耐基梅隆大学博士生侯博涵(Bohan Hou)放出了使用 AMD 显卡进行大模型推理的新方案,立刻获得了机器学习社区的关注。

在 CMU,侯博涵的导师是 TVM、MXNET、XGBoost 的作者陈天奇。对于这项新实践,陈天奇表示,解决 AI 硬件短缺问题的方法还是要看软件,让我们带来高性能、通用部署的开源大模型吧。

在知乎上,作者对于实现高性能 LLM 推理进行了详细介绍:

通过这种优化方法,在最新的 Llama2 的 7B 和 13B 模型中,如果用一块 AMD Radeon RX 7900 XTX 速度可以达到英伟达 RTX 4090 的 80%,或是 3090Ti 的 94%。

除了 ROCm 之外,这种 Vulkan 支持还允许我们把大模型的部署推广到其他 AMD 芯片类型上,例如具有 AMD APU 的 SteamDeck。

如果粗略的比较一下规格,我们可以看到 AMD 的 RX 7900 XTX 与英伟达的 RTX 4090 和 RTX 3090 Ti 处于相近级别。

它们的显存都在 24GB,这意味着它们可以容纳相同尺寸的模型,它们都具有相似的内存带宽。

但是在算力上,RTX 4090 的 FP16 性能比 7900 XTX 高两倍,而 3090 Ti 的 FP16 性能比 7900 XTX 高 1.3 倍。如果只考虑延迟敏感的大模型推理,其性能主要受内存限制,因此 FP16 性能不是这里的瓶颈。

而看价格的话,RX 7900 XTX 比 RTX 4090 便宜 40% 还多(京东上看甚至有 50%),在消费级领域里前者几乎是和 RTX 4080 对标的。

3090Ti 的价格则很难比较,毕竟那是上一代产品。但从纯硬件规格的角度来看,AMD 7900 XTX 似乎与 RTX 3090 Ti 相当。

我们知道,硬件层的算力并不一定是 AMD 长期以来在机器学习上落后的原因 —— 主要差距在于缺乏相关模型的软件支持和优化。从生态角度来看,有两个因素已开始改变现状:

  • AMD 正在努力在 ROCm 平台上增加投入。
  • 机器学习编译等新兴技术现在有助于降低跨后端的,更通用软件支持的总体成本。

研究人员深入讨论了 AMD GPU 体系与目前流行的英伟达 GPU 上高性能 CUDA 解决方案相比的表现如何。

用 ROCm 进行机器学习编译

机器学习编译

机器学习编译是一种用于编译和自动优化机器学习模型的新兴技术。MLC 解决方案不是为每个后端(如 ROCm 或 CUDA)编写特定的算子 ,而是自动生成适用于不同后端的代码。在这里,作者利用 MLC-LLM,一种基于机器学习编译的解决方案,提供了 LLM 的高性能通用部署。MLC-LLM 建立在 Apache TVM Unity 之上,后者是一个机器学习编译软件栈,提供了基于 Python 的高效开发和通用部署。MLC-LLM 为各种后端(包括 CUDA、Metal、ROCm、Vulkan 和 OpenCL)提供了最先进的性能,涵盖了从服务器级别 GPU 到移动设备(iPhone 和 Android)。

整体而言,MLC-LLM 允许用户使用基于 Python 的工作流程获取开源的大语言模型,并在包括转换计算图、优化 GPU 算子的张量 layout 和 schedule 以及在感兴趣的平台上本地部署时进行编译。

面向 ROCm 的机器学习编译技术栈。

针对 AMD GPU 和 APU 的 MLC

人们对于 A 卡用于机器学习的探索其实并不鲜见,支持 AMD GPU 有几种可能的技术路线:ROCm、OpenCL、Vulkan 和 WebGPU。ROCm 技术栈是 AMD 最近推出的,与 CUDA 技术栈有许多相应的相似之处。Vulkan 是最新的图形渲染标准,为各种 GPU 设备提供了广泛的支持。WebGPU 是最新的 Web 标准,允许在 Web 浏览器上运行计算。

虽然有这么多可能的路线,但很少有解决方案支持除了 CUDA 之外的方法,这在很大程度上是因为复制新硬件或 GPU 编程模型的技术栈的工程成本过高。MLC-LLM 支持自动代码生成,无需为每个 GPU 算子重新定制,从而为以上所有方法提供支持。但是,最终性能仍然取决于 GPU 运行时的质量以及在每个平台上的可用性。

在这个案例中,作者选择 Radeon 7900 XTX 的 ROCm 和 Steamdeck 的 APU 的 Vulkan,可以发现 ROCm 技术栈是开箱即用的。由于 TVM unity 中具有高效的基于 Python 的开发流程,花费了若干小时来进一步提供 ROCm 的性能优化。具体来说,研究人员采取了以下措施来提供 ROCm 支持:

  • 重用现有后端(如 CUDA 和 Metal)的整个 MLC 流水线,包括内存规划、算子融合等。
  • 重用 TVM TensorIR 中的通用 GPU 算子优化空间,并将其后端选为 AMD GPU
  • 重用 TVM 的 ROCm 代码生成流程,通过 LLVM 生成 ROCm 代码。
  • 最后,将生成的代码导出为可以由 CLI、Python 和 REST API 调用的共享或静态库。

使用 MLC Python 包进行性能测试

作者使用 4 bit 量化对 Llama 2 7B 和 13B 进行了性能测试。通过设置 prompt 长度为 1 个 token 并生成 512 个 token 来测量 decoding 的性能。所有结果都是在 batch size=1 的情况下测试。

AMD RX 7900 XTX 与 NVIDIA RTX 4090 和 3090 Ti 的性能对比。

基于 ROCm5.6,AMD 7900 XTX 可以达到 NVIDIA 4090 速度的 80%。

关于 CUDA 性能说明:在这里 CUDA baseline 的性能如何?据我们所知,MLC-LLM 是 CUDA 上大语言模型推理的最优解决方案。但作者相信它仍然有改进的空间,例如通过更好的 attention 算子优化。一旦这些优化在 MLC 中实现,预计 AMD 和 NVIDIA 的数据都会有所改善。

如果这些优化仅在 N 卡那里实施,将使差距从 20% 增加到 30%。因此,在查看这些数字时,作者建议放置 10% 的误差。

自行尝试

该项目提供了预构建的安装包和使用说明,以便用户在自己的设备上复现新的结果。要运行这些性能测试,请确保你的 Linux 上有安装了 ROCm 5.6 或更高版本的 AMD GPU。按照这里的说明(https://mlc.ai/mlc-llm/docs/get_started/try_out.html)安装启用了 ROCm 的预构建 MLC pacakge。

运行以下 Python 脚本,需要使用 MLC package 来复现性能数据:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from mlc_chat import ChatModule
# Create a ChatModule instance that loads from `./dist/prebuilt/Llama-2-7b-chat-hf-q4f16_1`cm = ChatModule(model="Llama-2-7b-chat-hf-q4f16_1")
# Run the benchmarksoutput = cm.benchmark_generate("Hi", generate_length=512)
print(f"Generated text:\n{output}\n")
print(f"Statistics: {cm.stats()}")
# Reset the chat module by
# cm.reset_chat()

MLC-LLM 还提供了一个命令行界面 CLI,允许用户与模型进行交互式聊天。对于 ROCm,需要从源代码构建 CLI。请按照这里的说明(https://mlc.ai/mlc-llm/docs/deploy/cli.html#option-2-build-mlc-runtime-from-source)从源代码构建 CLI。

使用统一内存在 SteamDeck 上运行 Vulkan

作者表示,还将考察更广泛的 AMD 设备,更具体地说,是搭载了 AMD APU 的 Steam Deck。虽然在 BIOS 中,ROCm 中可用的 GPU VRAM 被限制为 4GB,但 Mesa Vulkan 驱动程序具有强大的支持,允许缓冲区超越上限,使用统一内存最多可达 16GB,足以运行 4 位量化的 Llama-7B。

在 Steam Deck 上与大语言模型进行交互。

这些结果为支持更多不同类型的消费者提供了一些启示。

讨论和未来的方向

身处生成式 AI 的时代,硬件可用性已经成为一个迫切需要解决的问题。ML 编译可以通过在硬件后端之间提供高性能的通用部署,从而提高硬件的可用性。

鉴于本文所展现的数据,作者认为在适当的价格和可用性条件下,AMD GPU 可以开始用于 LLM 推理。

在陈天奇团队,研究目前的重点关注消费级 GPU。作者表示,根据过往经验,针对消费级 GPU 型号的 MLC 优化通常可以推广到云 GPU(例如从 RTX 4090 到 A100 和 A10g),有信心让该解决方案在云和消费级 AMD 和 NVIDIA GPU 之间具有普适性,并将在获得更多 GPU 访问权限后更新研究。与此同时,作者期待研究社区在 MLC 通用部署流程的基础上构建解决方案。

本文是通过 MLC 来支持高效通用的机器学习部署的研究的一个阶段性努力,研究人员也正积极地在以下几个方向上努力推广成果:

  • 启用 batching 和多 GPU 支持(对服务器端推理尤为重要);
  • 与 PyTorch 生态系统集成;
  • 支持更多量化和模型架构;
  • 在更多硬件后端上进行更多自动优化。

机器学习系统工程是一个持续的问题,在持续创新方面,英伟达仍然处于领先地位,作者预计随着新硬件(如 H100)以及更重要的软件演变,整个领域将发生变化。因此,关键问题不仅是现在构建正确的解决方案,还包括如何不断赶上并将机器学习工程引入新平台。在这个过程中,机器学习工程的生产力是关键。

由于基于 Python 的 ML 编译开发流程,我们可以在几小时内获得 ROCm 优化的支持。预计此次提出的新方法,在探索更多关于通用部署的想法并解决硬件可用性问题时会变得更加有用。

相关资源

该项目已经在 GitHub 上发布。有关如何尝试 MLC LLM 部署的详细指南,请参阅项目页面。MLC LLM 的源代码可在官方 GitHub 上找到。

  • 项目页面:https://mlc.ai/mlc-llm/docs/
  • GitHub:https://github.com/mlc-ai/mlc-llm/

参考内容:

https://blog.mlc.ai/2023/08/09/Making-AMD-GPUs-competitive-for-LLM-inference

https://zhuanlan.zhihu.com/p/649088095

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
机器之心报道 机器之心编辑部 从此,大模型可以在任何设备上编译运行。 「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」 五一假期还没过半,大模型领域的技术就已经发展到了这种程度。 对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」。 最近人们都在研究 ChatGPT,大语言模型(LLM)彻底改变了科技领域的格局,但对于 AI 开发者来说,并不是人人都有上万块 A100 的。为了跑得起大模型,就要寻找各种优化方法。 在让大模型变小这条路上,人们做了很多尝试,先是 Meta 开源了
机器之心
2023/05/09
3950
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
陈天奇官宣新APP,让手机原生跑大模型,应用商店直接下载使用
前段时间,TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的一个项目引爆了 AI 界。
机器之心
2023/08/04
3680
陈天奇官宣新APP,让手机原生跑大模型,应用商店直接下载使用
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
---- 新智元报道   编辑:编辑部 【新智元导读】英伟达40系显卡终于来了,看完发布会的发烧友们,纷纷表示自己30系还能再战三年。 在全球DIY玩家们喜迎矿难、30系显卡价崩之际,在「你,我,200,飞」成真的大喜氛围中,英伟达矿业集团(bushi)一年一度的盛会GTC 2022如期而至! 昨天晚上,老黄穿着那件万年不变的皮衣,发布了玩家们期盼已久的40系显卡: 24GB显存的RTX 4090,以及16GB和12GB显存的RTX 4080,代号「Ada」。 不用说,发烧友们最先关心的就是卖多少钱
新智元
2022/09/22
7730
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
在图形处理器(GPU)领域,英伟达、AMD 和英特尔占据主导地位已有一段时间了。虽然中国还有其他相关企业,但他们要打入美国市场一直以来都困难重重。
深度学习与Python
2025/03/24
940
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在,只需一个浏览器,就能跑通“大力出奇迹”的大语言模型(LLM)了! 不仅如此,基于LLM的类ChatGPT也能引进来,而且还是不需要服务器支持、WebGPU加速的那种。 例如这样: 这就是由陈天奇团队最新发布的项目——Web LLM。 短短数日,已经在GitHub上揽货3.2K颗星。 一切尽在浏览器,怎么搞? 首先,你需要下载Chrome Canary,也就是谷歌浏览器的金丝雀版本: 因为这个开发者版本的Chrome是支持WebGPU的,否则就
量子位
2023/05/06
3820
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
英伟达RTX 5070评测解禁:老黄承诺4090级性能?不存在的
昨晚,英伟达 GeForce RTX 5070 显卡正式解禁,各种评测开始进入人们的视线。
机器之心
2025/03/06
1490
英伟达RTX 5070评测解禁:老黄承诺4090级性能?不存在的
这个夏天,跟陈天奇学「机器学习编译」中英文课程,6月17日开课!
机器之心报道 机器之心编辑部 陈天奇:「因为世界上还没有关于这个方向的系统性课程,所以这一次尝试应该会是和小伙伴们共同的探索」。 随着机器学习框架和硬件需求的发展,机器学习 / 深度学习编译正成为一个越来越受关注的话题。 在去年 12 月的一篇文章中,TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇探讨了「新一代深度学习编译技术的变革和展望」。他指出,现在深度学习编译生态正围绕四类抽象展开:计算图表示、张量程序表示、算子库和运行环境、硬件专用指令。 不过,由于篇幅受
机器之心
2022/06/07
7500
这个夏天,跟陈天奇学「机器学习编译」中英文课程,6月17日开课!
AMD的1美元>英伟达的1.8美元!农企首席架构师整出个「AMD不等式」
---- 新智元报道   编辑:LRS 【新智元导读】显卡等等党们终于要熬出头了?最近AMD首席架构师发推,表示AMD的主战场其实是「性价比」,在AMD花一美元买到的高端显卡,在老黄那可能得花1.8美元以上。 在显卡价格飞涨的时候,竟然有人开始打价格战了? AMD游戏解决方案的首席架构师Frank Azor发了一条推特:「作为一个长期游戏玩家,我很高兴AMD在高端显示领域全面获胜。而作为AMD的一员,我对Radeon团队取得的成就感到自豪!」 再一细看内容,好家伙,AMD不光价格比友商便宜,性能还吊
新智元
2022/05/18
4210
AMD的1美元>英伟达的1.8美元!农企首席架构师整出个「AMD不等式」
MLC LLM——本地应用程序上原生部署任何语言模型
在AI浪潮风起云涌的当下,AI正在不断地重塑着每一个行业。在各大厂先后争先恐后地推出一系列大模型的同时,也不断出现了很多开源的大模型。今天介绍的这个出现在GitHub热榜上的项目是MLC LLM。它是一种通用解决方案,可以在各种硬件后端和本地应用程序上原生部署任何语言模型,同时为所有人提供一个高效的框架,以进一步优化模型性能以适应其自身的用例。 一切都在本地运行,无需服务器支持,并且可以在手机和笔记本电脑上通过本地GPU加速。
山行AI
2023/06/14
3.4K0
MLC LLM——本地应用程序上原生部署任何语言模型
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
选自timdettmers.com 作者:Tim Dettmers 机器之心编译 编辑:泽南 FP8 训练带来的速度提升可能要一统 AI 领域,但这是我要考虑的问题吗? 深度学习对于算力的要求很高,对于个人来说,GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂,如果想购买新的 GPU,哪些功能最重要?内存、核心、Tensor Core 还是缓存?如何做出性价比高的选择?每出一代新 GPU 这些问题就要重新审视一番。 近日,华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX
机器之心
2023/03/29
1.4K0
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
GPU的2023:短缺缓解,但价格似乎仍将上涨
选自arstechnica 作者:Andrew Cunninghan 机器之心编译 编辑:袁铭怿 2022 年,随着加密货币的崩溃和 PC 销量的下降,此前 GPU 供不应求的局面有所好转,但目前看来,价格没有回落的迹象。 近日,英伟达新发布的几款中高端 GPU 的价格较之前均有上涨,高端 GPU 的价格更是超出 1000 美元,但新一代 GPU 的性能似乎没有跟上飞涨的价格,已经有很长一段时间没有出现像 1060 那样高性价比的 GPU 了。 从左到右,从大到小分别是:GeForce RTX 4080(
机器之心
2023/03/29
7540
GPU的2023:短缺缓解,但价格似乎仍将上涨
民间大神魔改 4090 48G 秒杀 5090!老黄显卡炒作被打脸,“最失败 50 系显卡”也支棱起不来了?
近期,淘宝和闲鱼上很多厂家在出售至少 2.2 万的 4090 48G 显卡,这是一款“全新”、非官方规格的显卡。淘宝厂家甚至给出了基础款和升级款两种选择,其中基础款用的是拆机进口颗粒(19000 频率)和非定制全新 PCB 板,耐久度略低,升级版则用的是全新进口颗粒(21000 频率)和全新定制 PCB 板,耐久度高。不过厂家保证这两款都在前期性能稳定,并质保三年。
深度学习与Python
2025/03/10
3860
民间大神魔改 4090 48G 秒杀 5090!老黄显卡炒作被打脸,“最失败 50 系显卡”也支棱起不来了?
如何为深度学习选择最佳 GPU ?
Hello folks,我是 Luga,今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。
Luga Lee
2024/11/18
5670
如何为深度学习选择最佳 GPU ?
深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
---- 新智元报道   编辑:Joey David 【新智元导读】最近,曾拿到斯坦福、UCL、CMU、NYU博士offer、目前在华盛顿大学读博的知名测评博主Tim Dettmers在自己的网站又上线了深度学习领域的GPU深度测评,到底谁才是性能和性价比之王? 众所周知,在处理深度学习和神经网络任务时,最好使用GPU而不是CPU来处理,因为在神经网络方面,即使是一个比较低端的GPU,性能也会胜过CPU。 深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体
新智元
2023/02/24
2.3K0
深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
研究完llama.cpp,我发现手机跑大模型竟这么简单
最近在开源社区,很多人都在探索大模型的优化方法。有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码,效果极好,获得了人们的广泛关注。
机器之心
2023/09/08
2.2K0
研究完llama.cpp,我发现手机跑大模型竟这么简单
RTX 4090将机器学习速度提高3倍?黄仁勋:摩尔定律已死!
---- 新智元报道   编辑:武穆 【新智元导读】英伟达正式发布RTX40系列显卡后,知乎上,「如何评价RTX40系列显卡」成为热议话题。从讨论内容看,网友对细节的讨论,还是很专业的。 老黄终于在今年的GTC(GPU技术大会)2022上,公布了RTX 40系列GPU的配置。 很快,在知乎上,RTX40系显卡就成了热议话题。 性能高了,功耗也大了 从网友的讨论方向看,对于RTX40系显卡,大家关心的主要就两点:性能和价格。 对于RTX40系显卡的性能,大家基本买账。 下面这张RTX40 系显
新智元
2022/09/27
2.2K0
RTX 4090将机器学习速度提高3倍?黄仁勋:摩尔定律已死!
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」
机器之心
2023/08/08
4930
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
关键词:M2芯片;Ultra;M1芯片;UltraFusion;ULTRAMAN;RTX4090、A800;A100;H100;LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、大型语言模型、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型
液冷服务器
2023/07/28
2.2K0
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
Python CUDA 编程 - 1 - 基础概念
英伟达不同时代产品的芯片设计不同,每代产品背后有一个微架构代号,微架构均以著名的物理学家为名,以向先贤致敬。当前比较火热的架构有:
为为为什么
2022/08/04
1.2K0
Python CUDA 编程 - 1 - 基础概念
英伟达A100 GPU的核心数,Tesla系列
GeForce RTX是英伟达(NVIDIA)公司旗下的一个高端显卡系列。其中,“GeForce”是英伟达推出的显卡品牌,广泛应用于游戏、图形设计、视频编辑等多个领域,以其出色的图形处理能力和性能而著称。“RTX”则代表了该系列显卡所具备的特殊技术和功能,具体来说,“RTX”是Ray Tracing Texel eXtreme的缩写,意味着光线追踪技术的极致表现。
zhangjiqun
2024/07/31
5850
推荐阅读
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
3950
陈天奇官宣新APP,让手机原生跑大模型,应用商店直接下载使用
3680
英伟达发布4090超级核弹!台积电4nm,顶配12999元起,性能暴涨4倍
7730
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
940
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
3820
英伟达RTX 5070评测解禁:老黄承诺4090级性能?不存在的
1490
这个夏天,跟陈天奇学「机器学习编译」中英文课程,6月17日开课!
7500
AMD的1美元>英伟达的1.8美元!农企首席架构师整出个「AMD不等式」
4210
MLC LLM——本地应用程序上原生部署任何语言模型
3.4K0
RTX 40时代,给深度学习买的显卡居然能保值9年?仔细一算绷不住了
1.4K0
GPU的2023:短缺缓解,但价格似乎仍将上涨
7540
民间大神魔改 4090 48G 秒杀 5090!老黄显卡炒作被打脸,“最失败 50 系显卡”也支棱起不来了?
3860
如何为深度学习选择最佳 GPU ?
5670
深度学习GPU选购指南:哪款显卡配得上我的炼丹炉?
2.3K0
研究完llama.cpp,我发现手机跑大模型竟这么简单
2.2K0
RTX 4090将机器学习速度提高3倍?黄仁勋:摩尔定律已死!
2.2K0
iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?
4930
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
2.2K0
Python CUDA 编程 - 1 - 基础概念
1.2K0
英伟达A100 GPU的核心数,Tesla系列
5850
相关推荐
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验