首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#gpu

【踩坑】解决运行一段时间GPU计算后忽然变得很慢

小锋学长生活大爆炸

3、看图就知道,密集的GPU运算,导致GPU温度达到限制了。高温限制是会影响性能的。

7110

【教程】设置GPU与CPU的核绑(亲和力Affinity)

小锋学长生活大爆炸

简单来说,核绑,或者叫亲和力,就是将某个GPU与指定CPU核心进行绑定,从而尽可能提高效率。

9110

【技巧】如何检查多个GPU之间是否支持P2P通信

小锋学长生活大爆炸

需要用到cuda_samples:GitHub - NVIDIA/cuda-samples

11610

【系统架构设计师】计算机组成与体系结构 ② ( 计算机组成结构 - 冯诺依曼结构、哈佛结构 | 嵌入式芯片概念 - DSP、SoC、MPU、MCU | 体系结构分类之外的芯片 - FGPA、GPU )

韩曙亮

哈佛结构 : 程序指令 和 数据 分开存储在 两个独立的 存储空间中 , 每个存储器都 独立编址 、独立访问 , 这是一种 并行体系结构 ;

11310

Torch 中显存回收节省显存的方法

kwai

腾讯 · 员工 (已认证)

在进行模型推理时,需要考虑如何有效地利用和管理GPU显存。以下总结了常用的节省显存的方法。

9110

一群顶尖搜索人才如何 2 个月出货,还把 GPU 利用率干到 60%!揭秘百川智能研发大模型这一年

深度学习与Python

王小川在去年 4 月份宣布成立“百川智能”的两个月后,就迅速对外推出了 70 亿参数量的中英文预训练大模型 Baichuan 7B。一年多后的今天,百川智能已经...

8110

GPU 集群规模从 4K 飙升至 24K,Meta 如何引领大规模语言模型训练突破

深度学习与Python

在我们继续将 AI 研究和开发的重点放在解决一系列日益复杂的问题上时,我们经历的最重大和最具挑战性的转变之一是训练大型语言模型(LLM)所需的巨大计算规模。

6110

GPU数据并行结构

Zero Two

处理器在处理数据的过程中,有时会需要访问其他数据,访问这些数据需要花费一定的时间,此时处理器会处于停滞状态等待数据的返回。而等待的这段时间称之为延迟。

8020

实战 | 本地GPU训练YOLOv8带方向的目标检测

Color Space

目标检测是指在图像或视频帧内识别和定位物体的任务。定向目标检测具体涉及检测具有定义方向或旋转的物体,例如检测具有不同角度的车辆或检测自然场景中具有不同方...

20910

英伟达出货376万颗数据中心GPU,拿下98%市场!

芯智讯

6月11日消息,据Hpcwire援引半导体研究机构TechInsights最新公布的数据显示,2023年全球数据中心GPU总出货量达到了385万颗,相比2022...

7210

详解高通骁龙X处理器:Oryon CPU和Adreno X1 GPU有何优势?

芯智讯

在近 8 个月前该公司在最近的 Snapdragon 峰会上首次详细介绍了 SoC,并在随后的几个月中多次披露了性能后,Snapdragon X Elite 和...

24410

调度 GPU 算力,除了 K8s 我们别无选择 | Kubernetes 十年

深度学习与Python

Kubernetes 已经存在十年了。它本来是谷歌作为秘密武器而存在的容器化作业编排与管理理念,因为“开源”而迅速占领市场,成为了企业 IT 的一项基础能力,从...

30110

Yandex 开源 LLM 训练工具,可节省高达 20% 的 GPU 资源

深度学习与Python

LLM 训练依赖于组织成集群的大量 GPU,互连的图形处理器阵列可以执行训练具有数十亿个参数的模型所需的大量计算。在集群中的处理器之间分配计算需要不断通信,这通...

14110

十万卡规模GPU集群选择以太网,英伟达也慌啊!

用户6874558

8410

黄仁勋:英伟达8年算力增长1000倍,能耗降低350倍!下一代Rubin GPU曝光

芯智讯

6月2日晚间,英伟达(NVIDIA)CEO黄仁勋在中国台湾大学综合体育馆发表主题为“开启产业革命的全新时代”的主题演讲。在长达两个小时的发言中,黄仁勋梳理并介绍...

16510

Arm最强CPU及GPU内核发布:联发科天玑9400将首发!

芯智讯

5月30日消息,当地时间周三,Arm在其全面计算解决方案(CSS)取得成功的基础上,正式发布了首款面向客户端产品的 Arm 计算子系统 ——CSS for Cl...

8710

英伟达将推AI PC芯片:整合Cortex-X5 CPU及Blackwell GPU内核

芯智讯

5月29日消息,据The register报道,近日业内有传言称,英伟达(Nvidia)正准备推出一款将下一代 Arm Cortex CPU内核与其 Black...

7310

老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题

新智元

8年内,1.8万亿参数GPT-4的训练能耗,直接疯狂降到1/350;而推理能耗则直接降到1/45000

12610

全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律

机器之心

昨晚,英伟达创始人、CEO 黄仁勋在 2024 年 COMPUTEX 科技大会上又为全球发烧友们、显卡买家们带来了一场重磅演讲。

13110

单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

机器之心

自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,一直稳站 C 位。

7810
领券