首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#gpu

震惊!台积电疑似代工国产GPU,或面临10亿美金处罚!

通信行业搬砖工

据媒体消息曝料,台积电因涉嫌违反美国出口管制条例,可能面临超10亿美元罚款。这场风暴的导火索,竟是一颗被用于国内某大厂AI处理器的12nm芯片——这颗由大陆某公...

7310

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

机器之心

我们知道,如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。

20410

CUDA编程革命:cuTile分块计算赋能高效GPU开发

GPUS Lady

当遇到库中缺少所需功能的情况时(这种情况可能占开发时间的10%甚至1%),或者需要将不同代码模块粘合时,我们提供了多个解决方案。

13310

CubeCL Rust GPU计算教程

dDostalker

新手也能学会的高性能gpu开发,只需要rust和cubel基础知识即可实现,让你的程序简单的使用gpu加速!

23730

GPU 编程“改朝换代”:英伟达终为 CUDA 添加原生 Python 支持,百万用户变千万?

深度学习与Python

今年,英伟达可谓是全力押注,明确表示要确保 Python 成为 CUDA 并行编程框架中的“一等公民”。

14710

Neurophos:基于硅光收发+超表面的光处理器OPU实现速度+功耗百倍碾压GPU🤓

光芯

Neurophos是一家美国的开发光计算处理器(Optical Processing Unit, OPU)初创公司,去年年底拿了720万美金的种子轮...

8310

AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量

新智元

MoE(Mixture of Experts)模型模仿了人脑的低功耗运作模式:功能被划分为多个独立的部分,在思考时通过自适应路由部分激活,从而提高计算效率。

10210

CUDA工具集合与Python深度集成:重塑GPU编程新体验

GPUS Lady

实际上,CUDA的奥秘在于它并非单一工具,正如Jensen几小时前在主题演讲中提到的,它是我们长期积累的庞大工具集合,可灵活应用于各类问题。过去一两年,我们重点...

18010

RDMA - GDR GPU Direct RDMA快速入门2

晓兵

https://hpcadvisorycouncil.atlassian.net/wiki/spaces/HPCWORKS/pages/2791440385/G...

17600

RDMA - GDR GPU Direct RDMA快速入门1

晓兵

NVIDIA GPUDirect 是一系列技术, 用于增强 GPU间(P2P)或GPU与第三方设备(RDMA)间的数据移动和访问, 无论您是在探索海量数据、研究...

29810

实践教程|GPU 利用率低常见原因分析及优化

小白学视觉

本文的 GPU 利用率主要指 GPU 在时间片上的利用率,即通过 nvidia-smi 显示的 GPU-util 这个指标。统计方式为:在采样周期内,GPU 上...

45910

IC仿真软件汇总

tankaro

Palladium是美国Cadence公司生产的一种前端仿真器,基于FPGA芯片的快速验证平台。它通过快速原型验证(FPV)技术,将RTL级代码编译成硬件行为模...

9610

深度学习中GPU和显存分析

小白学视觉

这里推荐一个好用的小工具:gpustat,直接pip install gpustat即可安装,gpustat基于nvidia-smi,可以提供更美观简洁的展示,...

11210

速看!DeepSeek开源周第一弹:FlashMLA加速GPU计算!

AgenticAI

🚀DeepSeek开源周第一天,发布加速推理的基础设置FlashMLA,DeepSeek为 Hopper GPU 优化高效 MLA 解码内核,支持变长序列,并已...

5300

一文吃透:ABAQUS 怎样开展电脑及周边仿真分析

思茂信息

Abaqus在电子行业得到了广泛的应用,从微观的芯片级组装和失效分析,到宏观的个人电子用品如笔记本电脑、智能手机的抗震、跌落、模态和热流动分析。这种软件被各大电...

5600

Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹

新智元

Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B...

8500

Hugging Face 发布了高效的跨 GPU 大语言模型训练指南

深度学习与Python

Hugging Face 发布了 《超大规模实战指南:在 GPU 集群上训练大语言模型(LLMs)》,这是一份开源指南,详细探讨了跨 GPU 集群进行大语言模型...

17510

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

新智元

开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B...

8700

马斯克「大闹白宫」!美政府12000人将被GSAi优化,xAI 100万块GPU巨兽年底建成

新智元

据两位知情人士透露,马斯克领导的「政府效率部」(DOGE)正加速开发定制的GenAI应用「GSAi」,供美国总务管理局(GSA)使用。

8910
领券