在AI、大数据、云计算等技术的广泛应用的背景下,企业如何应对图像处理、科学计算、深度学习等场景的高负载计算挑战?当算力成为高频诉求,怎样才能摆脱技术约束,走向算...
摘要:在AI的淘金热中,光有铲子(GPU)是不够的,你还需要水和电。美银证券(BofA)最新发布的74页深度报告揭示了一个被市场忽视的残酷现实:No Power...
这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家,蒂姆·德特默斯对 AGI 给出的判断,他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI ...
GPU Direct RDMA是2009年由Nvidia和Mellanox共同研发的软硬件协同创新技术。
AI推理的内存挑战是多维度的。首先是模型权重本身的庞大体积。 以Llama 3.1 405B为例 ,使用FP16存储需要约810GB内存 ,即便是最新的H200...
作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析vLLM框架中CPU/GPU协同计算的核心机制,重点探...
作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析GPU显存碎片问题的成因、影响及解决方案,重点探讨vL...
通过https://docs.nvidia.cn/cuda/cuda-toolkit-release-notes/index.html找到与之对应的 CUDA ...
GPU的片上共享内存有限,完整的大矩阵的运算会导致内存溢出,对矩阵分块应用并行计算是必备的优化方法,那如何对矩阵分块,分块后如何并行计算?了解以上问题可以加深对...
AI模型训练和推理对算力的要求各有特点,如何在具体的场景下综合权衡选择显卡算力,怎样才能达到性能、能耗和成本的最佳平衡。本文围绕这个问题,介绍下关于显卡的基础知...
高效的批处理策略,使得更多的请求可以组成batch并行处理,但是batch组的请求数仍受到GPU内存的限制,如何的突破内存瓶颈,最大化batch中请求数量,是提...
原因:GPU无法直接访问存储设备(如NVMe SSD),必须通过CPU和系统内存中转。
12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈...
Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分...
JAX跑得快的技巧其实很简单:通过组合变换让XLA能看到大块连续的计算,比如说批处理、融合、分片,让每一步在单设备或多设备同步时都像一个干净的kernel。
就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。
随着蛋白质数据库规模的快速增长,对更快、更敏感的同源性搜索工具的需求愈发迫切。研究人员开发了 GPU 加速版 MMseqs2 (MMseqs2-GPU),在单一...
在AI大模型浪潮席卷各行各业的当下,大语言模型(LLM)推理的性能、扩展性与资源利用率,已成为企业落地过程中的核心痛点。回顾互联网后端架构的演进历程,我们不难发...
过去 15-20 年间,传统的化学信息学工具逐渐难以跟上现代分子发现的需求。造成这一趋势的原因主要有三点: