关于pytorch“NCCL错误”：未处理的系统错误，NCCL版本2.4.8“

基础概念

NCCL（NVIDIA Collective Communications Library）是由NVIDIA公司开发的一个用于多GPU和多节点通信的库。它主要用于加速深度学习训练过程中的集体通信操作，如广播、规约、聚合等。

类型

NCCL主要分为以下几种类型：

点对点通信：单个GPU之间的通信。
集体通信：多个GPU之间的通信，如广播、规约、聚合等。
多节点通信：多个计算节点之间的通信。

应用场景

NCCL广泛应用于深度学习训练场景，特别是在需要多GPU或多节点并行计算的场景中，如大规模图像识别、自然语言处理等。

问题分析

“未处理的系统错误，NCCL版本2.4.8”通常是由于以下原因导致的：

硬件兼容性问题：GPU型号或驱动版本不兼容。
软件环境问题：操作系统、CUDA版本、NCCL版本不兼容。
网络问题：多节点通信时，网络连接不稳定或配置错误。

解决方法

检查硬件兼容性：
- 确保使用的GPU型号和驱动版本与NCCL兼容。
- 可以参考NVIDIA官方文档中的兼容性列表。

检查软件环境：
- 确保操作系统、CUDA版本和NCCL版本之间的兼容性。
- 例如，NCCL 2.4.8通常与CUDA 10.2和11.0兼容。
检查网络配置：
- 如果是多节点通信，确保网络连接稳定，并且防火墙配置允许GPU之间的通信。
- 检查NCCL的网络配置参数，如NCCL_SOCKET_IFNAME等。

示例代码

以下是一个简单的示例代码，展示如何在PyTorch中使用NCCL进行多GPU训练：

import torch
import torch.nn as nn
import torch.optim as optim
import torch.distributed as dist
from torch.nn.parallel import DistributedDataParallel as DDP

def main():
    # 初始化进程组
    dist.init_process_group(backend='nccl')

    # 设置设备
    device = torch.device('cuda', dist.get_rank())

    # 定义模型
    model = nn.Linear(10, 10).to(device)

    # 使用DDP包装模型
    ddp_model = DDP(model, device_ids=[device])

    # 定义损失函数和优化器
    criterion = nn.MSELoss()
    optimizer = optim.SGD(ddp_model.parameters(), lr=0.01)

    # 训练循环
    for data, target in dataloader:
        optimizer.zero_grad()
        output = ddp_model(data.to(device))
        loss = criterion(output, target.to(device))
        loss.backward()
        optimizer.step()

if __name__ == "__main__":
    main()

参考链接

通过以上步骤和方法，可以有效解决“未处理的系统错误，NCCL版本2.4.8”的问题。

nccl不更新

、、、、

我使用的是ubuntu16.04，运行后，我按照关于nvidia 网站的说明更新nccl： (base) alireza@Cube1:~$ sudo apt install libnccl2 libnccl-dev [sudo] password for alireza: Reading package lists... Done Building dependency tree Reading state information... Done libnccl-dev is already the newest version (2.4.8-1+cuda10.0). libn

浏览 0提问于2019-08-27得票数 1

回答已采纳

1回答

RuntimeError: NCCL错误2:未处理的系统错误

、、

最近，我将cuda从9.0升级到10.2，但当我成功升级时，我的演示程序默认为"RuntimeError: NCCL 2: unhandled“，如下所示。我不知道为什么，并试图寻找答案，在github或堆栈溢出，但我失败了。所以我希望有人能帮我。 import torch from torchvision import datasets, transforms import torchvision from tqdm import tqdm device_ids = [0, 1] # GPU BATCH_SIZE = 64 transform = transforms.Co

浏览 66提问于2022-10-09得票数 1

回答已采纳

1回答

Docker共享内存大小超出界限或未处理的系统错误，NCCL版本2.7.8

、、

下面的错误和解决方案用于在中通过YAML部署堆栈，但它们肯定可以应用于对接程序。环境： PYTORCH="1.8.0" CUDA="11.1" CUDNN="8" GPUs: Geforce RTX 3090 尝试使用单个GPU进行时，会引发共享内存大小超出界限的错误。另外，当我使用更多的GPU (4)时，我得到了一个不同的错误，即 RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNC

浏览 9提问于2021-04-12得票数 1

回答已采纳

1回答

火炬: Nccl可用，但未使用(?)

、

我使用PyTorch 1.9.0，但在尝试运行模型的分布式版本时会出现以下错误： File "/home/ferdiko/fastmoe/examples/transformer-xl/train.py", line 315, in <module> para_model = DistributedGroupedDataParallel(model).to(device) File "/home/ferdiko/anaconda3/envs/fastmoe/lib/python3.9/site-packages/fastmoe-0.2.1-py3

浏览 19提问于2021-10-13得票数 0

回答已采纳

2回答

使用conda构建caffe2失败

、、

我在页面后面使用anaconda构建caffe2。在只有一个titanx的服务器上，有cudnn7和cuda9，但没有nccl，所以我从nvidia下载nccl2并将其解压缩到路径/ to /local/nccl2，然后将第42行中的./pytorch/conda/integrated/build.sh编辑为：“export NCCL_ROOT_DIR= path/ to /local/nccl2”。然后我需要将caffe2与python2一起使用，所以我在./pytorch/scripts/buildanaconda.sh中添加了"conda_args+=(“-- python2

浏览 1提问于2018-06-30得票数 0

1回答

Caffe2未检测到图形处理器

、、

我想使用支持图形处理器的caffe2。我在conda环境下成功安装了caffe2 (Ubuntu16.04，python2.7) (命令：conda install pytorch-nightly -c pytorch) 它已成功安装(我使用命令：python2 -c 'from caffe2.python import core' 2>/dev/null && echo "Success" || echo "Failure"检查它，结果显示“成功”) 但是，当我检查caffe2 GPU build (命令：python2

浏览 2提问于2019-07-10得票数 0

1回答

如何使用pytorch=0.3.1构建conda环境，因为我总是遇到冲突

、、、、

我需要一个能满足以下要求的环境，但这是行不通的。我尝试过很多方法，结果总是像下面这样。有没有人知道我怎样才能得到我需要的东西的环境？ conda create -n myenv python=3.5 pytorch=0.3.1 Collecting package metadata (repodata.json): done Solving environment: - Found conflicts! Looking for incompatible packages. This can take several minutes. Press CTRL-C to abort. faile

浏览 137提问于2020-02-10得票数 0

1回答

如何修复PyTorch中的“PyTorch:已在使用的地址”？

、、、

我正在尝试使用PyTorch分布式培训器运行一个分布式应用程序。我想我应该先试试他们的例子，找到了。我设置了两个AWS EC2实例，并根据链接中的描述对它们进行了配置，但是当我试图运行代码时，我得到了两个不同的错误:在node0的第一个终端窗口中，我得到了错误消息: RuntimeError: Address已经在使用了。在其他三个窗口中，我得到了相同的错误消息： /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:272，未处理系统错误中的RuntimeError: NCCL错误我遵循链接中的代码，并终止了实例重做，但它没有帮助/ 这是在每晚

浏览 1提问于2019-08-23得票数 1

回答已采纳

4回答

如何在A100图形处理器上使用Pytorch (+ cuda)？

、、、

我试图在A100图形处理器上使用我当前的代码，但是我得到了这个错误： ---> backend='nccl' /home/miranda9/miniconda3/envs/metalearningpy1.7.1c10.2/lib/python3.8/site-packages/torch/cuda/__init__.py:104: UserWarning: A100-SXM4-40GB with CUDA capability sm_80 is not compatible with the current PyTorch installation. The curre

浏览 12提问于2021-04-08得票数 9

1回答

Pytorch "NCCL错误“：未处理的系统错误，NCCL版本2.4.8”

、

我使用pytorch来分布式训练我的模型。我有两个节点，每个节点有两个gpu，我为一个节点运行代码： python train_net.py --config-file configs/InstanceSegmentation/pointrend_rcnn_R_50_FPN_1x_coco.yaml --num-gpu 2 --num-machines 2 --machine-rank 0 --dist-url tcp://192.168.**.***:8000 另一种是： python train_net.py --config-file configs/InstanceSegme

浏览 229提问于2020-04-07得票数 16

1回答

MXNet是否使用Nvidia的NCCL库进行多GPU通信？

、、、

在Nvidia网站上，他们声称MXNet使用NCCL ()。但是，我没有从MXNet的github存储库中找到任何关于他们实际使用NCCL库的引用。在chainer博客中，他们还声称由于在chainer中使用了NCCL库，所以chainer在4个GPU上获得了比MXNet更好的性能。() 在MXNet存储库中的一些旧文章中，我可以看到他们在讨论在MXNet中包含NCCL库的困难。我的第一个问题是，是否有NCCL库的MXNet版本？第二版，使用NCCL库可能会带来什么性能影响(即内存使用量减少，跨多个GPU的通信开销更小)？

浏览 4提问于2017-09-07得票数 2

3回答

错误:一些NCCL操作失败或超时

、、、

在4 A6000 GPU上运行分布式培训时，我得到以下错误： [E ProcessGroupNCCL.cpp:630] [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000) ran for 1803710 milliseconds before timing out.

浏览 300提问于2021-10-24得票数 3

3回答

使用PyTorch分布式连接失败

、

我正在尝试使用torch.distributed将PyTorch张量从一台机器发送到另一台机器。dist.init_process_group函数工作正常。但是，dist.broadcast函数中存在连接故障。以下是我在节点0上的代码： import torch from torch import distributed as dist import numpy as np import os master_addr = '47.xxx.xxx.xx' master_port = 10000 world_size = 2 rank = 0 backend = 'nc

浏览 478提问于2020-04-08得票数 3

回答已采纳

4回答

如何解决著名的“未处理的cuda错误，NCCL版本2.7.8‘错误？

、、

我见过很多关于这个问题的问题： RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNCCL.cpp:825, unhandled cuda error, NCCL version 2.7.8 ncclUnhandledCudaError: Call to CUDA function failed. 但似乎没有人能帮我解决这个问题：在每个脚本的开头，我都尝试手动执行torch.cuda.set_device(device)。这对我来说似

浏览 178提问于2021-03-25得票数 14

12回答

安装PyTorch 1.4的问题--“torch===1.4.0没有找到匹配的发行版”

、、、、

使用关于如何安装pytorch.org的安装指南，我使用的命令是 pip install torch===1.4.0 torchvision===0.5.0 -f https://download.pytorch.org/whl/torch_stable.html 但它正在产生这个错误；错误:找不到满足torch===1.4.0需求的版本(版本: 0.1.2，0.1.2.post1，0.1.2.post2) 错误:没有为torch===1.4.0找到匹配的分布这是不是和我有关的问题？其他人可以使用这个命令吗？ Pip已安装并用于其他模块，Python3.8，CUDA版本10.1，Wind

浏览 8提问于2020-02-09得票数 36

回答已采纳

1回答

如何在PyTorch GPU上运行A40而没有错误(对于DDP也是如此)？

、

我试着运行我的pytorch代码，但是得到了以下错误： A40 with CUDA capability sm_86 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 compute_37. If you want to use the A40 GPU with PyTorch, please check the instructions at htt

浏览 0提问于2021-05-22得票数 4

2回答

NCCL-test Alltoall性能不达标？

、、、、

各位好，目前整的一个环境如下： 128节点，4张A100/4张网卡/Ubuntu环境/IB网络跑Allreduce 三种算法基本在197左右达到预期。跑Alltoall 32节点能到24.74GB/s，64节点就直接掉到了17.74GB/s，相比验收预期20GB/s相差较大。请教各位有无调优的建议方向？感谢！测试参数如下： mpirun \ --allow-run-as-root \ -mca plm_rsh_no_tree_spawn true \ -mca plm_rsh_args "-p 1111 -q -o StrictHostKeyChecking=no" \

浏览 172提问于2024-08-19

3回答

用Bazel构建Tensorflow失败(Ubuntu 18.04，Cuda 9.1)

、、

我试图按照安装tensorflow与Cuda9.1，但当我运行以下命令. bazel build --config=opt --config=cuda //tensorflow/tools/pip_package:build_pip_package ...I在编译了很长时间后得到了这个错误 INFO: From Compiling tensorflow/core/grappler/clusters/virtual_cluster.cc: In file included from ./tensorflow/core/framework/common_shape_fns.h:22:0,

浏览 4提问于2018-09-06得票数 0

1回答

如何利用numpy从源头构建火炬

、、、、

我正在尝试从源代码构建pyrithorv1.4.0，因为我需要它来处理另一个模块。我已经成功地构建了源文件，但是当我试图运行预期的python脚本时，我得到了以下错误： RuntimeError: PyTorch was compiled without NumPy support 所以我查了一下我做错了什么，结果发现在我从源头构建火把之前，我需要安装numpy，所以我就是这么做的。我用了命令： pip3 install numpy==1.19.4 在安装pytorch时，控制台给我提供了很多信息，包括构建设置。构建设置如下所示： -- Compile definitions : ON

浏览 27提问于2020-11-03得票数 1

回答已采纳

2回答

如何还原角2更新

我刚刚通过运行npm来更新我的Range2应用程序，不幸的是我的应用程序不再运行了，尽管终端中没有显示错误，但是我的控制台中有很多错误。无论如何，我可以撤销更新吗？ //错误 The stylesheet http://localhost:4200/app/assets/js/jquery.min.js was not loaded because its MIME type, “application/javascript”, is not “text/css”. localhost:4200 GET http://localhost:4200/node_modules/zone.js/d

浏览 5提问于2017-02-27得票数 1

回答已采纳

1回答

在尝试让OpenCV正常工作时遇到了很糟糕的情况

、、

我正在尝试按照本教程使用python/opencv来计算从相机到对象的距离：我在一个ubuntu盒子上。我用pip很容易就安装了numpy，但是我花了一段很长时间才能让opencv正常工作。我浏览了这篇文章来安装它，它的来源是：一切看起来都是正确安装的。当我运行dpkg -l | grep libopencv时，我得到ii libopencv-calib3d2.4:amd64 2.4.8+dfsg1-2ubuntu1 amd64 computer vision Camera Calibration librar

浏览 0提问于2016-04-26得票数 1

1回答

用于NCCL程序的NVProf

、

当我想使用NVProf来解决带有--metrics all的NCCL问题时，分析结果总是返回如下 ==2781== NVPROF is profiling process 2781, command: ./nccl_example 2 16 ==2781== Profiling application: ./nccl_example 2 16 ==2781== Profiling result: 未分析任何事件/指标。我的简单nccl程序 #include <stdio.h> #include "cuda_runtime.h" #include "nccl.

浏览 29提问于2021-05-27得票数 0

回答已采纳

2回答

TensorFlow Horovod: NCCL和MPI

、、、

正在将和MPI组合成一个用于分布式深度学习的包装器，例如TensorFlow。我以前没有听说过NCCL，我正在研究它的功能。以下是NVIDIA网站上关于NCCL的说明： NVIDIA集体通信库(NCCL)实现了对NVIDIA GPU性能进行优化的多GPU和多节点集体通信原语。从关于NCCL的中，我了解到NCCL是通过PCIe、NVLink、原生Infiniband、以太网工作的，它甚至可以通过RDMA检测GPU在当前硬件拓扑中是否有意义，并透明地使用它。所以我想问为什么在霍洛沃德需要MPI？据我所知，MPI还被用来通过also范式有效地交换分布式节点之间的梯度。但据我所知，NCCL

浏览 2提问于2018-11-27得票数 11

1回答

更改Opencv版本2.4.8到3.0.0 ( KMS )

我所做的： 1.关于链接和，我在Kurento中运行opencv示例 2.还成功地运行了一些opencv项目，如FaceDetection 3.我所构建的项目正在使用opencv 3.0.0 .So，我试图将opencv版本改为3.0.0 4.在kms-opencv-plugin-示例的CMakelist.txt中，我更改了行。 set (OPENCV_REQUIRED 3.0.0) 但是opencv 2.4.8库在link.txt文件中 5.我还尝试手动删除opencv2.4.8库，并将其替换为/usr/lib/x86_64-linux-gnu中的opencv 3.0.0库，

浏览 0提问于2016-04-22得票数 1

2回答

Anaconda / Pytorch -尝试使Pytorch工作时出现错误

、、、、

我在Windows10系统上尝试使用Anaconda安装Pytorch，但每次尝试都会返回各种错误。我从https://anaconda.org/peterjc123/pytorch/files下载了该软件包的windows兼容的tar文件，显然能够使用conda install filename.tar.bz2安装该软件包。显然，我的意思是Pytorch出现在我为使用Pytorch而设置的环境中可用包的列表中。但是当我加载这个包时，我得到了这个错误： >>> import torch Traceback (most recent call last): File

浏览 91提问于2018-05-06得票数 1

5回答

Ubuntu14.04下的`libopencv_highgui.so`链接错误，奇怪的结果是“libtiff.so.5”

、、、、

问题我正在Ubuntu14.04(64位)中编译深度学习库。 OpenCV(Version: 2.4.8+dfsg1-2ubuntu1)是从ubuntu包服务器安装的，具有： sudo apt安装libopencv-dev 用Caffe 2.8编译CMake。链接错误：链接CXX可执行caffe /usr/lib/x86_64-linux-gnu/libopencv_highgui.so.2.4.8:未定义的对`TIFFOpen@LIBTIFF_4.0的引用资讯化似乎没有找到TIFF库的一些符号。我努力找出原因(运气不好)。这是一些关于图书馆的信息。 libopenc

浏览 9提问于2015-03-26得票数 12

回答已采纳

3回答

如何在启用CUDA的情况下安装Pytorch 1.3.1

、、

我在我的Ubuntu 16.04系统上有一个conda环境。使用以下命令安装Pytorch时： conda install pytorch 然后我尝试运行我需要的脚本，我得到了错误消息： raise AssertionError("Torch not compiled with CUDA enabled") 通过查看论坛，我发现这是因为我安装的Pytorch没有CUDA支持。然后我试着： conda install -c pytorch torchvision cudatoolkit=10.1 pytorch 但现在我得到了错误： from torch.utils

浏览 53提问于2020-01-02得票数 2

回答已采纳

1回答

在Conda UnsatisfiableError消息中找不到冲突

、、、

尝试在Docker的conda中安装pytorch，并获取UnsatisfiableError。但是，我在错误消息中找不到任何实际的冲突，或者我可能没有正确理解它。使用的Docker镜像为nvidia/cuda:10.1-cudnn7-devel-ubuntu18.04。如果我没有指定要安装的pytorch版本，将不会有任何问题。但是对于一些遗留代码，我确实需要这个版本的pytorch。下面是conda命令和错误消息。 (Python3.6) root@0cb9aad73116:/# conda install -c pytorch pytorch=0.3.1 Collecting pac

浏览 246提问于2019-12-29得票数 3

回答已采纳

1回答

如何建立火把源？

当我使用pytorch的时候，它显示了我使用的cuda版本和cuda版本的系统是不一致的，所以我需要从源头上重新构建that。 # install dependency pip install astunparse numpy ninja pyyaml mkl mkl-include setuptools cmake cffi typing_extensions future six requests dataclasses # Download pytorch source git clone --recursive https://github.com/pytorch/pytorch c

浏览 9提问于2022-02-11得票数 0

1回答

load_workbook上出现openpyxl抛出错误

、

我的程序很简单，就像 import openpyxl wb = openpyxl.load_workbook('C:\Users\filepath') 但是，当我运行时，我收到一个 ‘用户代码未处理IndexError消息:列表索引超出范围’ 错误。我似乎在网上找不到任何解决方案。我的openpyxl版本是2.4.8。如果有帮助，我正在开发Visual Studio 2013。

浏览 5提问于2017-06-29得票数 0

回答已采纳

1回答

将Dockerfile文件从CUDA9更改为CUDA10

、、、

我需要将下面来自 (一个流行的PyTorch包)的Dockerfile文件从CUDA9.0更改为CUDA10.0。 FROM ubuntu:16.04 RUN apt-get update && apt-get install -y --no-install-recommends apt-utils ca-certificates apt-transport-https gnupg-curl && \ rm -rf /var/lib/apt/lists/* && \ NVIDIA_GPGKEY_SUM=d1be581509378

浏览 0提问于2019-07-20得票数 0

1回答

Pytorch cuda版本无法安装

、、

一开始，我使用nvcc --version命令检查了我的cuda版本，它将版本显示为10.2，因此我开始根据中的指令安装，所以我尝试在anaconda提示符中使用bellow命令使用python 3.8.3虚拟环境 conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch 在终端显示 added / updated specs: - cudatoolkit=10.2 - pytorch - torchaudio - torchvisio

浏览 6提问于2020-11-16得票数 1

2回答

PyTorch "NCCL错误:未处理的系统错误“

、、

我正在尝试使用PyTorch进行分布式培训，但遇到了一个问题。此运行时错误发生在后台(第一批，第一个时代)。 File "/home/user/anaconda3/lib/python3.7/runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "/home/user/anaconda3/lib/python3.7/runpy.py", line 85, in _run_code exec(code, run_globals) Fi

浏览 1提问于2019-05-10得票数 1

2回答

警告-反应

、、

我在我的Ionic 2代码中遇到了一个小问题： Warning: Accessing PropTypes via the main React package is deprecated. Use the prop-types package from npm instead. 我没有使用任何关于React或proptypes的东西，但是我得到了前面描述的消息。我的package.json： "dependencies": { "@angular/common": "2.4.8", "@angular/compiler":

浏览 4提问于2017-06-22得票数 1

回答已采纳

2回答

无法在Ubuntu中安装Pytorch

、、、、

我使用下面的命令在我的conda环境中安装py手电筒。 conda install pytorch=0.4.1 cuda90 -c pytorch 但是，我得到了以下错误解决环境:失败 PackagesNotFoundError:以下软件包无法从当前频道获得： pytorch=0.4.1 cuda90 现有渠道：若要搜索可能提供所查找的conda包的备用通道，请导航到我怎么才能解决这个问题？我当然安装了cuda 9和nvcc工厂。

浏览 4提问于2020-08-05得票数 2

回答已采纳

1回答

PyTorch在Ubuntu20.04上有CUDA 10.2版和torch_sparse 11.1版

、

我正在开发Ubuntu20.04，看起来CUDA10.2不支持Ubuntu的最新版本。有人知道我怎么解决这个问题吗？完全错误： RuntimeError:检测到PyTorch和torch_sparse是用不同的CUDA版本编译的。PyTorch有CUDA 10.2版，torch_sparse有11.1版。请重新安装与torch_sparse安装匹配的PyTorch。谢谢!

浏览 3提问于2020-10-04得票数 0

2回答

Raspberry Pi在Ubuntu上交叉编译opencv项目

、、、、

我已经为这事纠结了两天了，现在还没开始工作。到目前为止我所做的：从Ubuntu12.04LTS --> opencv项目编译和运行在Ubuntu上的源代码构建OpenCV 2.4.8 构建opencv 2.4.8是从Raspberry Pi的源代码构建的--> OpenCV项目编译并运行在Raspberry Pi上为Raspberry构建了一个交叉编译器，该编译器具有跨界函数ng () -> c++程序，该程序构建在Ubuntu上，在Raspberry Pi上运行交叉编译器。我的问题是什么： OpenCV程序不使用交叉编译器进行编译

浏览 17提问于2014-03-07得票数 5

1回答

ValueError:使用env:// rendezvous初始化torch.distributed时出错:应为环境变量MASTER_ADDR，但未设置

、

我无法在PyTorch中为BERT模型初始化组进程，我曾尝试使用以下代码进行初始化： import torch import datetime torch.distributed.init_process_group( backend='nccl', init_method='env://', timeout=datetime.timedelta(0, 1800), world_size=0, rank=0, store=None, group_name='' ) 并尝试访问get_wo

浏览 345提问于2019-06-28得票数 0

1回答

Pytorch中出错: libcudart.so.10.2:无法打开共享对象文件:没有此类文件或目录

、、、、

我正在运行一些图神经网络，并且安装了以下版本： !pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.9.0+cu102.html !pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.9.0+cu102.html !pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.9.0+cu102.html !pip install to

浏览 298提问于2021-10-07得票数 1

1回答

RTX 2080ti NCCL安装/ Tensorflow编译错误

、、

我正在2080ti的Ubuntu18.04上安装CUDA10，CuDnn 7.3和NCCL2.3。我在NCCL部分遇到了麻烦。当我尝试编译Tensorflow时，它显示错误并且找不到NCCL-SLA.txt文件。但是当我搜索那个文件的时候，我也找不到它了？所以当我在网上看的时候，人们说你可以把它从另一个目录中移走，但是它不适合我，所以我不知道该怎么做。下面是我得到的错误代码： ERROR: missing input file '@local_config_nccl//:nccl/NCCL-SLA.txt' ERROR: /home/josh/tensorflow/tenso

浏览 0提问于2018-10-10得票数 0

3回答

在Ubuntu14.10中安装OpenCV

、、

根据的说法，我正在尝试在Ubuntu14.10中安装OpenCV。我安装了所有提到的依赖项，但是当我尝试运行make时，我得到了这样的错误： /home/ilia/opencv-2.4.8/modules/highgui/src/ffmpeg_codecs.hpp:114:7: error: ‘CODEC_ID_H261’ was not declared in this scope { CODEC_ID_H261, MKTAG('H', '2', '6', '1') } 所有的编解码器，就像我想的那样。以及这些错误：

浏览 23提问于2014-10-28得票数 4

回答已采纳

1回答

PyTorch C++ -如何了解推荐的cuDNN版本？

我之前已经从C++推断出了TensorFlow图。现在我开始研究如何通过C++推断PyTorch图。我的第一个问题是，我如何知道推荐的cuDNN版本与LibTorch一起使用，或者我是否正在进行自己的PyTorch编译？确定推荐的CUDA版本很容易。转到https://pytorch.org/并选择Quick Start Locally下的选项(PyTorch Build、Your OS等)该网站明确表示推荐CUDA10.1，但没有提到cuDNN版本，在谷歌搜索后，我找不到这个问题的确切答案。根据我对ubuntu上的PyTorch的了解，如果你使用Python版本，你必须安装CUDA驱

浏览 45提问于2020-02-02得票数 1

回答已采纳

4回答

如何在python2.7中安装pytorch？

、、、

我在虚拟环境中使用python2.7。我尝试在python2.7中安装pytorch，但得到以下错误： UnsatisfiableError: The following specifications were found to be incompatible with the existing python installation in your environment: - pytorch-cpu -> python[version='3.5.*|3.6.*'] - pytorch-cpu -> python[version='>=

浏览 6提问于2019-09-08得票数 3

12回答

如何使用conda或pip在Anaconda安装火把？

、、

我正尝试在Anaconda中安装py手电筒，以便在Windows中使用Python 3.5。按照中的说明，我在Anaconda中介绍了以下代码： pip3 install torch torchvision 但是，出现了以下错误： Command "python setup.py egg_info" failed with error code 1 in C:\Users\sluis\AppData\Local\Temp\pip-install-qmrvz7b9\torch\ 通过在网上搜索，我发现这可能是因为setuptools过时了，但我检查并更新了它。我也试过： con

浏览 1提问于2018-04-19得票数 29

1回答

N Visual Studio .Net中的单元编译错误

、

使用Visual Studio (2003)我试图编译一个最初用Visual Studio .Net (2003)编写的遗留解决方案，它有一个使用nunit (2.4.8)的测试项目，我在构建时收到一个错误：元数据文件“”c：\Program Files\n单元2.4.8\bin\nunit.framework.dll“”无法打开--“2.0版不是兼容的版本。” 我在显示的路径下载了Nunit 2.4.8，并在nunit.exe.config文件中取消了对启动部分的注释，以包含supportedRunTime版本等。我还检查了机器上是否安装了.Net 1.3075。考虑到这个项目是在相同的

浏览 1提问于2012-10-16得票数 0

1回答

pip没有找到conda安装的cudatoolkit。

、、、

我正在尝试用pip安装torch_scatter。然而，它给了我一个错误消息： File "/home1/huangjiawei/miniconda3/envs/lin/lib/python3.8/site-packages/torch/utils/cpp_extension.py", line 404, in build_extensions self._check_cuda_version() File "/home1/huangjiawei/miniconda3/envs/lin/lib/python3.8/site-pac

浏览 25提问于2022-03-16得票数 1

1回答

Rails不能加载这样的文件- stringio (LoadError)

、

我的Rails应用程序运行良好，然后我决定尝试将它从4.0升级到4.2，这样我就可以把它放在Heroku上了。我所遵循的指南说要更新RubyGems，所以我运行了以下命令： $ gem update --system 收到警告： Warning! `PATH` is not properly set up, '/Users/devon/.rvm/gems/ruby-2.0.0-p353/bin' is not at first place, usually this is caused by shell initialization files - check them for

浏览 1提问于2016-01-06得票数 4

2回答

Ubuntu 17.10 (GPU)上的火炬安装问题

、、

我想在我的计算机上使用PyTorch和它的GPU计算。我有一台运行Ubuntu 17.10的电脑。这台计算机(Alienware m17x)有两张显卡：集成英特尔科特迪瓦桥移动公司 A Nvidia Geforce 6.75亿。为了安装PyTorch，我遵循了PyTorch网站pytorch.org上的说明 1)我用deb文件安装了CUDA 9： => Linux/x86_64/Ubuntu/17.04/deb (local) 2)我使用conda命令行安装了火炬: conda安装cuda90 -c 这两个步骤都没有给我任何类型的错误。我重新启动了电脑。显然，这两

浏览 5提问于2018-01-16得票数 1

2回答

Open3D-ML和pytorch

、

我目前正在尝试使用open3d ML和Pytorch。我遵循了Open3D-ML github中给出的安装指南。但是，当我尝试导入open3d.ml.torch时，它会显示以下错误：Exception: Open3D was not built with PyTorch support! 我正在和 python 3.8 open3d 0.12.0 pytorch 1.6.0 cuda 10.1 Windows 10 你知道错误是从哪里来的吗？

浏览 11提问于2021-01-19得票数 0

1回答

OpenCv 2.4.8 VideoCapture上未处理的异常

、、

我使用这段代码，它只是将视频显示到一个框架中，但是当我执行这段代码时，就会得到这个未处理的异常。 #include <opencv/cv.h> #include <opencv/highgui.h> using namespace cv; int main() { Mat image; VideoCapture cap; cap.open(0); namedWindow("Window",1); while (1) { cap>>image; imshow("Window",image);

浏览 2提问于2014-03-31得票数 0