我正在尝试使用dask.distributed.SLURMCluster将批处理作业提交给超级计算集群上的SLURM作业调度程序。所有作业都按预期提交,但在运行1分钟后抛出错误:asyncio.exceptions.TimeoutError: Nanny failed to start in 60 seconds。我怎么才能让保姆联系上呢?
完整跟踪:
distributed.nanny - INFO - Start Nanny at: 'tcp://206.76.203.125:38324'
distributed.dashboard.proxy - INFO
一些版本,首先:
mac版本:
$ system_profiler SPSoftwareDataType
Software:
System Software Overview:
System Version: OS X 10.8.5 (12F45)
Kernel Version: Darwin 12.5.0
Boot Volume: Macintosh HD
Boot Mode: Normal
python:
$ python
Python 2.7.2 (default, Oct 11 2012, 20:14:37)
[GCC 4.2
一份对我非常有用的剧本在大约一周前就停止了。当我编译一个lambda函数时,问题就出现了,我后来用它来创建我的RDD。
考虑下面的守则:
class RDDUtils(object):
@staticmethod
def map_builder(*fields):
"""
Creates a compiled lambda function for use in spark keyBy using the specified field names
:param fields: The name of the fields to create t