Hi everyone, <div><br></div><div>I am using ipcluster (from a rather recent github master) to run some resampling/bootstrapping analysis of a rather large MRI dataset. For now, I am running this locally on an eight core machine (on Fedora). I start by calling ipcluster start. Everything fires up OK (&quot;Engines appear to have started successfully&quot;) and things seem to be going fine. </div>





<div><br></div><div>To do the calculations I call something like the following sequence: </div><div><br></div><div>rc = p.Client()</div><div>rc[:].execute(&#39;import numpy as np&#39;)</div><div>... # A few more imports of my own analysis modules</div>





<div><br></div><div>dview = rc[:]</div><div> </div><div>kappa = []</div><div><br></div><div>for i in n: # n= [8,16,32,64,128] </div><div>    kappa.append(calc_boot(booter, data, n, params, dview))</div><div><br></div><div>



Where n  is a resampling parameter and the function calc_boot is a wrapper to the computation. which does some allocation of variables and reorganization of the outputs and includes the line: </div><div><br></div><div>... </div>



<div><br></div><div>this_kappa = np.zeros(kappa_size) </div><div>m = 0</div><div>while m&lt;B: # B is one of the parameters, how many boot-samples to run</div><div>    this = dview.apply_async(booter, data, n, params).get() </div>



<div>    this_kappa += this</div><div>    m += len(this)</div>

<div>...</div><div><br></div><div>this_kappa/=m</div><div>return this_kappa</div><div><br></div><div>And booter is the function that does some fitting on the data and calculates the specific variable kappa, which then gets averaged into the return variable this_kappa etc. That&#39;s the lengthy computation itself on the data. This seems to work great (and fast!), for a while. Monitoring my system, I can see that all eight cpus are running at full throttle. Then, after about half an hour of running, I get a message that IPython cluster is stopping the engines. Once that happens, everything grinds to a halt. </div>





<div><br></div><div>I don&#39;t know if this is relevant, but I noticed that while I was running my analysis, memory sky-rockets, even though kappa is not such a huge variable and is only a derived measure from the data. When the IP cluster stops, memory usage goes back down as well. </div>



<div><br></div><div>Any ideas on how to keep my cluster going? </div><div><br></div><div>Thanks! </div><div><br></div><div>Ariel </div><div><br></div><div><br></div>