Thanks for the help!<br><br><div class="gmail_quote">On Fri, Jun 29, 2012 at 12:22 PM, Robert Nishihara <span dir="ltr">&lt;<a href="mailto:robertnishihara@gmail.com" target="_blank">robertnishihara@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div>Ok, so numpy uses Intel&#39;s Math Kernel Library, which tries to automatically parallelize things, which, on a cluster, can cause problems for the scheduler.</div>
<div><br></div>Setting MLK_NUM_THREADS=1 on the engines appears to have completely fixed the problem. In my script, I did this with the line<div class="im"><div>
<br></div><div>    dview.execute(&quot;os.environ[&#39;MKL_NUM_THREADS&#39;]=&#39;1&#39;&quot;)</div><div><br></div></div><div>which stops the scheduler from suspending my jobs and also gives me a performance increase (presumably because the scheduler was unable to effectively handle the load).</div>
<span class="HOEnZb"><font color="#888888">
<div><br></div></font></span><div><span class="HOEnZb"><font color="#888888">-Robert </font></span><div><div class="h5"><br><br><div class="gmail_quote">On Fri, Jun 29, 2012 at 12:19 AM, Robert Nishihara <span dir="ltr">&lt;<a href="mailto:robertnishihara@gmail.com" target="_blank">robertnishihara@gmail.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I am using numpy all over the place, so I will investigate if that is the issue.<div><div><br>
<br><div class="gmail_quote">On Thu, Jun 28, 2012 at 8:19 PM, MinRK <span dir="ltr">&lt;<a href="mailto:benjaminrk@gmail.com" target="_blank">benjaminrk@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br><br><div class="gmail_quote"><div><div>On Thu, Jun 28, 2012 at 5:04 PM, Bago <span dir="ltr">&lt;<a href="mailto:mrbago@gmail.com" target="_blank">mrbago@gmail.com</a>&gt;</span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<br><br><div class="gmail_quote"><div>On Thu, Jun 28, 2012 at 3:28 PM, Robert Nishihara <span dir="ltr">&lt;<a href="mailto:robertnishihara@gmail.com" target="_blank">robertnishihara@gmail.com</a>&gt;</span> wrote:<br>

</div><div><div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I&#39;ve been trying to figure this out for a couple days now, and I&#39;m curious if anyone has seen a similar problem.<div><br></div><div>My setup is</div><div><br></div><div>    ipcontroller --profile=sge</div><div>    ipcluster engines -n 100 --profile=sge</div>






<div><br></div><div>My script uses map_sync with a direct view. After running my script for a couple minutes, the load on the compute nodes grows excessively high and the scheduler starts suspending jobs, so some of the engines get suspended. This causes my script to terminate with an error like the one below</div>






<div><br></div><div>    [Engine Exception]EngineError: Engine 1315 died while running task &#39;966abf73-3183-4db3-8cf2-96bd08c2312b&#39;</div><div><br></div><div>The engine is numbered 1315 because I sometimes restart the engines without restarting the controller.</div>






<div><br></div><div>Why would suspending an engine would cause my script to terminate instead of simply forcing it to wait?</div><div><br></div><div>Why might the load be so high? Each node has 32 cores. At most twenty engines are running on each node. Yet, sometimes several hundred processes are vying for space on a given node (and I&#39;m the only one using the cluster). Could it be the queuing of messages or something?</div>





</blockquote><div> </div></div></div><div>This is a bit of shot in the dark, but on our machines we need to set <span><em></em>MKL_NUM_THREADS</span>=1, otherwise some numpy functions (which I assume are calling MKL functions) try and use 16 threads. Is it possible some of your code, or some library you rely on, is mufti-threaded?<br>




</div></div></blockquote><div><br></div></div></div><div>The only library *IPython* uses that is multithreaded in zeromq, but that&#39;s only one additional thread.  If *you* are using numpy, then the MKL environment is relevant.</div>


<div>

<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="gmail_quote"><div>
<br></div><div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>_______________________________________________<br>
IPython-User mailing list<br>
<a href="mailto:IPython-User@scipy.org" target="_blank">IPython-User@scipy.org</a><br>
<a href="http://mail.scipy.org/mailman/listinfo/ipython-user" target="_blank">http://mail.scipy.org/mailman/listinfo/ipython-user</a><br>
<br></blockquote></div></div><br>
<br>_______________________________________________<br>
IPython-User mailing list<br>
<a href="mailto:IPython-User@scipy.org" target="_blank">IPython-User@scipy.org</a><br>
<a href="http://mail.scipy.org/mailman/listinfo/ipython-user" target="_blank">http://mail.scipy.org/mailman/listinfo/ipython-user</a><br>
<br></blockquote></div></div><br>
<br>_______________________________________________<br>
IPython-User mailing list<br>
<a href="mailto:IPython-User@scipy.org" target="_blank">IPython-User@scipy.org</a><br>
<a href="http://mail.scipy.org/mailman/listinfo/ipython-user" target="_blank">http://mail.scipy.org/mailman/listinfo/ipython-user</a><br>
<br></blockquote></div><br>
</div></div></blockquote></div><br></div></div></div>
</blockquote></div><br>