Matthieu,<br><br>Can you do the following test:<br><br>headnode&gt; ipcontroller<br><br># Then copy the engines furl file to the compute node and do in a separate terminal:<br><br>computenode&gt; ipengine --furl-file=[path to the furl file]<br>
<br>If that doesn&#39;t work, it is either:<br><br>* IP address related issue.  Play with ifconfig and ipcontroller --engine-ip<br>* Firewall.  But you said this wasn&#39;t an issue.<br><br>Hope this helps.<br><br>Cheers,<br>
<br>Brian<br><br><div class="gmail_quote">On Wed, Aug 12, 2009 at 8:06 AM, Matthieu Brucher <span dir="ltr">&lt;<a href="mailto:matthieu.brucher@gmail.com">matthieu.brucher@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="im">&gt; * Firewall.  If a fire wall is blocking the engine from connecting to the<br>
&gt; controller you will see this type of error.  A fire wall like this would be<br>
&gt; unusual though (I have never seen one before).  To test this, start the<br>
&gt; controller on the head node, ssh to a compute node and then just telnet (it<br>
&gt; will fail) to the controller.  But you should see the connection start to<br>
&gt; happen.  You could also run ipengine by hand on the compute node.<br>
<br>
</div>No worries on this side. We do a lot of client/server stuff, it did<br>
work with telnet.<br>
<div class="im"><br>
&gt; * If the controller hasn&#39;t been started or failed to start, you would also<br>
&gt; see this.  Look at the controller logs to see if this is going on.<br>
<br>
</div>It seems the controller was launched (and as I can telnet it, I think<br>
it is online?):<br>
<br>
2009-08-12 16:59:52+0200 [-] Log opened.<br>
2009-08-12 16:59:52+0200 [-] Process [&#39;ipcontroller&#39;,<br>
<div class="im">&#39;--logfile=/users/brucher/.ipython/log/ipcontroller&#39;] has started with<br>
</div>pid=5001<br>
2009-08-12 16:59:52+0200 [-] Waiting for controller to finish starting...<br>
2009-08-12 16:59:55+0200 [-] Controller started<br>
2009-08-12 16:59:55+0200 [-] Using template for batch script: lsf.template<br>
2009-08-12 16:59:55+0200 [-] Writing instantiated batch script: lsf.template-run<br>
2009-08-12 16:59:55+0200 [-] Job started with job id: &#39;6166&#39;<br>
<div class="im"><br>
&gt; * If there is NAT (network address translation) on the cluster.  This is<br>
&gt; pretty common. Typically this would be that the head node has multiple<br>
&gt; network interfaces, one for the outside world and one for talking to the<br>
&gt; compute nodes.  In this case, you will need to use ifconfig to hunt down the<br>
&gt; right ip address.  Then you will need to use the --engine-ip flag to<br>
&gt; ipcontroller to set the ip address that the engines will connect to.  The<br>
&gt; engines get this from the furl file that the controller writes.<br>
<br>
</div>I don&#39;t think there is something like that here. I can connect to the<br>
LSF nodes with ssh and then telnet the controller: it works with the<br>
IP address indicated in the furl.<br>
<div class="im"><br>
&gt; I am betting that the 2nd or 3rd of these is going on.  Keep us posted as<br>
&gt; these things can be pretty tough to debug because of how some clusters are<br>
&gt; setup.  But, take heart, I have never encountered a system that we could get<br>
&gt; working - and this includes some pretty crazy systems.<br>
<br>
</div>I suppose you meant the contrary ;)<br>
I still have hope to get it working in the near future :D<br>
<br>
At least, I have also the LSF logs, but they do not show a thing, as<br>
everything is output in the ipengine logs.<br>
<br>
Cheers,<br>
<div><div></div><div class="h5"><br>
Matthieu<br>
--<br>
Information System Engineer, Ph.D.<br>
Website: <a href="http://matthieu-brucher.developpez.com/" target="_blank">http://matthieu-brucher.developpez.com/</a><br>
Blogs: <a href="http://matt.eifelle.com" target="_blank">http://matt.eifelle.com</a> and <a href="http://blog.developpez.com/?blog=92" target="_blank">http://blog.developpez.com/?blog=92</a><br>
LinkedIn: <a href="http://www.linkedin.com/in/matthieubrucher" target="_blank">http://www.linkedin.com/in/matthieubrucher</a><br>
</div></div></blockquote></div><br>