hi brian,<br><br>i ran into a problem (my engines were not starting) and justin and i are going to try and figure out what&#39;s causing it.<br><br clear="all">cheers,<br><br>satra<br>
<br><br><div class="gmail_quote">On Tue, Jul 20, 2010 at 3:19 PM, Brian Granger <span dir="ltr">&lt;<a href="mailto:ellisonbg@gmail.com">ellisonbg@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Satra,<br>
<br>
If you could test this as well, that would be great.  Thanks.  Justin,<br>
let us know when you think it is ready to go with the documentation<br>
and testing.<br>
<br>
Cheers,<br>
<font color="#888888"><br>
Brian<br>
</font><div><div></div><div class="h5"><br>
On Tue, Jul 20, 2010 at 7:48 AM, Justin Riley &lt;<a href="mailto:justin.t.riley@gmail.com">justin.t.riley@gmail.com</a>&gt; wrote:<br>
&gt; On 07/19/2010 01:06 AM, Brian Granger wrote:<br>
&gt;&gt; * I like the design of the BatchEngineSet.  This will be easy to port to<br>
&gt;&gt;   0.11.<br>
&gt; Excellent :D<br>
&gt;<br>
&gt;&gt; * I think if we are going to have default submission templates, we need to<br>
&gt;&gt;   expose the queue name to the command line.  This shouldn&#39;t be too tough.<br>
&gt;<br>
&gt; Added --queue option to my 0.10.1-sge branch and tested this with SGE<br>
&gt; 62u3 and Torque 2.4.6. I don&#39;t have LSF to test but I added in the code<br>
&gt; that *should* work with LSF.<br>
&gt;<br>
&gt;&gt; * Have you tested this with Python 2.6.  I saw that you mentioned that<br>
&gt;&gt;   the engines were shutting down cleanly now.  What did you do to fix that?<br>
&gt;&gt;   I am even running into that in 0.11 so any info you can provide would<br>
&gt;&gt;   be helpful.<br>
&gt;<br>
&gt; I&#39;ve been testing the code with Python 2.6. I didn&#39;t do anything special<br>
&gt; other than switch the BatchEngineSet to using job arrays (ie a single<br>
&gt; qsub command instead of N qsubs). Now when I run &quot;ipcluster sge -n 4&quot;<br>
&gt; the controller starts and the engines are launched and at that point the<br>
&gt; ipcluster session is running indefinitely. If I then ctrl-c the<br>
&gt; ipcluster session it catches the signal and calls kill() which<br>
&gt; terminates the engines by canceling the job. Is this the same situation<br>
&gt; you&#39;re trying to get working?<br>
&gt;<br>
&gt;&gt; * For now, let&#39;s stick with the assumption of a shared $HOME for the furl files.<br>
&gt;&gt; * The biggest thing is if people can test this thoroughly.  I don&#39;t have<br>
&gt;&gt;   SGE/PBS/LSF access right now, so it is a bit difficult for me to help. I<br>
&gt;&gt;   have a cluster coming later in the summer, but it is not here yet.  Once<br>
&gt;&gt;   people have tested it well and are satisfied with it, let&#39;s merge it.<br>
&gt;&gt; * If we can update the documentation about how the PBS/SGE support works<br>
&gt;&gt;   that would be great.  The file is here:<br>
&gt;<br>
&gt; That sounds fine to me. I&#39;m testing this stuff on my workstation&#39;s local<br>
&gt; sge/torque queues and it works fine. I&#39;ll also test this with<br>
&gt; StarCluster and make sure it works on a real cluster. If someone else<br>
&gt; can test using LSF on a real cluster (with shared $HOME) that&#39;d be<br>
&gt; great. I&#39;ll try to update the docs some time this week.<br>
&gt;<br>
&gt;&gt;<br>
&gt;&gt; Once these small changes have been made and everyone has tested, me<br>
&gt;&gt; can merge it for the 0.10.1 release.<br>
&gt; Excellent :D<br>
&gt;<br>
&gt;&gt; Thanks for doing this work Justin and Satra!  It is fantastic!  Just<br>
&gt;&gt; so you all know where this is going in 0.11:<br>
&gt;&gt;<br>
&gt;&gt; * We are going to get rid of using Twisted in ipcluster.  This means we have<br>
&gt;&gt;   to re-write the process management stuff to use things like popen.<br>
&gt;&gt; * We have a new configuration system in 0.11.  This allows users to maintain<br>
&gt;&gt;   cluster profiles that are a set of configuration files for a particular<br>
&gt;&gt;   cluster setup.  This makes it easy for a user to have multiple clusters<br>
&gt;&gt;   configured, which they can then start by name.  The logging, security, etc.<br>
&gt;&gt;   is also different for each cluster profile.<br>
&gt;&gt; * It will be quite a bit of work to get everything working in 0.11, so I am<br>
&gt;&gt;   glad we are getting good PBS/SGE support in 0.10.1.<br>
&gt;<br>
&gt; I&#39;m willing to help out with the PBS/SGE/LSF portion of ipcluster in<br>
&gt; 0.11, I guess just let me know when is appropriate to start hacking.<br>
&gt;<br>
&gt; Thanks!<br>
&gt;<br>
&gt; ~Justin<br>
&gt;<br>
<br>
<br>
<br>
</div></div>--<br>
<div><div></div><div class="h5">Brian E. Granger, Ph.D.<br>
Assistant Professor of Physics<br>
Cal Poly State University, San Luis Obispo<br>
<a href="mailto:bgranger@calpoly.edu">bgranger@calpoly.edu</a><br>
<a href="mailto:ellisonbg@gmail.com">ellisonbg@gmail.com</a><br>
</div></div></blockquote></div><br>