<br><br><div class="gmail_quote">On Wed, Oct 12, 2011 at 5:12 AM, Conrad Lee <span dir="ltr">&lt;<a href="mailto:conradlee@gmail.com">conradlee@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)">A mathematician at Stanford named Daniel Müllner recently came up with a package that implements the hierarchical clustering methods found in scipy.cluster.hierarchy.  His implementation is in C++, but includes a python API that uses the same interface as scipy.cluster.hierarchy.</span></div>





<div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)"><br></span></div><div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)">Müllner has posted benchmarks as well as algorithmic explanations of why his implementation is faster in <a href="http://arxiv.org/abs/1109.2378" target="_blank">a paper on arXiv</a>.  He also has a webpage that describes the package <a href="http://math.stanford.edu/%7Emuellner/fastcluster.html" target="_blank">here</a>.</span></div>





<div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)"><br></span></div><div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)">Because the results of the benchmarks look good, I am interested in getting the scikit-learn package to use this implementation for the hierarchical clustering provided by that package.  Rather than integrate the code in scikit-learn, it seems more appropriate to integrate it upstream in scipy.cluster.hierarchy.  Is there anyone who is interested in this integration?  I am inexperienced with integrating C++ code and python code, and also with how things work in the scipy project, so I&#39;m not sure how to proceed.</span></div>





<div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)"><br></span></div><div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)">Note: Although </span><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)">Müllner&#39;s code is currently under a GPL license, he has stated to me in e-mail that he would be willing to put it under the BSD-2 license it somebody put the time to integrate it into scipy.</span></div>





<div><span style="font-family:sans-serif;background-color:rgb(255, 255, 255)"><br></span></div></blockquote><div><br>Not my area, but I think it is a good thing to encourage such contributions. If the new code preserves the interface, comes with tests and documentation, and performs better, then I am all in favor of getting it in. I believe there is already a fair amount of c++ in scipy, so that shouldn&#39;t be a problem and there are probably folks who can give you advice on how to proceed.<br>
<br>Chuck<br></div></div>