<html><head><base href="x-msg://58/"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><br><div><div>On Jun 30, 2011, at 10:03 AM, Sachin Kumar Sharma wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><span class="Apple-style-span" style="border-collapse: separate; font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div lang="EN-US" link="blue" vlink="purple"><div class="WordSection1" style="page: WordSection1; "><div style="margin-top: 0in; margin-right: 0in; margin-bottom: 0.0001pt; margin-left: 0in; font-size: 11pt; font-family: Calibri, sans-serif; ">Hi,<o:p></o:p></div><div style="margin-top: 0in; margin-right: 0in; margin-bottom: 0.0001pt; margin-left: 0in; font-size: 11pt; font-family: Calibri, sans-serif; "><o:p>&nbsp;</o:p></div><div style="margin-top: 0in; margin-right: 0in; margin-bottom: 0.0001pt; margin-left: 0in; font-size: 11pt; font-family: Calibri, sans-serif; ">I have three points 10800, 81100, 582000.<o:p></o:p></div><div style="margin-top: 0in; margin-right: 0in; margin-bottom: 0.0001pt; margin-left: 0in; font-size: 11pt; font-family: Calibri, sans-serif; "><o:p>&nbsp;</o:p></div><div style="margin-top: 0in; margin-right: 0in; margin-bottom: 0.0001pt; margin-left: 0in; font-size: 11pt; font-family: Calibri, sans-serif; ">What is the easiest way of fitting a log normal and truncated log normal distribution to these three points using numpy.<o:p></o:p></div></div></div></span></blockquote><br></div><div><div>The lognormal and maximum likelihood fit is available in scipy.stats.&nbsp;It's easier to use this than to implement your own fit in numpy, although if you can't use scipy for some reason you can have a look there on how to implement it in numpy.</div><div><br></div><div>The rest of this reply uses scipy.stats, so if you are only interested in numpy, please stop reading.</div><div><br></div><div>&gt;&gt;&gt; data = [10800, 81100, 582000]</div><div>&gt;&gt;&gt; import scipy.stats</div><div><div>&gt;&gt;&gt; print scipy.stats.lognorm.extradoc</div><div><br></div><div><br></div><div>Lognormal distribution</div><div><br></div><div>lognorm.pdf(x,s) = 1/(s*x*sqrt(2*pi)) * exp(-1/2*(log(x)/s)**2)</div><div>for x &gt; 0, s &gt; 0.</div><div><br></div><div>If log x is normally distributed with mean mu and variance sigma**2,</div><div>then x is log-normally distributed with shape paramter sigma and scale</div><div>parameter exp(mu).</div><div><div><br></div><div><br></div><div>&gt;&gt;&gt; scipy.stats.lognorm.fit(data) &nbsp;&nbsp;</div><div>/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/scipy/optimize/optimize.py:280: RuntimeWarning: invalid value encountered in subtract</div><div>&nbsp;&nbsp;and max(abs(fsim[0]-fsim[1:])) &lt;= ftol):</div><div>/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/scipy/optimize/optimize.py:280: RuntimeWarning: invalid value encountered in absolute</div><div>&nbsp;&nbsp;and max(abs(fsim[0]-fsim[1:])) &lt;= ftol):</div><div>(1.0, 30618.493505379971, 117675.94879488947)</div><div><div>&gt;&gt;&gt; scipy.stats.lognorm.fit(data, floc=0, fscale=1) &nbsp;&nbsp;</div><div>[11.405078125000022, 0, 1]</div></div></div></div><div><br></div><div>See&nbsp;<a href="http://docs.scipy.org/doc/scipy/reference/tutorial/stats.html">http://docs.scipy.org/doc/scipy/reference/tutorial/stats.html</a> for further info on how the location and scale parameter are handled, basically the x in the lognormal.pdf formula above is x = (x_actual - loc) / scale.</div><div><br></div><div>Now how to fit a truncated lognorm?</div><div>First note that because log(x) can only be computed for x&gt;0, scipy.stats.lognorm is already truncated to x &gt; 0.</div><div><br></div><div><div>&gt;&gt;&gt; scipy.stats.lognorm.cdf(0, 1) # arguments: (x, s)</div><div>0.0</div><div>&gt;&gt;&gt; scipy.stats.lognorm.cdf(1, 1) # arguments: (x, s)</div><div>0.5</div><div>&gt;&gt;&gt; scipy.stats.lognorm.cdf(2, 1) # arguments: (x, s)</div><div>0.75589140421441725</div></div><div><br></div><div><div>As documented here, you can use parameters a and b to set the support of the distribution (i.e. the lower and upper truncation points):</div><div>&gt;&gt;&gt; help(scipy.stats.rv_continuous)</div><div><div>&nbsp;| &nbsp;a : float, optional</div><div>&nbsp;| &nbsp; &nbsp; &nbsp;Lower bound of the support of the distribution, default is minus</div><div>&nbsp;| &nbsp; &nbsp; &nbsp;infinity.</div><div>&nbsp;| &nbsp;b : float, optional</div><div>&nbsp;| &nbsp; &nbsp; &nbsp;Upper bound of the support of the distribution, default is plus</div><div>&nbsp;| &nbsp; &nbsp; &nbsp;infinity.</div><div><br></div><div>However when I try to use the a, b parameters to call pdf() (as a simpler method than fit() to check if it works) &nbsp;I run into the following problem:</div></div></div><div><br></div><div><div>&gt;&gt;&gt; scipy.stats.lognorm.pdf(1, 1)</div><div>0.3989422804014327</div><div>&gt;&gt;&gt; scipy.stats.lognorm(a=1).pdf(1, 1)</div><div>Traceback (most recent call last):</div><div>&nbsp;&nbsp;File "&lt;stdin&gt;", line 1, in &lt;module&gt;</div><div>TypeError: pdf() takes exactly 2 arguments (3 given)</div><div>&gt;&gt;&gt; scipy.stats.lognorm(a=1).pdf(1)</div><div>Traceback (most recent call last):</div><div>&nbsp;&nbsp;File "&lt;stdin&gt;", line 1, in &lt;module&gt;</div><div>&nbsp;&nbsp;File "/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/scipy/stats/distributions.py", line 335, in pdf</div><div>&nbsp;&nbsp; &nbsp;return self.dist.pdf(x, *self.args, **self.kwds)</div><div>&nbsp;&nbsp;File "/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/scipy/stats/distributions.py", line 1113, in pdf</div><div>&nbsp;&nbsp; &nbsp;place(output,cond,self._pdf(*goodargs) / scale)</div><div>TypeError: _pdf() takes exactly 3 arguments (2 given)</div><div><br></div><div>For a distribution without parameters besides (loc, scale), setting a works:</div><div><div>&gt;&gt;&gt; scipy.stats.norm(a=-2).pdf(3)</div><div>0.0044318484119380075</div></div><div><br></div><div>Is this a bug or am I simply using it wrong?</div><div>It would be nice if&nbsp;<a href="http://docs.scipy.org/doc/scipy/reference/tutorial/stats.html">http://docs.scipy.org/doc/scipy/reference/tutorial/stats.html</a> contained an example or two of how to use the a, b, xa, xb, xtol parameters of scipy.stats.rv_continuous .</div><div><br></div></div></div>Christoph</body></html>