Archive for October 4th, 2013

loss function其实是个很奇怪的东西,只是概率模型和参数估计方法的最终表现。所以logistic regression的loss function那么奇怪——其实就是个伯努利分布下的最大似然估计。所以重点是概率模型的选取和参数估计的方法。

从概率模型到参数估计中间要先推出学习函数,这个也是个假设。有固定的方法,根据 1.exponential family 2.统计学习理论 3.函数假设空间。学习函数有了就剩下参数估计了,MLE, MAP 最终都化为优化问题。

generative学习算法,一般就不用学习函数来表达,直接从概率模型到参数估计。SVM连概率模型都没有。

所以给一个学习问题,先考虑有没有足够的knowledge做generative learning,没有就做discriminative或svm (也不全是酱紫)。做discriminative的时候先有概率模型假设,然后选函数假设空间,得到学习函数,最后做参数估计。要是ML不往深了搞,基本上知道用什么模型假设,知道怎么解优化问题就可以了。

所以人家说概率统计是内力,优化是轻功。ML只是招式。

有了这个认识就能从比较清楚的角度比较各种ML算法了。比如logistic regression和svm都是线性分类,有什么不同呢?可以比较3点:1. 概率模型 2. 学习函数的假设 3. 参数估计。先从前两点比较。logistic和svm在2上是一样的,都是线性分类。但是在1上logistic用了伯努利的假设得出的学习函数是非线性的,svm则直接是几何意义的线性函数。logistic似乎在1上更优雅,但svm成功了。它的成功在第3点,kernel使得feature可以在无限维上都能有快速的参数估计。

Read Full Post »