04 | October | 2013 | yangjiera's field

Archive for October 4th, 2013

读Andrew Ng handout有感

Posted in Machine Learning on October 4, 2013| Leave a Comment »

loss function其实是个很奇怪的东西，只是概率模型和参数估计方法的最终表现。所以logistic regression的loss function那么奇怪——其实就是个伯努利分布下的最大似然估计。所以重点是概率模型的选取和参数估计的方法。

从概率模型到参数估计中间要先推出学习函数，这个也是个假设。有固定的方法，根据 1.exponential family 2.统计学习理论 3.函数假设空间。学习函数有了就剩下参数估计了，MLE, MAP 最终都化为优化问题。

generative学习算法，一般就不用学习函数来表达，直接从概率模型到参数估计。SVM连概率模型都没有。

所以给一个学习问题，先考虑有没有足够的knowledge做generative learning，没有就做discriminative或svm (也不全是酱紫)。做discriminative的时候先有概率模型假设，然后选函数假设空间，得到学习函数，最后做参数估计。要是ML不往深了搞，基本上知道用什么模型假设，知道怎么解优化问题就可以了。

所以人家说概率统计是内力，优化是轻功。ML只是招式。

有了这个认识就能从比较清楚的角度比较各种ML算法了。比如logistic regression和svm都是线性分类，有什么不同呢？可以比较3点：1. 概率模型 2. 学习函数的假设 3. 参数估计。先从前两点比较。logistic和svm在2上是一样的，都是线性分类。但是在1上logistic用了伯努利的假设得出的学习函数是非线性的，svm则直接是几何意义的线性函数。logistic似乎在1上更优雅，但svm成功了。它的成功在第3点，kernel使得feature可以在无限维上都能有快速的参数估计。

Read Full Post »

M	T	W	T	F	S	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

yangjiera's field

宁静致远

Archive for October 4th, 2013

读Andrew Ng handout有感

Recent Posts

Categories

Archives