Archive for March, 2013

休息够了写两句

马上要开始硕士最后半年的毕业设计了。无所事事了近一个月,感觉要学的东西仍旧很多,但是什么都不想学,当做放松一下吧。扯两句。
硕士阶段读基础看理论到实际参与研究中都学到了不少东西,总算能够跟上最新的文章。但是发现公司的事情又大不相同。是偏应用的一个项目,之前的工作放着最好的模型不用用那么老的线性判别方法。但是每一步都做得很细,花几周把feature可视化一下,找一个feature能发一篇文章。理论这个东西,idea最重要,做实验能够验证就行。实际项目中,不会去寻找great idea,步步为营更重要。目标不一样,哲学不一样。
好的情况是,数据挖掘大概是少有的dist(理论,实际)特别小的一个领域。比如很多kdd的文章是解决新问题的,motivation经常直接是一个特殊的实际问题。即使很多不是这样,往往一个新的算法都要有real world dataset的实验结果支持。我们曾做过对jmlr数据集的分析,显示real world这个两个词是这些文章最representative的patterns之一。

补充:
实习快结束了,对项目与科研有了些新的思考。原先的想法太simple。真实且高质量的数据真的是非常非常重要的,而这也是学术界所缺失的。这是工业界的优势所在,即拥有大量real world的数据集。在这个基础上从feature extraction到各种normalization,smoothing,然后selection最后分类,一步一步要做出可信的成果都是很费时间的。虽然费时,但是可靠。学术界的人往往没这么大的耐心,导致的结果就是近乎所有顶尖数据挖掘会议的文章的实验部分不管怎么claim是extensive的,其bias都是值得怀疑的。
工业界搞方法还是不大行的,得靠搞学术的那帮人。很多实际项目中能够想到的问题,学术界的人基本都搞过,而且搞得很深,这是工业界不如学术界的地方。搞学术的人,长时间在理论上的训练能够产出非常有影响力的成果。但是怎么搞,不能靠空想。有种说法说做研究要顶天立地。天就是理论,地就是实践。从理论到实践都有突破才是一个有价值的研究。假设你有了长时间的实践,发现问题的时候就能变得有底气,做方法的时候考虑得也会更实际。当然也有另外一种更直接的方法就是紧跟最新成果,但是如前所述所有成果都是有bias的。所以好的成果必须是对实际问题有深刻的洞察力,同时有雄厚的理论积累足以用来解决这些问题。

Advertisements

Read Full Post »