Archive for the ‘life’ Category

在荷兰的第二个春天

荷兰的春天来了那么几天时间以后又藏起来了。骚过一段时间以后我也藏起来了。

三月初的时候重新回到公司但是不同的组,谁能想到事情正在其变化呢。姑娘看起来挺有意思,第一次见六姑娘的时候心里留下了这个印象。后来组里中国人民一起去吃饭的时候才算认识。再后来就是强行把六姑娘拉到我们饭友圈里,一起吃饭吃完饭一群人坐着update自己大小事和别人的八卦。六姑娘看起来还挺乐意的,但是不太爱讲自个的事儿。感觉越来越好的时候我就行动了,每天打着各种一看就是幌子的幌子往姑娘那儿送东西。六姑娘最终受不了,在我最后一次强塞给她豆浆之后直接把我的保温杯没收了。连带送给我一个评语,“你这个人啊,又敏感又计较”。原因是因为那天饭后一顿聊之后姑娘讲说对我的事情没兴趣。我就打着试探的态度问说我好感还没表达完你就给我打枪了,于是收到了这样一句评语。我心想啊,敏感和计较,对我都是从来都没有过的高评价,欣然接受了。下一周的时候继续各种理由送东西。六姑娘很无奈,连推我几次不同理由的邀约。我心想按照平时使劲互黑的节奏姑娘出来吃个饭打个球不应该拒绝得那么干脆呀。但是拒绝就是拒绝,谁的脾气都没那么好摸,慢慢只能把自己按住了。到现在事情一多,虽然还是照常黑,主动挑起来的互动就少了很多。

跟哥聊天的时候哥开我玩笑说我骚,我想想确实是。2013年的春天我骚了一把,用几句梨花体记录下来:
一个叫六姑娘的姑娘,
闷闷的很可爱,
脾气摸不准,
可黑我黑得很来劲,
可惜没我来劲。

哦我想重新学习音乐了,学习乐器写词编曲,这么蹩脚的文字要是能改改唱成歌儿多好。

把话写在这儿,还是期盼你能看到。
我喜欢你,非常非常喜欢你。
有多喜欢呢?就是能在脑海里看到你清晰的笑脸,
和脸上转动的眼珠,笑起来挤得圆圆的脸颊。
但是喜欢又能怎么样呢?
喜欢不一定懂,懂了又一定合适吗。。
认识你的心情就跟看到漂亮的夜空时候一样开心,
我想懂你的时候也有这样的心情,
也想你了解我以后给我仍旧是那印象里的笑脸。
还有还有……
我只是抱着最美好的愿望,等待你…

Advertisements

Read Full Post »

实习两个月记

第一个月—————
做事情的感觉也不错。不断有新想法一致驱动着。
今天总算给新方法的试用做了个总结。结论是近乎没用的。但是被inspire出一些新的想法,证明是promising的。总算没有浪费这一个月。
其实也不会浪费,因为新认识了个姑娘。可惜留下的人品印象太差,相互吐槽太多。试着改变改变形象看看。。
第二个月—————
感慨下spline真是去噪的利器。
新feature效果不错,可惜不够generic,没有研究上的价值。想问题还是要往本质了去想。time series有啥呢?人家用MDL来搞,搞出个intrinsic dimension来,拿来一用,效果还挺好。但是不靠谱啊,而且MDL被使用得很ugly。名头好,没办法。不过信息论真是有大用处。接下去再整整。

time series 比起 sequence 要精细很多。就好像数学和计算机科学的差别。理论上很完美的东西到了计算上就变得很困难,能不能算,算多快,各种限制。sequence很多时候都只能用heuristic的方法,mine出来的pattern能不能用,效果多好很难保证。一旦把time series转换成sequence以后用信息论的方法做,弄出来的东西比直接用简单的在time series上搞可能就差了很多。

Read Full Post »

休息够了写两句

马上要开始硕士最后半年的毕业设计了。无所事事了近一个月,感觉要学的东西仍旧很多,但是什么都不想学,当做放松一下吧。扯两句。
硕士阶段读基础看理论到实际参与研究中都学到了不少东西,总算能够跟上最新的文章。但是发现公司的事情又大不相同。是偏应用的一个项目,之前的工作放着最好的模型不用用那么老的线性判别方法。但是每一步都做得很细,花几周把feature可视化一下,找一个feature能发一篇文章。理论这个东西,idea最重要,做实验能够验证就行。实际项目中,不会去寻找great idea,步步为营更重要。目标不一样,哲学不一样。
好的情况是,数据挖掘大概是少有的dist(理论,实际)特别小的一个领域。比如很多kdd的文章是解决新问题的,motivation经常直接是一个特殊的实际问题。即使很多不是这样,往往一个新的算法都要有real world dataset的实验结果支持。我们曾做过对jmlr数据集的分析,显示real world这个两个词是这些文章最representative的patterns之一。

补充:
实习快结束了,对项目与科研有了些新的思考。原先的想法太simple。真实且高质量的数据真的是非常非常重要的,而这也是学术界所缺失的。这是工业界的优势所在,即拥有大量real world的数据集。在这个基础上从feature extraction到各种normalization,smoothing,然后selection最后分类,一步一步要做出可信的成果都是很费时间的。虽然费时,但是可靠。学术界的人往往没这么大的耐心,导致的结果就是近乎所有顶尖数据挖掘会议的文章的实验部分不管怎么claim是extensive的,其bias都是值得怀疑的。
工业界搞方法还是不大行的,得靠搞学术的那帮人。很多实际项目中能够想到的问题,学术界的人基本都搞过,而且搞得很深,这是工业界不如学术界的地方。搞学术的人,长时间在理论上的训练能够产出非常有影响力的成果。但是怎么搞,不能靠空想。有种说法说做研究要顶天立地。天就是理论,地就是实践。从理论到实践都有突破才是一个有价值的研究。假设你有了长时间的实践,发现问题的时候就能变得有底气,做方法的时候考虑得也会更实际。当然也有另外一种更直接的方法就是紧跟最新成果,但是如前所述所有成果都是有bias的。所以好的成果必须是对实际问题有深刻的洞察力,同时有雄厚的理论积累足以用来解决这些问题。

Read Full Post »

听说要世界末日了

现在和家里人视频能让我感到心安。不过跟世界末日没有任何关系。2012来了又结束了。照例写点小结。

这一年把统计和优化的基础打完了,也重新把分析回顾了一下。统计推断本身似乎没什么魅力。说statistically significant 的时候,常常就意味着没别的significance 好说了。probability相比倒显得意义更大点,至少可以拿来作理论证明用。统计学习这一块,对我仍旧魅力非凡。路漫漫其修远兮。优化学了主干知识,知道了duality会推导kkt条件。为了学这东西还专门选了门课没花多少时间就拿了个10分,工科数学之水可见一斑。但我知道离得心应手地使用还差得很远,相比统计,优化需要更完备的数学积累。

2012比较意外的就是接触到信息论的东西。图灵百年演讲里听到ziv把信息论是和计算机科学相提并论时候被吓了一跳。后来知道MDL在数据挖掘领域现在大概算如日中天了。从entropy到Kolmogorov复杂度:一方面为DM/ML提供了理论基础,就是现在将各种模型都可以纳入的MDL框架;另一方面为计算机科学作了补充,即和计算复杂度共同成为描述程序的两个维度。找最小的MDL的模型常常是NP问题,如何在限制描述复杂度的情况下减小计算复杂度,或者反过来在限制计算复杂度的情况下减小描述复杂度,是非常好的研究问题。

慢慢对潮流有了抵抗力。deep learning, markov logic network,学术界的人就喜欢玩各种概念。再比如social network,这两年kdd上火得一塌糊涂,新问题层出不穷,要克制住真的不容易。从模式挖掘的这一块看就是把以往的item,itemset,推到sequential, 再推到tree和graph。知道来龙去脉了,也就不觉得神秘了。很多概念出现了,火过了,就死了。有些还活着,但是不能再搞了。记得4年前我刚接触分类聚类那会儿,听着多潮啊。有种再回首已是百年身的感觉。

这段时间对继续读博士的热情有了怀疑。路要走得好,光靠自己还是不行。机遇和环境缺一不可。不管怎样,先这样着。今年还是很好地完成了自己年初的设想。明年,把手头的经典读完再把coding能力好好磨一下。

Read Full Post »

说说话

大学以前的时候,学习和向上是重点,除了调侃扯淡不会说其他的话。属于不会说话。大学以后想这想那看这看那,会有时说些有道理的话,却说不出我自己的话。再后面以为生活就是那样了,说的话越来越不像话。慢慢失声了无语了。到现在经常说服不了自己,不说话不行了,对自己交代不过去了。于是再捡起来这一个字一个词,学着发出自己的声音。

Read Full Post »