这将是我最后一篇消极的博文,从今天开始,努力生活。

2012年,跳过,重来 02月05日

2012年,跳过,重来

梦想很圆满,现实很骨感 01月23日

也许梦

梦醒了,现实终究会到来

梦想很圆满,现实很骨感

simhash算法的原理 01月06日

第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相等的信息外,还能额外提供不相等的原始内容的差异程度的信息。

因此当我知道google的simhash算法产生的签名,可以用来比较原始内容的相似度时,便很想了解这种神奇的算法的原理。出人意料,这个算法并不深奥,其思想是非常清澈美妙的。 (更多…)

网页查重算法Shingling和Simhash研究 01月06日

据统计,互联网上的重复网页约占 30%~45%。这其中有由于镜像转载引起的内容完全相同的网页,也有仅存在微小差别的网页,比如广告,计数器,时间戳等不同,而这些差别是和搜索的内容 无关的。根据中国互联网络信息中心2005年7月发布的统计报告显示,用户在回答“检索信息时遇到的最大问题”这一提问时,选择“重复信息太多”选项的占 44.6%,排名第1位[1]。将相似的网页消除,可以节省网络带宽,减少占用的存储空间,提高索引的质量,即提高查询服务的效率和质量,同时减轻网页所 在远程服务器的负担。在网页查重算法中shingling和simhash被认为是当前最好的两个算法。 (更多…)

鹰的重生 11月19日

change 2012

change my self

鹰是寿命最长的鸟类,它可以奇迹般的活到70岁,超过这世界上绝大多数的动物。然而,有一部分的鹰却在40岁的时候就会死亡,只有大约3成可以活到70高龄,这是为什么呢?

原来,当一只鹰活到40岁左右,它的喙会变得弯曲、脆弱,不能一击而制服猎物;它的爪子会因为常年捕食而变钝,不能抓起奔跑的兔子;双翅的羽毛也会粗大沉重,不再能够自由飞翔。这个时候,鹰有两个选择:一是回到巢穴,静静等死,一是通过150天的漫长煎熬,获得重生。

如果一只鹰选择了重生,那么它必须艰难的飞到山崖顶端,在那里筑巢。然后,它要忍着饥饿和疼痛,在岩石上日复一日的敲打它的喙,直到脱落。等到新的喙长出来,老鹰必须更为决绝的用新喙将磨钝的爪子一个个拔出,直到长出新的、锋利的爪子。在这两件工作完成后,老鹰还要把那些粗壮而沉重的羽毛从翅膀上一根根拔掉,好让新的羽毛长出来。当这150天痛苦的历程过去,老鹰可以重又获得30年的新生,再次翱翔在天空。 (更多…)

bloom filter的开源实现程序memcached bloom filter 11月06日

bloom filter是我目前看到的最经典的算法之一,用非常低的错误率换取非常高的时间、空间的效率,在各种海量数据场景或者需要快速判断的场景中都得到了大量的使用,但是,在国内的互联网,至少公开的研究中,还很少有人把这个当成一个课题来研究,也没有一个系统级别的开源的实现。

mc_bloom_filter 是用memcached的协议来封装的bloom filter的操作,牺牲了一些bloom filter的特性,来成全所有的语言能使用这一高效的工具,这是这个项目开发的目标。 (更多…)

当我们老了 11月06日

一直很想知道当我们老了的时候,我们是否会因为年轻的时候的一些选择后悔,后悔没有选择其他的路,如果当时选择另外一条路,或许将是不一样的人生。

想起大学的时候激励宿舍哥们的一句话:只要一直努力,即使方向不对,以后也不会后悔。我们后悔,是为了以前的碌碌无为而愤怒,为以前没有理解师长们的教导而叹息,但是绝对不是,为父母不是官二代、富二代而后悔投胎投错了。

当我们老了,孙子坐在我们身边的时候,让我们将故事的时候,我们还能像我们的爷爷那样,讲出以前奋斗的历史么?或许,我们会告诉我们的孙子,你爷爷,坐在电脑前大半辈子,现在快累了,要躺下了。

按照乔布斯的年龄,我们的生命已经过去了一半,但是,我们能讲出的故事,仅仅是:我奋斗了十八年,才能和你坐在一起喝咖啡,这个时候的咖啡,我还只知道辛巴克,不知道costa。

回想起自己过去的一半生命,谈不上壮阔的历史,突然总结,发现自己是一个千年老二,从小学到中学、中学到大学、大学到工作,我总是在一个和顶尖团体边缘的一个团体。

我很努力,但是很少有人知道,我是那样一个不喜欢张扬的人,那样坚定地、默默地做着自己认为正确的事情。但是这个社会节奏是在是太快了,以至于你不告诉别人你NB,整个世界都认为你是SB。

一直都想把我的博客做成我的技术博客,和我的人生无关,但是,终究想了一下,写这个博客是为了让我更多地思考,或许当我们老了的时候,我们都懒得看年轻的时候那些所谓的技术崇拜的文章了。

Facebook工程师的MemSQL体验 06月19日

Facebook工程师的MemSQL体验

大早起来,发现微博上全是这个牛逼哄哄的软件的介绍, @刘江CE : 前Facebook工程师创办的MemSQL [...]

今天把博客迁移到了香港 06月18日

很久不写博客了,前段时间把美国的vps上的博客迁移到了新浪sae,本以为sae能解决很多学校没法访问的问题,没想到sae的海外绑定域名一样的坑爹,经常莫名其妙的出现502 nginx错误,官方说,谨慎使用sae的海外绑定域名。

在中国,做个网站真累啊,还得把服务器弄到大洋彼岸去、或者像google一样到海边的某个角落去。

我就淡定地跟随google去了香港,香港的速度挺快的,不知道为啥,静态图片飞快,但是博客的页面速度真的好慢。

 

第 2 页,共 12 页12345...10...最旧 »