何跃的博客 | 专注于互联网、移动互联网技术的研究

今天貌似是我的农历生日 08月04日

妈妈打电话告诉我的，哎，又过生日了…

没打算过，因为公历的生日已经过了，下午，照旧去旁边的咖啡馆，写个总结去。

分类：漂在北京
标签：
评论：6 条
浏览：7502
阅读全文

新型序列化类库MessagePack，比JSON更快、更小的格式 07月26日

MessagePack 是个什么东东？先来看一段官方的解释： MessagePack is an effici [...]

分类：LAMP Linux C开发互联网技术未分类
标签： json, MessagePack, msgpack, protocol buffers, 数据压缩
评论：66 条
浏览：65388
阅读全文

站在技术角度说说国内的云计算 07月21日

云计算和大数据，两个高端大气上档次的词语，在如今这个浮躁的互联网、移动互联网社会，如果一个项目不接上这两个词， [...]

分类：LAMP 互联网技术
标签： bae, sae, ucloud, 七牛云, 云计算, 又拍云, 百度云, 盛大云, 阿里云
评论：14 条
浏览：12688
阅读全文

在新浪正式工作三年了 07月16日

先写一笔：2013年07月16日，不敢回家，在公司里面呆着，等所有人都离开的时候，自己开始写下这些文字。正式 [...]

分类：未分类漂在北京
标签：工作, 总结, 新浪
评论：37 条
浏览：14137
阅读全文

本周改一版wordpress的主题 06月19日

写了这么多年的博客，一直都在换着wordpress的主题、插件，导致文章可读性实在太差，决定，自己写一版wordpress的主题。

按照平常人说的两个词：大气、实用，设计按照扁平化的方式来处理。

分类：漂在北京
标签：
评论：10 条
浏览：6579
阅读全文

评论：4 条

这将是我最后一篇消极的博文，从今天开始，努力生活。

梦想很圆满，现实很骨感 01月23日

也许梦

梦醒了，现实终究会到来

梦想很圆满，现实很骨感

分类：未分类
标签：
评论：6 条
浏览：3836
阅读全文

第一次听说google的simhash算法[1]时，我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。传统hash算法产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来说，要设计一个hash算法，对相似的内容产生的签名也相近，是更为艰难的任务，因为它的签名值除了提供原始内容是否相等的信息外，还能额外提供不相等的原始内容的差异程度的信息。

因此当我知道google的simhash算法产生的签名，可以用来比较原始内容的相似度时，便很想了解这种神奇的算法的原理。出人意料，这个算法并不深奥，其思想是非常清澈美妙的。 (更多…)

分类：未分类
标签：
评论：3 条
浏览：8494
阅读全文

网页查重算法Shingling和Simhash研究 01月06日

据统计,互联网上的重复网页约占 30%~45%。这其中有由于镜像转载引起的内容完全相同的网页,也有仅存在微小差别的网页,比如广告,计数器,时间戳等不同,而这些差别是和搜索的内容无关的。根据中国互联网络信息中心2005年7月发布的统计报告显示,用户在回答“检索信息时遇到的最大问题”这一提问时,选择“重复信息太多”选项的占 44.6%,排名第1位[1]。将相似的网页消除,可以节省网络带宽,减少占用的存储空间,提高索引的质量,即提高查询服务的效率和质量,同时减轻网页所在远程服务器的负担。在网页查重算法中shingling和simhash被认为是当前最好的两个算法。 (更多…)

分类：未分类
标签：
评论：9 条
浏览：10260
阅读全文

第 921 页，共 931 页« 最新 «...10 20 30...919 920921922 923...930...»最旧 »

今天貌似是我的农历生日 08月04日

新型序列化类库MessagePack，比JSON更快、更小的格式 07月26日

站在技术角度说说国内的云计算 07月21日

在新浪正式工作三年了 07月16日

本周改一版wordpress的主题 06月19日

2012年，跳过，重来 02月05日

梦想很圆满，现实很骨感 01月23日

simhash算法的原理 01月06日

网页查重算法Shingling和Simhash研究 01月06日

分类目录

最近访客

近期文章

文章归档

近期评论

友情链接