Recently in 搜索引擎技术 Category
新闻来源:纽约时报纽约时报上的一则新闻报道了互联网社区帮助失主在48小时内破获了偷车案。加拿大卡尔加里市的一个二手车商把一辆1991年款尼桑Skyline GT-R(与头文字D中余文乐座驾相同)借给顾客试驾,但试驾的顾客一去不返。车商向警察报了案,但同时把被盗车辆的信息也发到了加拿大一个汽车爱好者网站Beyond.ca上。很多网友在看到这则消息后都开始帮助寻找失车。 很快就有人发现了这辆车的线索。同时通过Facebook查找嫌犯和他的学校;窃贼所在位置也被标到了Google Maps上。最后,在这位18岁的偷车贼被捕之后,被捕时的视频也被上传到了Beyond.ca上。这位车商说,“这个家伙的下半辈子无论到哪里都会被认出曾经是个偷车贼。Internet是不会消失的。”...
百度的spider程序会定周期的访问网站的页面,那是不是每次访问都要下载页面的全部内容呢?答案是否定的。百度使用了 "GET", "POST" 之外的HTTP方法: HEAD。 HEAD 一般情况下会在服务器上产生与GET相同的处理(除非代码中对HEAD的情况做了处理),只不过返回给客户端的是header信息,而没有正文。baidu通过这种HEAD请求,可以利用极少量的带宽来获得某网页的头部信息。通过头信息中的HTTP状态码(200等), 百度可以了解这个网页的大体状态,比如是否存在,是否转向,是否可用等;通过Content-Length, Last-Modified 中的任一项与之前的访问记录做对比,百度可以进一步判断这个网页是否需要更新。 很多人以为动态网页对HEAD支持不好,但实际上只要有 content-length 或 Last-Modified 的任一项,就可以迎合baidu的蜘蛛了,就称得上很好的支持百度的HEAD了。是否有content-length 和last-Modified , 和服务器软件、配置、脚本语言、是否缓冲,程序编写有关的,比如apache+php默认是有content-length一项的,apache+python默认是没有这两项的,通过程序控制可以人为的添加 Last-Modified 头信息。 但在实践中,即使有的网站不能很好的支持HEAD, 百度还是不停的产生HEAD请求。所以针对这种情况,可以有两方面的措施: 1. 网页禁止head请求,以免产生无谓的资源消耗; 2. 通过配置或者程序修改,支持content-length 或 last-modified的输出。 知道了这些,大家知道该如何优化了吧? 注: 百度的此种方法便宜了baidu的带宽,却可能带来服务器的两次请求(如果需要更新,百度还会来第二次),是个损人利己的措施;那么google 是如何减少带宽损耗的呢? googe...
声明:本文原创,相关结论为作者的研究结论,不一定十分正确。1. 域名级别的轻重 这一点几乎成为大家的共识, cn域名要轻于 com/net域名 。 之前,info域名免费, info域名在搜索引擎中的分量更是降到了极低。现在,cn域名1块钱一个,搜索引擎为了防止受骗,自然要看轻cn域名。 2. 域名的选择 域名中带有关键字或拼音,自然在SEO中领先一步。但对于网站的推广来说,关键还是用户。理想的状态不是用户通过搜索引擎来访问,而起用户把网址记在心里主动访问。所以域名的选择中,好记自然要比关键词的优先级高。 国外,域名可以很长,甚至是一个短语,但这情况针对的是英语为母语的人;国人 对字母不感冒,自然要好记易输入为先。3. 要优化,先弄个好看的扩展名 其实,这一步主要说的是静态化问题。但想一想, 通过各种技术来骗搜索引擎其实是伪静态化。动态页面是指运用动态脚本技术(如ASP,PHP等)通过数据库交互来实现的页面;静态页面是指实实在在的HTML,不需要经过程序解释或编译的页面。虽然对于普通用户来说,两者是相同的。但搜索引擎可不这么认为。所以要想搜索引擎优化,首先考虑网址静态化,把文件的后缀名换成.html/.htm。相关的技术很多,比如真正的静态化,生成静态页面;URL重写;PathInfo等。4. 目录层次不要太深。 目录结构是树的结构,普通的习惯是最常用,最有用,最稳定的内容放在根目录;层次越深,越不重要。搜索引擎认清了这一点,所以一定要防止目录结构过深。个人感觉,3层结构是可以接受的,不要超过4层。5. 二级域名 二级域名,是个大的学问,不像之前几点那样可以几句话说明白。 这里说说优劣势: 如果不用二级域名, 则网站的内容会集中到一个域名下,搜索引擎会把好的印象都给这个域名;如果启用二级域名,搜索引擎会把二级域名当成一个单独的网站,二级域名的收录级别要优于一个子目录, 但会分散好印象。所以如果内容不多,不要同时使用N多二级域名。除非与主题无关,或重点强调某部分内容,功能需求,一定要谨慎。6. URL的长度 url是有长度的。正常情况下,此长度限制是受浏览器,网页服务器限制的(如果有代理服务器,还受代理服务器限制),取限制中的最小值。 HTTP标准中没有规定URL长度的上限(待续)...
转自 http://www.portfolio.com/culture-lifestyle/goods/gadgets/2007/08/13/How-Google-WorksIn the past 12 months, Google doubled its staff, tinkered with its search engine to speed up results, and now answers more queries than Microsoft and Yahoo combined. But there's one query we had to answer ourselves: How does Google work? Blame spell-check. Ten years ago...
不是长篇大论的论文,却是一个演示Flash,演示了从查询请求到返回结果的过程。 此外,这个flash还展示了google从1997到2007的10年中的历程。 如果显示不全,请点击查看全部...
通过测试手段,分析了百度如何进行搜索的。
很多人认为 Google PageRank 校验算法是鲜为人知的秘密。但是它已经不是了,至少网络上已经有了源代码可以实现相同的算法。 这个算法有什么用处? Google Toolbar 提供显示当前页面的PR值功能。数据的获取原理是: Google Toolbar 把当前的网址进行编码处理,然后把相关数据发送给Google服务器。服务器端对接受的数据首先进行合法验证,主要是防止有人使用机器程序恶意请求。如果合法,则返回PR数据;否则,拒绝当前请求。 如果这个算法破解,说明可以编程实现获取制定页的Page Rank。 编程实现 PHP版本 C版本 Python版本 说明: 在PHP中,如果返回的数值超过整数的范围,将不可用。 参考 http://pagerank.gamesaga.net/...
研究搜索技术 和 研究搜索引擎优化 其实是差不多的工作,都是猜测现有搜索引擎是如何实现的,不同的是猜测之后的行动:研究搜索引擎的人可能会真的去实现搜索引擎, 而研究搜索引擎优化的人确是改变网站来获取更好的搜索排名。所以如果你对搜索引擎有兴趣,不妨也看一下搜索引擎优化的内容。 本文就是来源于搜索引擎优化的文章,经 xinbin 转换到搜索引擎技术的角度来显示。 索引更新 搜索引擎的索引是分布到很多机器上的,把最新的索引数据更新到各个服务器就是这里说的索引更新。以下的分析以google为例。 从2000年到2003年间,目录大约是每个月更新一次。带来的变化被称作Google Dance。Google Dance会持续大约6到8天,因为服务器的更新需要轮流进行,直到这些数据库全部被更新为一个全新的网络数据索引,而这是需要一定的时间来完成的。在2003年的夏天(这次的Google Dance被称为"弗里茨更新"),Google 的索引更新由原来的每月一次变成了每天一次(甚至更频繁)。Google几乎每天都会更新一部分索引的内容,这样每天的变化就远远不如先前那么明显(有人称Google 索引的明显变化为everflux)。 近些年来,Google的索引已经进行了改进,使大多数人根本感觉不到它的更新。 由此,诸如"everflux"、"Google Dance"以及"索引更新"这类词汇就很少被提起了(除非是被用错了地方)。 而baidu这方面的工作应该还有待加强,笔者有一个网站,明显的感觉出每月某几天(2天左右)的访问量异常,大约是平日的4-5倍,估计这就是百度在进行索引更新。 ...