Archive for October, 2009
搜索引擎优化(seo)中页面样式布局的重要性分析
搜索引擎一直以来都希望能够正确的理解网页的内容的含义,结合其对用户的查询关键词的理解,这将真正的实现SE的智能搜索。
如果搜素引擎真能够理解页面的样式层,并确定页面上最重要的部分,在SE索引页面的时候,它将更加关注页面的重要部分,并对页面重要部分的链接给与更多的信任,且这部分内容将比页面的其他部分的内容更有价值。
国外主要是商业搜索引擎一直尝试着更加智能的理解页面内容,我们从它们的专利文件中可以看出这种努力。
Microsoft VIPS and block level link analysis (pdf)
Google – Document Segmentation based on Visual Gaps
这里重点讲述一下yahoo的技术专利,关于google和msn的技术专利后面再专门讲。
Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
Invented by Anandsudhakar Kesari
US Patent Application 20080033996
Published February 7, 2008
Filed August 3, 2006
Yahoo!试图将页面通过一种可视化的角度去理解,了解其中重要内容的区域,并抓取该重要区域的内容。
<B>信息提取系统和数据结构</B>
在页面上的信息结构通常可以归为有结构的、半结构性的和非结构性的。
有结构性的指所有页面都是具有相同的模板或布局。
半结构性的页面可能使用带有变量的模板,比如一个页面可能包含其他页面不具有的信息和模板,或者么些页面会展示更广范围的信息和价值。
像旅游站点、工作信息发布站点和一些商业性ecommerce 产品页面都可能使用结构性结构布局。在这些站点,大部分页面会有相同的信息展示区域,即使这些区域没有信息可供展示,该区域任然存在,只是展示区信息为空。
而半结构性的页面不会展示信息为空的区域,或者说当有一些独特的信息时会增加一些新的展示区域。
Yahoo!试图将页面通过一种可视化的角度去理解,了解其中重要内容的区域,并抓取该重要区域的内容。
信息提取系统和数据结构
在页面上的信息结构通常可以归为有结构的、半结构性的和非结构性的。
有结构性的指所有页面都是具有相同的模板或布局。
半结构性的页面可能使用带有变量的模板,比如一个页面可能包含其他页面不具有的信息和模板,或者么些页面会展示更广范围的信息和价值。
像旅游站点、工作信息发布站点和一些商业性ecommerce 产品页面都可能使用结构性结构布局。在这些站点,大部分页面会有相同的信息展示区域,即使这些区域没有信息可供展示,该区域任然存在,只是展示区信息为空。
而半结构性的页面不会展示信息为空的区域,或者说当有一些独特的信息时会增加一些新的展示区域。
信息提取系统
信息提取系统被用来处理这些半结构性的和非结构性的页面,并将这些信息附加结构性信息一起存入数据库。但是这个系统可能面对怎样快速准确的从满是HTML代码的页面提取信息。那么信息提取系统是怎样找到那些有用的信息,而忽略掉一些页面噪音呢?
它可能寻找html中的么个暗示性代码,比如(a)内容的样式,比如颜色、强调(b,strong)、字体等;(b)几何布局的网页的元素,如元素的绝对和相对位置;(c)页面上可能包含主要内容的明显可视区域。
不使用类似于人们查看网页的浏览器工具是很难找到页面中布局暗示或者说包含主要内容的区域的。但是使用浏览器那样的方式来查找又会带来计算的成本增加。yahoo试图通过一种概化的方式来了解页面的布局,并找到页面上的主要内容。
区分页面中最重要的元素
搜索引擎是非常不想关注类似导航条、相关文档、广告、banner这样的噪音信息,它也不想了解页角的版权信息说明和头部的网站logo。yahoo的这种概化页面布局的处理方式通过评估最显著的元素来确定页面的有意义的内容。页面有利的元素内容的数量和通过概化方法得到的页面元素在网页中的位置都是确定页面最重要元素的依据。
我们了解搜索引擎怎样去分析页面内容处理过程,将有利于我们搜索优化中正确的进行网页布局和代码的布置。
域名年龄怎样影响搜索排名?
在SERP中的网站排名会受到指向该页面或网站的页面数量、链向网站的页面的排名的影响。一个来自有很多外链的和受信任的网站的链接的价值显然要比一个来自外链很少信任度也很低的页面要高。
但是链接域名的年龄对排名会有影响吗?如果有,那会是怎样的影响呢?
一份来自微软的专利文件表明:外链的域名年龄也会对排名产生影响,外链的域名年龄越长其价值越高。为什么会有这样的影响呢?
在国外,域名.com的注册价格一般不超过10$,并且很多域名注册商还提供30-60天的free trial时间,这位一些黑帽做链接工厂(link farm)提供了很大的经济便利。
微软的专利文件的相关信息如下:
Ranking Domains Using Domain Maturity
Invented by Janine Crumb, Krishna C Gade, Rangan Majumder, Vishnu Challam
Assigned to Microsoft
US Patent Application 20080086467
Published April 10, 2008
Filed October 10, 2006
该专利中假定年龄越短的域名越有可能是spam链接,越有可能参与链接工厂,这也是为什么google会对新站就行3-6个月的考核期,也就是所谓的“google 沙盒效益”。SE在对一个新域名就行排名的时候会对其外链就行分析,如果有域名年龄比较长的外部链接,其获得好排名的可能性就更大。
贡献域名的成熟性(maturity )和不成熟性(immaturity )
现在获取域名的相关注册信息是如此的容易,SE可以通过各种方法获得域名的注册日期、到期时间、注册人、注册人变更时间等等信息。
贡献域名的成熟性(maturity )是在一个域名自注册日期起,或者被SE发现并存入搜索数据库的日期开始。域名的成熟性意思是域名被贴上成熟不成熟的标签或者记号,这里的成熟不成熟应该是和new想对应的。比如一个注册时间超过一年的域名可以认为是成熟的。当然这个成熟性在对搜索排名的影响也可以分等级,比如
1)完全成熟-只计算和一个域名相联系的成熟域名的贡献;
2)成熟和不成熟两者夹杂混合- 不同成熟性的域名的价值不同,贡献度不同;新域名可能会被用作spam但是并不是所有的域名都这样,那些提供有价值信息的并获得来自成熟域名的链接的新域名可以容许其传递排名价值贡献;
3)相比较于区分外部贡献链接成熟性与否,域名的累计排名价值也可以通过传递一定比例的值来对网站进行排名影响。
a)注册10年以上的域名可以传递100%的起累计排名价值;
b)注册6-8年的域名可以传递60%的起累计排名价值;
c)注册3-6年的域名可以传递30%的起累计排名价值;
域名成熟性(maturity )在域名注册人信息变更以后被重置清理
wordpress评论链接插件——防止垃圾留言网址的好方法
wordpress是广大博友广泛使用的博客程序,但是也是spam最喜欢的程序,留言方便还留有网址,留言网址处理不当回给网站的权重排名造成很大的影响。
今天在网上找了段代码供大家使用,能够实现http://www.tuesdays.cn/?r=http://www.tuesdays.cn的调整。使用方法:将代码粘贴进主题theme的functions.php页面,具体放的位置就自己看着办,放在文件开头也可以,末尾也可以,只要在php起始结束符中间就能正常运行。注意符号’是英文的非中文的’‘,否则会报错。
//comments link redirect
add_filter(’get_comment_author_link’, ‘add_redirect_comment_link’, 5);
add_filter(’comment_text’, ‘add_redirect_comment_link’, 99);
function add_redirect_comment_link($text = ”){
$text=str_replace(’href=”‘, ‘href=”‘.get_option(’home’).’/?r=’, $text);
$text=str_replace(”href=’”, “href=’”.get_option(’home’).”/?r=”, $text);
return $text;
}
add_action(’init’, ‘redirect_comment_link’);
function redirect_comment_link(){
$redirect = $_GET['r'];
if($redirect){
if(strpos($_SERVER['HTTP_REFERER'],get_option(’home’)) !== false){
header(”Location: $redirect”);
exit;
}
else {
header(”Location: http://www.tuesdays.cn/”);
exit;
}
}
}
如果使用了 cos-html-cache 静态化插件,最好使用下面的代码,据说使用该静态化插件以后上面的代码会在么些条件下不起作用。
//comments link redirect
add_filter(’get_comment_author_link’, ‘add_redirect_comment_author_link’, 5);
add_filter(’comment_text’, ‘add_redirect_comment_text’, 99);
function add_redirect_comment_author_link($text = ”){
$text=str_replace(”href=”,’href=”javascript:window.location=’,ereg_replace(’href=\’[[:alpha:]]+://[^<>[:space:]]+[[:alnum:]/]\”,”\\0\””, $text));return $text;
}
function add_redirect_comment_text($text = ”){
$text=str_replace(”href=”,”href=’javascript:window.location=”,ereg_replace(’href=\”[[:alpha:]]+://[^<>[:space:]]+[[:alnum:]/]\”‘,”\\0′”, $text));return $text;
}
SE怎样根据查询方式和点击来调整排名呢?
想象一下,当人们使用google查询“香蕉”然后“苹果”然后“葡萄”之后点击serp进入页面www.tuesdays.cn/shuiguo/。同时你再想象一下,google在分析这些查询和点击数据的时候,发现在其数据巨大的查询日志和点击日志中,人们在搜索“香蕉”然后“苹果”然后“葡萄”之后点击serp进入页面www.tuesdays.cn/shuiguo/,或者点击“苹果”然后“香蕉”然后“葡萄”之后点击serp进入页面www.tuesdays.cn/shuiguo/。
google也会发现在其查询会话(query sessions)中会有很多相似的查询,比如“花生”“土豆”“西红柿”。
以为“花生”“土豆”“西红柿”这一系列查询和“苹果”然后“香蕉”然后“葡萄”找一系列查询非常的相似,并且他们进行这些查询搜索以后都进入了www.tuesdays.cn/shuiguo/页面,google很可能根据这些对其排名结果进行调整。
上周,google的一份关于上述过程处理的专利得到了批准,
Rank-adjusted content items
Invented by Mayur Datar, Kedar Dhamdhere, and Ashutosh Garg
Assigned to Google
US Patent 7,610,282
Granted October 27, 2009
Filed March 30, 2007
摘要:通过对查询日志和点击日志的分析来对一些查询和点击方式进行统计型分析,当一个搜索行为发生时,该行为将和统计模型做对比,与此搜索会话相对应的内容条目会被确定,并对内容条目的排名做相应的调整。
如果有人认真看过搜索引擎的一些专利文档,大家会发现这些专利文档中都会提到两个词:样本,统计模型。如果用在优化中,这些样本和模型该怎样被利用起来呢?
通过不断试验,找到样本的参考指标大概方向,然后朝这个方向去优化。
搜索引擎怎样去区分人工查询和机器查询?
我们有时候会使用工具来核查一些排名数据或者说做一些搜索引擎算法上的测试,这些都属于机器查询的范畴。人工查询
信息的目的就更富有多样性了,按照搜索引擎自己的分类可以分为三类:信息类、导航类、交易类。
机器查询由于查询的频率快,数量高,对搜索引擎来说这是很耗费资源的事情,google在其管理员指南中就明确规定:请不要向 Google 发送自动查询
未经 Google 事先明确许可,Google 服务条款明文禁止向我们的系统发送任何类型的自动查询。发送自动查询会占用资
源,并且,其中还会包括使用某些软件(例如 WebPosition Gold™)向 Google 发送自动查询以确定某个网站或网页在面
向各种查询的 Google 搜索结果中的排名方式的情况。
微软的一份专利就专门针对怎样区分查询的人工行为还是机器行为做了明确的论证说明,专利名:Classifying Search Query Traffic
当SE分析用户的一次查询的时候,他会收集大量的用户数据:
关键词;
搜索结果页面;
搜索查询的输入源;
互联网协议IP地址;
查询时间;
点击时间;
这些查询信息传到搜索引擎的服务器以后,它会分析这些查询数据,并确定么次查询是人工还是机器产生的。那你怎样确定一次搜索是人为还是机器行为呢?
人工查询的生理极限
人工查询的次数是有个极限的,在一段时间内,人能够进行搜索查询的次数是有限的,有多少人能够100次/秒?超过这个数字的查询一定是机器在进行,非人工手动能做的了的。
再就是人工查询的地点,一个人不可能同时或短时间内在相距很远的两地来查询,SE可以通过追踪IP来区分查询距离,
行为特点
点击通过率
人倾向于在进行一些搜索查询以后会点击serp中的么个页面,典型的用户会在十次查询中至少点击一个页面,而机器可能只是执行么个命令,其查询模式都是有规律的,比如说查找serp中的么个链接;遍点serp中的所有链接;
机器查询的规律性
机器查询可能会从abc按照字母顺序进行查询;查询中极其的随即性,也有可能是正在进行机器查询;
查询时间的周期性
高级查询方式
“allintitle:”或“allinurl;”这样的高级查询命令也有可能来自工具机器查询;
列入黑名单的ip地址所进行的查询
读过微软的专利以后,我们现在可以肯定SE会对搜素进行分类处理,但是SE会怎样利用这些数据才是我们最最关心的问题。







