牛津血统一身三许 电子词典厂商终端斗狠
market of dictionary
星期五, 十一月 14, 2003
星期三, 十一月 12, 2003
内容摘要:
拥有大量的历史积累的各种论坛系统中的内容往往很难被搜索引擎收录,BBS2BLOG是一个bbs改造思路:通过对现有BBS加入按“个人”的归档机制, 让这些丰富内容都可以成为整个可搜索互联网知识库的一部分。
注:Blog是Weblog的简称
Blog本意是网志;作为知识过滤器的角度取其音将它称为“博客”;海峡对岸的 Blogger则根据Blog的社群性叫做部落格。
面向搜索引擎友好(Search Engine Friendly)的重要性
虽说blogger大多数有点自恋倾向,但绝非“孤芳自赏”。由于Blog天然的search engine friendly特征使得这些个人blogger通过Google获得了与大型网站一样(某些方面甚至更强)的影响力,因为在目前的搜索引擎中:谁被反相 链接次数多谁 就是权威是一个基本原则。- 适合搜索引擎的机器人(spider)的遍历收录:
树性结构的BBS系统
同样1万篇文章,由于搜索引擎的SPIDER的遍历深度是有限制的,所以如果从根目录开始抓取深度限制是10的话,分布在BBS的10个论坛也许只会抓取 其中的几百条记录,但如 果是500个用户的BLOG系统:由于属于一个人的内容一般不会像BBS论坛中的那样需要翻页很多,SPIDER不需要遍历很深就可以抓取完,因此 SPIDER可以抓取的 内容并且进入搜索的索引量可能比论坛高出一个数量级。
/ | board1 board2 board3
网状结构的Blog系统
user1 <-> user2 <-> user3 <-> user4
/ | | user5 <-> user6 <-> user7 <-> user8 - 网状引用容易获得高的PageRank:
而且由于BLOG之间的相互引用,使得整个内容是网状的引用,相对于BBS单向的树状结构,blog内容的网状结构也非常适合从Google的索引 PageRank算法中获得比较高的权值。
- 内容关键词密度高:
此外从内容上说:很多个人BLOG做的都是技术专家型的知识过滤,关注的内容相对集中,整个页面中的内容也比较容易获得比较高的关键词“密度”;而BBS 组织帖子(文章)是杂乱的,在帖子(文章)很多时,查找信息时,给您的可能是一大类无用的信息或是重复的信息;如果您在学习一门计算机技术或者进行一项研 究时,比如说Java或是asp,如果您是初学者,当您跑到论坛里面去,您会被论坛杂乱帖子搞得晕头 转向.而blog就不同了,它把学习技术的过程或者研究的过程记录下来,当您去读它时,您可以会受益非浅.也就是说bbs组织的内容相对杂乱,而blog 是个人知识的管理系统.
KISS原则: Keep It Simple, Stupid
Blog是一种新兴的“个人”内容发布机制:
几年前,DEJA有最大的全球新闻组(NEWS)的WEB归档,网易社区把基于TELNET的BBS系统WEB化,而目前网上无数的MAILING LIST的web归档,无一不体现了从用户发布手段从简单到更简单的趋势,而且用户使用这些信息发布工具学习成本越来越低。
原先做一个主页:新闻/评论系统,论坛/留言系统,都是需要用户分别学习使用的。而BLOG把以上所有形式都简化成了发表文章/他人评论的格式。甚 至很多BLOG对外的标题同步都是RSS(Really Simple Syndication 足够简单的标题/摘要同步)。这样接口甚至可以简化到用 手机发条短信就能在WEB上做内容发布的程度。
基于BBS系统改造实现:BBS2Blog
BBS采用帖子固顶和发帖的时间顺序来组织帖子(文章),并采用主题方式对帖子(文章)分类;而Blog则以作者为单位,按日历的方式来组织文章(帖子) 的。BBS2BLOG以现有BBS系统为数据源,将内容按个人BLOG方式进行发布:- 根据作者,按时间的归档机制:增加个人发表文章的日历,按月归档,按日归档等
- 文章映射:用户在BBS中发表的每个主题作为一篇BLOG文章,而其他用户的回复作为BLOG评论。
- 给每篇文章一个永久链接:BLOG上所有的内容最终都有一个永久链接PermaLink,便于他人长期引用。
- 缺省按论坛将用户主题分类:省却用户自己进行文章分类的麻烦。
注意:以上机制的实现一定要通过 映射(URL REWRITING或者PATH_INFO)变成没有“?”的静态链接。
引导用户通过目前的BBS发布转向BLOG发布还可以获得有以下几个方面的优势:
- 降低用户学习的成本:内容通过BBS发布,又能够以BLOG的面孔出现;
- 利用BBS的人气,带来更多反馈:单纯的一个BLOG如果靠搜索引擎带来用户的话,可能很长时间后才能得到反馈,如果是已有一定群体的BBS 用户群落能够很好的帮助BLOGGER解 决初期反馈很少的问题;
总结:
如果把整个互联网看作是一个知识库的话,无论是新闻系统还是BBS系统都可以统都看作是内容管理系统(CMS),因为它们无非是内容的:标 题,内容,作者,时间等几维数据的不参数同的发布组合。
TODO:
Trackback ping等在BBS2BLOG系统中的实现
参考资料:
中文Blog心得集
http://www.cnblog.org
基于URL REWRITE和PATH_INFO的参数解析,实现的网页链接搜索引擎优化
http://www.chedong.com/tech/google_url.html
如何评价一个网站的人气(Link Popularity Check)
内容摘要:
介绍通过搜索引擎的一些隐含命令评价网站的“人气”。你完全不必耐心的看完后面所有的内容:因为他们已经过时了
最近http://www.alltheweb.com/提供了一个更加强大的反相链接统计工具:urlinfo
http://www.alltheweb.com/urlinfo?q=www.chedong.com
Find all 54 external web pages that link to "www.chedong.com"
Find all 27 external web pages that contain the term "www.chedong.com"
Find all 162 web pages indexed under "www.chedong.com"
Discover who owns "chedong.com"
See how "www.chedong.com" used to look
Google等新搜索引擎结果最成功的地方在于利用PageRank对网页进行排序,总是让最好的结果排在前面,从而大大提高了搜索的质量。简单的说: PageRank类似于科技文献的引用制度,谁的页面被引用次数多,而且引用你页面的站点权威度高,就说明你的页面的质量高,人气旺,PageRank就 高。所以,这就是为什么同样是包含"MP3"这个关键词的页面,为什么MP3.COM排在前,而一些个人网站的MP3下载排在后面。
对于网站人气比较通用的说法是:LINK POPULARITY 即:站点流行度。对于站点推广服务来说站点的人气评定已经是一个非常普遍的指标,很多搜索引擎的高级搜索功能中都包含反向链接搜索功能:列出链接到某个网 页地址的所有其他网页,因此反向链接的多少也可以作为站点人气评定的一个客观指标。有专门的站点推广服务商帮助你直接从多家搜索引擎抓取类似的结果。
在Google上查LINK POPULARITY,头2条会找到2家比较著名的站点人气评定的网站:LinkPopularity.com和LinkPopularityCheck.com。
我比较了一下LinkPopularity.com和LinkPopularityCheck.com的结果。linkpopularity.com的搜索结果不佳,而且它用的是Google的结果,后面会说到,这是一个错误的方法。LinkPopularityCheck.com结果好一些。它们的原理都是利用一些比较大的搜索引擎的LINKTO:命令功能实现的:统计连接到指定网页的链接数。链接数越高,人气(popularity)就越高。
数据源 | 结果 | |
LinkPopularity | ALTAVISTA,HOTBOT
| 结果一般,但Google的结果不应该作为指标 |
LinkPopularityCheck | ALTAVISTA,HOTBOT,MSN,LYCOS | 结果比较多,而且有很好的界面,结果按照查得的LINK多少排序,并用柱型图表示。
但他们msn的接口有问题,对于子页面的统计有问题,比如:http://news.sina.com.cn/news1000.shtml,结果是0但实际上应该有145条。 |
当然网上还有很多类似的资源甚至源程序,这里就不一一介绍了。但是这些的数据是否客观呢:随着互联网的商业化和分工细化,大部分网站的搜索结果其实 是少数几个大的搜索引擎技术提供商提供的,比如:Google,INKTOMI,fast等(去这些门户网站的页面检索上看看上面的POWERED BY就知道了),例如:YAHOO的后台网页搜索引擎是Google,LYCOS的后台是FAST搜索引擎,而上面MSN和HOTBOT的搜索结果其实都 是INKTOMI提供的,之所以不同网站的结果数量略有出入,只是由于服务条款的限制而已。所以,如果能够尽量使用后台的服务提供商的搜索结果,数字应该 是比较全的。
其次,有些结果并非反向引用,我按照以下规则试验了以上搜索引擎的接口:
- 能区别域名:www.yeah.net > chedong.yeah.net,这样很多个人站点的域名转向就能和www.126.com, www.yeah.net区别开了
- 能区别子目录:能够区别一个站点的首页和其子页面,比如:http://news.sina.com.cn//和http://news.sina.com.cn/news1000.shtml 子栏目
- 能够区别大的站点:www.yahoo.com > www.sina.com.cn > www.chedong.com
具体的命令接口参考了Measuring Link Popularity专题中对各个搜索引擎一些隐含的命令的介绍,最后我选择用做站点人气评价的搜索引擎包括:AltaVista, Msn(inktomi), AlltheWeb NorthernLight这4个比较大的引擎:(没有选用Google,因为它的link:命令其实是针对域名的,比如:查www.yeah.net和chedong.yeah.net的结果数是一样)
命令 | 例子 | |
AltaVista | link:URL命令 | |
MSN(Inktomi) | 点选高级搜索》在下面的下拉框里选择LINK TO URL=》填写URL | http://search.msn.com/results.asp?q=http%3A%2F%2Fnews.163.com/viewpoint.html&FORM=SMCA&cfg=SMCINK&v=1&ba=0&f=lnk&sort=&rgn=&lng=&dom=&depth=&d0=&d1=&cf= |
AlltheWeb | link.all:URL
注意这里URL需要去掉HTTP:// | http://alltheweb.com/search?cat=web&lang=any&query=link.all%3Achedong.yeah.net |
NorthernLight | link:url | http://www.northernlight.com/nlquery.fcg?qr=link%3Ahttp%3A%2F%2Fwww.yeah.net%2F |
最后,需要补充的是有时候结果会因为URL中的ENCODING等问题,导致结果数不准确,所以结果数还进行了一些校正。
能够完成以上功能的一个PHP程序,大家可以通过以下入口进行测试:
http://www.chedong.com/linkPopCheck.php
程序源代码:
http://www.chedong.com/linkPopCheck.php?show=source
影响站点人气的因素除了链接数的多少以外,另外一个因素是反向链接站点的质量:引用站点的权威度,如果一个页面被一个著名站点链接过和被一些个人站点链过,其PageRank是大不一样的。关于PageRank算法的具体说明,这样的算法避免了很多个人用户利用链接炸弹,恶意提高自己排名。
结论:影响网站在搜索引擎中排名的因素
-
被别人链接(引用)次数多;
-
引用你的站点本身的权威度高;
对想提高自己网站的知名度的建议:
- 通过链接交换和其他网站互通互联;
- 尽可能通过一些大型站点推广自己的网站;
更多建议请参考:
如何提高网站在Google中的排名 面向搜索引擎的网站设计
如何提高网站在Google中的排名??面向搜索引擎的网站链接设
参考资料:
Measuring Link Popularity
http://searchenginewatch.com/webmasters/popularity.html