问: 搜寻引擎是如何决定相关网站间的排名?
答: 这取决与于很多因素。一般来说,要让一个含有关键词的网页会有很高的排名时,此一关键词必须出现在网页的TITLE卷标(tag)、META卷标(tag)的Keywords区段、Description区段,当然还必须出现在网页内容里。要记得搜寻引擎是看不懂图形的,也就是说最关键的文字必须出现在HTML内容本身。
越来越多的搜寻引擎都将网站连结的受欢迎程度列入排名决定因素。也就是说,如果你的网站成为很多网友连结的对象,而且这些连结里或是连结的附近文句含有一些特定的文字,那这些文字能让你的网站有较好的搜寻排名。就拿那些有连结到Amazon.com(英文网站)的网站来说,会有多少的连结本身或邻近的文句含有「书」(books)。现在上大量利用网站欢迎程度来排名的搜寻引擎Google.com搜寻「书」(books),看到排名第一的Amazon.com了吗?现在你知道原因了。
想要提升网站的欢迎程度的唯一办法就是到网络里建立起你的连结。让其它的网站连结到你的网站,并且请他们用你所希望的关键词来描述你的网站。当然了,你的网站也可以放其它网站的连结来当作是一种「回馈」。
问: 网站制作者如何提升网站的排名?
答: 如果你的排名不太理想,你甚至可以回头重新设计你的网页。但老实说,我并不建议这么做,尤其是对那些设计网页的人。换个角度来看,如果网站就某个相关字搜寻的排名很不理想时,我建议增加与关键词有关的新网页。你可以增加些不同但相关的内容,也许会提高排名。我建议除非你发现从没有人透过这个搜寻引擎上站浏览,或是从这个搜寻引擎来的浏览数骤降,不然不要主动更新你在搜寻引擎上的网页。也就是,除非真的有问题,否则就别乱动。
问: 有哪些网页设计因素可让网页较容易被搜寻引擎发现?
答: 让 每个网页都拥有不同的网页标题(TITLE),而且每个标题都含有你所希望的关键词。让这些关键词和一些网页内容里常用的字词也出现在META卷标的Keywords区。最好每一页的META Discription 都不一样(如果时间很赶,你可以摘录每个网页的第一段)。最重要的,让你想要的关键词以相当程度的频率出现在网页的内容中。没有必要为了提高频率而重复上百次相同的词句,但就是要让关键词有出现的机会。当然了,能很自然地重复关键词是再好不过的。
问: 从网页设计的角度来看,不当的设计会导致较差的搜寻结果吗?
答: 是的。一个网站最重要的网页就是首页。如果你有个炫丽花俏的首页,但首页里没有文字内容,TITLE卷标内不含关键词,没有META卷标,那你真的是彻底的浪费了搜寻引擎给你的免费通行证。把那些太花俏的页面拿掉;增加文字内容而不是图形,你的网站使用者会很感谢你这样的改变。最后,只有将你所期望的前10个最佳搜寻关键词列出之后才开始设计你的网站。一旦决定好了哪些关键词,就使用这些字来制作网页并且利用他们来延伸你的内容。
问 : 你觉得网站设计者是否该花钱透过中介服务来帮他们的网站向各个搜寻引擎注册?
答: 中介服务基本上能帮你大量注册于480个不值得你一个个去申请的搜寻引擎(那些搜寻引擎大概也不会带给你大量的浏览量)。至于前20名的搜寻引擎,我强烈建议你一一去注册。
问: 对于一些注册需收费的搜寻引擎,你的看法是甚么?
答: 从网站设计者或推销网站的角度来看,这是很好的选择。这能很简单的就让你的网站名列前矛而不用去考虑META或其它的卷标。从使用者的角度来看,这种搜寻结果也不全然是不好的,因为很有可能他们挑选出来的内容真的还不错。现在市场上主要的搜寻引擎中,只有GoTo.com是采用这种收费方式。
问: 对那些不透过软件(bot)自动搜集而使用人工搜集分类的分类搜寻网站,你觉得网页设计者需要考虑些甚么?
答: 向分类搜寻网站注册时,你需要先花些时间思考如何用15至25字来简述你的网站。把重点放在将你心目中的关键词很自然地陈述于说明里,并且避免一些广告用语。然后到该分类网站,搜寻你的关键词,之后会列出不同的相关类别,将你的网站注册到与你相关而且排名最好的类别里。简单地说,能正确的做这个步骤,你可以期望有好的结果。如果第一次成果不理想,用点耐心多试几次。此外你应该去买一个自己的网域名称,还有就是一定要具备丰富的内容。
回到上面
如何用关键字优化网站?
搜索引擎使用关键字的相关程度来决定网页的先后顺序。例如,如果有人搜索" butterbeans ”,那么一个标题为" The Butterbean Bazaar ”、里面有十余处单词" butterbeans ”的网页,可能就会排在搜索结果顶端;而那种只出现了一两次" butterbeans ”的网站,则排列在稍后的地方;网站上有" beans ”单词的,就排在更后面的地方;只有" beanless ”这样的单词的网站,则根本不会出现在搜索结果中。每个搜索引擎,都有它自己的排列搜索结果的公式,而且它们被作为机密保存起来。但基本规则是,一个网页出现某个关键字的次数越多,那么,该网页与关键字的相关程度就高,该网页在搜索结果中的排列位置就越靠前。另外,网页标题、章节标题中的关键字,相关程度更高。 知道了这个规则,很多"聪明人”就在他们的网页上,布置大量" mp3 ”、" free ”之类的热门词汇。有些文章更介绍了诸如"隐形文本”、"隐藏关键字”等提高 排名的作弊技巧,这些招数被大量甚至疯狂使用,使搜索引擎的查阅效果大打折扣。显然,如果大家都这样做,那么,搜索引擎迟早会变得毫无用处。到了某天,说不定不管你搜索什么,得到的总是色情网站。所以,搜索引擎展开了一场反作弊的斗争。只要它们怀疑你在有意"制造”关键字,那么,就可能取消你的注册。例如,现在,很多搜索引擎不接受使用"隐形文本”网站的注册。
其实,"关键字”的使用,犹如一把"双刃剑”,一方面,为了使网站在搜索引擎的排名靠前,你的网页应该包含尽量多的关键字,但是另一方面,一旦过度,你就可能面临取消注册资格的危险。所以,前面我们说,向搜索引擎注册并不是首要任务。真正关键的,除了网站本身要有好的内容、产品或服务及设计效果外,就是使你的网页与搜索引擎友好相处,说白了,一要适当使用关键字,二要避免"冒犯”搜索引擎,不要使用那些容易让它"误会”的设计技术,例如,框架和某些动态网页注册。
那么,如何使用关键字才算适当呢? 找出人们搜索你的这类网站时,可能使用的所有词汇(关键字),并将它们尽可能地串起来,给你的网站写个简短的描述。例如,如果你要销售 butterbeans (棉豆),并且你已经列出了下面的关键字:
Butterbeans
Beans
Lima beans
Biscuits
Southern cooking 你可以这样写描述: " We sell butterbeans and lima beans, which taste great with biscuits and other Southern cooking. Free butterbean recipes and a butterbean discussion forum 。” 注意,如何组合重要的关键字(事实上,你的关键字列表可能更长,可以将其中重要的串起来),如何将最重要的那个(如 butterbeans )用上两次。但是,这个描述读起来应该跟普通句子一样,不要只是一个关键字列表。 这个网站描述会用在好几个地方,因此多话一些精力写好它,是值得的。当你向搜索引擎注册的时候,需要填网站描述,当人们搜索到你的网站的时候,这个描述也会出现,所以,要尽量利用它,吸引人们浏览你的网站,但不要简单使用夸大性的词句。另外,网站描述(或将其修改后)还应该放在 TITLE 标记中。 TITLE 标记位于 HTML 网页的 HEAD 部分。当冲浪者浏览一个网页的时候,它的内容会出现在浏览器最顶端。如果有人将你的网站保存到"书签”( Netscape )或"收藏夹”( IE ), TITLE 将作为"书签”名或"收藏”名。 TITLE 标记应该以你网站的正式名称开头,并包括网站简要描述。例如: < TITLE>The Butterbean Bazaar - We sell butterbeans and lima beans, and offer free butterbean recipes and a butterbean discussion forum.< /TITLE> 不要将关键字列表放在 TITLE 中,这样做弊大于利。也不要在那里放冗长无用的内容,如" Welcome to the Web Site ”,这纯粹是浪费网络资源。 HEAD 部分还有两个对网站宣传很重要的标记: META DESCRIPTION 和 META KEYWORDS 标记。某些(但不是所有)搜索引擎,使用这些标记的内容来决定你网站的排列位次。用于 META DESCRIPTION 标记的规则与 TITLE 的基本上一样。而 META KEYWORDS 标记,就是一个关键字列表,注意,在这里放入太多单词,并没有什么益处,因为,大多数专家都认为,搜索引擎对此只作有限量搜索。因此,挑选出人们真正会用的关键字,才是有价值的。多数人认为,这些关键字应该小写,并且用逗号或空格分开。
网页上的关键字最重要。但别高兴——必须是普通的、可读的文本,那种将一大堆关键字随便放到网页上的做法,属于作弊行为,将得不到注册。你可以让最重要的关键字在网页出现一到两次,当然,还可以放到网页标题、文章标题中。
回到上面
2004 搜索猜测
当今搜索引擎行业的竞争是一场毫无硝烟的搏击竞赛,随着 Yahootomi的巨大转变,人们对搜索市场业陷入了沉思。 自上个月就有消息称,Google将被Yahoo!抛弃,由Inktomi替代其位,于是产生了Yaootomi。 对一般的网上冲浪者来说,可能没有感到任何的变化,但从搜索营销商角度来看,这一微妙的变化无疑是在你的后脑勺狠狠的拍了一下。为了以防万一避免损失,我想,现在是研究一下这些主角们的搜索结果的时候了。
去年,雅虎收购Inktomi并不使人感到意外,如果这一收购是为了今年跻身搜索市场,那么它首先需要与现在的搜索结果提供商Google相抗衡。 Overture收购Altavista 和AllTheWeb又怎样呢?我一直以为它应该拥有自己的搜索运算结果。当Overture收购“shopping engines”的时候,这完全在我的意料之中,但大多数人还是感到意外。 轮到雅虎收购Overture,并随着Altavista和AllTheWeb收归旗下,它便一下子拥有了三个爬行搜索引擎,这又让不让人意外呢? 实际上这些都是些让人值得研究的问题。雅虎为了完成这些规划,必须有其自己的PPC业务与Google及它的AdWords抗衡。
那么世界上其他的搜索引擎又会采取何种措施呢? 每个人都对MSN弃用LookSmart 而感到意外,但是我却没有。因为,就在头天晚上的变革之后,LookSmart就对外宣布他们将由付费收录式目录转型为为现有客户及新客户提供点击付费模式的目录网站。当然,考虑到它与MSN的关系,即向其提供主要结果(目录结果),它只能以这种方式避免丢失所有客户。 回过头来,再说Inktomi,长期以来主要的第二大搜索结果提供商(提供网页搜索结果),直到MSN意欲采用自己的基于爬行程序的服务才被取消。它只能依靠雅虎的搜索引擎对外提供搜索结果,是这样吗?
还有其他的主角,如ASK Jeeves/TEOMA,但是先让我们来看看以下几个吧。
Google
- 在自己的界面及为雅虎及AOL(及其他非主要服务)提供搜索结果。
- Google 目录(与ODP合作)提供可浏览查询。
- 独有AdWords(与Overture的PPC服务模式相似)。
- 免费向爬行程序及目录提交,无付费收录方案(至少现在没有) 大约在第一季度,Yahoo上的Google结果将被Inktomi替代。关注Google上市的股民们或许都在猜测,为什么主要竞争对手雅虎从付费收录业务中有如此多得收益,而Google没有?这就需要重新思考他们各自的策略了。
Yahoo!
- 显示Google的搜索结果;
- 独有的雅虎目录提供可浏览查询;
- 拥有PPC模式的先驱Overture;
- 旗下所有的搜索引擎都实行付费收录方案:Inktomi,AllTheWeb,Altavista。另外还有专门为商业网站的目录提交设计的付费雅虎快递收录。
从以上分析可以看出,不久雅虎将采用Inktomi的搜索结果。这说明搜索营销商的访问流量将告别免费,迎来了Inktomi的付费收录(如果他们希望保证收录进索引库的话)。
为了这次大的转变,雅虎已经在美国之外的站点做了大量对Inktomi和Overture的测试。雅虎CEO,Terry Semel发表录音访谈时说:“我们的短期目标时使全球雅虎站点使用Inktomi的算法搜索。”
Altavista及其大量专有目录,AllTheWeb庞大的数据库资源及期超级爬行技术的将来如何还有待观察。
MSN
- 主要搜索结果来自LookSmart,第二运算搜索结果来自Inktomi;
- 无可浏览查询(即在搜索界面无目录搜索);
- PPC业务并不独享(它是Overture的合作成员);
- 付费收录方案由Inktomi提供。
成功的营销跟随者微软今年也坚定了挺进搜索市场的决心,他将实行完全创建而非购买的策略。当然如果资金短缺的话,他也不会进入市场进行竞争了。Inktomi将被MSN抛弃,因为他们将有自己的运算搜索结果。
那么 Overture是否仍然保持其PPC提供商的风格呢?我不敢肯定。
MSN是否保留付费登录方案呢?前面已经说过,这是一项收益来源,雅虎CEO西莫尔认为不会忽视这一市场。MSN的结果中已经混合了Inktomi的付费收录结果。他也可以坚持纯搜索,去掉付费收录,如果他们是这样认为的话,但要作出决定可不简单。
回到上面
我在Google上的网站怎么了?
如同我在本周早些时候解释的那样,Google排名运算法则的显著变化已经使得许多互联网站点丢失了某些搜索短语的最高排名。在我看来,受影响网站拥有者的大声疾呼是史无前例的。在本文中,我将以问答的形式来调查和解决这次变化中的出现的问题。另外,请务必到弗罗里达Google更新资源网页参阅其他关于近期更新的文章。
为什么对于某个特定搜索词语我的页面不再出现在Google搜索结果顶部位置?
为什么运行过滤器测试又让我的站点排名回到了顶部位置?
Google这样做是不是强迫人们购买广告?
难道在Google中广告和免费列表真的没有关系吗?
Google是否具有一本“货币单位”的“字典”,以便决定什么时候将某些网络站点滤掉?
怎能允许Google这样损害我的生意?
我听说那些在Google上排名下降的网页进行了搜索引擎优化, 我有没有必要将我的网页优化再恢复回去?
过滤器测试是否表明我已经spam了Google?
这是否意味着Google 不再使用网页级别运算法则了?
我想Google 的月度更新已经结束了,页面重要的月度更新是不是已经被持续的缓慢更新而取代?
如果我删除购物车,此举会帮助我重返Google吗?即使我们已经不再使用Froogle?
关于Google这些所有的更新,您的说法能站的住脚吗?
请注意,为搜索引擎观察会员所独享的较长版本的文章也包含这些问题:
因为合作关系,Google也特别照顾大的站点,比如Amazon吗?
如果在AdSense中有益于站点排名吗?
我是否可以因为排名下降来起诉Google?
为什么对于某个特定搜索词语我的页面不再出现在Google搜索结果顶部位置?
Google和其他的搜索引擎一样,也采用称为运算法则的系统对其所知道的网页进行排名。为了能给搜索者提供更好的搜索结果,所有的搜索引擎都对自己的排名运算法则进行周期性的更新。这些变化可以导致网页排名上升或者下降。即使很小的变化也可能产生一些小的排名差异,而大幅度的变化可能会产生戏剧性的结果。
上个月底Google对其运算法则进行了更新。这个事实对任何资深的搜索观察者都是显而易见的,另外Google对此也进行了确认。此次更新使得许多人都报告他们的一些网页排名下降很多。这些网页不再像过去那样符合Google的运算法则。
如果在较长的一段时间内(至少两个月或三个月)您的网页排名突然从顶部位置掉到了后边,最可能的原因是您的一个或多个网页不再符合Google新的运算法则。运行一下所谓的过滤器测试或许能帮助您确认一下,至少在短期内是这样的。
请注意,尽管好多网页排名在下降,但许多网页的排名却因此而上升。然而,那些因为这个原因而致使排名下降的人会到公共论坛中去抱怨那些因此而获益的人。这就是您为什么可能听到“所有的人”都丢掉了排名的原因之一。在现实中,无论哪些网页失去了排名,另外的一些网页就会相应获得了排名。实际上,网管世界甚至感觉到有些因此而受益的人也在发表一些评论。
为什么运行过滤器测试又让我的站点排名回到了顶部位置?
在我看来Google正在第一次同时使用两种不同的运算法则。采用“新”系统之后收到了很多的查询,但还有很多的查询正在“老”系统上进行。新系统正在处理越来越多的查询,老的运算法则正在分阶段地逐渐被完全淘汰出局。
为什么Google会使用两套不同的系统呢?
关于这个问题更多的看法可在为搜索引擎观察会员所独享的Google变化观察中看到。比较简单的回答是,我认为新系统比老系统要求更强大的处理能力。如果是这样,Google可能将它先用于“简单的”查询,比如那些不包含“排除”或“减去”的词语。
为什么越来越多“难”的查询正在转向新系统?
Google可能是先将新系统用于较为简单的查询,之后逐渐地将其用于所有的查询。作为退路,Google可能打算一直使用两种运算法则,但因为迫于站点拥有者的压力而放弃了这个计划,因为那些失去排名的人们发现使用过滤器测试就可以找到“老”的Google.
由于它已经被发现,许多网管都使用了过滤器。这些查询是处理器加强型的。这使得Google正面临前所未有的困境,任何人都可以将“新旧”结果进行对比,并且可以看出老结果更好一些。有时可能新结果要好一些,当然这是因为错误的相关才出现这种结果。这些可以作为证据来证明新Google不如老Google 好。
因此,Google可能最后决定将所有的查询都转向新系统-如果只是插入一个“突破口”,它可能从来也没有期望在它内部是如何工作的当中开这样一个口。
Google没有确认它是否正在同时使用两种运算法则。我只能告诉您我和他们详细地探讨过近期的变化,并且他们已经看过您现在正在阅读的文章。
无论您是否相信我的推测或者Google正在使用的“过滤器”都不存在太大的差异。最终的结果是相同的。对于某些查询,和“老”的Google显示结果相比可能会有戏剧性的差异。
Google这样做是不是强迫人们购买广告?
有些人感觉Google将他们的站点排名降低是为了让人们购买广告。在短期内,购买广告是唯一可以让人们找到的解决办法。对某些人来说,或许也是长期的解决办法。无论哪种情况,Google都将会获得更多的收入。
然而,也有很多的证据证明那些广告发布者们丢掉了他们“免费”的最高排名。也有这样的人,他们从来也没有做广告,可是排名仍然很好。这就使得人们很难讲这次变化是受广告所驱动的。
Google断然否定此次进行的更新是为了提高广告销售收入。公司声明此次进行的更新只是改善搜索结果长期所进行工作的内容之一。Google一直都坚持在广告费用支付和“免费”列表之间没有什么联系。
在我看来,Google完全可以不采用这样鬼鬼祟祟、幕后操作的方法而用更简单的方法来增加广告收入,因此我更倾向于相信此次更新和收入无关。
例如,Google可以让页面查询中的前五个链接而不是前二个链接支付费用。收费可以在以商业化为目标的词语中进行,或者在其他具有商业性的查询活动中进行收费。
难道在Google中广告和免费列表真的没有关系吗?
如果从提升排名的角度讲,是的。我相信在Google中不会出现这种情况, 在Andrew Goodman近期关于Google变化的文章中也没有出现这种情况。我所了解的其他严谨的搜索引擎观察家也对此表示怀疑,尽管不是全部。那些在“我相信”阵营中的人感觉到从长远的观点看Google如果为了短期收益,这种做法就太冒险了。
如果从列表支持的角度讲,购买广告是有益的。据Google工程部门调查报告那些大把花钱做Google广告的人在广告投入收益方面都取得了很大的成功。
在某种意义上,这就像快速支持的后门一样。那些不花钱而使用Google关键词广告项目的人无法获得快速的解决答复。Google始终拒绝应该提供“列表支持”或支付包含的建议,其理由是担心由此可能在付款和免费结果之间建立某种联系。对于此问题更深层次的内容,请参阅从去年开始为搜索引擎观察会员独享所提供的名为如何应对Google列表问题的文章。
对于记录,Google苍白无力地否认并不是做广告宣传的登录的机会就多。公司称他们是从多渠道获得反馈,并且就每一份报告对搜索质量能产生多大影响都进行了评估。
实际上,注意到Google确实提供了另外一个为众多非广告发布者所使用的后门这一点很重要。这就是网管世界.com的论坛站点,这些公共的和私人的信息都可以到达“GoogleGuy”, 这是Google雇员监控的讨论,一直都在遵章办事。
Google也经常参加各种各样的搜索引擎会议,比如星期二在芝加哥开始的由搜索引擎观察所制作的搜索引擎策略演示。Google在这种会议上对有此问题的人们也提供了协助。
Google也在发布的电子邮件地址中以邮件的形式提供了前门。是的,期望您能得到许多查询的录音答复。然而,人们也会收到很多针对个人的调查。
在列表支持和排名提升中进行显著的区别是很重要的。对于Google或者任何一个搜索引擎调查一个根本没有列出的页面(而不是排名不好)是非常正常的活动。提升特定的页面排名是为得到更多的投资回报,并且不揭露它是不可以接受的。
Google是否具有一本“货币单位”的“字典”,以便决定什么时候将某些网络站点滤掉?
这个理论在人们运行了过滤器测试并且发现对于某些查询Google显示的结果比其他显示的要多的时候开始出现。Scroogle的黑名单提供了长篇幅报告说明这方面情况的例子。它反映出24小时中各种各样的人们在Scroogle中所进行的查询是否在新的排名运算法则中下降了。具有许多变化形式的词语都在列表的顶部。
例如,本周早些时候Scroogle的黑名单显示,在Google新运算法则下进行的党点圣诞节的观念查询的100个结果中的前99个都与过去运算法则显示的结果不同。如同在我前面文章中介绍的那样,这还不完全准确。但是无论如何都很接近了。对于那个查询,情况已发生了根本的变化。这种情况对于这样的搜索词组如减肥药丸和扑克赌博是相同的,在性质上可以认为这两者都是高度商业化的。
这就是“货币单位”这样的字眼出现的地方。那些想把具有这些词汇的站点排名提前的目标就是期望赚钱。有些人相信Google想把某些这样的站点过滤掉----尤其是那些非主要商业实体表现出想在Google上优化他们的网页---强迫他们购买广告。
这是一个引人注目的理论。然而,也有出现稍许变化的商业词汇,如圣诞时间、书籍、电话铃声和游戏。黑名单也通过那些检查他们自己的词汇来编辑。如同您所期望的,那就意味着它将严重地向商业查询倾斜。如果一大帮图书管理员输入了大量的非商业词汇,关于那些查询可能会出现戏剧性的变化。
实际上,诸如1 2 3 4 5 6 7 8这样的一个查询就在Scroogle的黑名单中,显然有人试图测试非商业的查询会发生什么。其结果是36个下降的页面。这足以让您认为这个短语可能在“金钱列表”的字典中,然而在性质上却与商业无关。
在谈及所见到的变化数量时,毫无疑问新的运算法则确实极其严重地影响了许多商业查询。然而,这看上去更符合新运算法则正常工作的结果,而不是仅仅符合某些词组。换言之,新的标准在应该计算多少链接、是否计算特殊的链接、什么时候计算更多的锚点文本(超链接文本)和甚至把什么内容作为Spam可能对以商业为中心的查询都有更大的影响作用。
Google或许还在使用关键词广告数据。不难检验出什么样的词组可以吸引来更多的收入,并且采用哪个数据进行列表,甚至可以将其输入新的运算法则。
对于其角色,Google不会确认它是否正在使用某些列表。
最后,是否存在一个预先设定的词汇列表或者这只是采用新运算法则的正常结果没有实际的意义。最终的结果是相同的---许多在过去排名很靠前的站点现在的排名已风光不再,使得大家感觉到自己好象成了某种目标。
怎能允许Google这样损害我的生意?
人们对因为Google不再为他们提供免费的交易而使他们失去生意的抱怨是不会停止的。这里需要学习的痛苦教训是:任何假设搜索引擎会提供免费交易的想法都是愚蠢的。
回到我们还没有对列表付费的时候,我头等的搜索引擎优化建议之一是不要单独地依赖任何的搜索引擎。他们一直是变幻无常的东西。今天对Google的哭喊以及交易的丢失是我历来听到的最严重的。但是我仍然记得在过去对其他主要的搜索引擎,在运算法则发生变化的时候也产生过相似的抱怨。
网管世界.com甚至有很好的见证可以引导人们重温过去记忆中的这些东西。
当然,我们今天还没有付费列表。那也就意味着您现在可以将您的交易单纯地依靠搜索引擎---只有当您准给好购买广告时才可以这样做。
对于免费列表,这些是搜索引擎世界公共关系的等价物。没有人为了特别的生意强迫报纸长期刊登为大家所喜爱的故事。可是报纸一旦决定,只要其认为思考问题的角度是正确的,它们就开始刊登。道理对于搜索引擎的免费列表是相同的。搜索引擎能够而且将要、并且在过去都根据某种标准可能出现的最佳结果对站点进行了排名。那包括所有的主要搜索引擎,不仅仅是Google。
对我来讲,Google的变化对我之所以如此惨重是因为它能达到的数量之大。Google提供的结果占到网络上最受欢迎搜索引擎的3/4:Google,AOL和Yahoo。过去没有别的搜索引擎可以囊括如此大的范围。如果时光能够倒流,如果您的排名在AltaVista上下降了,您或许可以继续从其他主要的搜索引擎如Excite 或Inforseek上获得足够的免费交易。没有一家能支持如此众多重要的搜索引擎,也没有典型的互联网站点如此脆弱地就丢失了交易。
对于那些在Google上看到排名下降的人们的好消息是他们的范围正准备缩小。到一月中旬,它将要变成Yahoo!旗下公司Inktomi的结果,这些都是被MSN使用的主要“免费”列表。在下年初,如果不能再早,我也期望Yahoo!最终停止使用Google为其提供免费结果,并将其转到Inktomi列表上。
在这些变化出现之后,Google在搜索蛋糕市场中占有的3/4的份额将骤减为1/2。这也就意味着在Google上排名的下降不会给您产生太多的影响。
Inktomi将占有另外一半的蛋糕市场。或许这样对那些近期从Google上掉下来的人比较好。当然,或许Inktomi也会出现问题。
过去,我也听到这样的抱怨,那些付费内容的搜索在Inktomi排名较高,或者有时也突然的缩小以迫使他们转变成付费项目。那些抱怨因为Inktomi不再重要而基本消失。实际上,当Inktomi在10月份改变了运算法则的时候,在表面上也对站点拥有者产生了消极影响。然而,那些关注相对于Google的悍然大波只不过是小小涟漪而已。Inktomi的重要地位一旦恢复,大家的目光可能又集中到 Inktomi的不公平之处了。
我听说那些在Google上排名下降的网页进行了搜索引擎优化, 我有没有必要将我的网页优化再恢复回去? 如果您确实在spam的边缘做了一些事情---不可见的文本、隐藏链接或其他Google 发出警告的内容---是的,我认为应该进行更改。
除此之外,我会非常谨慎地提醒您改变Google和其他搜索引擎所需要的一些内容。尤其,我会做以下几方面的事情: 制作一个描述性的好HTML 标题标签,让它能反映出您想让这个网页能被按此词语找到的2个或3个关键词语。
制作一个描述性的好正文,以合适的方式充分使用那些按此找到的短语。
从别的网络站点挑选和您的内容相对应的链接。
您应不应该删除复印件周围的H1文本?排名下降评论标签是不是应和关键词加载?停止现在从别处听来所进行的其它具体工作可能对搜索引擎有益。如果您认为这些工作对搜索引擎有益,也不是不可以进行。做这些事情不是很正常,并且Google可以潜在地发现这些指示器来判定您是否具有一个过度优化的页面。
我几乎不愿意写出上面这些东西。这是因为我担心许多人会认为他们所做的一些无知的事情正在Google上损害自己的利益。我真的不认为许多人广告排名的下降是因为Google突然在惩罚大家。相反,我更趋向于认为这只不过是Google改变了正在使用的衡量因素的一个案例,具体一点讲,就是它如何分析链接文本。实际上,Google也是这样讲的。Google是这样告诉我的,人们所见到的大多数的变化都是因为新的排名因素,并不是因为突然发现有人spam了服务。
您是不是应该让站点取消对您的链接, 或者取消掉那些锚点文本中可以找到您的词组?有些人是这样的建议的。如果这些站点是自然和您建立链接的,我不想干涉。不应该破坏这样的链接。实际上,所有这些变化最大的原因是因为在计算这些链接时采用了一种全新的的办法---而另外的一些链接却没有被计算那么多次。
是不是您就不和人们链接了?在我看来和人们链接是好的,只有在您链接到包含色情文学这样的“坏”站点时可能会对您产生损害。那样做,您也存在与那些内容相关的可能性。 现在又到了我重复建立链接应遵循的三条黄金法则的时间了: 从那些您想让顾客看到您内容的网页中获得链接;
如果能证明访问者仅仅来自于那些物有所值的链接,则可以购买这样的链接;
链接到您想让访问者了解的站点。 这些规则中没有一条包含出自于搜索引擎原因而建立的纯链接---并且我感觉如果您遵循了这样的原则您就走上了获取正确链接之路。
过滤器测试是否表明我已经spam了Google?
不是,仅仅因为您的站点在Google上排名下降并不一定意味着您已经spam了Google。相反,它更可能意味着Google使用的许多网页排名因素出现了调整---只不过您的广告不再与其搭配良好。换言之,您一点也没有做错什么。只不过因为得分标准发生了变化。
把它当成是一场考试。我们讲在这次考试中,评分标准主要是对一个特定问题的回答,但考试还把多项选择和一部分口头内容计算在内。现在标准已发生了变化。口头部分计算的多了,您有可能在这方面薄弱一些。这也就意味着那些在这方面强一些的人考试结果就更好一些。您的考试成绩也不是很差是因为您试图通过认和可能的尝试来“作弊”,但这一切仅仅是因为标准不同了。
这是否意味着Google 不再使用网页级别运算法则了?
Google从来也没有用网页级别运算法则对网页进行排名。网页级别只不过是所有运算法则的一个部分,是Google用来衡量一个链接对一个网页重要性的系统。网页链接的上下文和网页自身的内容也被考虑在内的这种方式在过去一直一直都是这样运行的。
很不幸的是,有些文章写道Google称其排名系统是网页级别,Google自己有时候也纠正这样的错误,如同在网管信息页面中显示的那样: 我们正在使用的对网页的搜索和排名并将其作为搜索结果的方法是通过我们奠基人Larry Page 和Sergey Brin开发设计的网页级别技术进行的。
在实际中,描述Google技术的页面更准确地将网页级别放在整个系统的“心脏”地位,而不是将整个系统都以此命名。 顺便提一下,网页级别从来也不是战胜其他伙伴的因素。它曾经是而且还会继续出现这样的情况:网页级别较低的页面有可能比其他的页面排名更高。搜索books这个词,如果您打开了Google工具条中的网页级别计,您会发现网页级别是8的在线书籍网页反而出现在网页级别是9的O'Reilly前面排名第三。这只不过是一个简单的例子,在过去我已经见到过其他这样相同的例子,而且您如果亲自测试还会发现更多。
我想Google 的月度更新已经结束了,页面重要的月度更新是不是已经被持续的缓慢更新而取代?
在某种意义上,Google的月度更新已经减少了。在历史上,Google月度更新就是每月使用新的网页更新网络服务器。那自然而然地就产生了排名更新,并因此受到了大家的密切关注。有时,运算法则的变化也被迫推出。那种情况可能产生更为混乱的月度更新。
从6月份开始,月度更新前沿生活非常平静美好。Google正在以不变的基础更新其大多数的数据库,当时而不是每月都在更新。这就形成了整个过程中的一些小的变化。
Google称持续的更新仍然正在进行。再次进行月度更新不是因为要立即更新其所有的服务器,而更是因为要推出一种新的排名系统。
如果我删除购物车,此举会帮助我重返Google吗? 即使我们已经不再使用Froogle?
这个问题恰好在我刚刚看看到Google在其搜索结果中首次使用Froogle的链接后提出的。这个问题很及时!
不会的。删除购物车真的不会影响Google上网页的正常排名。有许多站点都有购物车。拥有这些购物车及其正常。
如同您又提出的,拥有在线购物服务意味着您必须有数据进入Google的购物搜索引擎Froogle。并且现在Froogle对Google的影响很大。如果Froogle与一个查询匹配,然后在Google上面网页链接匹配中显示Froogle链接。
这种运作的方式可能和您获得新闻标题的方式是相同的。搜索iraq,您会发现标题显示在正常网络列表字“新闻”下的上方。如果您搜索产品,然后您会发现在词“产品搜索”之后显示来自Froogle的列表产品信息的相似链接。
Google告诉我公司在上个周五揭开了新特色的面纱,并且可能在本周末进行更详细地介绍。下周计划进行正式的公告,并且搜索引擎观察将给您带来更多的消息。
同时,任何在Google正常网络搜索结果上排名下降的人都应该抓住Froogle作为获益的潜在免费解决方案。Froogle免费接收产品数据---访问商务人员信息了解更多。并且由于Froogle列表现在已集成进了Google页面,这也就意味着您或许可以以这种方式重新让客户浏览到。
想了解更多关于Froogle的信息,参见搜索引擎观察过去的这些文章:
1、采用Google的Froogle进行在线购物
2、让您的产品显示在Google的“Froogle”购物搜索引擎中(只限于搜索引擎观察会员)
关于Google这些所有的更新,您的说法能站的住脚吗?
当然。让我们从我的一个读者的邮件开始吧: 我深信Google对我们做错了一些事情。我们努力地根据相关规定支付费用,然而Google从我们的头后面就开了枪。 这个评价是您在论坛中见到的许多评价中的典型评价之一。许多人对Google为什么突然间不再相信他们而感到迷惑,尤其是对那些在较长的一段时间内运行良好的,他们认为非常遵守游戏“规则”。
是的。免费列表无法得到保证。是的。搜索引擎可以做到他们想做的事情。是的。如果任何人将其收入主要建立在通过Google获得免费电话上。
没有什么东西可以帮助人们感觉到在下一步如何做方面迷失了方向。许多排名下降,但可能看到与他们相似的站点还正进入其中。这也就是说还有可能被显示的希望,如果他们只是理解要做什么。因此他们应该做些什么?或者他们不应该做什么?
我的建议没有发生改变---做过去对搜索引擎有用的简单、基本的事情。有一个好的标题、有好的内容、建立好的链接。不要试图高度策划页面来使其符合搜索引擎的运算法则。相反,将注意力都放到为访客建立一个最好的站点上,提供一些不仅仅是销售而且还有信息的内容,我想您会成功的。
除此之外还需要更多的建议吗?Brett Tabke有一个如何在Google中排名更好得很好的简短步骤指南,尽管我认为这些提示对任何搜索引擎都有效。请注意当GoogleGuy最近在网管世界会员讨论中被问及如果重回Google的良好排名应该做些什么问题的时候,他就给人们提出了这些建议。 我也那么作了---可是并没有奏效!
很不幸的是,有些人相信他们已经采纳了这些建议。实际上,Google在过去三年的成长过程中的善举之一是:Google已经报答了那些具有好的网页内容的网管们。如同他们了解的那样,我们已经看到人们正在从感觉需要转向他们称之为“黑帽子”技术,比如目标门户页面、多镜像站点和隐形技术。
这就是为什么看到这样突然的逆转引起的警觉。那些相信自己使用“白帽子”的人现在感觉Google拒绝了他们。或许有些人不如他们想的那样是白帽子,但好多人确实是。许多好网络站点已经失去了在Google上的排名,而且他们的拥有者可能正在考虑是否需要采取更积极的策略。这种想法在网管世界上只是几种想法之一。
更主动的技术或许能产生效果,或许也不能。我个人意见认为那些妈妈和爸爸方式的运作并不是真正意义上的“主动”方式。对他们来讲,主动对他们意味着他们认为需要在任何东西周围都放置H1标签,或者每个ALT标签都应该有关键词、或他们应该采用无尽元再访标签,因为不知何故在某处他们听到他们需要这样做。 来自于Google的更大程度的公开化
有益的举动之一是Google的更大公开化。很显然,Google有一个新的排名系统。Google应该宣传这个事实并且笼统地描述这些新神秘“信号”是如何帮助决定页面的质量和内容的。
Google可以在不向竞争者泄漏商业秘密、不向某些站点拥有者提供如何管理自己列表可以提高站点排名的情况下提供一些关于如何将页面排名更多细节。这样做可以让公司看上去不那么偷偷摸摸的。或许也可以帮助解释站点排名为什么下降的逻辑。这可能帮助这样的读者: 让我最为关心的是根本没有任何的迹象表明为什么有些站点排名很好以及我如何做才能提高我站点的排名。 或许Google已经决定他们正在对某些题目提供内容更充实的解答,因为否则他们的列表将看上去和广告一样(参见蜜月案例调查查看此例)
如果是这样就太好了。他们可将其称为在帮助用户、确保他们有系列的结果。但这个声明至少可以让站点拥有者理解他们可能需要创建引人注目的更具信息的内容,而不是销售文化。他们或许也认识到不会重新获得某些词语的免费列表。了解这些之后,他们可以做一些转向广告或者其他非搜索促销的工作。 搜索者也想知道
Google不仅仅只需要向网管和市场商人解释发生了什么。更为重要的是,一些Google的搜索者想知道幕后到底是如何工作的。
Google已经几乎将其自身作为一个网页的客户报告,并代表她的搜索者有效的评价网页。但是客户报告公布了她的测试标准,因此读者可以收到决策的通知。这对于Google---乃至于任何的搜索引擎---都是以相同的方式面临即将来临的这种趋势。
对于她的信用,Google已经发出了很多信息。她发表了很多面向网管的信息,而通过论坛和会议分享的就更多了。但是如果Google现在正在做已经公开讨论的页面文本分析和链接分析,她需要将此信息与那些搜索者共享,告诉他们这些决策是如何制定的。
现在,一些搜索者正在阅读一个关于痛苦的失败的搜索的新闻报道,这个搜索将美国总统乔治W.布什的自传排到了首位。他们想知道其中的原因。Google在称布什是痛苦的失败吗?这是Google在其技术页面描述中所称的“与您搜索内容相关、信息丰富、诚实可观的方式找到高质量网址”的例子吗?
对两个问题的回答都是:不。Google炸弹使得自传来到了首位,而那些进行轰炸的在其后面并没有“目标性的”目的。他们认为布什是一个失败,而且他们正在使用Google作为工具在传播这个观点。
作为搜索引擎,这是否意味着Google是一个痛苦的失败?不是的。在观念上,Google应该抓住这样公开的尝试来影响她的排名,并且很值得注意的是这一切都已经过去了,甚至包含新的排名系统。然而,Google不是完美的,而且将来也不会。很幸运的是,如果搜索者能了解链接分析是如何工作的他们就能理解为什么会出现这样的列表。那可以更好地帮助他们评价他们收到的信息。
现在到Google上搜索christmas。就像我ResourceShelf的同事Gary Price向我报告的那样,在36,000,000个可能的站点中Marylaine Block's的站点在christmas搜索中排名第6,我打赌大多数的搜索者想知道为什么。
Block自己也不清楚。链接可能会与此有关系,但是Google是不会讲这些关于网页质量和内容的新“信号”的。由于Google没有发言,我们也无法理解---更重要的是---如果她犯了错误就原谅她吧。 市场商人事实检查
在Google上遇到了失败,对于网管和市场商人认识到Google从来也没有确切描述他们是如何工作的这很重要。没有流行的搜索引擎曾经这样做过,因为大量成功的spam会将搜索引擎压倒。
市场商人还应该认识到Google和其他的搜索引擎会继续改变他们的排名系统,如同他们一致进行的那样---列表也会随之改变,其结果有时是戏剧性的。
无论Google和其他搜索引擎公开讨论他们是如何工作与否,人们最终会发现如何使用spam取得成功的方式。必须与此进行斗争。
更重要的,搜索的性质一直都在变化。几年前,链接是一个可以用来使用的有用“信号”,可以给出网络蠕变的相关性、一种有生气的新生活。链接现在不同了。在Google出现后Blogs的链接就不存在了。互惠链接和链接销售更深入,Google和搜索引擎经常将它考虑在内。这就是分析链接方法为什么会发生变化的两个原因。
搜索引擎上最知名的、有利可图的房地产机构不再继续使用网络蠕变作为其第一手的数据这是个事实。在条件具备时,他们会逐渐地走向专业的数据来源。当其他形式的数据找不到匹配时,网络搜索的命运会回填的。
来自于网络列表的免费交易将不可避免地随着搜索引擎通过不可视标签充分使用专业数据源而下降。她不会全部消失,并且这总是需要了解“搜索引擎公共关系”是如何影响免费结果的。但是聪明的市场商人应该认识到他们需要看透网络搜索的表面现象而始终领先一步。
如果Google降低了您的排名,Froogle刚刚获得了一个返回原排名的新促销方式。因此,还会有其他的机会出现。下降的趋势---不像Google---甚至Froogle---它们很费钱。聪明的公司会意识到他们需要花钱去做这些事情,就像他们做广告预算并且在现实世界中处于领先地位。很少有公司只靠公共关系前进---即使英国著名的Pizza Express连锁也不得不以多种多样的形式进行广告宣传。
回到上面
Robots Meta Tag的使用
Robots META tag用于告诉一个Web Robot某一个网页可否被索引以及可否跟踪其页上的链接。该标记元已占据愈来愈重要的位置。而且,它也应用于没有对服务器顶级目录下的robots.txt文件的控制权限,有些搜索引擎现今已完全遵循Robots Meta Tag,如Inktomi. Robots Meta Tag的格式: The Robots META tag放于后台HTML源代码的标头区(HEAD区)中,其格式类似于:(大小写均可)...
Robot Meta Tag选项:
在一个Robots Meta Tag 中可使用的指令有四个:INDEX, NOINDEX, FOLLOW和 NOFOLLOW,以“,”分隔。其中:
INDEX指令:表示Robot可以索引本页;
FOLLOW指令:表示Robot可以跟踪本页链接;
NOINDEX指令:表示拒绝Robot索引本页,但可跟踪该页上的链接;
NOFOLLOW指令:表示拒绝Robot跟踪本页链接,但可索引本页。
实例:
在一些关于Robots Meta tag的搜索引擎文章中提到说,预定义的缺省设置是INDEX和FOLLOW。然而对Inktomi来说却并非如此。Inktomi的缺省项是INDEX和NOFOLLOW。
另外还有两个全局指令:ALL和NONE.
ALL=INDEX,FOLLOW:表示可以索引本页,且可跟踪该页链接;
NONE=NOINDEX,NOFOLLOW:表示不允许索引本页,且不允许跟踪该页链接。
回到上面
综述:2003年的中国网络营销
2003年是中国网络营销迅速发展的一年,较之前几年出现了明显的新特点,如搜索引擎营销得到广泛应用、网络会员制营销快速发展、网络营销服务市场初步形成等,但与此同时,网络营销中的欺诈行为更为突出,垃圾邮件对网络营销的影响也更加严重。这种状况说明:一方面,网络营销在企业中的应用正逐步走向深入;另一方面,国内的网络营销离规范经营还有很大的差距。
1、网络营销迎来搜索引擎营销时代 如果说2002年是网络广告革命的一年,2003年则是搜索引擎独领风骚的一年:2003年的中国网络营销迎来了搜索引擎营销时代。进入2003年之后,以google和overture为代表的搜索引擎不断推出新功能和新服务,如关键词广告、基于内容定位的广告、本地搜索服务等,引发了搜索引擎在网络营销中的多层次应用,国内搜索引擎服务商在竞价排名、网站付费登录等方面也做了大量的推广,众多的服务商在推广各种网络营销服务活动中付出了积极的行动,以搜索引擎为主的网站推广服务已经为许多企业所认可,也成为网络营销服务领域的核心业务之一。但同时也应该注意到,搜索引擎营销过热并不完全是好事,搜索引擎虽然很重要,但并不是万能的,仅仅依靠有限的几个搜索引擎难以保证网络营销取得全面效果,不应忽视搜索引擎营销之外的其他网络营销手段。
2、网络会员制营销得到快速发展 网络会员制营销是电子商务中一种有效的营销模式,笔者在关于2000年中国网络营销的综述文章中曾提出“会员制营销浮出水面”,时隔3年,现在的网络会员制营销已经在国内大型网络公司已经获得了广泛应用,不仅受到大型电子商务网站的重视,也扩展到其他网络服务领域,如搜索引擎的竞价排名、竞价广告等。但由于对网络会员制营销模式还缺乏足够的认识,因此在实际操作中还存在一些问题。尤其在2003年上半年,以“短信联盟”为代表的网络会员制营销模式几乎到了过热和失控的状态,最终这种短信联盟被有关部门所取缔。而在其他正常的业务领域中,网络会员制营销模式更多的表现在效果不如预期的理想。
3、网络营销服务市场初步形成 网络营销服务是一个新兴的领域,现已展现出勃勃生机,已形成一个巨大的、快速增长的市场,也成为网络经济最坚实的基础。根据时代营销对中国网络营销服务市场进行的调查研究,目前最常见的网络营销服务内容包括:域名注册、虚拟主机、网站建设、搜索引擎登记以及网络实名注册、google关键词广告业务代理、供求信息发布、通用网址等。在网站推广服务方面,服务商的主要业务模式为:代理主要门户网站的搜索引擎付费登录、网络实名代理注册业务、百度搜索引擎竞价排名服务等。此外也有相当数量的服务商经营yahoo、google等搜索引擎的国际推广业务。
4、网络营销服务出现三大特征 时代营销的研究发现,网络营销服务表现出一些比较明显的特征,主要表现在: (1)网站建设与推广一体化。有一定实力的服务商通常都提供从域名注册、虚拟主机(主机托管)、网站建设,以及搜索引擎登记等网站推广服务,网络营销服务一体化趋势比较明显,这也从一个侧面反映出一个信息:企业需要有实力的专业网络营销服务商。 (2)网络营销服务产品化。网络营销服务具有产品化的趋势,像在线销售商品那样采用购物车销售模式,一些常见的网络营销服务如搜索引擎付费登录、竞价排名、网络实名等已经形成了规范的定价和销售模式,可以方便地实现在线销售。另外,虚拟主机、网站建设套餐等服务也出现规范化和产品化经营的趋势。 (3)网络营销服务仍处于较低层次。尽管网络营销服务已经取得了明显的发展,但总体来说服务层次仍然较低,主要表现在目前的网络营销服务主要集中于网站建设与推广相关方面,这只是网络营销服务的最基本内容,一些深层次的网络营销服务如市场研究、网络营销顾问服务等尚未形成气候,这些“看不见”的网络营销服务还不太容易被企业所认可。
5、网络营销的欺诈行为出现新的特点 网络营销中一直存在一些欺诈现象,如虚假网络广告、交付给用户的商品与网站介绍的不符、产品质量及售后服务无法保证等,这种现象一向只是个别信誉不高的公司所存在的问题,但2003年网络营销的欺诈行为比以前更加明显,涉足欺诈经营的范围有扩大的趋势,并且某些领域出现行业欺诈现象,多数服务商甚至不少知名企业也参与了种种欺诈活动。比较突出的领域如短信服务、网络广告恶意点击、google关键词广告代理、网络会员制营销中的佣金欺诈等。
6、垃圾邮件严重破坏网络营销环境 垃圾邮件近年来发展成为影响网络通信的公害,对于网络营销的影响更是十分严重,这种状况已引起有有关部门的重视,目前反对垃圾邮件的呼声虽然很高,但却没有行之有效的方法,不仅从技术上很难杜绝垃圾邮件,即使有相应的法律,也难以做到有效的监督和控制,因而垃圾邮件数量仍然在疯狂增长,一个网站上公布的服务邮箱每天收到600封以上的垃圾邮件已经司空见惯,这个数字比一年前又有大幅度上升。电子邮件的泛滥与一些打着网络营销旗号的“网络营销软件”、“分类邮件地址”等密切相关,也与一些企业对规范的电子邮件营销缺乏必要的了解有关。多数垃圾邮件发送者以“定向发布信息”、“搜集潜在客户”、“邮件群发是最好的网络营销手段”等口号混淆垃圾邮件与许可Email营销的概念,使得一些企业和个人在对正规的Email营销缺乏了解的情况下发送垃圾邮件,或者委托垃圾邮件发送者发送广告信息。因此,反对垃圾邮件、宣传和普及正规Email营销知识成为网络营销的任务之一。
回到上面
搜索技巧大揭密(初学者篇)
选择合适的搜索工具
每种搜索引擎都有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。搜索工具基本上可以分为引擎检索和分类目录式两种。这里先介绍一下这两种工具的区别。
搜索引擎实际上是网页的完全索引。它很象白页电话号簿。在电话号簿的索引中你不会查到一个人具体的居住地之类的详细信息,但是你可以很容易查到所有叫XX的人的列表。
分类目录,是由人工编辑整理的网站的链接。分类目录就象是黄页号簿。许多分类目录对于链接的网址都有或繁或简的的描述文字,通过这些文字可以让用户决定是否要进一步点击。象About.com、LoookSmart以及Yahoo是这方面的代表。
这两种搜索工具那种更好呢?这取决于你想查询的问题。因为搜索引擎的特点是量大,分类目录的特点是网站是经过挑选的。
一般而言,如果你需要查找非常具体或者特殊的问题,用搜索引擎,比如Google比较合适;如果你希望浏览某方面的信息或者专题,类似Yahoo的分类目录可能会更合适。
如果你需要查找的是某些确定的信息,比如Mp3、地图等,就最好使用专门的Mp3、地图等搜索引擎,
实际上几乎每一类信息都有非常专业的搜索工具,我们称为垂直搜索引擎。 使用多个搜索条件
如果一个陌生人突然走近你,向你问道“北京”,你会怎样回答?大多数人会觉得莫名其妙,然后会再问这个人到底想问“北京”哪方面的事情。同样,如果你在搜索引擎中输入过少的关键字,它也会返回很多并不是你需要的结果。
因此建议使用多个关键字查询的方法来减少搜索结果数。比如,如果想了解北京旅游方面的信息,就输入“北京 旅游”这样才能获取与北京旅游有关的信息。 不要使用错误的搜索条件
在搜索时,要避免下面的搜索错误,这样才能返回更为有用的搜索结果。
1、 Stop words
很多搜索引擎都会屏蔽一些关键词。在正常的搜索中,通常很少使用这些词。当你在搜索框中输入这些词是,不会返回正确的搜索结果。这些词就被称作“Stop words”。为什么搜索引擎会屏蔽这些词?这是因为这些词本身是缺乏实际意义的或者使用过于广泛,大都是副词、连词之类的,一旦用来搜索的话,会返回大量的无用的搜索结果甚至导致搜索引擎错误。
哪些词属于“Stop words”呢?英语中的300个最常用单词中的绝大部分都属于这类词。
实际上在搜索引擎Google中,当你输入“Stop words”的话,它会告诉你输入了不合适的关键词。你可以在Google中输入“Web”试试看。
2、 不使用过于通俗简单的词语
大多数搜索引擎在处理太简单通俗的词语方面有问题。这不是因为搜索引擎清高或是自大,而是取决于它的搜索机制——基于关键词检索。由于网上相关信息的数量是巨大的,如果使用过于通俗简单的词语,就会返回过多的搜索结果,因而就很难查到有用的信息。
比如,你想查找有关降雨量方面的信息,虽然它属于天气方面的,但如果你输入的是“天气”,就会返回大量与天气有关的信息,而结果中充斥大量无关的信息,但如你直接输入“降雨量”,就会获得比较满意的结果。
3、 要注意一词多意的问题
很多词具有一词多意的特性。比如,笔记本,可以指用来手写的本子,现在也作为笔记本电脑的简称。遇到这类词,可能需要在搜索框中输入尽量减少歧义的词语,比如改输入笔记本电脑。 正确使用布尔检索
正确的使用布尔检索方式可以减少搜索结果的返回数。但问题是,很多人使用布尔检索方式时,出现了一些错误,这样就会影响到返回的搜索结果。《The Extreme Searcher's Guide to Web Search Engines》的作者,Ran Hock指出,要注意不同搜索引擎工具的布尔检索的表达方法。比如,有些搜索引擎允许使用“Not”,而有些搜索引擎比如使用“and not”。因此,在使用布尔检索之前,必须了解在不同搜索引擎的使用方法。这方面知识可以参考有关文章(Search Engine Math) 在点击之前要思考
成功的搜索等式为:正确的提问产生准确有用的结果。
但是在返回的搜索结果中究竟哪个是真正满意的?在点击之前,你仍然需要思考决定。
你需要通过比较排序位置、网址链接、文字说明等来分析。这就需要对各种搜索引擎的排序方式做一简单的了解。 养成良好有效的搜索习惯
搜索技巧和其他的技术一样是在不断联系中总结与成熟起来的。因此你必须不断联系、不断总结。通过联系总结,你可以形成自己的一套有效的搜索习惯。这将有助于更快的完成搜索。 从搜索高手那学习搜索
学习搜索除了要通过自己不断的搜索中摸索经验之外,向搜索高手学习绝对是快速提高搜索技巧的捷径。你可以通过订阅搜索杂志,加入搜索论坛,想高手请教等多种方式达成这个目标。相信,很快你也可以成为搜索高手。 不要放弃
经常会有这样的事情发生:你似乎已经用了全力来搜索,但是依然没有找到需要的答案。这个时候,请不要放弃,认真回顾检查你的搜索方法,也许只是一个小差错,纠正过来就会找到有用的结果。当然,搜索引擎的发展是迅速的,但是它还是没办法覆盖Internet提供的所有信息。这个世界上还有专家问答的模式,比如About.com、Ask100等等;还有搜索论坛、搜索机器人等等一些帮你搜索的人与地方,你完全可以把问题留给他们,也会得到期望的结果。
回到上面
确保你的站点是支持索引程序的
本周我没有能找到其他“内容丰富”的问题,因此我想笼统地讨论一下怎样才能让一个站点“支持索引程序”。过去我常称之为“支持 搜索引擎”,但我的朋友Mike Grehan告诉我更准确地说法应是“支持索引程序”,因为你的站点需要的是与搜索引擎的索引程序(或者spiders)结成伙伴,而不是搜索引擎本身。 因此,你如何确保自己的站点具有索引程序需要的短语呢?首先,你先买上一些饮料。(笑)但由于它不大管用,你下一个赌注应该是带着索引程序设计你的站点。搜索引擎索引程序是一些简单的事务,尽管它们不断得到改进,最好的结果是弃繁从简。
我说这话的意思是擦边球设计并不是最好的出路。很有意思的是,你站点的访客可能同意。尽管我们这些SEO跳梁小丑们具有cable modems和DSL,我们站点的访客们未必有。例如缓慢加载的Flash 站点,就可能阻止了搜索引擎索引程序对他们的索引。搜索引擎索引程序一般对Flash站点没有什么兴趣,因此它肯定不会等待继续下载! 除了Flash,还有一些“有益的”特色被应用到站点设计之中,这些东西对索引程序的能力来说是死亡之吻。例如,那些为跟踪客户而要求Session ID的可能永远也不会有访客来光顾----至少不是来自搜索引擎。
如果你的站点或者购物车要求Session ID,现在马上检查一下Google,看看是否已被索引。(测试所有的url:在Google的搜索框中输入yourdomainhere.com,然后查看会出现什么内容。)如果你看到Google只索引了一两个页面,那么你的Session ID可能就是罪魁祸首。这是有工作区的,我就曾看到许多具有Session ID的站点是如何索引的;然而,对于一般的程序设计员/设计者可能都不知道问题是出在这里。没有对你的页面进行索引的另外一个不幸的原因可能是你站点的每一个页面上都使用了一模一样的标题标签。这有时候是因为网管的惰性而出现,但经常是因为一个默认的标题标签会由内容管理系统(CMS)自动添加生成。如果你存在这个问题,你很有必要花些时间解决这个问题。大多数的CMS都有工作区,你在那里可以添加唯一的标题标签,防止每个页面都有相同的内容。通常程序员从来也认识不到它的重要性,因此也没有作这方面的工作。最惨痛的是那些动态生成的页面经常是设定一个模板、从几个页面中找几个具体的句子然后插入到标题域中。要算作是有一点小“窍门”的是确保在每页顶端有一个使用你最重要关键词的大字标题。如果你已经那样做了,你就可以设定你的CMS,让它选定你的标题。我看到网页没有被索引的另外一个原因是在用户访问这些网页时网页要求cookie。你猜猜会怎样,我的朋友?Spiders可不吃cookies!(当然,它们喜欢啤酒,但是它们憎恨cookies!)不,你也没有必要删除cookies以便被索引。只是不要强行让任何人和人人都接受。只要不强行让大家接受它们,你的网页会被索引的很好。
那使用了JavaScript又会怎么样呢?我们经常听到JavaScript不是很支持索引程序的说法。这种说法是部分正确、部分错误。近期我所见到的每一个站点都在代码中使用了某种类型的JavaScript。对于其本身来讲应该说是不坏的。根据实践和实际经验,如果你采用Javascript作鼠标移动效果以及诸如此类的事情,只需检查一下并确认链接的HTML代码也采用传统的 标签。只要是这样,你的站点应该运行良好。如果想做得更保险一些,你可以将任何的Javascript放进标签,将文本链接放到页面的底部,然后创建一个到网站地图的可见链接,让其包含你站点中的其他所有重要链接。它肯定不会过度杀伤所有这一切的。 还有很多涉及你网站索引的事情都值得你去担忧 ,但是以上那些是我见到的最重要的。某一天,我相信普天之下的每一个网页都可以支持索引程序,但现在,我们不得不给我们的蜘蛛朋友们提供一些帮助。
我用来查看任何潜在索引程序问题的工具是 Lynx browser tool。一般情况下,如果你的网页可以在Lynx 浏览器中进行浏览和点击(在我们今天的绘画浏览器之前出现),那么索引程序也应该可以访问这个页面。这不是写在石头上的,但至少是一种为你所拥有的发现潜在问题的方法。然而它也不是十分简单。我刚刚检查了我在Lynx浏览器的论坛,它显示了一个空白页面,然而论坛能为搜索引擎的索引程序爬行并索引这一点不存在任何问.在你考虑你的站点没有完全被索引的时候提醒你是恰到好处的,在作出任何的结论之前需作多方面的检查。
回到上面
我眼中的韩国搜索引擎
我是一名韩语专业的大学生,同时是一名电脑爱好者。很多时候都是通过来查找自己需要的资料。以前使用 Yahoo来查找资料,后来在杂志上知道了 百度,用了百度后觉得它在国内是很不错的搜索引擎了,我想大家对Google都很熟悉吧,但对我们的邻国韩国的搜索引擎研究的一定很少。由于专业的缘故,我使用韩国的搜索引擎查找资料的时候比较多,我想把自己对韩国的搜索引擎网站一些认识和看法发上来(由于不是IT业内人士,所以有些看法难免不成熟,望大家多见谅),也希望我们的百度能更加完善,为我们广大网民更好地服务。
韩国现在国内的两大搜索网站是naver和empas,和Google,百度不同的是这两个网站在韩国都是综合性的门户网站,除了搜索服务外,还提供邮箱,相册,网上购物,新闻,金融等服务。据由美国“阿尔赖克斯”网站(www.alexa.com)提供的,截至2003年3月末,对全球500强网站的调查结果显示,韩国的两大搜索网站“naver”排第4位,“empas”居第26位。(资料来源韩国驻华大使馆网站http://www.hanguo.or.kr)
他们搜索网站的页面不象Google,百度这样简单明了,但我觉得他们提供的搜索服务比较详细。以naver为例,在它的搜索栏上可以选择的项目如下:
1.网站所有项目统合搜索(基本词汇搜索,所有词汇包含搜索,按词汇顺序搜索,使用and,or,not,within,near等语法搜索)
2.文件夹搜索
3.文件搜索(可以按照个人需要对hwp(韩国的文字处理软件,类似与中国的wps),pdf,doc,ppt,xls,txt格式的文件进行搜索)
4.网页搜索
5.免费对日本网站进行在线翻译,并提供相关的搜索结果(提供2亿多的日本网页在线翻译)
6.新闻搜索(范围可以按照新闻的题目,有否图片来搜索,时间可以自定义选择)
7.字典(百科词典,英语词典,国语词典,日语词典)
8.图片搜索(相册,网页图片)
9.知识解答搜索(其搜索结果来自"知识人社区",该社区和百度的搜索论坛很象,但它的范围很广,按类别划分为网络,电脑,购物,健康,旅行,体育,文化,商业,游戏等.可以说是一个大型的学习社区.注册成为会员后,谁都可以在相关的版块提出自己的问题,然后由知道答案的网友来解答.来实现知识的共享.同时这些解答会在网友使用naver搜索时出现)
以在“网站所有项目统合搜索”中搜索韩文的“中国”一词为例,出来的结果
一是该网站本身提供的词典工具服务项目:百科词典,英文词典里的中国
二接着是“问题向导”里的两个有关中国留学和旅游的信息的网站
三是在“知识解答论坛”里出来的结果
分别是常识,留学,民族文化,韩国的历史等版块里出来的有关中国的问题帖子
四检索分类里有关中国的选项(和Yahoo的分类检索一样)
五是在登录的网站搜索的结果[该服务主要面向企业,是收费服务,登录的网站除了提供一般的文字介绍,还提供相应的图片,联系方式等信息公布,享有其被搜索时优先出现的权利。同时可以对发布内容予以修改(需要提前2天提出修改申请)]
六是网页搜索的结果.
七是相应的图书信息.
八是有关中国的新闻搜索结果.
九是有关中国的图片搜索结果.
十.还可以单独选择对日本网站在线翻译后进行搜索.其与中国相关的网页为1976183个.
上面的新闻,图片,图书搜索的结果都是来自其网站本身.但内容也挺多的,我想是这和naver本身是综合性网站,并提供这些服务有关.
给我印象最深刻的是naver提供的“文件搜索”“知识解答搜索”和在线字典以及在线翻译.
1.首先就文件搜索来说,国内的搜索很多时候提供的都是网页搜索,但很多有用的信息都是以文件格式存放在网上.就拿我写一篇关于韩国的网络游戏论文为例,我在naver先用的是网页搜索,但找的资料其可用性不是很大.但我通过文件搜索就找到了很多有用的资料文档.
2.我感觉知识解答搜索很具有人性化,其结果都来自"知识人社区".毕竟我们在使用搜索引擎时,会有很多局限的.很多自己需要的东西在网上搜索不到时怎么办,就到这个社区去,提出问题.很快就有网友作出解答来.真正做到知识信息的共享.其正确的解答结果会作为搜索结果在naver搜索中出现,为了保证解答的可靠性,真实性."知识人社区"发贴都要遵从一定的规定和限制条例的.对做出贡献的会员给予一定的表扬和物质奖励.这里面有各种各样的问题,我就在社区里面看到有人问中文的“有风度”怎么解释这样的问题。一时难以解答的问题还会作为挑战问题出现在社区的首页,现在的挑战问题就是“健忘症和痴呆的区别是什么?”“花的花瓣为什么会是5片?”
3.在线字典功能确实非常实用,另外韩日在线翻译的准确度也很高,可以说是达到了韩日两国的网上信息资源共享(这一方面是韩日两种语言的语法很接近,加上这方面的研究开发比较早)
以上是只是我在使用韩国的搜索引擎时一点感想,也希望能对我们最好的中文搜索引擎-百度的发展能起到一点小小的借鉴意义.
回到上面
中文搜索引擎的十大误区
误区1、
网站目录就是
网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能。网站目录就是搜索引擎的名词始于雅虎,雅虎初创时就是只有一个网站目录。当然很快就通过外包的形式增加了网页级的搜索。中文网站提供目录搜索的远多于提供网页搜索的,加之媒体的各种炒作,许多网民误以为网站目录的搜索功能就是搜索引擎。
在美国,因特网搜索引擎通常指的是收集了因特网上几千万到几亿个网页并对网页中的每一个词进行索引的搜索服务系统,是基于网页的全文检索系统。
误区2、
搜索引擎就是门户站点
如果你要提供搜索服务,大家就认为你是一个门户网站,你就要吸引用户、提高页视率(PageView)。实际上,搜索引擎完全可以为内容提供商(ICP)、门户网站提供专业的搜索服务,而不必直接面对用户,这是一种典型的应用服务提供(ASP)模式。
误区3、
搜索引擎的概念已经过时
搜索引擎是互联网上最先商业化的一个应用服务,它对于帮助网民快速寻找到所需要的信息非常关键。因特网搜索引擎是一个全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM 最高可达70美元;所以一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。根据中国互联网信息中心(CNNIC)2000年1月的统计结果,在中国网民中,搜索是排在电子邮件之后的第二大互联网应用。
误区4、
中文搜索引擎技术已经成熟
不要说中文,即使英文的搜索引擎也没有发展成熟。这一方面表现在新的搜索引擎公司层出不穷,如Google, ASK Jeeves等;另一方面更表现在美国前三大网站都外包了它们的网页搜索部分。实际上,美国在线、雅虎和微软网络的搜索服务都是由一家叫Inktomi 的公司提供的。这是因为搜索引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术。之所以有人会有搜索引擎技术已经成熟的概念,其实是因为网站门户公司意识到了它们的长处并不是搜索技术的创新,而是互联网上大众品牌的建立。 中文搜索引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,开发所需要的硬件要求也比一般的网页制作高出很多。 百度公司结合硅谷搜索引擎人才精英,依托北京最优秀的软件人才,开发了大型商业化的中文搜索引擎,中文搜索从此与英文站在了同一起跑线上。
误区5、
中文搜索引擎速度很慢
某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(ASP),如Altavista 或Openfind等, 由于用户搜索需要占用出国带宽,因而速度极慢。这不是中文搜索引擎的错,而是这些网站没有选对ASP 所致。
误区6、
中英文混合检索词是不被支持的
当你输入“MP3” 时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜索引擎上;更多的网页搜索服务不能对“甲A”、“F-1一级方程式”等中英混合查询作出恰当的反应。然而搜索技术并非对此无能为力,百度搜索就完全解决了中英文混查的问题。
误区7、
中文搜索引擎的相关性无法与英文相媲美
中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文 网页极少有针对搜索引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。中文搜索的相关性完全可以与英文媲美。百度搜索使用了目前国际上先进的搜索引擎技术,并结合中文的语言特点和文化特点,成功地解决了中文搜索的相关性问题。
误区8、
用户要找的信息在网上不存在
目前大多数的中文搜索引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了;可是随着中国互联网的繁荣、政府、企业和各行各业对互联网的重视,以及大量风险投资的进入,中文互联网的内容日益丰富,网页数量激增。另外很多搜索引擎不支持新的中文编码标准,如“GBK”。例如“朱镕基”的“镕”字不在GB2312的字符集中,但是却在GBK编码中可以找到,许多搜索引擎由于不支持GBK,因而用“朱镕基”无法找到有关的网页。所以许多网上存在的信息在当前的主要搜索引擎中无法找到很可能是因为您用的搜索引擎不好,而不是因为您要找的信息在网上不存在。
误区9、
搜索引擎数据更新最快要30天
对于那些依靠海外服务器提供检索的网站来说,这也许是对的.网易掌门丁磊辞职的消息传出后的三个星期内,各大门户网站的网页搜索服务都无法查到任何相关的网页。但这绝不是说及时更新数据是做不到的。百度搜索就巧妙地解决了数据更新的瓶颈,整个中文网页的数据库可以最快每天更新一次。
误区10、
搜索引擎不能查找动态生成的网页
目前世界上没有一家主要的搜索引擎支持动态网页,因为大多数负责搜索网页的蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大势所趋,ASP、 PHP、 JSP 等编程工具日益流行,解决动态网页查找的问题已经是人心所向。百度在这一方面又在国际互联网界首开先河,成功解决了动态网页的收集和索引问题,用搜索引擎来查找动态生成的网页已经不是神话。
回到上面
限制Robot访问Web站点的方法
Robot是帮助搜集网页的一种自动化程序,它在访问一个Web站点时,会跟随网页中的链接提取出站点上的大部分内容,并为这些网页建立索引,放在搜索引擎的数据库中。在一些情况下,Web管理员或网页的作者出于某种原因的考虑可能并不想让Robot提取站点上的某些内容,此时可以使用一些方法来限制Robot的访问范围。
限制Robot访问Web站点的方法共有两种,一种是由站点的Web管理员使用的Robot限制协议,目前绝大部分Robot都遵守该协议,另一种是由网页作者使用的Robot META标记,目前只有一小部分Robot支持该标记。
Robot限制协议
Robot限制协议的关键是在Web站点的根目录下放置一个文本文件Robot.txt。Robot在访问一个站点时会首先去读取该文件,分析其中的内容,并按照Web管理员的规定不去访问某些文件。下面是Robot.txt的一个例子: # http://www.yoursite.com/robots.txt
User-agent:
Disallow: /tmp/ # these files will soon be deleted
Disallow: /test.html
User-agent: InfoSeek Robot 1.0
Disallow: / 其中"#"后面的内容是注释,User-agent命令用于指定它下面的Disallow命令对何种Robot有效,""表示对所有Robot都有效,上面例子中第二个User-agent命令表示其下面的Disallow命令只对Infoseek的1.0版Robot有效。Disallow命令用于指定哪些目录或文件不能被访问,如果指定了"/",那么所有文件都不允许访问,Disallow命令在一行中只能放一个目录或一个文件,如果有多个目录,则必须分别放在几行中。 上面的Robot.txt文件是目前还在使用的早期Robot限制协议规定的内容,现在还有一个关于如何限制Robot的Internet草案正在制定之中,它对早期Robot限制协议进行了很多扩充,但还未进入实用阶段。
Robot META标记
绝大多数情况下,网页作者并非Web管理员,如果网页作者不想让Robot访问自己编写的一些HTML文件,那么可以请Web管理员帮忙在Robot.txt中注明,或者使用Robot META标记。 META标记是HTML文件中用来放置一些不可见信息的一种标记,它必须放在HTML文件的Head部分中。Robot META标记是一种特殊的META标记,下面是它的几个例子: 〈meta name=″robots″ content=″index,follow″〉
〈meta name=″robots″ content=″noindex,follow″〉
〈meta name=″robots″ content=″index,nofollow″〉
〈meta name=″robots″ content=″noindex,nofollow″ 〉
Robot META标记的name部分为"robots",content部分可以是"index"、"noindex"、"follow"和"nofollow"的组合。"index"表示搜索引擎可以为该HTML文件建立索引,"follow"表示搜索引擎可以使用该HTML文件中的链接来访问其它文件,"noindex"和"nofollow"与"index"和"follow"的意义正好相反。在组合使用这几个命令时,不能出现逻辑矛盾,即不能同时指定"index"、"noindex",或"follow"、"nofollow"。另外,如果要指定"index,follow",可以使用"all"来代替,如果要指定"noindex"、"nofollow",可以使用"none"来代替。
使用Robot META标记的缺点是比较麻烦,对每一个HTML文件都要进行修改,另外,很多Robot并不支持该标记。
回到上面
从中国人网站看搜索引擎的ASP服务
根据中国互联网信息中心的第六次中国互联网络发展状况统计报告,是仅次于电子邮件的第二大互联网应用。我国55.91 %的网民都使用搜索引擎提供的互联网搜索服务。一个优秀的搜索引擎对于吸引用户、增加网站的粘性是至关重要的。但是搜索引擎是一个技术含量非常高的互联网应用,开发和运行需要花费大量的人力和物力,代价极高。
中国人网站(www.chinaren.com)是一个面向全球华人新生代的门户网站。在中国互联网信息中心2000年7月份进行的第六次中国互联网影响力调查中,中国人网站成功进入前10名。作为一个门户网站,其最主要的目标是建立品牌和吸引客户。而要吸引用户,最主要的手段就是为网民提供最好的服务。 中国人网站从一开始就很明白,门户网站的优势并不在于做搜索引擎的开发,他们一直在寻找合作伙伴进行搜索引擎方面的合作。
百度公司是一家专门从事搜索引擎及其相关软件开发的互联网公司,它以ASP的方式向门户网站提供技术服务。当百度公司在今年5月份推出百度搜索引擎之后,中国人网站决定和百度合作。在双方共同努力下,仅用了短短的两个星期,就推出了中国第一个提问式搜索引擎--"孙悟空搜索引擎",为用户提供了很好的互联网搜索服务。
■高可靠的服务
互联网搜索服务要求能提供每天24小时、每周7天的不间断服务。中国人网站要求系统在99.9%的时间内提供搜索服务。百度公司作为提供搜索引擎服务的ASP,采用了一些技术手段,确保了中国人网站搜索服务的高稳定性和可靠性。
1、高可用性的体系结构
系统每个部分均采用N+1的冗余设计。当在某个工作模块发生异常时,冗余模块可立即启动使用。系统能够自动检测模块的异常,并自动进行切换。
冗余模块有两种配置形式:
备用冗余(Standby Redundancy) 冗余模块在工作模块正常工作时不投入使用,只有在工作模块异常时才被启用,一旦原来的工作模块恢复正常,系统便会自动切回到工作模块,而冗余模块重新回到备用状态。
活跃冗余(Active Redundancy) 冗余模块和工作模块同时工作,互为备份。在正常情况下,冗余模块和工作模块共同分担系统负载,在一个模块发生异常时,该模块承担的工作便被分配给其它模块,当异常模块恢复正常后,会自动投入工作。
高可用性体系结构保证了系统的高可靠性服务。
2、系统异常报警系统
当系统模块发生异常时,除了冗余模块立即投入使用外,还必须向工程师报警,从而通过人工干预,尽快修复异常系统。为此,百度公司开发了系统异常报警系统。
系统异常报警系统的工作原理是:系统监视程序定期检测被监视对象的工作状态,如果检测到任何不正常状态,立即向系统工程师和相关人员的手机发送短消息、或向寻呼机发送消息进行报警。
系统异常报警系统运行在与被监视对象不同的机器上,以进行远程监测。系统可以在半分钟之内检测到系统异常。
3、系统异常干预
系统工程师在接到系统异常报警后,要立即进行干预,在最短的时间内恢复系统的正常工作。百度把提供ASP服务的机器托管在中国电信。在正常的上班时间,百度通过公司的局域网上网;在下班时间和节假日,百度通过电话拨号上网。电话拨号上网可以通过ISP,但是在高峰时间ISP的电话非常繁忙,有可能不成功,为此,百度在服务器的托管地申请了专用电话,专门用于拨号上网。另外,如果公司的局域网不能连到互联网,这部电话也可以作为上网备份。
■灵活的客户化策略
客户化是ASP面临的一个课题。门户网站都有高质量的互联网搜索服务的需求,但是不同的客户又有自己不同的特色需求。对于中国人网站来说,因为是面向年轻人的目标网站,因此追求新、奇、酷。针对这种要求,百度设计了一整套灵活的客户化策略。
百度提"内容类?quot;和"站点类聚"等丰富的特性供用户选择。用户能够控制搜索结果页面的显示风格和显示内容。在显示内容上,除了从百度搜索引擎返回的搜索结果由百度控制外,其它所有内容(包括广告、到其它页面的链接等)都由客户控制。搜索结果的显示方式和内容也可以定制,如网页的属性(标题、摘要、编码类型、日期、长度、URL)、匹配关键字的颜色、不同页之间的链接方式都可以根据客户的喜好决定。
百度从技术上紧密配合实现客户的定制要求。目前百度有三种模式与客户交换搜索结果:
服务应用协议模式(Protocol Model) 该模式采用客户/服务员模式。客户的程序与百度的搜索服务器进行通信,通信协议采用百度定义的BSP( 百度 Search Protocol)。这种方式完全由客户控制结果页面的显示方式,百度只返回检索得到的URL及其属性。这种模式最灵活、客户控制度最高,缺点是实现较为复杂,客户需要一定的编程能力。
服务应用模板模式(Template Model) 用户事先定义好结果页面的显示内容和显示方式,结果页面完全由百度的搜索引擎构造。用户除了处理与用户的Web接口之外,不做任何工作。这种模式的优点是简单、易于实现,缺点是客户可控制度低,模板的变化频率快,灵活性也很差。
服务应用协议模板模式(Protocol Template Model) 这种模式是上述两种模式的结合。客户用显示模板定义结果页面部分内容(往往是检索结果)的显示方式,其余的部分由客户自行决定,整个结果页面的构造由客户完成。检索情况(如有无结果,有无"相关检索"等特性,结果有多少,服务是否正常)的返回遵循百度和客户事先定义好的协议。这种模式既易于实现,又为用户提供了很好的灵活性。
中国人网站采用的是服务应用协议模板模式。中国人网站希望提供一种能够理解自然问句的中文搜索引擎,所以网站需要知道每个查询的检索情况,并做相应处理。如果一个检索有结果,网站便将百度搜索引擎返回的URL和自己的广告整合在一起,显示给用户。如果该查询没有结果,网站便进行切词处理,用处理得到的词构造查询串,再次向百度搜索引擎提交,获得检索结果。
■百度搜索引擎的技术特点
百度搜索引擎具有响应速度快、查找结果准确全面、时效性强、无效链接少、符合中文语言特点和中国人使用习惯等优点。
1、使用智能化的中文语言处理技术
百度搜索引擎使用独特的中文语言处理技术巧妙地解决了中文信息的理解问题,信息索引基于字和词,较好地解决了单纯基于字或单纯基于词的缺点,结合了两者的优点,更加符合中文用户的搜索习惯。百度搜索引擎支持主流的中文编码标准(包括GBK、GB2312、BIG5),并且能够在不同的编码之间转换。
2、使用可扩展的搜索技术
百度搜索使用具有智能性的网络蜘蛛(Spider)自动地在互联网中搜索信息,可定制、高扩展性的调度算法,使得搜索器可在极短的时间内搜集到最大数量的互联网信息,搜集范围涵盖了大部分华语地区和北美、欧洲的部分站点。
3、使用智能的相关度评价算法
百度搜索引擎采用了基于内容和基于链接分析的方法进行相关度评价,能够客观地分析网页所包含的信息,从而最大限度保证检索出的结果与用户查询串有很高的相关性。
4、使用高效的搜索算法
运用多线程等先进技术,高效的搜索算法和稳定的Unix平台,使每个检索的平均响应时间小于1秒。
回到上面
中文全文信息检索系统中索引项技术及分词系统的实现
摘要:本文对中文全文检索系统中常用的索引项技术n元语法,字,n元语法,词进行了介绍并讨论了其各自的特点。然后着重介绍了以词为索引项的方法及全文检索中的汉字分词问题。最后给出了一种混合型最大匹配分词算法。
关键词:信息检索 中文信息处理 分词
The indexing term technology of Chinese information retrieval and implement of segmentation system Abstract
The paper discuss the technology of indexing term ,such as n-gray , character, word ,used in Chinese information retrieval . we also introduce the method of using word as indexing term and the problem of segmentation ,then paper presents a mix max match algorithm.
1 引言
在全文信息检索系统中,索引项的选择是一个基本的,也是非常重要的问题。对输入的文档及用户查询要做的第一件事就是将它们分解为索引项的集合,然后才有可能计算出查询与文档的相关度。在英文的全文信息检索系统中,将查询及文档分解为索引项集合是件非常简单的事因为通常选用词为索引项, 而英文中词与词之间存在分隔符(如空格)。对中文全文信息检索系统来说将查询及文档分解为索引项集合就复杂些。
首先要确定以什么单位为索引项,是以字,词还是短语为索引项?现有的研究中大部份认为应以词为索引项。这是因为首先以词为单位比较符合人的自然思维习惯,其次以词为索引项就可以借用英文全文检索系统中已有的理论及方法。 以词为索引项,就要进行分词,也就是将由汉字组成的连续字符串分解为词的集合,要进行正确的分词不是一件十分容易的事.首先在中文中字与之间,词与词之间是不存在分隔符的,因此分词一般都要借助词典来进行,而中文的构词非常灵活,词的数目几乎是无限的,因此要构造完备的词典是不可能的。为了克服以词为索引项所带来的困难,人们提出了一些别的方法如以字为索引项,以二元,三元语法为索引项等。 本文首先对各种类型的索引项技术作简单介绍,分析它们应用于中文检索中的优缺点,然后着重讨论以词为索引项时的分词系统的设计及实现。
2 索引项及中文文本的表示方式
2.1 字
使用字为索引项是最简单的方法,将文本分解为索引项时非常容易实现。按照GB2312的规定共有6763个汉字。这样索引集合就非常小,最大不会超过6763。在这一点上与其它索引项技术(如词,N元语法)相比优点是非明显的。但以字为索引单位也有其明显的缺点。
首先是匹配的准确性不高,例如用户的查询为 "识别",而某文档中存在 "你是否还认别的人?" 这样一句话。则基于字的检索方法则会认为该查询与文档是相关的。
其次在中文中同一概念可以有多种表达方式如 "中文","汉语","国语"。基于字的检索方法是无法处理这类问题的。
2.2 n元语法
在全文检索中常用的为二元及三元语。二元语法的思想为将文本中所有相邻汉字均作为索引项,这样前一个索引项的后一个字与下一索引项头个字是相同的。例如有一个字符串C1C2C3C4C5,则由它生成的索引项为C1C2,C2C3,C3C4,C4C5。三元语法的思想与二元语法相同,差别仅为三元语法的索引项由三个字构成,例如对上面的字符串由其生成的三元语法索引项为C1C2C3,C2C3C4,C3C4C5。 同样n元法的优点为将文本分解为索引项集合是十分容易的。但其索引空间是十分巨大的。使用n元语法同样也会使系统无法利用语言学知识。 2.3 词
目前大多数研究者认为中文全文检索也应以词为索引单位。也就是索引项应该为中文的词。这样做的好处是十分明显的。首先符合人的习惯,有利于提高查询的准确性,也便于系统利用语言学知识。如果要进一步设计跨语种查询系统则非要以词为索引项不可。但使用词为索引项则应先解决好分词问题。
3. 一种混合型正向最大匹配算法 中文分词问题的研究己有二十多年历吏。其间己提出了多种分词算法。总的来说这些算法可分为四大类。第一类为基于词典的机械分词算法。第二类为基于统计的分词算法。第三类为第一类和第二类的混合型分词算法。第四类为基于知识的分词专家系统。 但各种分词算法均有其适用领域,针对全文检索中文档数量大,要求速度快的特点。我们设计了一个混合型正向最大匹配算法,该算法可利用规则及字频信息来处理分词中的歧义并使用了三词块方法[1]。为加快分词过程中词的查找速度,按首字索引结构对词典进行了组织。
3.1 三词块及处理歧义的规则
三词块是一种处理分词歧义的方法。分词中遇到歧义时(假设有一字符串C1C2C3C4C5C6,当前处理到汉字C1,且C1为词C1C2也为词),则向前多找两个词,这种由三个词组成的串称之为三词块。处理中我们将找出所有可能的三词块并且认为具有最大长度的三词块是最有可能的分词。 假设有字符串C1C2C3C4C5C6,且C1,C1C2均为词并有如下一些可能的三词块。
1 C1 C2 C3C4
2 C1C2 C3C4 C5
3 C1C2 C3C4 C5C6
具有最大长度的词块为第三个。这样我们就认为第三个词块中的C1C2为正确的分法,取其为词。从C3外再次开始进行分词,一直到字符串结束。 我们所设计的分词算法以正向最大匹配算法为框架。分词过程中遇到歧义时则应用下例规则加以解决。
规则1 具有大长度的词块的第一个词为正确分词。
规则2 如具有最大长度的词块不唯一则寻找具有最小词长变化的三词块。该规则的隐含假设为在文档中词长是均匀分布的。 例如: 1 研究 生命 的 起源 2 研究生 命 的 起源 按规则选取块1中的"研究"为正确分词。
规则3 当具有最大长度的词块不唯一并且有相同的词长变化则具最大平均词的块中的第一个词为正确分词。该规则的隐含假设为遇到多字词的概率大于遇到一字词的概率。该规则仅当某些词块由一个或二个词构成时才有用。 规则4 当前面规则均不能确定选取那词块时,则分别计算各块中一字词的词频和,取词频和最大的词块。
3.2 词典的组织及词的查找 整个词典由12万个词条信息构成。词典组织结构为首字索引结构。 词典由两部份组成,一部份为索引部份,另一部份则为词典正文。索引部份由字,字频,指针组成。其中指针指向以该字为首字的所有词的首地址。正文部份为词条。词条按其长短从短向长的顺序存放。词典采取这种组织方式是为了加快词的查找速度。
4 结束语
本文介绍了一种混合型分词算法。为解决分词歧义问题引入了四条规则。在分词中遇到歧义时则通过生成三词块并引用规则来解决。文中提出的分词算法已在一全文检索系统中进行了实际应用。
回到上面
信息检索的核心支撑技术
(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。
信息检索技术的热点
◆ 智能检索或知识检索
传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果.比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果.比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。
◆ 知识挖掘
目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。 知识挖掘包括摘要、分类(聚类)和相似性检索等方面。
自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。
相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。
自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。
◆ 异构信息整合检索和全息检索
在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。
所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。
另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。
随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。
信息检索不等于 互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。
一是数据量
传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。
二是内容相关性
信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。
三是实时性
搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。
四是安全性
互联网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。
五是个性化和智能化
由于搜索引擎数据和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而专门针对企业的信息检索应用能在智能化和个性走得更远。
信息检索的起源
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
回到上面
实战中文搜索引擎推广
首先请明确 搜索引擎和分类目录的区别:
1)搜索引擎(Search Engine):
通过运行一个软件,该软件不断在网络上通过域名扫描和各种链接,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,以备查询。这样的站点(获得信息==>整理建立数据库==>提供查询)我们就称之为“搜索引擎”。而所使用的软件一般叫做“Spider”、“Robot”、“crawlers”等,中文名称“搜索机器人”。
平时我们在检查站点访问统计时,在“浏览器简报”中看到的 百度spider、Googlebot、MSNBOT就是搜索机器人留下的记录,分别代表 百度、Google和MSN搜索机器人。
2)分类目录(Directory):
通过“人工方式”将站点进行分类而建立数据库,以提供查询,这样的站点叫着“分类目录”。这里的“人工方式”可以是完全的人工,比如有专门的编辑审核站点,决定是否收录;也可以是通过你一步步递交后收录。
无论“搜索引擎”还是“分类目录”,目标都一样:获得网站资料,建立数据库提供查询。只不过使用的方法不同。“搜索引擎”因为依靠软件自动进行,因此,其数据库的容量非常庞大,查询结果往往不够精确;而“分类目录”由于依靠人工分类,查询得到的信息要准确些,但收集的内容非常有限。
平时我们把这两类都统称为“搜索引擎”,而且很多站点也都提供基于这两类方式的查询。比如新浪搜索http://search.sina.com.cn/)缺省是查询新浪自己建立的目录——“分类网站”查询,而当我们查询“全部网站”时,它就调用了Google的搜索引擎(您可以使用“时代营销网”进行查询试试)。
针对目前简体中文网络市场来看,有影响的“搜索引擎”主要是百度和Google,分类目录则包括 Yahoo!中国、dmoz.org、新浪搜索、搜狐搜索和网易搜索,3721和中国搜索联盟也在搜索市场有不错表现,另外很多非主流的分类目录站点也能带来巨大的访问量。
在进行推广前,请确定您的站点已经完成下面几步:
·站点内容建设已经完成,没有“正在建设中”的页面和断链接;
·导航系统清晰,并请构建“站点地图”页面,从该页面可以链接到站点所有的栏目;
·除非特殊需要,设计上力求简洁,不要无谓堆砌大量炫耀技巧的FLASH、动画;
·完成主要页面中的TITLE、META等设置及优化,尤其是首页(这方面请参见“时代营销网”中相关文章);
现在,开始一步步利用搜索引擎和分类目录开展站点的推广工作。
1、注册搜索引擎
对于简体中文网站,目前要注册的两个主要搜索引擎是百度和Google。Google虽然在世界上几乎成为搜索的代名词,但是百度以其专注于中文世界、内容更新快、断词顺序合理以及市场宣传等优势,在大陆市场与Google中文并驾齐驱。
百度和Google的注册完全免费,一般只需将站点首页地址提交,它们就会自动前来抓取全部内容,为避免部分内容因为链接原因搜索机器人无法抓取,可以提交“站点地图”页面地址作为补充。请到下面地址提交: http://www.Baidu.com/search/url_submit.htm
http://www.Google.com/intl/zh-CN/add_url.html
提交地址后,站点会在一到两天内出现在百度搜索,而出现在Google的时间不是很确定,因为Google大约30天刷新一次数据库(这个叫着“Google Dance”),所以最长可能需要一个月的时间,你提交的站点才能在Google找到。
当站点有更新时,应该尽量把更新的页面手工递交到上述搜索引擎,以提醒搜索机器人回访,从而使更新内容尽快能在这些搜索引擎中被找到。
一旦收录到Baidu和Google以后,就可以在Baidu支持的搜狐和网易的页面搜索、Google支持的新浪页面搜索中查找到。
2、注册分类目录
目前主要的分类目录包括下面站点:
Yahoo!中国搜索引擎 http://cn.Yahoo.com/search/ dmoz.org
http://dmoz.org/Regional/Asia/China/
新浪搜索引擎 http://search.sina.com.cn/
搜狐搜索引擎 http://dir.sohu.com/
网易搜索引擎 http://search.163.com/
对于dmoz.org,一般国内读者不是很了解,这是一个开放的目录站点,由很多兼职编辑负责审核、添加和管理,这点上和网易的站点目录类似。由于大量海外的搜索引擎如AOL Search, Altavista , HotBot, Google, Lycos, Netscape Search等都调用该站点的分类目录,所以也很重要。
在以上分类目录中,Yahoo!中国、dmoz.org和网易提供完全的免费登录,需要通过人工审核是否收录;搜狐搜索只针对非商业机构如学校、事业性组织等提供免费登录,新浪搜索则必须付费才能登录。在登录过程中,需要你选择最适合自己站点的类别,并填写站点和登录者的相关信息,递交后一般一周会有反馈是否收录。
3、3721网络实名和中国搜索联盟
3721以网络实名技术为切入点,除了本身的实名用户(浏览器安装了插件的用户)外,还与许多站点进行合作,影响力已经超过了许多搜索引擎,紧跟在Baidu和Google之后,目前和3721合作的站点有新浪、雅虎、搜狐以及中国搜索联盟。虽然注册3721网络实名需要一定的费用,但是选择合适的关键词进行注册,500元/年的投资是值得的!
中国搜索联盟实际上是一个分类目录,但是它采取联盟的方式出现,在搜索市场中异军突起,影响力虽然还比较有限,但是有一定发展前景。目前还支持免费登录,和上面的目录站点相似。 http://service.chinasearch.com.cn/web/frontward/free/free_protocol.htm
4、非主流分类目录
在大陆有一种非主流的分类目录站点,一般自称“网址大全”、“网站导航”,实际上是比较原始的分类目录站点。由于它们提供的站点目录直接从广大网民的角度进行整理,非常实用,所以目前的宣传效果非常好,访问量也很大,如最著名的hao123.com在全球简体中文站点中 排名在前14位(根据ALEXA站点统计)。
你可以到这些站点中,看看是否有自己站点适合的目录和分类,如果有的话,直接给站长发信,要求收录。如果可以收录的话,能带来相当大的访问量。
下面是目前比较出名的站点:
http://www.Hao123.com/ (可登录)
http://www.v333.com/ (本身根据ALEXA排名,不提供收录)
http://www.cnww.net/ (可登录)
http://www.wu123.com/
http://www.5566.net/ (可登录)
http://www.37021.com/ (可登录)
http://www.k369.com/ (可登录)
http://www.da123.com/ (可登录)
http://www.94135.com/
http://www.265.com/ (可登录)
http://www.guang.org/ (可登录)
回到上面
IBM统一人工智能学术 搜索技术将超Google
据硅谷动力消息,在未来几个月里,IBM公司将推出一种新技术,IBM认为通过将有关人工智能的几种不同学术统一起来,这种技术将会极大地改进计算机读取和使用数据的方式。
IBM正在研究的这项新技术名为“未系统化的信息管理架构”(UIMA),这是一种基于XML的数据读取架构。IBM公司服务和软件业务部门副总裁Alfred Spector表示,UIMA将大大扩展和增强数据库背后所依赖的数据读取技术。
他说:“UIMA将成为数据库的一部分,或者更有可能的是,它将成为数据库所读取的东西。利用它你可以随时掌握情况,可以更有效地改动自动化或手动控制的系统。”
一旦被纳入到系统中去,UIMA将可以使汽车获得并显示出实时的交通状况和高速公路平均车速等信息,也可以让工厂自己控制燃料消耗和优化生产计划。同时,自动化的语言翻译和自然语言处理功能也将成为可能。
UIMA所依赖的是“合并假设”理论,这种理论宣称,统计机器学习技术(所依赖的一种智能技术)、人工智能语法以及其它的人工智能技术在不久的将来就可以融合在一起。
Spector说:“如果我们平行应用各种不同的人工智能理论所提出的技术,我们将可以成倍地减少出错率。我们将对合并假设理论进行实际运用,今年这方面将会取得一系列成果。我想,在未来几年人们使用的技术中你就可以看到这些成功,这并不需要太长的时间。”他还补充说:“尽管纳斯达克指数已经从高峰跌了下来,但这种进步在未来必将超过已取得的成就。”
回到上面
Google的网站收录和排名浅析
Google采用新一代的先进技术,根据互联网本身的链接结构对相关网站用自动方法进行分类,为您的每一个查询迅速提供准确的结果。Google以其独树一帜的网页级别 (PageRankTM,已申请专利)技术,打破了传统网络分类概念,带来网络搜索的革命。Google搜索速度极快,而且准确率极高。
Google可贮存网页的快照,当网页服务器暂时中断时您仍可浏览到该网页的内容。若找不到服务器,则Google暂存的网页也可救急。从贮存网页快照中找寻资料要比常规链接快得多,尽管所获取的信息可能不是最新的。而且在很多情况下可免受"404 Not Found Error"(找不到网页的错误信息)之苦。
网站登陆:
Google经常在网上漫游,搜寻新资料。Google也可以让您提供新的网站信息。但Google会分析网站内容,所用时间长短不一,用以决定网站信息是否使用。首先输入网址,包括前缀http://,如http://www.Google.com/。还可以加上网站简介,但此项说明仅供Google内部参考,并不影响Google对网页的编排。
如果您的网页提供多种汉字代码的用户界面,请选择一个您认为最应该向大家介绍的那一个。
注意:登录网址时,只须提交最上层的网页,其他各页由Googlebot自行查找。Google会定时自动检索并更新所有网站;对于失效网页则将其删除。
关于 排名:
作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页A链接到网页B时,Google就认为"网页A投了网页B一票"。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外, Google还要分析为其投票的网页。"重要"网页所投之票自然份量较重,有助于增强其他网页的"重要性"。
重要的、高质量的网页可获得较高的网页级别,从而在搜索结果中可获较高的排位。这样,Google的重要性综合指标为网页级别,而不是根据某一个具体的查询。当然,这代表了该网页本身的特性,是由Google根据网络数据、采用评定链接结构的综合运算法则进行分析的结果。
当然,如果与查询项目不匹配,再重要的网页也毫无意义。因此,Google采用完善的正文匹配技术,为您查找既重要又准确的网页。例如,Google在分析一个网页时,还会同时参考指向此网页的链接描述。
与其他多数 搜索引擎的区别在于:Google只显示相关的网页,其正文或指向它的链接包含您所输入的所有关键字,而无须再受其他无关结果的烦扰。
Google不仅搜索出包含所有关键字的结果,并且对网页关键字的接近度进行了分析。与其他多数搜索引擎的一大区别是:Google按照关键字的接近度区分搜索结果的优先次序,筛选与关键字较为接近的结果。
回到上面
什么叫关键字密度
关键字密度 (Keyword Density) 是指在一个页面中,关键字(keyword)或关键字段(keyphrase)占所有该页面中总的文字的比例,该指标对 搜索引擎的优化起到关键的作用。为自然提高在搜索引擎中的 排名位置,您网站中页面的关键字密度不能过高,也不要过低,一般在 1% 到 7% 较为合适。如果要达到 1% 的比例,那么您在平均100 个文字中最好包含 1 个关键字或关键字段,如果在 1000 个文字中仅仅只包含 1 个关键字或关键字段,那么关键字密度就被稀释了。记住,您千万别把所有的关键字或关键字段堆积在一起,要不搜索引擎将人为是一种恶意行为(Spam), 直接降低您网站的排名位置。