发布日期:2014-06-03信息来源: 通辽网站建设|通辽网页设计|通辽网络公司-通辽易联通达点击: 次我要评论()
根据中国互联网协会联合发布的《中国互联网站发展状况及其安全报告(2014年)》显示,截止到2013年12月底,中国网站总量近350.7万 个。无论是任何一款搜索引擎,首先需要将这300多万个网站的内容进行索引(设有Robots协议的网站不会被索引到,故不算在内),再通过相关规则进行 排列,按照相关匹配呈现给用户。
用户之所以能通过搜索引擎浏览到需要的内容,都是由于搜索引擎会事先将网站内容进行索引,用户看到的是“快 照”的内容。我为何要屡次提到“索引”这回事呢?300多万个网站,每个网站都会有不确定的内容,其中包含文字、语音、视频、图片等多个介质,当然文字是 主要的介质形态。就拿百度来说,光百度百科的词条量就达到了8283003(数据截止到2014年6月2日24:00)个,还有百度文库,百度知道等各类 内容型平台,类似于这种平台并不在少数。
海量的内容对于用户是一种红利,用户通过搜索引擎可以找寻到用户需要的任何内容。而对于搜索引擎来说,这些海量的内容却是一种累赘,信息大爆炸不仅仅只出现在社交网络中,内容量庞大的其他互联网平台依然是信息大爆炸的灾难区,UGC、平台自贡献,都是都是灾难的一份子。
如果UGC以及平台自贡献的内容是固定不增长的还好,搜索引擎的压力并不会有那么大,但互联网的内容却呈现直线上升的趋势增长着,互联网用户的增多,互联网设备的增多,都会导致互联网的内容增多。
越来越多的海量的内容出现了一个较为明显的状况:过期的信息被用户主动放弃,即使搜索引擎将这些内容呈现出来,对于用户也是无效的,这部分信息垃圾随着逐年的沉淀而对搜索引擎造成极大污染。
你不会去关注5年前附近的租房子信息,也不会关注8年前某友人发布的博客信息,这些信息对于用户来说都是无效的,而搜索引擎为了防止某些用户需要这些信息,就不得不将这些信息存储起来。
速食信息在互联网上并不少见,搜索引擎需要辨别这些信息的实效性,再将之删除,这又是一个技术活。
所以,一是用户不需要,二是搜索引擎清空空间。
下一篇:C2C将有望迎来市场的拐点