1、提取文字 现在的搜索引擎照样以文字内容为基础,蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字处,还包罗了大量的HTML名堂标签,JavaScript 程序等无法用于排名的内容,搜索引擎预处置首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处置的网页面文字内容。2、中文处置分词是中文搜索引擎特有的步骤。搜索引擎存储和处置页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格离开,搜索引擎索引程序可以直接把句子划分为单词的聚集。而中文词与词之间没有任何离开符,一个句子中所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个词组成一个词,哪些字自己就是一个词。好比“公务员考试”将被分词为“公务员”和“考试”两个词。3、去住手词无论是英文照样中文,页面内容中都市有一些泛起频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“阿”、“哈”、“呀”之类的叹息词,“从而”、“以”、“却”之类的副词或介词。这些词被称为住手词,
如何使用搜索引擎
由于它们对页面的主要意思没什么影响。英文中的常见住手词有the ,a ,an ,to ,of 等。4、去除噪音 绝大部门页面上还有一部门内容对页面主题也没有什么孝顺,好比版权声明文字,导航条、广告等。以常见的博客导航为例,险些每个博客页面上都市泛起文章分类、历史存档等导航内容,这些页面自己与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类“ 这些关键词时仅仅由于页面上有这些词泛起而返回博客贴子是毫无意义的,完全不相关。以是这些区城都司于噪声,对页面主题只能起到涣散作用。5、去重 去重的基本方式是对页面特征关系 词盘算指指纹,也就是说从页面主体内容中选取最有的一部门关键词(经常是泛起频率最高的关系词),然后盘算这些关键词的数字指纹。这些关键词选取是在分词、去住手词、消噪之后。通常选取10个特征关键词就可以到达对照高的盘算准备性,再选取更多词对去重准确性提高的孝顺也就不大了。6、正向索引7、倒序索引8、链接关系盘算页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些庞大的链接指向关系形成了网站和页面的链接权重9、特殊文件处置 除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索效果中也经常会看到这些文件类型。但现在的搜索引擎还不能处置图片、视频、Flash这类非文字内容,也不能执行剧本和程序
网络信息资源检索的方法信息检索第二版刘英华