搜索引擎索引-第一节索引基础
目录
单词-文档索引
倒排序基本概念
倒排序实例
单词-文档索引
横向看,哪些文档有这个词汇,纵向看,这个文档有哪些词汇
搜索引擎的实质就是实现这样的一种概念模型,比如倒排序,签名文件,后缀树,但是倒排序据实验表明是最优的.
倒排序基本概念
前置概念:
文档:HTML+WORD+PDF+XML等都可以叫做文档
文档编号:搜索引擎内部会给每个文档设置一个唯一的文档编号
单词编号:搜索引擎内部会给每一个单词设置一个唯一的单词编号
单词词典:文档集合中出现过的单词构成的字符串集合,每条索引项记载单词本身的一些信息以及指向倒排列表的指针.
倒排列表:列表记载出现过这个单词的所有文档的文档列表及其单词在该文档的位置信息,也就是横着看一条数据.
倒排文件:所有单词的倒排列表往往顺序的存储在磁盘的某个文件里面,这个文件就被称为倒排文件,倒排文件是存储倒排索引的物理文件
倒排序实例
根据这个文档内容创建倒排序内容
最简单的倒排索引:
倒排列表只显示被包含的文档编号.
升级版:单词被包含的文档的编
搜索引擎索引-第一节索引基础最先出现在Python成神之路。
共有 0 条评论