企業(yè)做網(wǎng)站藏文網(wǎng)頁(yè)倒排索引(下)
日期 : 2020-10-21 18:42:11
藏文網(wǎng)頁(yè)倒排索引。
第四步:對(duì)標(biāo)題建索引。大部分的Web文檔有文檔標(biāo)題TITLE, 標(biāo)題反映了文檔的主要內(nèi)容, 是搜索和導(dǎo)航的重要依據(jù)。標(biāo)題索引以詞、短語(yǔ)或句子為索引單位, 具體根據(jù)詞表匹配情況確定, 如果標(biāo)題匹配詞表中的規(guī)范詞則使用規(guī)范詞, 如果沒(méi)有則直接以標(biāo)題建索引。藏文規(guī)范詞表是動(dòng)態(tài)更新的。檢索時(shí)以匹配標(biāo)題索引為優(yōu)先策略, 先查詢(xún)標(biāo)題索引庫(kù), 再查詢(xún)?nèi)乃饕龓?kù)。
第五步:索引庫(kù)更新。網(wǎng)站的頁(yè)面信息是動(dòng)態(tài)更新的, 由網(wǎng)絡(luò)爬蟲(chóng)抓取得到的藏文網(wǎng)頁(yè)倒排索引庫(kù)也需要更新。搜索引擎的倒排索引更新有多種方式, 包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網(wǎng)站數(shù)量少, 網(wǎng)絡(luò)爬蟲(chóng)工作周期短, 藏文網(wǎng)頁(yè)的倒排索引庫(kù)更新可以采取添加更新加覆蓋更新的策略。每次爬蟲(chóng)工作完成后, 建立新的索引庫(kù), 將查詢(xún)引擎鏈接指向新的索引庫(kù), 同時(shí)保留近兩期的索引庫(kù), 將更早的索引庫(kù)刪除。每次添加新的索引庫(kù)后, 先將之前近兩期的索引庫(kù)保留一段時(shí)間備用。
第四步:對(duì)標(biāo)題建索引。大部分的Web文檔有文檔標(biāo)題TITLE, 標(biāo)題反映了文檔的主要內(nèi)容, 是搜索和導(dǎo)航的重要依據(jù)。標(biāo)題索引以詞、短語(yǔ)或句子為索引單位, 具體根據(jù)詞表匹配情況確定, 如果標(biāo)題匹配詞表中的規(guī)范詞則使用規(guī)范詞, 如果沒(méi)有則直接以標(biāo)題建索引。藏文規(guī)范詞表是動(dòng)態(tài)更新的。檢索時(shí)以匹配標(biāo)題索引為優(yōu)先策略, 先查詢(xún)標(biāo)題索引庫(kù), 再查詢(xún)?nèi)乃饕龓?kù)。
第五步:索引庫(kù)更新。網(wǎng)站的頁(yè)面信息是動(dòng)態(tài)更新的, 由網(wǎng)絡(luò)爬蟲(chóng)抓取得到的藏文網(wǎng)頁(yè)倒排索引庫(kù)也需要更新。搜索引擎的倒排索引更新有多種方式, 包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網(wǎng)站數(shù)量少, 網(wǎng)絡(luò)爬蟲(chóng)工作周期短, 藏文網(wǎng)頁(yè)的倒排索引庫(kù)更新可以采取添加更新加覆蓋更新的策略。每次爬蟲(chóng)工作完成后, 建立新的索引庫(kù), 將查詢(xún)引擎鏈接指向新的索引庫(kù), 同時(shí)保留近兩期的索引庫(kù), 將更早的索引庫(kù)刪除。每次添加新的索引庫(kù)后, 先將之前近兩期的索引庫(kù)保留一段時(shí)間備用。