優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利
優(yōu)惠活動 - 12周年慶本月新客福利

企業(yè)做網(wǎng)站藏文網(wǎng)頁倒排索引(下)

日期 : 2020-10-21 18:42:11
        藏文網(wǎng)頁倒排索引

        第四步:對標題建索引。大部分的Web文檔有文檔標題TITLE, 標題反映了文檔的主要內(nèi)容, 是搜索和導(dǎo)航的重要依據(jù)。標題索引以詞、短語或句子為索引單位, 具體根據(jù)詞表匹配情況確定, 如果標題匹配詞表中的規(guī)范詞則使用規(guī)范詞, 如果沒有則直接以標題建索引。藏文規(guī)范詞表是動態(tài)更新的。檢索時以匹配標題索引為優(yōu)先策略, 先查詢標題索引庫, 再查詢?nèi)乃饕龓臁?br />
        第五步:索引庫更新。網(wǎng)站的頁面信息是動態(tài)更新的, 由網(wǎng)絡(luò)爬蟲抓取得到的藏文網(wǎng)頁倒排索引庫也需要更新。搜索引擎的倒排索引更新有多種方式, 包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網(wǎng)站數(shù)量少, 網(wǎng)絡(luò)爬蟲工作周期短, 藏文網(wǎng)頁的倒排索引庫更新可以采取添加更新加覆蓋更新的策略。每次爬蟲工作完成后, 建立新的索引庫, 將查詢引擎鏈接指向新的索引庫, 同時保留近兩期的索引庫, 將更早的索引庫刪除。每次添加新的索引庫后, 先將之前近兩期的索引庫保留一段時間備用。

相關(guān)文章