當(dāng)前網(wǎng)頁檔案信息的主要采集策略有兩種,分別是完全性采集策略和部分性采集策略。完全性收集策略是指對網(wǎng)頁的所有信息進(jìn)行收集。目前,瑞典、奧地利和美國的多個(gè)網(wǎng)頁檔案保存項(xiàng)目采用了完全性采集策略。完全性采集策略的優(yōu)勢在于不需要人工對網(wǎng)頁內(nèi)容進(jìn)行判斷和復(fù)制,而是完全由機(jī)器完成這一操作,因此其成本較低。對于小型的、資金較為缺乏的檔案管理部門,可適當(dāng)?shù)剡x擇完全性收集策略,但需要注意對信息進(jìn)行過濾。內(nèi)容結(jié)構(gòu)和類型較為單一的網(wǎng)站可通過設(shè)置關(guān)鍵詞對無用信息進(jìn)行過濾,同時(shí)建立定期的人工審核機(jī)制。
部分性采集策略是指有選擇地對網(wǎng)頁的某個(gè)類型或者學(xué)科的內(nèi)容進(jìn)行收集,因此其內(nèi)容的專業(yè)性較強(qiáng),主題也十分鮮明。與完全性采集策略不同的是,部分性采集以價(jià)值判斷為基礎(chǔ),通過制定完善的采集標(biāo)準(zhǔn)限定采集的內(nèi)容,因此標(biāo)準(zhǔn)是否合理就成為部分性采集是否成功的決定性因素。對此,檔案管理部門在選擇部分性采集策略時(shí),應(yīng)充分考慮到網(wǎng)頁檔案信息的動(dòng)態(tài)變化性,對網(wǎng)頁信息實(shí)行動(dòng)態(tài)監(jiān)控,并及時(shí)調(diào)整采集策略,不斷提高網(wǎng)頁采集的覆蓋率。
本文地址:http://m.blackside-inc.com//article/28943.html