其二、批量提取。利用情報服務(wù)平臺,用戶從文章類型網(wǎng)頁中搜集情報時,不需對系統(tǒng)進行配置,系統(tǒng)往往會依據(jù)不同的設(shè)定,自動批量提取文章正文、標題、發(fā)布日期等信息,并刪除掉不需要的信息。
其三、智能管理。這個功能是在情報服務(wù)平臺上是比較新的功能,只在任子行情報服務(wù)平臺等少量平臺才具備。通過智能管理功能,系統(tǒng)可以對采集到的信息進行智能的處理,從而提高系統(tǒng)處理的效率。
例如,任子行情報服務(wù)平臺實現(xiàn)了自動去重功能。每次采集時,對于同一個URL,僅采集最新的沒有采集過的文章內(nèi)容或回復;對于已經(jīng)采集過的內(nèi)容,自動忽略;對于轉(zhuǎn)載文章,可以選擇自動去重。
另外,系統(tǒng)還內(nèi)置了各種后期數(shù)據(jù)處理功能,數(shù)據(jù)從網(wǎng)頁上獲取后,可進一步精加工為各種更細粒度的字段數(shù)據(jù)或者合并整合,替換統(tǒng)計。例如關(guān)鍵詞抽取、街道地址抽取、省市名稱抽取、郵編抽取、電話號碼抽取、傳真號碼抽取、電子郵件地址抽取、QQ/MSN/Skype抽取、URL抽取等。
從長遠角度來看,情報平臺替代人工方式對情報信息進行處理是大勢所趨。而且,隨著信息技術(shù)的進一步發(fā)展,情報平臺也將更加的智能、強大。