對于本案例中客戶在高效數(shù)據(jù)處理上的需求,引擎可提供:

1.多數(shù)據(jù)源智能適配 – 包含內(nèi)外部財報、研報、公告、資訊、產(chǎn)品等數(shù)據(jù)在內(nèi),引擎可快速接入多種形式的數(shù)據(jù)(結構化數(shù)據(jù)及文檔、表格、圖片、音頻等非結構化數(shù)據(jù))。

2.搜索意圖推薦 – 引擎可基于豐富的NLP算法在索引構建過程中對數(shù)據(jù)進行深度知識挖掘分析,提供更快速的查詢檢索。

3.搜索功能快速構建 – 引擎的搜索API模塊允許用戶通過簡單的后臺配置快速構建搜索服務功能,并配合NLP算法理解用戶檢索語義和意圖,支持口語化問答交互。此外,搜索服務于可對接口進行限流和鑒權實現(xiàn)安全性保障。

4.監(jiān)控 – 系統(tǒng)全流程監(jiān)控,幫助用戶快速定位問題。

5.反饋日志 – 用戶反饋日志收集持續(xù)優(yōu)化搜索結果。

二、結合NLP與知識圖譜搭建數(shù)據(jù)處理管道,實現(xiàn)智能搜索

為構建高效、精準的搜索服務,在數(shù)據(jù)流程中的離線處理部分,虎博科技基于自身在NLP領域的技術積累,通過意圖識別模型、深度學習語義模型以及行業(yè)知識圖譜和條件推理模型等技術優(yōu)勢構建數(shù)據(jù)處理管道,從而提升搜索效果。

意圖識別模型–用于準確識別用戶搜索意圖,進而反饋更加符合需求的結果。模型可對query進行分類,識別出SQL類query 和匹配類query。若識別結果為SQL類query,系統(tǒng)將直接采用文本分類模型進后續(xù)處理;若識別結果為匹配類query則使用深度排序模型。

深度學習排序模型–用于查詢匹配類query與文檔的相關性。模型采用對離散特征做Embedding的方法,借鑒了FNN的思想,然后采用Wide&Deep模型同時訓練一個Wide側的線性模型和一個Deep側的神經(jīng)網(wǎng)絡,Wide部分提供記憶能力,關注用戶有過的歷史行為,Deep部分則提供泛化能力,關注一些沒有歷史行為的Item。

行業(yè)知識圖譜和條件推理模型–用于將自然語言問題提煉為查詢條件在圖譜上推理檢索(NL2SQL)。具體地,采用了一種基于草圖的方法,其中草圖包含一個依賴圖,因此可以通過僅考慮其依賴的先前預測來進行下一個預測。預測列時采用sigmoid函數(shù)來計算每個列出現(xiàn)的概率,并采用列注意力來提高預測能力,并使用序列到序列的進行預測取值,從自然語言中提取查詢條件。

此外,針對小方App所提供的證券信息、理財?shù)葍?nèi)容服務,虎博科技基于大量的證券方面的研報、財報,在通用的語言模型(例如bert、albert)上,采用持續(xù)學習的方法訓練了行業(yè)語言模型,全面的運用于后續(xù)的實體識別、關系抽取、情感分析模型等。而對于部分英文研究材料,則基于大量的證券雙語平行語料訓練的翻譯系統(tǒng),滿足了翻譯需求,并通過大量的證券語料以及標注,結合實體識別和關系抽取輔助,構建完善的證券垂直領域知識圖譜,為下游的檢索任務提供支持。

三、應用效果

引入虎博智能搜索引擎后,方正證券旗下小方App信息服務效率至少提升50%。通過將原來各個二級頁面的搜索框,以及不同的功能整合成為首頁搜索框,形成統(tǒng)一的搜索入口,實現(xiàn)「股票」「理財」「投顧」「資訊」「發(fā)現(xiàn)」等全場景信息的一站式服務。

理財產(chǎn)品智能搜索可基于虎博科技針對證券行業(yè)的自然語言理解模型及知識圖譜,對產(chǎn)品進行多屬性智能關聯(lián),連接用戶和產(chǎn)品,提升產(chǎn)品的轉化率;研報資訊精準搜索可對于研報、資訊、公告以及其他非結構化數(shù)據(jù)庫中內(nèi)容提供深度語義搜索,快速提供高價值信息;投顧信息搜索則通過綜合展示平臺,讓用戶能夠方便的聯(lián)系投顧、認知投顧、簽約投顧,促進業(yè)務變現(xiàn),且縮短了用戶查找信息的路徑。

分享到

zhangnn

相關推薦