圖1基于視覺注意力的深度學(xué)習(xí)文字識別技術(shù)

● 多策略后驗(yàn)糾錯(cuò)技術(shù):對于固定模板的表單或證件,采用詞庫+編輯距離+集成學(xué)習(xí)的策略,對常見詞進(jìn)行詞典庫數(shù)據(jù)收集,采用編輯距離進(jìn)行更正。對關(guān)鍵數(shù)字部分,采取多個(gè)圖像預(yù)處理手段進(jìn)行集成學(xué)習(xí)給出最終結(jié)果置信度,并進(jìn)行可能出錯(cuò)的報(bào)警;對于通用的文字識別,特別是中文長句識別,對OCR識別出的Top N結(jié)果,采用語言模型+Viterbi算法,計(jì)算最短路徑,輸出概率最高的結(jié)果。

圖2表格單據(jù)OCR解決方案

圖3發(fā)票的定位效果

服務(wù)優(yōu)勢

識別精度高:采用業(yè)界先進(jìn)的深度學(xué)習(xí)模型以及遷移學(xué)習(xí)模型優(yōu)化技術(shù),萬億級海量訓(xùn)練樣本,識別率和召回率達(dá)到業(yè)界領(lǐng)先水平。

魯棒性好:產(chǎn)品采用黑邊處理、自動糾偏、去噪、圖像自動旋轉(zhuǎn)、多種二值化等方法處理圖像,能適應(yīng)任意版面/旋轉(zhuǎn)/扭曲/復(fù)雜背景/光照/模糊場景下的文字檢測識別。

支持多類單據(jù)識別:支持多種類型的表格、發(fā)票等單據(jù)識別,結(jié)構(gòu)化輸出,幫助客戶快速便捷的完成紙質(zhì)單據(jù)的電子化;也可為客戶定制各種個(gè)性化的OCR服務(wù),滿足不同客戶的需求。

服務(wù)穩(wěn)定高效:采用最新的大數(shù)據(jù)集群技術(shù),后臺服務(wù)器穩(wěn)定可靠,系統(tǒng)毫秒級響應(yīng)。

云服務(wù),標(biāo)準(zhǔn)API支持:服務(wù)使用簡單便捷,兼容性強(qiáng)。

我們下一步將有什么?

目前華為還在布局各類證件、通用文字識別等相關(guān)的OCR產(chǎn)品,將會陸續(xù)提供更豐富的OCR服務(wù)和基于OCR的解決方案,支持更多應(yīng)用場景,滿足更多客戶的需求。例如,通過拍照掃描等方式,提供身份信息的快速自動錄入體驗(yàn),以提高邊檢/酒店/旅游/公共安全以及電商等行業(yè)領(lǐng)域的工作效率;自然場景OCR可以捕獲現(xiàn)實(shí)中多種場景下的文字,可有效支持虛擬現(xiàn)實(shí)、人機(jī)交互、圖像檢索、無人駕駛、車牌識別、工業(yè)自動化等領(lǐng)域中廣泛的應(yīng)用。

分享到

sunk

相關(guān)推薦