表格大小、種類與樣式復雜多樣,例如表格中存在不同的背景填充,不同的行列合并方法,不同的內(nèi)容文本類型等。并且現(xiàn)有文檔既包括現(xiàn)代的、電子的文檔,也有歷史的、掃描的手寫文檔,它們的文檔樣式、所處光照環(huán)境以及紋理等都有比較大的差異。因此,表格識別一直是文檔識別領域的研究難點。好在,合合信息智能文字識別技術讓高精度表格識別成為現(xiàn)實。
在16年領域深耕中,合合信息智能文字識別技術覆蓋了圖片、PDF格式文檔中多種類的表格識別需求,包括有線表,三線表,無線表等,并且支持合并單元格、多表格并存等復雜情況的識別。
基于分治思想,合合信息引入深度學習技術,將表格識別分為有線表識別和無線表識別兩種方案。有線表識別中,合合信息利用語義分割、角點回歸等技術方案還原有線表,在財報相關表格識別測試中,有線表識別單元格結構準確率高于98%。無線表識別則采用序列模型、規(guī)則匹配等方案,通過自研模型直接預測表格的邏輯結構,再得到表格的物理結構,在保證表格區(qū)域內(nèi)容的完整性的同時,檢測準確率較傳統(tǒng)方法顯著提升。
現(xiàn)階段,合合信息智能文字識別技術中的表格識別技術已被應用于以“掃描全能王”為代表的C端APP中,通過“文件轉換excel”功能服務于大眾生活和辦公需求。近半年來,“文件轉換excel”相關功能累計被調(diào)用百萬次。
B端領域中,作為合合信息智能文字識別引擎中的重要模塊,表格識別技術已落地在保險、銀行、證券等行業(yè)中,應用于合同、銀行流水、物流單據(jù)識別等多個場景。
據(jù)悉,合合信息是一家人工智能及大數(shù)據(jù)科技企業(yè),從2006年創(chuàng)立至今,堅持深耕智能文字識別應用及商業(yè)大數(shù)據(jù)核心技術領域,通過C端、B端產(chǎn)品以及行業(yè)解決方案,為全球百余個國家和地區(qū)的億級用戶及近30個行業(yè)的企業(yè)客戶提供創(chuàng)新的數(shù)字化、智能化服務。
近三年來,合合信息先后在ICDAR、ICPR等人工智能國際競賽中斬獲15項冠軍,學術成果在CVPR、AAAI、ACL、ACM MM等頂會上發(fā)表,相關項目獲中國圖象圖形學學會(CSIG)科技進步獎二等獎。在今年8月的CSIG圖像圖形技術挑戰(zhàn)賽中,合合信息參與的賽隊奪得總冠軍。
(新媒體責編:pl2022)
聲明:
1、凡本網(wǎng)注明“人民交通雜志”/人民交通網(wǎng),所有自采新聞(含圖片),如需授權轉載應在授權范圍內(nèi)使用,并注明來源。
2、部分內(nèi)容轉自其他媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3、如因作品內(nèi)容、版權和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。電話:010-67683008
人民交通24小時值班手機:17801261553 商務合作:010-67683008轉602 E-mail:zzs@rmjtzz.com
Copyright 人民交通雜志 All Rights Reserved 版權所有 復制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層
增值電信業(yè)務經(jīng)營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務所 李大偉
京公網(wǎng)安備 11010602130064號 京ICP備18014261號-2 廣播電視節(jié)目制作經(jīng)營許可證:(京)字第16597號