5月11日至14日,中國圖象圖形大會(CCIG 2023)在蘇州召開,大會以“圖象圖形·向未來”為主題,邀請了眾多國內(nèi)外院士、專家進(jìn)行高水平學(xué)術(shù)、技術(shù)報(bào)告,共同探討圖像圖形相關(guān)行業(yè)的發(fā)展趨勢、創(chuàng)新研究成果、關(guān)鍵技術(shù)探索,為行業(yè)提供前瞻性視角。金山辦公技術(shù)總監(jiān)熊龍飛出席大會“圖象圖形賦能產(chǎn)業(yè)論壇”,分享了金山辦公在文檔識別與技術(shù)領(lǐng)域的最新成果。

金山辦公技術(shù)總監(jiān)熊龍飛在大會上進(jìn)行主題分享
熊龍飛表示,目前用戶的PDF編輯需求中大約有35%是掃描件,如何讓編輯“掃描件PDF”更方便,是許多公司正在攻克的難題。作為其中的參與方之一,金山辦公內(nèi)部研發(fā)的通用圖像文檔識別與理解引擎系統(tǒng)——朱墨,已能夠解析彎曲變形、要素豐富、排版復(fù)雜、污染等挑戰(zhàn)下的圖像文檔,并可將版式和內(nèi)容信息解析成結(jié)構(gòu)化的文檔數(shù)據(jù),供給下游PDF編輯模塊使用。據(jù)悉,朱墨系統(tǒng)目前已上線WPS內(nèi)的PDF編輯功能,可讓用戶在編輯“掃描件PDF”時獲得幾乎與編輯Word文檔一樣的體驗(yàn)。
“‘掃描件PDF’本質(zhì)上是純圖片,其中的排版信息、字體信息均已丟失,因此想要編輯‘掃描件PDF’會面臨兩類挑戰(zhàn)。”熊龍飛介紹,一類是由于PDF版式復(fù)雜,對象豐富,或文檔污染、變形、朝向錯誤等導(dǎo)致的整體版式挑戰(zhàn);另一類則是保持字體、字號、字色及文字風(fēng)格統(tǒng)一,段落關(guān)系清晰,刪除文字后背景自然等在內(nèi)的細(xì)節(jié)保持挑戰(zhàn)。
熊龍飛還指出,朱墨系統(tǒng)在文檔識別過程中,會經(jīng)過前處理、版面分析、OCR識別、文字屬性識別、表格還原等多個環(huán)節(jié),首先把不標(biāo)準(zhǔn)的、變形的樣張進(jìn)行校正,把污染痕跡及摩爾紋等進(jìn)行去除;然后再通過版面分析,識別掃描件中的文字、圖像、段落等;之后再對文字部分進(jìn)行OCR識別以及識別文字的字體、字號、字色等,最后還會對表格等其他對象進(jìn)行結(jié)構(gòu)化識別。在經(jīng)過文檔識別后,朱墨系統(tǒng)還會通過大模型進(jìn)行信息及信息關(guān)系抽取,理解文字之間的關(guān)聯(lián),最終將一份掃描文件轉(zhuǎn)化為結(jié)構(gòu)化的文檔數(shù)據(jù)。

CCIG 2023展會現(xiàn)場
相關(guān)功能背后涉及的眾多算法模型,是金山辦公在文檔識別與技術(shù)領(lǐng)域的長期積累。以文字與背景分離為例,金山辦公技術(shù)團(tuán)隊(duì)經(jīng)過多次實(shí)踐,最終采用了圖像分割的算法,該算法相較于常規(guī)二值化算法,能夠更好地在背景色復(fù)雜、分辨率較低、彩色文字等場景中準(zhǔn)確拆分掃描件PDF的文字與背景。
此外,在文字顏色識別中,金山辦公技術(shù)團(tuán)隊(duì)會先通過顏色增強(qiáng),再通過圖像識別,更加精準(zhǔn)識別掃描PDF中的字體顏色。為了更加方便PDF的后續(xù)編輯,金山辦公技術(shù)團(tuán)隊(duì)還通過OCR的CTC定位結(jié)果與單字檢測模型結(jié)果進(jìn)行結(jié)合,得到精確定位的單字位置框,使用戶在增加或刪除文字時,文字與原始圖像位置仍能一一對應(yīng)。
而在文檔識別過程中,一旦發(fā)現(xiàn)PDF已經(jīng)被嚴(yán)重污染,系統(tǒng)便會重新生成一個新的PDF,以保證文件的編輯性及美觀性,而如果需要重新生成PDF文件,便會涉及到字體模仿、轉(zhuǎn)化、生成等技術(shù)路線。
熊龍飛表示,金山辦公始終秉持“技術(shù)立業(yè)”,不斷推動相關(guān)技術(shù)的應(yīng)用落地,致力為用戶帶來更良好的辦公體驗(yàn)。在文檔識別與技術(shù)領(lǐng)域,目前金山辦公已解決掃描件PDF編輯難題,面向未來,金山辦公還將不斷深入文檔識別與技術(shù)研發(fā),幫助更多用戶實(shí)現(xiàn)對海報(bào),截圖,甚至網(wǎng)圖等在內(nèi)的任意圖片的內(nèi)容編輯。