方正阿帕比榮獲第九屆數(shù)博會(huì)兩項(xiàng)大獎(jiǎng)
8 月 21 日-8 月 25 日,第九屆中國數(shù)字出版博覽會(huì)暨中國數(shù)字內(nèi)容服務(wù)大會(huì)(以下簡稱“數(shù)博會(huì)”)在京舉辦,六大展區(qū)數(shù)十家參展商共同為大眾展示我國數(shù)字出版領(lǐng)域的新業(yè)態(tài)、新成果,獻(xiàn)禮祖國七十華誕。
8 月 23 日,在本屆數(shù)博會(huì)的頒獎(jiǎng)典禮上,方正阿帕比憑借著在數(shù)字出版領(lǐng)域的重要貢獻(xiàn)以及在展會(huì)中亮眼的表現(xiàn),榮獲“2018-2019 年度數(shù)字出版創(chuàng)新技術(shù)”以及“優(yōu)秀展示單位”兩項(xiàng)大獎(jiǎng)。
8 月 23 日,在本屆數(shù)博會(huì)的頒獎(jiǎng)典禮上,方正阿帕比憑借著在數(shù)字出版領(lǐng)域的重要貢獻(xiàn)以及在展會(huì)中亮眼的表現(xiàn),榮獲“2018-2019 年度數(shù)字出版創(chuàng)新技術(shù)”以及“優(yōu)秀展示單位”兩項(xiàng)大獎(jiǎng)。
方正阿帕比榮獲第九屆中國數(shù)字出版博覽會(huì)“2018-2019 年度數(shù)字出版創(chuàng)新技術(shù)”圖為獲獎(jiǎng)獎(jiǎng)牌和榮譽(yù)證書
方正阿帕比榮獲第九屆中國數(shù)字出版博覽會(huì)“優(yōu)秀展示單位”圖為獲獎(jiǎng)獎(jiǎng)牌和榮譽(yù)證書
榮譽(yù)是表揚(yáng),是肯定,更是對未來的激勵(lì)
沒有哪個(gè)行業(yè)是一成不變的,科技的發(fā)展為個(gè)人的生活和工作帶來了太多的便利和捷徑,但對企業(yè)來講,每一次的科技創(chuàng)新帶來的都是挑戰(zhàn)??萍嫉睦顺毕?,考驗(yàn)的就是企業(yè)的創(chuàng)新力和對市場方向的把控力。
知識是永恒的,但知識的承載工具卻是隨著時(shí)間而改變的,從龜背竹簡到紙質(zhì)書籍是知識傳承的一次偉大創(chuàng)舉,而從紙質(zhì)書籍到計(jì)算機(jī)則是一次劃時(shí)代的革命。當(dāng)今的知識服務(wù),要求的已經(jīng)不單是知識的存儲(chǔ),而是要求知識的智能化整合,精準(zhǔn)的輸出到應(yīng)用。
方正阿帕比智能問答技術(shù)
隨著數(shù)字化技術(shù)的發(fā)展,各大出版社已經(jīng)陸續(xù)出版了大量的數(shù)字圖書。這些數(shù)字圖書具有內(nèi)容系統(tǒng)性、全面性、權(quán)威性等特點(diǎn),是人類各種知
識的系統(tǒng)性闡述,如何快速的從書中查找到用戶感興趣的知識或問題答案,是擺在數(shù)字出版領(lǐng)域的一個(gè)難題。本技術(shù)采用深度學(xué)習(xí)技術(shù)對圖書內(nèi)容進(jìn)行閱讀理解,在此基礎(chǔ)上對用戶提出的問題進(jìn)行邏輯推理和解答。
智能問答技術(shù)大概分為三類:一是以文本特征為基礎(chǔ)的早期智能問答, 該技術(shù)需要人工定義文本特征,缺乏對語義層次的學(xué)習(xí)能力,答案的準(zhǔn)確率低。二是基于知識庫的問答技術(shù),該技術(shù)依賴知識庫的準(zhǔn)確性和全面性,建立知識庫是一個(gè)復(fù)雜的工程,投入成本較高。三是基于文本理解的問答技術(shù),該技術(shù)通過基于 AI 閱讀理解技術(shù)的圖書內(nèi)容問答技術(shù), 該技術(shù)優(yōu)點(diǎn)是投入成本低,不需要太多的人工干預(yù),搜索的答案比較全面,相相對于基于知識庫的問答技術(shù)來說,該技術(shù)邏輯推理能力弱,答案的準(zhǔn)確性受限于文本的質(zhì)量等。
基于圖書內(nèi)容閱讀理解的問答技術(shù)的大概步驟如下: 一、對圖書內(nèi)容進(jìn)行版面理解和文本提??;
二、圖書文本內(nèi)容進(jìn)行 AI 閱讀理解,提取語義特征;
三、對用戶的問題進(jìn)行理解,理解用戶的意圖和問題的類型,形成語義特征;
四、進(jìn)行語義特征匹配,從圖書內(nèi)容中提取答案并進(jìn)行推理; 五、以自然語言的方式進(jìn)行答案合成并返回給用戶。
對圖書內(nèi)容進(jìn)行版面理解用到了深度學(xué)習(xí)相關(guān)技術(shù),理解圖書排版布局、版心位置、段落關(guān)系、文本順序、圖文位置、表格公式等信息,正確的還原圖書的內(nèi)容。
智能問答技術(shù)大概分為三類:一是以文本特征為基礎(chǔ)的早期智能問答, 該技術(shù)需要人工定義文本特征,缺乏對語義層次的學(xué)習(xí)能力,答案的準(zhǔn)確率低。二是基于知識庫的問答技術(shù),該技術(shù)依賴知識庫的準(zhǔn)確性和全面性,建立知識庫是一個(gè)復(fù)雜的工程,投入成本較高。三是基于文本理解的問答技術(shù),該技術(shù)通過基于 AI 閱讀理解技術(shù)的圖書內(nèi)容問答技術(shù), 該技術(shù)優(yōu)點(diǎn)是投入成本低,不需要太多的人工干預(yù),搜索的答案比較全面,相相對于基于知識庫的問答技術(shù)來說,該技術(shù)邏輯推理能力弱,答案的準(zhǔn)確性受限于文本的質(zhì)量等。
基于圖書內(nèi)容閱讀理解的問答技術(shù)的大概步驟如下: 一、對圖書內(nèi)容進(jìn)行版面理解和文本提??;
二、圖書文本內(nèi)容進(jìn)行 AI 閱讀理解,提取語義特征;
三、對用戶的問題進(jìn)行理解,理解用戶的意圖和問題的類型,形成語義特征;
四、進(jìn)行語義特征匹配,從圖書內(nèi)容中提取答案并進(jìn)行推理; 五、以自然語言的方式進(jìn)行答案合成并返回給用戶。
對圖書內(nèi)容進(jìn)行版面理解用到了深度學(xué)習(xí)相關(guān)技術(shù),理解圖書排版布局、版心位置、段落關(guān)系、文本順序、圖文位置、表格公式等信息,正確的還原圖書的內(nèi)容。
圖書內(nèi)容閱讀理解用到了深度學(xué)習(xí)的字嵌入、詞嵌入等模型,使用 BERT 網(wǎng)絡(luò)模型進(jìn)行文本特征提取。對用戶問題的理解方面,需要用到知識庫對用戶提問的問題進(jìn)行同義詞、近義詞、縮寫詞、上下位詞等進(jìn)行擴(kuò)展, 對用戶提問問題進(jìn)行分類,準(zhǔn)確理解用戶的意圖。
該技術(shù)已經(jīng)應(yīng)用在新聞出版研究院研究的版權(quán)知識問答項(xiàng)目系統(tǒng)上,該系統(tǒng)集成了出版社正規(guī)出版的 10 萬本圖書,通過閱讀理解技術(shù)能夠從10 萬本圖書正文中搜索到用戶需要的答案,節(jié)省用戶查找答案的時(shí)間, 發(fā)揮圖書作為知識的載體的作用,發(fā)揮作者和編輯的創(chuàng)造價(jià)值,挖掘人類知識的價(jià)值等。
智能化,數(shù)字出版的未來
隨著科技的進(jìn)步,人們獲取內(nèi)容的方式也變得豐富起來,多樣化的文化傳播方式滿足不同人群的需求??萍际窃诓粩噙M(jìn)步的,知識服務(wù)的智能化早已是大勢所趨,而這對擁有強(qiáng)大內(nèi)容生產(chǎn)運(yùn)作能力和強(qiáng)有力科技支撐的的方正阿帕比而言,這是一次良機(jī)。用科技的力量推動(dòng)文化深遠(yuǎn)傳播,實(shí)現(xiàn)終端的智能化、多元化閱讀。方正阿帕比已經(jīng)為建設(shè)全新的知識服務(wù)產(chǎn)業(yè)鏈做好準(zhǔn)備。