隨著知識(shí)更新的速度越來(lái)越快,信息發(fā)布、知識(shí)傳播的時(shí)效性要求越來(lái)越高,新聞出版從業(yè)人員編輯加工文字的工作量越來(lái)越大,編校質(zhì)量面臨的挑戰(zhàn)也越來(lái)越多。與此同時(shí),人工智能技術(shù)、自然語(yǔ)言理解技術(shù)、機(jī)器深度學(xué)習(xí)技術(shù)的發(fā)展,為內(nèi)容質(zhì)量把關(guān)和提升提供了新的解決辦法。
12月30日,方正電子正式發(fā)布方正智能輔助審校系統(tǒng)V1.0。這是方正電子聯(lián)合數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室、高等院校、行業(yè)專家等一起進(jìn)行技術(shù)研究和攻關(guān)的成果,也是在眾多新聞出版單位的積極參與和應(yīng)用檢驗(yàn)下,經(jīng)過(guò)不斷迭代更新的產(chǎn)品,在字詞審校、知識(shí)審校、格式審校、邏輯審校方面都取得了實(shí)質(zhì)性的進(jìn)展。
▲方正智能輔助審校產(chǎn)品功能介紹
系統(tǒng)簡(jiǎn)介
方正智能輔助審校立足新聞出版行業(yè),并逐漸向整個(gè)文化傳媒領(lǐng)域延伸,為出版社、報(bào)刊社、民營(yíng)書商、排版公司、互聯(lián)網(wǎng)企業(yè)、政府機(jī)關(guān)等機(jī)構(gòu)用戶以及作者、工作室等個(gè)人用戶提供強(qiáng)大且易用的智能輔助審校服務(wù)。
該系統(tǒng)是專門為新聞出版機(jī)構(gòu)提供數(shù)字化內(nèi)容輔助審校的工具,能夠?qū)?nèi)容進(jìn)行多方面檢校,包括:字詞檢查、標(biāo)點(diǎn)符號(hào)檢查、文章邏輯檢查、上下文查重、專業(yè)術(shù)語(yǔ)檢查、敏感詞檢查等。
該系統(tǒng)提供兩種產(chǎn)品形態(tài)的服務(wù),支持對(duì)Word稿件和標(biāo)準(zhǔn)PDF稿件進(jìn)行內(nèi)容審校,滿足不同人員角色、不同工作場(chǎng)景的使用需求。
01.Word客戶端插件
▲產(chǎn)品形態(tài)之一:Word客戶端插件
02.云端在線審校平臺(tái)
▲產(chǎn)品形態(tài)之二:云端在線審校平臺(tái)
功能介紹
方正智能輔助審校通過(guò)語(yǔ)言模型和機(jī)器深度學(xué)習(xí)技術(shù),通過(guò)構(gòu)建算法模型對(duì)海量真實(shí)語(yǔ)料不斷訓(xùn)練及優(yōu)化,累積的錯(cuò)詞、專業(yè)術(shù)語(yǔ)、敏感詞、慎用詞、異形詞等類型的編校知識(shí)詞條超過(guò)百萬(wàn)。
方正智能輔助審校系統(tǒng)參考并依據(jù)《作者編輯常用標(biāo)準(zhǔn)及規(guī)范》(第三版)《標(biāo)點(diǎn)符號(hào)用法 GBT 15834-2011》以及《圖書編輯校對(duì)實(shí)用手冊(cè)》《通用規(guī)范漢字表2013版》等標(biāo)準(zhǔn)規(guī)范或權(quán)威資料,將模型、語(yǔ)料、規(guī)則三者相結(jié)合,研發(fā)出邏輯類、字詞類、知識(shí)類、格式類四類審校功能。
通過(guò)方正智能輔助審校系統(tǒng),使用者不僅能夠?qū)Ω寮械腻e(cuò)詞錯(cuò)字、敏感詞、相似內(nèi)容、公元紀(jì)年、歷史紀(jì)年、干支紀(jì)年、標(biāo)點(diǎn)符號(hào)進(jìn)行檢查,還可以對(duì)稿件的大綱標(biāo)題、圖表公式列表的序號(hào)等進(jìn)行檢查,對(duì)于識(shí)別出的錯(cuò)誤還可以給出修改建議,并且支持對(duì)錯(cuò)誤進(jìn)行快速定位、導(dǎo)出及修改。具體功能介紹如下:
錯(cuò)詞錯(cuò)字檢查
檢查稿件中是否存在錯(cuò)字、別字、疊字、疊詞,以及“的地得”類錯(cuò)誤。
▲圖中:“因些該尺度具有﹥和﹤的數(shù)學(xué)特性”,“因些”需改為“因此”
敏感詞檢查
敏感詞檢查包括國(guó)家主權(quán)和領(lǐng)土完整、港澳臺(tái)問(wèn)題、民族宗教問(wèn)題、國(guó)際關(guān)系等敏感內(nèi)容檢查。
▲不得稱為“全國(guó)人大副委員長(zhǎng)”
▲“珠穆朗瑪峰”不得稱為“額菲爾士峰”
▲“從香港征集回國(guó)”,有將香港視為國(guó)家的嫌疑
▲“回族就是伊斯蘭教”將民族和宗教混為一談
▲“錫金是中國(guó)的鄰國(guó)”,2005年5月起,不得將錫金作為獨(dú)立國(guó)家提及
▲對(duì)有身體傷疾的人士不使用“獨(dú)眼龍”等蔑稱
標(biāo)點(diǎn)檢查
檢查稿件中是否存在成對(duì)標(biāo)點(diǎn)符號(hào)缺失或格式不一致,以及不同標(biāo)點(diǎn)符號(hào)是否疊用、連用的錯(cuò)誤。
▲圖中:“但其也有一些缺陷,如發(fā)展速度易受資金、,人力、時(shí)間等方面的限制”,標(biāo)點(diǎn)“、,”不應(yīng)該連用
大綱檢查
檢查稿件大綱的標(biāo)題序號(hào)是否連續(xù),體例或格式是否一致,標(biāo)題內(nèi)容是否重復(fù),是否為孤標(biāo)題。
▲圖中“3.為加強(qiáng)業(yè)務(wù)管理……”中的序號(hào)“3.”應(yīng)改為“2.”
圖、表、公式、列表序號(hào)檢查
檢查稿件中圖片、表格、公式的序號(hào)是否存在不連續(xù)、體例或格式不一致、缺少引用的錯(cuò)誤。
▲圖中“圖1-6”應(yīng)改成“圖1-5”,“圖2-2”應(yīng)改成“圖2-1”
上下文查重
檢查稿件中是否存在相似度較高或者完全相同的內(nèi)容。
▲圖中稿件第10頁(yè)和第82頁(yè)兩句話重復(fù),且內(nèi)容完全相同
紀(jì)年檢查
檢查稿件中的紀(jì)年類內(nèi)容是否存在公元年份、干支紀(jì)年以及歷史紀(jì)年的錯(cuò)誤。
▲圖中稿件“正德三年(1508)”應(yīng)改為“正德三年(1713)”;“明嘉靖癸己年(1533)”應(yīng)改為“明嘉靖癸巳年(1533)”
格式檢查
檢查稿件中數(shù)值的千分空是否使用正確,數(shù)值與單位符號(hào)之間是否使用了不間斷空格,以及數(shù)學(xué)符號(hào)是否使用了中文全角。
▲圖中:“有兩個(gè)鄉(xiāng)的水稻平均單產(chǎn)都是400kg,甲鄉(xiāng)的水稻單產(chǎn)在350~450kg之間的地塊”,“400kg”和“450kg”,數(shù)值和單位kg之間沒(méi)有使用不間斷空格;“%”應(yīng)該使用半角格式
公式識(shí)別
方正審校還提供公式識(shí)別功能,除了能夠?qū)D片格式的公式識(shí)別為可編輯的MathType公式外,還可對(duì)全文所有公式進(jìn)行內(nèi)容一致性檢查。
▲圖片格式的公式利用公式識(shí)別功能,可以快速轉(zhuǎn)換為可編輯的文字公式
此外,該產(chǎn)品還內(nèi)嵌正版《大辭?!罚脩艨梢院芊奖愕乩迷摴δ軐?duì)稿件中的名詞術(shù)語(yǔ)進(jìn)行檢索。
核心技術(shù)
方正智能輔助審校系統(tǒng)基于方正三十余年在內(nèi)容處理方面的技術(shù)積累,結(jié)合北京大學(xué)、數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室等在自然語(yǔ)言處理方面的最新研究成果,并在數(shù)十家用戶驗(yàn)證反饋的基礎(chǔ)上研發(fā)而成。系統(tǒng)采用云架構(gòu)、應(yīng)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí),融合分詞、實(shí)體識(shí)別、句法分析、深度語(yǔ)言模型等技術(shù),圍繞圖書、期刊出版規(guī)范標(biāo)準(zhǔn)對(duì)內(nèi)容和體例進(jìn)行檢查。
通過(guò)建立學(xué)科領(lǐng)域知識(shí)模型和大規(guī)模語(yǔ)料庫(kù)進(jìn)行訓(xùn)練學(xué)習(xí),基于深度學(xué)習(xí)的序列標(biāo)注和通順度評(píng)價(jià)算法,利用字詞混淆對(duì)集候選結(jié)果進(jìn)行綜合排序,并進(jìn)一步結(jié)合大規(guī)模知識(shí)和語(yǔ)料庫(kù)進(jìn)行常識(shí)檢查,形成包括錯(cuò)別字、用詞不當(dāng)、敏感詞等十二類檢查的智能化引擎,生成具有可反饋學(xué)習(xí)和強(qiáng)交互的勘誤表。
方正智能輔助審校系統(tǒng)具備審校準(zhǔn)確率高、查全率高、速度快、語(yǔ)料更新及時(shí)、用戶使用方便等特點(diǎn)。在產(chǎn)品試用階段,已在全國(guó)范圍內(nèi)100多個(gè)機(jī)構(gòu)用戶試用。
未來(lái),方正智能輔助審校系統(tǒng)還將通過(guò)人工智能技術(shù)賦能行業(yè)智能化升級(jí),以優(yōu)異的產(chǎn)品和技術(shù)為出版行業(yè)各單位創(chuàng)造更大的價(jià)值。