加強數字中文建設,全方位釋放中文要素價值
來源:光明日報作者:劉培俊 2025-06-08 09:06
大語言模型技術日新月異,為社會數字化發展注入強勁動力,并塑造未來勢能。自然語言處理技術、高質量語言資源、大規模優質語料等已成為這場新技術革命的戰略支點和社會發展的基礎要素。中文在支撐科技創新、服務數字中國建設和參與世界語言治理格局中,發揮著技術、語言和文化優勢。
為貫徹落實數字中國建設和教育強國建設規劃部署,教育部、國家語委、中央網信辦于2025年1月印發《關于加強數字中文建設,推進語言文字信息化發展的意見》,首次提出“數字中文”概念。《意見》面向2035年明確發展目標、政策措施和工作機制,以實施加強數字中文建設行動全面帶動語言文字信息化,聚焦高價值領域全局賦能經濟社會發展。
數字中文概念的提出根植于社會現實
數字中文,一個新術語,乍看起來生疏而新鮮,其實,數字中文的豐富內涵根植于多年來、多方面、深層次的社會現實基礎。
人工智能技術創新發展,更加需要中文數字化支撐。在大語言模型技術快速迭代的過程中,數據成為其中的核心競爭力變量,語言文字、語言資源和語言數據至關重要。中文以其語言學意義和歷史文化層面的特殊性,有利于創新中國特色大語言模型發展之路,有利于技術賦能中文功能發揮與中文賦能技術創新應用雙向促進,并在技術競爭、文化傳播和全局賦能中發揮更大作用。
世界語言格局迅速變化,更加需要中文數字化傳播。中國是世界上語言資源最豐富的國家之一;中文承載著中華民族數千年的文明智慧,是中國貢獻給世界的重要公共文化產品,是世界上使用人數最多的語言,是聯合國六種工作語言之一。越來越多的國家和國際事務場景使用中文,中文參與全球治理的價值作用更加凸顯。
數字中國建設進程加快,更加需要中文數字化助力。語言文字數字化應用場景不斷拓展,語言數據作為新型要素,快速融入生產、分配、流通、消費以及政務管理等各環節,廣泛服務社會發展。
語言文字信息化進展,更加需要中文數字化躍升。語言文字信息化發展呈現出多語種資源廣泛開發、多方面技術創新應用、多類型主體共同推進、多維度賦能發揮作用的良好局面。今后一個時期,加大國家通用語言文字推廣力度,深化中華優秀語言文化傳承,增進中國特色語言文明交流互鑒,更加需要中文數字化賦能。
數字中文的概念內涵與應用
基于當前社會現實和未來國內國際多樣化需求,我們嘗試結合數字技術與中文系統之間的互動關系,初步定義“數字中文”概念,以期為數字中文技術體系、認知體系和治理體系建構提供基本范疇、分析框架和邏輯起點。
從本體性技術上,數字中文是指中文語言系統在數字技術生態中演化形成的復合語言形態,依托字符集標準及多模態語言信息標準在數字化媒介中實現編碼、傳輸、呈現,以及依托語義計算框架形成中文支撐人工智能技術的新型符號系統。
從功能性特征上,數字中文基于技術標準、語用實踐與算法架構,作為語言-技術共生體系和智能基礎設施,全方位支持中文語言資源功能作用發揮和中文語言數據要素價值釋放,體現為國際編碼的字符數字化、中文信息處理的算法系統化、人機界面交互驅動的語用重構化、人工智能技術創新的語言智能化、文化傳承傳播的載體中介化以及服務經濟社會發展的賦能全局化。
加強數字中文建設,不僅局限于技術名詞和學術術語的討論,更著眼于以信息化、數字化、智慧化方式全方位釋放中文全要素價值的戰略選擇、制度創新和技術實踐。數字中文的時代背景是大語言模型等人工智能技術飛速變革,數字中國建設加快推進,中文在全球治理中的參與度和貢獻率快速提升;技術本質是中文信息與圖靈測試邏輯的結構性耦合,語言與技術深度融合并“雙向促進”;語用基礎是推動語言資源轉化為語言數據,全方位釋放語言文字在經濟社會發展中的數據要素價值,是語言文字現代化與國家數字化戰略的重要結合點;政策要點是推進中文數字化與數據中文化“兩化并進”、創新應用與規范安全、新型中文服務體系構建與語言文字治理體系完善;前沿應用是以數字化方式深度研究語言本體機理,力求突破語言學理論和實踐問題;加強國家關鍵領域語料基礎設施“新基建”,有效服務大語言模型等人工智能創新應用“制高點”;戰略定位是通過數字化手段提升中文的生命力、傳播力和競爭力,使中文在人工智能、大數據、互聯網和全球化時代保持生機活力,是推進國家語言文字事業高質量發展、國家語言服務體系高標準構建和國家語言能力高起點增強的重要舉措;賦能方式是以語言文字的泛在性與信息技術的泛在性密切結合,聚焦關鍵領域全局賦能經濟社會發展,不斷提升中文在全球數字空間和世界現實生活中的使用占比、價值引領和文化貢獻。
數字中文建設的政策體系框架
按照《意見》部署,以實施數字中文建設行動為重點,全方位釋放語言文字的數據要素價值、全環節發揮語言文字的資源功能作用、全領域推進語言文字賦能經濟社會發展,明確了到2027年和2035年的分段發展目標,形成了加強數字中文建設的政策體系框架。
堅持總體戰略導向。堅持需求牽引,回應經濟社會新需求。堅持語技融合,實施示范項目,打造引領品牌,在匯聚數據資源、創新應用形態、提升賦能效果等關鍵環節開辟新空間。堅持資源開發,多渠道分類型系統建設數字化語言資源新體系。堅持多方協同,形成政府、市場、社會聯動新機制。堅持全局賦能,聚焦關鍵領域,塑造數字中文賦能經濟社會新格局。
應用關鍵前沿技術。以支撐人工智能技術創新為先導,創新應用自然語言處理、大語言模型、多模態信息處理、知識圖譜、語料加工等前沿技術,重點加強國家關鍵領域語料基礎設施建設,有效服務大語言模型等人工智能創新應用。
建強支撐保障體系。以固本強基為基點,系統建設規范標準、資源服務、人才培養、協同創新、安全治理等保障體系,有效推進教育、科技、人才一體發力,重點支撐語言文字信息技術理論研究水平、產業應用能力和社會服務效能。
實施全局賦能行動。以賦能高價值領域優先,統籌實施數字中文服務教育發展、助力科技創新、賦能文化傳承、推動產業升級、促進社會進步等賦能行動,重點部署引領性計劃和先導性項目,提升數字中文賦能經濟社會發展的針對性、實效性和全局性。
創新推進落實機制。以實現數字中文政策目標為導向,一體建立統籌規劃、共建共享、多方協同、試驗帶動、品牌引領等機制。重點鼓勵一地一策、一校一品制定數字中文建設規劃,支持創建試驗區示范點,形成數字中文賦能生態。
開展系統化的數字中文相關研究
站在語言與技術融合的新起點,數字中文定義的深化、政策的落實和行動的實施,急需聚焦重大方向、重要領域和重點選題,開展數字中文理論與實踐研究。
關鍵戰略研究。包括數字中文建設的時代價值、支持政策和實施路徑;新型國家語料庫建設的理論、政策和標準;構建中文在全球數字空間占比指數,提升語言文字信息化助力國家語言能力的戰略貢獻力;推進高價值語言資源轉化為高賦能語言數據的有效機制,提升語言文字的科技支撐力;推進語言本體發展以數字化方式走向語言社會服務,提升語言文字的社會吸引力。
前沿基礎研究。包括語言數據賦能信息技術創新應用和信息技術賦能語言資源功能發揮的“雙向賦能”機理;中文數字化和數據中文化“兩化并進”途徑;中文支撐人工智能的技術、語言和文化優勢;數字中文建設的安全和風險;中文數字化標準與國際技術生態的兼容性;中文結構特征與深度學習技術架構的適配性。
急需應用研究。包括數字中文標準、規范與治理體系建設;青少年大語言模型素養提升;大語言模型技術規范與質量標準;數字中文新產品、新職業、新業態;培植專攻數字中文建設專業化機構,培育促進語言與技術雙向賦能的融合性學科,培養復合型語言人才;開設語言科學與技術專業,構建數字中文建設人才供需適配機制。
展望未來,數字中文建設要聚焦國家、市場和社會需求,立足國家語言文字事業發展、國家語言服務體系構建和國家語言能力增強的“一體兩翼”大語言格局,服務國家事業發展大局,著力將數字中文概念轉化為政策制度、規范標準、計劃項目、實際行動和社會效能,更好地助推國家語言服務體系的數字化轉變、語言資源大國向語言能力強國的戰略性轉變以及語言有限賦能向語言賦能全局轉變。
(作者:劉培俊,系教育部語言文字信息管理司司長)
編輯:董麗娜
文章、圖片版權歸原作者所有,如有侵權請聯系刪除