首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 臺灣
- 教育
- 科普
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陜
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
舉報專區
登錄

退出

人工智能時代創新開發媒資庫的探索與建議

人民網研究院研究員廖燦亮

2024年05月14日17:20 | 來源：人民網研究院

小字號

摘要：數據是人工智能的基礎，優質、豐富、稀缺的媒資庫數據將成為人工智能時代媒體融合發展的關鍵抓手。主流媒體對媒資庫創新開發要搶抓機遇、超前布局、創新實踐，賦能建立“新聞+政務服務商務”運營模式，推動智能化轉型和媒體融合向縱深發展。

關鍵詞：人工智能；媒資庫；數據；媒體融合發展

媒資庫，即媒體資產倉庫，涉及媒體在內容采集、生產、分發以及經營過程中積累的一切成品和素材。當前，人工智能(AI)技術正融合千行百業，驅動新一輪科技革命和產業變革，也將重塑媒體格局、傳播方式與輿論生態。主流媒體正積極探索將AI運用于新聞采集、生產、分發、接收、反饋之中，以打造智媒體新生態，鞏固壯大奮進新時代的主流思想輿論。

媒資庫是人工智能時代媒體融合發展的關鍵抓手

當前，各大媒體機構對媒資庫建設與開發存在投入不足的現象。許多媒資庫建設僅停留在將歷史文字報道電子化階段，圖片、音視頻入庫數字化進程緩慢，創新開發媒資庫賦能媒體融合發展也還停留在初級階段。建設、開發媒資庫需要大量資金、技術與人才投入，且無法直接帶來可觀的經濟效益。

隨著AI技術的發展，這種低投入的局面有望徹底打破。數據是AI的燃料，是智能發展的基石。主流媒體在新聞報道與融合發展過程中沉淀積累了海量的內容成品和素材數據，匯集大量政務數據、服務數據、商務數據，這些數據能有效支撐AI學習和訓練，提高其智能水平。

知名AI研究機構EpochAI的一項研究預計，隨著AI技術發展，到2026年，高質量的數據將變得稀缺，2030—2050年低質量數據也將消耗殆盡。在國外，《紐約時報》等多家媒體起訴生成式AI應用ChatGPT的開發公司OpenAI“未經授權，使用已發表的新聞作品訓練生成式人工智能應用”。美國有線電視新聞網(CNN)、美聯社、�？怂�(Fox)、《時代》雜志(Time)也與OpenAI就內容授權訓練AI應用事宜進行了多次談判^[1]。這從一個側面說明，媒體數據優質、豐富、稀缺，而且應用場景與市場十分廣闊。以這些數據為基礎建立的媒資庫，不僅是媒體機構重要的資產，更是媒體機構抓住AI發展機遇，賦能建立“新聞+政務服務商務”運營模式，推動媒體融合向縱深發展的關鍵抓手。

隨著AI與媒體融合進一步加深，媒資庫對主流媒體融合發展而言，或將從“有點關系”變成“性命攸關”。

（一）媒資庫是智能生產和傳播的基礎

媒資庫將全面賦能媒體智能生產和智能傳播，推動媒體智能化進入快速發展階段。當前，以ChatGPT為代表的AIGC（人工智能生成內容）應用平臺發展迅猛。行業普遍認為AIGC將成為繼專業生產內容（PGC）、用戶生產內容（UGC）之后新的內容生產模式，廣泛應用在內容生產的各個領域并且替代了部分人工創作。媒資庫是媒體AIGC的基礎，AI新聞寫作、AI繪畫、AI視頻生成、AI虛擬場景生成等AIGC應用均離不開AI對媒資庫數據的學習和訓練；AI審核、媒體報道精準傳播、傳播效果精準評估等也離不開AI對媒資庫數據的數據挖掘和預測分析。

（二）媒資庫數據決定媒體智能服務

隨著AI技術融合千行百業，媒資庫里面擁有的數據類型和數量，將決定主流媒體提供智能服務的類型與水平。AI時代，沒有數據，主流媒體就很難有智能服務，影響力和競爭力也會打折扣。例如，當前不少主流媒體針對政務服務建立了網絡問政互動及訴求反映平臺，包括人民網“領導留言板”、新疆日報“石榴云12345問政”、四川日報“問政四川”、河北新聞網“陽光理政”、華龍網“重慶網絡問政平臺”等，這些平臺所積累的政務數據和運營經驗，將造就主流媒體面向政務服務的AI能力。

媒資庫在人工智能領域的應用探索

AIGC平臺的迅猛發展為創新開發媒資庫提供了方向指引。當前，主流媒體在AI領域探索開發媒資庫主要包括以下幾個方向。

（一）主流價值語料庫

AI平臺有立場，AI生成的內容有導向，其導向本質上是由AI學習的數據語料和算法決定的。例如，ChatGPT被指“充滿西方意識形態和美式政治正確”，根源是美國硅谷和科技界本來就是美國價值觀的大本營，ChatGPT訓練與學習的數據大多來源于西方的數據，產品當然自帶西方意識形態。

在推進媒體融合過程中，主流媒體不能一味采用、入駐商業企業的AIGC平臺，而是要特別關注喂養AI的語料數據和模型算法本身的導向。人民數據發布的《AI大模型綜合能力測評報告》顯示，國內主流大模型在內容生態方面的表現仍有一定提升空間，一些大模型對敏感話題做出了不同程度的規避，部分回答內容情感色彩較重^[2]。這從一個側面上反映出，當前市場上主流價值語料庫稀缺，無法為大模型學習訓練提供支持。主流媒體作為鞏固壯大主流思想輿論、擴大主流價值影響力的主力軍，需要創新媒資庫、建立主流價值語料庫，進一步發揮在AI時代守護意識形態安全的價值。

例如，針對大模型普遍回答不了、回答不好的重大、敏感、疑難問題，人民網動員全體員工、匯集各方資源，建設包括基礎語料、重點領域語料、敏感問答語料在內的“主流價值語料庫”，目前已完成12萬道題的問答語料庫、16個重點領域語料庫、超300億字的基礎語料庫的建設，實現與多個國產主流大模型的集成對接，大幅提升了其安全水平。

（二）行業應用大模型

媒體創新融合發展路徑可以從三個層面展開：一是媒體內部的融合，也就是傳統媒體與新興媒體的融合；二是媒體與媒體之間的行業融合；三是媒體與一切行業、產業的融合，讓媒體在與各個行業的深度融合中壯大。主流媒體通過行業報道以及行業內容運營業務積累了大量高質量行業數據，可以轉化為行業垂直大模型訓練的優質語料庫數據，能為開發行業垂直大模型、推動產業融合提供數據與技術支撐，為下一步推進行業、產業的融合打下基礎。

例如，人民網研發的“人民智媒大模型”為國家地震局提供地震知識科普問答應用。該應用基于地震科普類圖書和相關規范標準文件的學習，有效提升在地震基礎知識、地震災害防御、地震應急救援和地震預警及應對等方面的知識科普效率。

（三）內容風控應用

AI時代，信息無處不在、無所不及、無人不用，智能內容風控擁有廣闊的應用場景。媒資庫的報道成品內容，一定程度上是主流媒體內容審核把關能力與經驗的體現。通過AI技術學習和訓練這些數據，可以研發內容風控應用，全面延伸主流媒體意識形態把關能力。

例如，人民網推出的涉政內容智能審核平臺“人民審�！�，以人民日報媒資庫為核心數據，基于人民網獨家資源和資深編輯的內容把關經驗，構建涉政知識數據庫，具備涉政文本審核、視覺內容檢測等智能風控模塊，可以實現在線檢測、文本審校、圖片審校、視頻審校、自定義詞庫等多功能。目前，“人民審�！币褳�300多家客戶提供內容把關和巡查服務。隨著AI大模型的進一步發展，“人民審�！睂⒅徍薃I訓練的數據語料、生成內容、線上課程等內容。

（四）智能文稿創作應用

媒資庫里海量的政務數據，例如時政新聞報道、領導講話稿、政策文件、官方報告等內容，奠定了主流媒體在黨政文稿方面的智能創作能力。在開發智能文稿創作應用方面，媒資庫擁有兩大不可替代的優勢：一是數據來源于主流媒體報道，確保了AIGC的政治方向、價值取向和輿論導向；二是原始數據的寫作邏輯、語句語序等契合黨政機關、事業單位及國有企業的應用場景。

例如，人民日報社主管、依托人民網建設的傳播內容認知國家重點實驗室推出的人工智能寫稿秘書“寫易”創作引擎，通過AI訓練學習符合我國主流價值觀的數據集和媒體語料庫，內容涵蓋政治、經濟、文化、社會、生態、黨建、國防、外交等重點領域，保障生成內容安全，著重為黨政機關、事業單位、國有企業提供優質安全的智能創作服務。目前，“寫易”已為多個黨政機關和大型國企提供應用服務。

（五）人工智能檢測

隨著AI技術進一步與內容行業融合，AIGC迎來發展新階段。與之伴隨的內容侵權、網絡釣魚、深度偽造、虛假信息等風險挑戰引發廣泛關注。媒體報道是AI內容生成平臺數據訓練學習的重要來源。通過AI技術學習訓練相關數據，推出針對性的智能檢測產品，可以起到保護版權、維護內容安全的作用，在內容安全、版權保護方面有廣闊的市場應用前景。

例如，人民日報社主管、依托人民網建設的傳播內容認知國家重點實驗室推出的“AIGC-X”應用，可快速區分機器生成內容與人工創作內容，對中文文本檢測的準確率已超過90%。下一步，AIGC-X將擴展為對AI生成文本、圖像乃至視頻的通用智能識別模型，為統籌AI安全與發展貢獻力量。

進一步創新開發媒資庫

AI與媒體深度融合，重塑媒體格局和輿論生態已是大勢所趨。主流媒體對媒資庫開發要超前布局、創新實踐，抓住AI發展的機遇，賦能媒體智能化轉型，推動媒體融合向縱深發展。

（一）積極豐富媒資庫數據

媒資庫優質數據的廣度決定了在AI領域創新開發的深度。除了傳統媒體歷史報道與素材數據之外，以下數據可以重點考慮。一是AI數據。當前，AI與媒體融合進一步加深，主流媒體內容生產效率與質量得到大幅提升。未來，由AI生成的數據呈現爆發態勢，許多媒體內容將來源于AI。因此，可以將海量AI生成數據補充到媒資庫中。二是行業數據。主流媒體在探索建立“新聞+政務服務商業”經營模式的過程中，要留意對行業數據的積累、挖掘，形成各類行業數據庫，提升媒資庫的深度和廣度。三是互聯網數據。通過開放合作，主流媒體可以定向采集互聯網相關數據，拓展媒資庫的數據量。

（二）推進智能媒體資源庫建設

媒資庫建設不能僅停留在文字報道電子化階段。要將文字、圖表、圖片、音視頻報道和素材數字化、智能標簽化，實現海量數據數字化存儲、多模態搜索與精準管理。同時，建議對各類數據進行清洗、提煉與分類，形成各類專業數據庫，為媒資庫創新開發做好準備。

（三）加速媒資庫在人工智能領域的創新開發

媒資庫是媒體機構優質、稀缺的數據資產，但如不創新開發使用，仍然只是“歷史檔案”，無法體現其數據價值。因此，建議主流媒體積極創新開發媒資庫，通過技術的引入，持續賦能媒體內容生產、智能傳播及經營運營分析。此外，還可以通過對外尋求合作，共享和開放媒資庫，暢通數據資源大循環。要超前布局，先行先試，在使用中積累數據和經驗，在使用中完善媒資庫，為媒體智能化轉型與融合發展提供支撐。

【參考文獻】

[1]財聯社.OpenAI與CNN、�？怂购蜁r代雜志洽談內容授權事宜[EB/OL].(2024-01-12).https://www.cls.cn/detail/1568645.

[2]人民數據.重磅！人民數據發布《AI大模型綜合能力測評報告》[EB/OL].(2023-07-07).https://www.peopledata.com.cn/html/NEWS/Dynamics/3225.html.

（本文刊發于《全媒體探索》2024年4月號）

(責編：王媛媛、唐勝宏)

分享讓更多人看到