數(shù)據(jù)中臺(tái)整體架構(gòu)如上圖所示,可以劃分為資源匯聚、數(shù)據(jù)預(yù)處理、數(shù)據(jù)入庫(kù)、數(shù)據(jù)整理、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)服務(wù)等過(guò)程。
數(shù)據(jù)資源匯聚包括數(shù)據(jù)采集和數(shù)據(jù)集成。這些資源數(shù)據(jù)主要來(lái)源于內(nèi)容生產(chǎn)數(shù)據(jù)、第三方數(shù)據(jù)、互聯(lián)網(wǎng)定向數(shù)據(jù)等,包括稿件、報(bào)刊、期刊、社交媒體、移動(dòng)客戶端、網(wǎng)站等數(shù)據(jù)類型。支持?jǐn)?shù)據(jù)庫(kù)、文件、流式等多種接入方式對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行接入,將數(shù)據(jù)資源匯聚整合。值得注意的是,匯聚過(guò)程需要針對(duì)目前業(yè)務(wù)系統(tǒng)的規(guī)劃實(shí)現(xiàn)匯聚處理,并對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的存儲(chǔ)規(guī)劃。
數(shù)據(jù)預(yù)處理主要是對(duì)數(shù)據(jù)進(jìn)行初步的清洗和標(biāo)準(zhǔn)化等預(yù)處理工作。數(shù)據(jù)入庫(kù)前的預(yù)處理會(huì)進(jìn)行字段解析、映射、轉(zhuǎn)換以及處理字段的殘缺、錯(cuò)誤、數(shù)據(jù)去重等工作。清洗之后的數(shù)據(jù)需要進(jìn)行標(biāo)準(zhǔn)化處理,將不同格式的數(shù)據(jù)按照統(tǒng)一數(shù)據(jù)格式規(guī)范轉(zhuǎn)換。同時(shí),數(shù)據(jù)入庫(kù)前一般需要進(jìn)行自動(dòng)標(biāo)引、數(shù)據(jù)分類等工作:針對(duì)文本數(shù)據(jù),會(huì)進(jìn)行自動(dòng)分類、自動(dòng)摘要、關(guān)鍵詞、情感分析等方面的識(shí)別和標(biāo)簽提??;針對(duì)圖片類型數(shù)據(jù),會(huì)進(jìn)行圖片人物、圖片場(chǎng)景、圖片屬性、新聞事件、地標(biāo)建筑等方面的識(shí)別和標(biāo)簽提??;針對(duì)音頻數(shù)據(jù),會(huì)進(jìn)行語(yǔ)音識(shí)別、音頻屬性、新聞事件等方面的識(shí)別和內(nèi)容提取;針對(duì)視頻數(shù)據(jù),會(huì)進(jìn)行視頻人物、視頻場(chǎng)景、視頻屬性、新聞事件、地標(biāo)建筑等方面的識(shí)別和標(biāo)簽提取。
數(shù)據(jù)入庫(kù)是對(duì)解析后的文本、圖片、音視頻、文件等數(shù)據(jù)進(jìn)行分層分區(qū)存儲(chǔ)。待入庫(kù)的數(shù)據(jù)需要保證數(shù)據(jù)的完整性、規(guī)范性和時(shí)效性,必須按照平臺(tái)要求的數(shù)據(jù)格式規(guī)范統(tǒng)一進(jìn)行轉(zhuǎn)換后入庫(kù)。
數(shù)據(jù)整理的主要是對(duì)入庫(kù)的數(shù)據(jù)進(jìn)行人工標(biāo)引、數(shù)據(jù)集成等工作,通過(guò)數(shù)據(jù)選取、標(biāo)引、校對(duì)等功能,對(duì)數(shù)據(jù)進(jìn)行標(biāo)引和有序地組織、檢索和展示。同時(shí),可以根據(jù)標(biāo)簽匯聚資源專區(qū),形成服務(wù)接口供第三方系統(tǒng)調(diào)用,通過(guò)人工標(biāo)引這種方式,來(lái)提升數(shù)據(jù)的標(biāo)簽準(zhǔn)確度,為一些重要專題制作的準(zhǔn)確性打下基礎(chǔ)。
數(shù)據(jù)資產(chǎn)環(huán)節(jié)是把接入的數(shù)據(jù)基于業(yè)務(wù)現(xiàn)狀及未來(lái)規(guī)劃進(jìn)行數(shù)據(jù)資產(chǎn)劃分,對(duì)接入的數(shù)據(jù)進(jìn)行深層級(jí)的加工、實(shí)現(xiàn)數(shù)據(jù)資源的分類管理、元數(shù)據(jù)管理、資產(chǎn)管理。媒體數(shù)據(jù)資產(chǎn)主要由內(nèi)容庫(kù)和主題庫(kù)兩個(gè)部分組成,業(yè)務(wù)庫(kù)是基于業(yè)務(wù)系統(tǒng)構(gòu)建的,為前臺(tái)業(yè)務(wù)提供諸如專題庫(kù)、語(yǔ)料庫(kù)、實(shí)體庫(kù)、知識(shí)庫(kù)等業(yè)務(wù)為導(dǎo)向的數(shù)據(jù)資產(chǎn)。而主題庫(kù)是為了應(yīng)對(duì)快速建庫(kù)需求,通過(guò)簡(jiǎn)單的檢索篩選,形成滿足業(yè)務(wù)需求的主題庫(kù),降低了數(shù)據(jù)開發(fā)成本。
數(shù)據(jù)能力和智能分析能力全部以微服務(wù)的形式對(duì)外提供調(diào)用,由數(shù)據(jù)中臺(tái)保證數(shù)據(jù)服務(wù)的性能和穩(wěn)定性、數(shù)據(jù)質(zhì)量和準(zhǔn)確性,實(shí)現(xiàn)服務(wù)的統(tǒng)一管控和綜合治理。
3. 媒體數(shù)據(jù)中臺(tái)建設(shè)的三個(gè)階段
一次性建設(shè)完成媒體數(shù)據(jù)中臺(tái)全部?jī)?nèi)容比較困難,很多公司都是分階段進(jìn)行的,特別是傳統(tǒng)媒體單位,很多業(yè)務(wù)還沒(méi)有完成數(shù)字化,別說(shuō)建設(shè)數(shù)據(jù)中臺(tái)了。媒體數(shù)據(jù)中臺(tái)整體規(guī)劃建設(shè)采用“分階段,垂直業(yè)務(wù)分批”的思路進(jìn)行。整個(gè)媒體數(shù)據(jù)中臺(tái)可以分為三個(gè)階段進(jìn)行建設(shè)。
階段1:基礎(chǔ)平臺(tái)建設(shè)階階段1:基礎(chǔ)平臺(tái)建
建設(shè)目標(biāo):
媒體數(shù)據(jù)中臺(tái)第一階段主要以搭框架、建標(biāo)準(zhǔn)、聚數(shù)據(jù)為主。第一階段建設(shè)的要?jiǎng)?wù)是與各部門的生產(chǎn)數(shù)據(jù)打通,建立統(tǒng)一的數(shù)據(jù)接入、數(shù)據(jù)分類、數(shù)據(jù)接口、數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn),優(yōu)先對(duì)影響業(yè)務(wù)開展的基礎(chǔ)性數(shù)據(jù)進(jìn)行接入工作。同時(shí)梳理數(shù)據(jù)分類標(biāo)準(zhǔn),通過(guò)文本智能處理能力實(shí)現(xiàn)自動(dòng)分類、摘要、關(guān)鍵詞、情感分析等方面的識(shí)別和標(biāo)簽提取,并支持對(duì)數(shù)據(jù)內(nèi)容和分類體系進(jìn)行加工與維護(hù)。同時(shí)平臺(tái)面提供滿足不同業(yè)務(wù)的基本數(shù)據(jù)服務(wù)與頁(yè)面能力的支撐。面向數(shù)據(jù)管理人員提供資源管理功能,實(shí)現(xiàn)對(duì)內(nèi)容的加工與分類。面向開發(fā)人員提供基礎(chǔ)的數(shù)據(jù)服務(wù)接口,提供資源檢索、查看、下載等接口服務(wù)。面向用戶提供資源門戶訪問(wèn)服務(wù),支持用戶對(duì)數(shù)據(jù)資源進(jìn)行查看與檢索。
建設(shè)內(nèi)容:
建設(shè)成果:
建設(shè)完成數(shù)據(jù)接入、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分類、數(shù)據(jù)服務(wù)標(biāo)準(zhǔn);
建設(shè)完成自動(dòng)分類、摘要、關(guān)鍵詞提取、命名實(shí)體等文本智能處理能力建設(shè);
建設(shè)完成數(shù)據(jù)資產(chǎn)管理平臺(tái)中對(duì)入庫(kù)資源的內(nèi)容管理、分類體系管理功能;
建設(shè)完成資源發(fā)布與展示平臺(tái)其中資源門戶部分的資源展示、資源檢索功能;
建設(shè)完成資源檢索、資源下載等基礎(chǔ)數(shù)據(jù)服務(wù)。
段2:數(shù)據(jù)整合能力增強(qiáng)
階段2:數(shù)據(jù)整合能力增強(qiáng)段3
建設(shè)目標(biāo):
媒體數(shù)據(jù)中臺(tái)第二階段主要以數(shù)據(jù)深度加工整理、數(shù)據(jù)智能服務(wù)、快速建庫(kù)與內(nèi)容發(fā)布作為階段目標(biāo)。第二階段會(huì)引入人工標(biāo)引能力,通過(guò)標(biāo)引工具可以實(shí)現(xiàn)數(shù)據(jù)選取、標(biāo)引、校對(duì)等流程,深挖數(shù)據(jù)的價(jià)值。標(biāo)引完的稿件可通過(guò)標(biāo)簽進(jìn)行組織、檢索、展示,同時(shí)可利用標(biāo)簽實(shí)現(xiàn)數(shù)據(jù)聚合,為快速生成專題庫(kù)打下基礎(chǔ)。
快速建庫(kù)將專題數(shù)據(jù)自動(dòng)匯聚與人工加工相結(jié)合,使用機(jī)器學(xué)習(xí)的聚類算法自動(dòng)發(fā)現(xiàn)并生成專題類簇,通過(guò)人工對(duì)類簇打?qū)n}標(biāo)簽的方式,達(dá)到專題的自動(dòng)發(fā)現(xiàn)與制作的功能。同時(shí)定制專題面向業(yè)務(wù)人員提供以“專題”為核心的資源匯聚服務(wù),通過(guò)相關(guān)(關(guān)鍵詞、實(shí)體詞、分類標(biāo)簽、屬性等)維度組合,實(shí)現(xiàn)歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)的快速匯聚。內(nèi)容發(fā)布支持專題頁(yè)面的快速生成,通過(guò)模板技術(shù)實(shí)現(xiàn)專題頁(yè)面的呈現(xiàn)與訪問(wèn)。同時(shí)本階段會(huì)對(duì)檢索能力、推薦能力進(jìn)行提升,提供智能糾錯(cuò)、智能補(bǔ)全、智能聯(lián)想、語(yǔ)義搜索、內(nèi)容推薦等功能,優(yōu)化內(nèi)容檢索和推薦的效果,提升用戶的體驗(yàn)。在數(shù)據(jù)服務(wù)方面,會(huì)加強(qiáng)對(duì)數(shù)據(jù)服務(wù)的管理與監(jiān)控,對(duì)數(shù)據(jù)服務(wù)進(jìn)行統(tǒng)一的注冊(cè)與授權(quán)、形成數(shù)據(jù)服務(wù)目錄,對(duì)外提供服務(wù)能力的支撐。
建設(shè)內(nèi)容:
建設(shè)成果:
建設(shè)完成數(shù)據(jù)資產(chǎn)管理平臺(tái)中數(shù)據(jù)標(biāo)引模塊數(shù)據(jù)選取、任務(wù)分配、數(shù)據(jù)標(biāo)引、標(biāo)引工作量統(tǒng)計(jì)功能;
建設(shè)完成數(shù)據(jù)資產(chǎn)管理平臺(tái)中專題管理模塊專題聚類、專題定制、專題管理功能;
建設(shè)完成資源發(fā)布與展示平臺(tái)其中發(fā)布管理模塊的模板管理、專題發(fā)布功能;
建設(shè)完成資源檢索、資源下載等基礎(chǔ)數(shù)據(jù)服務(wù),形成數(shù)據(jù)訂閱類、數(shù)據(jù)檢索類、智能分析類、數(shù)據(jù)統(tǒng)計(jì)類等服務(wù)目錄和服務(wù)。
:能力持續(xù)提升
階段3:能力持續(xù)提升
建設(shè)目標(biāo):
媒體數(shù)據(jù)中臺(tái)第三階段主要以輔助內(nèi)容生產(chǎn)和媒體運(yùn)營(yíng)、數(shù)據(jù)的多維統(tǒng)計(jì)及大屏可視化、數(shù)據(jù)智能分析作為階段目標(biāo)。通過(guò)人工智能與大數(shù)據(jù)技術(shù),賦能融媒體轉(zhuǎn)型升級(jí),為未來(lái)業(yè)務(wù)創(chuàng)新提供更多的技術(shù)支撐。構(gòu)建驅(qū)動(dòng)信息采集、選題策劃、輔助生產(chǎn)、用戶畫像、渠道分發(fā)、傳播效果監(jiān)測(cè)、輿論監(jiān)督等功能的智能化、精準(zhǔn)化、實(shí)時(shí)化,助力媒體單位實(shí)現(xiàn)生產(chǎn)力、引導(dǎo)力、影響力、公信力上的提升。媒體生產(chǎn)輔助應(yīng)用主要用來(lái)支撐選題策劃、新聞采訪、新聞編輯、新聞審校、新聞發(fā)布等業(yè)務(wù)流程,提供智能選題、新聞采寫、媒體資源庫(kù)、智能專題、個(gè)性化推薦等生產(chǎn)輔助能力。媒體運(yùn)營(yíng)輔助應(yīng)用提供媒體傳播分析、媒體影響力分析、用戶全息畫像、決策分析等運(yùn)營(yíng)輔助能力。
建設(shè)內(nèi)容:
建設(shè)成果:建設(shè)完成資源發(fā)布與展示平臺(tái)中大屏可視化、指標(biāo)統(tǒng)計(jì)等功能;建設(shè)完成數(shù)據(jù)智能分析平臺(tái)中認(rèn)知智能相關(guān)功能與應(yīng)用;建設(shè)完成數(shù)據(jù)智能分析平臺(tái)中業(yè)務(wù)智能相關(guān)輔助內(nèi)容生產(chǎn)和媒體運(yùn)營(yíng)應(yīng)用。
4. 媒體數(shù)據(jù)中臺(tái)落地實(shí)施流程
數(shù)據(jù)調(diào)研
通過(guò)數(shù)據(jù)盤點(diǎn)讓數(shù)據(jù)成為資產(chǎn),了解企業(yè)有哪些數(shù)據(jù),在哪里,有多少量級(jí)。主要包含業(yè)務(wù)流程梳理、數(shù)據(jù)流程梳理、數(shù)據(jù)識(shí)別和分類等工作。
盤點(diǎn)需要接入的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),通過(guò)調(diào)研表和訪談的方式收集數(shù)據(jù)信息。數(shù)據(jù)源通常包括報(bào)紙、期刊、網(wǎng)站、APP、社交媒體等。確認(rèn)是否需要進(jìn)行歷史數(shù)據(jù)遷移。
結(jié)構(gòu)化數(shù)據(jù)需要收集的信息通常包括:
非結(jié)構(gòu)化數(shù)據(jù)需要收集的信息通常包括:
架構(gòu)設(shè)計(jì)與技術(shù)選型
根據(jù)項(xiàng)目需求確定總體設(shè)計(jì)思路,進(jìn)行總體系統(tǒng)架構(gòu)、技術(shù)架構(gòu)和應(yīng)用架構(gòu)設(shè)計(jì)。在此基礎(chǔ)上確定總體數(shù)據(jù)規(guī)劃,根據(jù)數(shù)據(jù)的數(shù)據(jù)類型和業(yè)務(wù)使用場(chǎng)景、展現(xiàn)形式,設(shè)計(jì)相應(yīng)的存儲(chǔ)方式,以滿足數(shù)據(jù)服務(wù)要求。必要時(shí)可以進(jìn)行集中測(cè)試,通過(guò)讀寫速度、可靠性等指標(biāo)的測(cè)試結(jié)果綜合判斷,最終決定數(shù)據(jù)存儲(chǔ)選型。
數(shù)據(jù)標(biāo)準(zhǔn)體系制定
結(jié)合國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和實(shí)際業(yè)務(wù),梳理、摸底各數(shù)據(jù)源數(shù)據(jù)情況,對(duì)關(guān)鍵業(yè)務(wù)過(guò)程數(shù)據(jù)、業(yè)務(wù)結(jié)果數(shù)據(jù)制定數(shù)據(jù)接入標(biāo)準(zhǔn),數(shù)據(jù)分類標(biāo)準(zhǔn)、數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)。
接入標(biāo)準(zhǔn)。數(shù)據(jù)接入負(fù)責(zé)將各種資源統(tǒng)一接入到數(shù)據(jù)中臺(tái)中來(lái)。需要制定相應(yīng)的數(shù)據(jù)接入規(guī)范,適配不同數(shù)據(jù)接入需求,能夠提供數(shù)據(jù)庫(kù)、消息隊(duì)列、API、文件等常用接入方式。新增數(shù)據(jù)類型只要符合數(shù)據(jù)接入規(guī)范,都可以進(jìn)行接入。通過(guò)這種標(biāo)準(zhǔn)的數(shù)據(jù)接入管道和擴(kuò)展方式,可以靈活的響應(yīng)業(yè)務(wù)側(cè)的不斷變化的接入需求,保證數(shù)據(jù)接入的通用性和統(tǒng)一性。
分類標(biāo)準(zhǔn)。參考《新聞資料分類法》、《中國(guó)新聞信息分類法》等國(guó)內(nèi)外分類標(biāo)準(zhǔn),以現(xiàn)有的分類體系為基礎(chǔ),結(jié)合數(shù)據(jù)實(shí)際特點(diǎn)配合客戶完成設(shè)計(jì)、調(diào)整及完善分類體系工作。
存儲(chǔ)標(biāo)準(zhǔn)。對(duì)于多種數(shù)據(jù)來(lái)源的不同數(shù)據(jù)類型需要確定相應(yīng)的字段轉(zhuǎn)換、存儲(chǔ)方式,與存儲(chǔ)標(biāo)準(zhǔn)。規(guī)范數(shù)據(jù)存儲(chǔ)組件、存儲(chǔ)路徑、存儲(chǔ)格式、副本策略、備份機(jī)制等內(nèi)容,對(duì)數(shù)據(jù)進(jìn)行分層分區(qū)設(shè)計(jì),保證數(shù)據(jù)存儲(chǔ)的合理性以及擴(kuò)展性。
服務(wù)標(biāo)準(zhǔn)。整理需要建設(shè)的服務(wù)清單,對(duì)服務(wù)清單中的接口進(jìn)行分類。根據(jù)服務(wù)接口承載業(yè)務(wù)類型,對(duì)服務(wù)進(jìn)行拆分。定義數(shù)據(jù)接口訪問(wèn)方式、訪問(wèn)路徑、請(qǐng)求格式、返回結(jié)果格式、以及返回狀態(tài)碼類型,保證數(shù)據(jù)服務(wù)整體的規(guī)范性和一致性。
數(shù)據(jù)模型設(shè)計(jì)
數(shù)據(jù)模型設(shè)計(jì)。媒體數(shù)據(jù)是非結(jié)構(gòu)化性非常強(qiáng)的,與傳統(tǒng)行業(yè)數(shù)倉(cāng)最大的區(qū)別是媒體行業(yè)90%以上數(shù)據(jù)都是非結(jié)構(gòu)化的,如文本、圖片、視頻等。因此需要根據(jù)業(yè)務(wù)場(chǎng)景以及多種異構(gòu)數(shù)據(jù)源,數(shù)據(jù)存儲(chǔ)采用分區(qū)分域、分層分級(jí)的設(shè)計(jì)思路,創(chuàng)建原始庫(kù)、業(yè)務(wù)庫(kù)、主題庫(kù)、知識(shí)庫(kù)等。
數(shù)據(jù)接入
通過(guò)數(shù)據(jù)接入,建立數(shù)據(jù)標(biāo)準(zhǔn)化流程,實(shí)現(xiàn)數(shù)據(jù)的采集與清洗、標(biāo)準(zhǔn)化。
數(shù)據(jù)標(biāo)準(zhǔn)化將各種資源統(tǒng)一接入到數(shù)據(jù)中臺(tái)。
支持文字、圖片、音視頻、文件、結(jié)構(gòu)化和非結(jié)構(gòu)化等不同數(shù)據(jù)類型。
接入方式可靈活配置管理,能夠適應(yīng)不同數(shù)據(jù)資源接入,保證數(shù)據(jù)的完整性。
數(shù)據(jù)接口具備良好的容錯(cuò)性和安全性,避免因數(shù)據(jù)接口問(wèn)題影響整體系統(tǒng)的穩(wěn)定性和可靠性。
具有可視化WEB配置管理和運(yùn)維管理界面,支持?jǐn)?shù)據(jù)管理人員進(jìn)行接入任務(wù)各要素的配置和定義,支持進(jìn)行數(shù)據(jù)接入任務(wù)的監(jiān)控和日常運(yùn)維操作,支持?jǐn)?shù)據(jù)接入過(guò)程可記錄,對(duì)采集系統(tǒng)工作結(jié)果提供報(bào)告;支持?jǐn)?shù)據(jù)接入系統(tǒng)異常告警能力,主動(dòng)反饋數(shù)據(jù)接入故障等信息。
數(shù)據(jù)預(yù)處理
數(shù)據(jù)清洗:在接入數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)的有效性檢驗(yàn)和過(guò)濾排重等數(shù)據(jù)預(yù)處理工作,確保數(shù)據(jù)質(zhì)量。對(duì)數(shù)據(jù)進(jìn)行解析、字段的映射,完成數(shù)據(jù)的標(biāo)準(zhǔn)化操作。
基于媒體行業(yè)數(shù)據(jù)的特征,數(shù)據(jù)預(yù)處理采取批流結(jié)合的方式解決業(yè)務(wù)場(chǎng)景對(duì)數(shù)據(jù)的要求。數(shù)據(jù)從不同數(shù)據(jù)源過(guò)來(lái),如API、MQ、log、file等,數(shù)據(jù)要在實(shí)時(shí)計(jì)算中做文本去重、數(shù)據(jù)結(jié)構(gòu)化、內(nèi)容標(biāo)簽化和輕度的實(shí)時(shí)統(tǒng)計(jì)等操作,數(shù)據(jù)存儲(chǔ)之后需要進(jìn)行主題建設(shè)、關(guān)系挖掘、知識(shí)圖譜計(jì)算和算法訓(xùn)練,因此需要通過(guò)批流結(jié)合的處理方式來(lái)滿足對(duì)數(shù)據(jù)本身能力的需要。
其中內(nèi)容標(biāo)簽化就是通過(guò)自動(dòng)標(biāo)引方式理解新聞,理解新聞與哪些信息相關(guān),基于文本挖掘的手段,實(shí)現(xiàn)對(duì)內(nèi)容數(shù)據(jù)的分類打標(biāo)。
自動(dòng)標(biāo)引具體來(lái)說(shuō)就是調(diào)用中文語(yǔ)義接口,對(duì)入庫(kù)數(shù)據(jù)進(jìn)行標(biāo)簽化,主要標(biāo)簽有關(guān)鍵詞、文本分類、自動(dòng)摘要、中文分詞、詞性標(biāo)引、命名實(shí)體等。
文本實(shí)施流程:
數(shù)據(jù)分層存儲(chǔ)
整個(gè)數(shù)據(jù)架構(gòu)根據(jù)現(xiàn)有的數(shù)據(jù)資產(chǎn)狀況,合理的選擇設(shè)計(jì)相關(guān)數(shù)據(jù)架構(gòu)及系統(tǒng)架構(gòu)模型,以支撐平臺(tái)現(xiàn)在及未來(lái)幾年內(nèi)對(duì)數(shù)據(jù)的存儲(chǔ)壓力要求以及對(duì)外服務(wù)的需求。
數(shù)據(jù)加工
通過(guò)數(shù)據(jù)加工,重新組織數(shù)據(jù),讓數(shù)據(jù)變得更好用。通過(guò)人工標(biāo)引方式,梳理重要報(bào)道數(shù)據(jù),建立報(bào)道標(biāo)簽維度。并根據(jù)需求和數(shù)據(jù)內(nèi)容梳理標(biāo)引規(guī)范,形成作業(yè)指導(dǎo)書。對(duì)標(biāo)引的結(jié)果進(jìn)行校對(duì)、全檢、標(biāo)簽修改等操作,通過(guò)標(biāo)引匯聚成專題。
平臺(tái)會(huì)將所有數(shù)據(jù)分成不同主題,按不同主題進(jìn)行建設(shè)、存放和加工。媒體是一個(gè)非常復(fù)雜的行業(yè),對(duì)各個(gè)行業(yè)的數(shù)據(jù)都是有訴求的,媒體需要挖掘大量不同行業(yè)的數(shù)據(jù)支撐新聞生產(chǎn)和報(bào)道,數(shù)據(jù)進(jìn)來(lái)之后,再挖掘潛在的新聞點(diǎn),生成選題策劃,幫助用戶做選題等工作。
數(shù)據(jù)治理
數(shù)據(jù)治理貫徹執(zhí)行在整個(gè)數(shù)據(jù)處理流程中每一個(gè)階段,數(shù)據(jù)治理保證數(shù)據(jù)是被管理的,數(shù)據(jù)管理則保證被管理的數(shù)據(jù)實(shí)現(xiàn)指定的目標(biāo)。指導(dǎo)和監(jiān)督元數(shù)據(jù)管理、標(biāo)準(zhǔn)管理、質(zhì)量管理、安全管理等功能具體數(shù)據(jù)管控。質(zhì)量管理主要通過(guò)分析源系統(tǒng)表數(shù)據(jù),從及時(shí)性、完整性、準(zhǔn)確性、有效性、一致性方面對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行數(shù)據(jù)校驗(yàn),發(fā)現(xiàn)并記錄數(shù)據(jù)質(zhì)量問(wèn)題,生成數(shù)據(jù)質(zhì)量問(wèn)題報(bào)告。元數(shù)據(jù)管理描述了數(shù)據(jù)在使用流程中的信息,通過(guò)血緣分析可以實(shí)現(xiàn)關(guān)鍵信息的追蹤和記錄,影響分析幫助了解分析對(duì)象的下游數(shù)據(jù)信息,快速掌握元數(shù)據(jù)變更可能造成的影響。數(shù)據(jù)管理是數(shù)據(jù)治理的延伸,包含數(shù)據(jù)資產(chǎn)視圖、智能搜索等功能。
能力整合
整合數(shù)據(jù)資源管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)發(fā)布等能力,通過(guò)體系化的平臺(tái)建設(shè),實(shí)現(xiàn)對(duì)業(yè)務(wù)系統(tǒng)和應(yīng)用開發(fā)提供更加高效、簡(jiǎn)潔、靈活的數(shù)據(jù)服務(wù),使得上層應(yīng)用不會(huì)受限于底層多變的數(shù)據(jù)格式、數(shù)據(jù)類型、數(shù)據(jù)處理和管理邏輯以及復(fù)雜的基礎(chǔ)架構(gòu)建設(shè)和運(yùn)維,最大限度的釋放數(shù)據(jù)的價(jià)值。
數(shù)據(jù)平臺(tái)能力整合與開放主要有三個(gè)方面。
第一,數(shù)據(jù)的整合與開放。任何數(shù)據(jù)進(jìn)到平臺(tái)之后,都會(huì)在整個(gè)大數(shù)據(jù)處理鏈條中進(jìn)行計(jì)算、整合、內(nèi)容結(jié)構(gòu)化,以及加入標(biāo)簽等處理,同時(shí)基于用戶感興趣的數(shù)據(jù)范圍,做標(biāo)簽的特征過(guò)濾,篩選用戶想要的數(shù)據(jù)。
第二,提供智能分析能力的整合與開放。通過(guò)開放算法能力,幫助用戶做數(shù)據(jù)能力和算法能力的應(yīng)用,提供文本內(nèi)容實(shí)體識(shí)別服務(wù)、文本去重判定服務(wù)、圖像人物識(shí)別服務(wù)和圖像標(biāo)簽化服務(wù)等。
第三,產(chǎn)品能力的整合與開放,例如,將用戶畫像、內(nèi)容推薦、傳播分析等能力對(duì)外開放。
5. 媒體數(shù)據(jù)中臺(tái)落地實(shí)踐
目前百分點(diǎn)科技已服務(wù)眾多國(guó)家級(jí)的報(bào)業(yè)和出版客戶,包括新華社、中國(guó)日?qǐng)?bào)、科技日?qǐng)?bào)、新華網(wǎng)、南方報(bào)業(yè)、人民出版社等。
比如,為南方報(bào)業(yè)建立的媒體智能數(shù)據(jù)中臺(tái),對(duì)全媒體大數(shù)據(jù)的資源進(jìn)行采集,并對(duì)采集到的海量全媒體數(shù)據(jù)進(jìn)行分布式存儲(chǔ)、高效檢索、智能分析。目前,南方數(shù)據(jù)服務(wù)平臺(tái)已經(jīng)擁有上千個(gè)數(shù)據(jù)庫(kù)集,上百種數(shù)據(jù)智能應(yīng)用工具,能夠提供多端融合采編輔助支撐,如熱點(diǎn)聚類、主題延展、內(nèi)容摘要、機(jī)器翻譯、機(jī)器人協(xié)作、實(shí)體影響力畫像和個(gè)性化推薦等新技術(shù)新應(yīng)用,幫助南方報(bào)業(yè)夯實(shí)數(shù)據(jù)服務(wù)能力,以數(shù)據(jù)和AI能力為策采編發(fā)各個(gè)環(huán)節(jié)賦能。
百分點(diǎn)科技還為新華社搭建了全媒體中臺(tái),尤其在去年疫情期間,分別僅用一個(gè)月時(shí)間便快速構(gòu)建并推出了“兩會(huì)報(bào)道”專題和“習(xí)總書記出訪”專題兩個(gè)新聞應(yīng)用創(chuàng)新產(chǎn)品。通過(guò)中臺(tái)提供的專業(yè)化數(shù)據(jù)服務(wù),助力全媒體采編。
三、媒體中臺(tái)助推媒體智能化轉(zhuǎn)型
媒體融合下半場(chǎng)的重心將向智能化發(fā)展。從傳媒到數(shù)據(jù)、從傳播到服務(wù)、從采訪到采集、從對(duì)內(nèi)到對(duì)外,動(dòng)能轉(zhuǎn)換的過(guò)程需要轉(zhuǎn)換思路、轉(zhuǎn)換機(jī)制、轉(zhuǎn)換形態(tài),通過(guò)用數(shù)據(jù)、養(yǎng)數(shù)據(jù)、聚數(shù)據(jù)、管數(shù)據(jù),從數(shù)據(jù)化運(yùn)營(yíng)到運(yùn)營(yíng)數(shù)據(jù)業(yè)務(wù),形成媒體數(shù)據(jù)生產(chǎn)應(yīng)用的新的閉環(huán)系統(tǒng)。
通過(guò)全媒體中臺(tái)的建設(shè),可以為媒體應(yīng)用提供媒體生產(chǎn)輔助、媒體運(yùn)營(yíng)輔助、媒體發(fā)布端應(yīng)用、媒體智庫(kù)和輿情分析等能力支撐。值得注意的是,媒體數(shù)據(jù)中臺(tái)的建設(shè)需要自上而下,需要進(jìn)行詳盡的前期規(guī)劃設(shè)計(jì),需要符合各媒體機(jī)構(gòu)的實(shí)際情況,且不可全盤照搬,需要結(jié)合實(shí)際情況進(jìn)行取舍調(diào)整,以達(dá)到價(jià)值最大化。
對(duì)于全媒體中臺(tái)的建設(shè),首先需要媒體機(jī)構(gòu)有一定的數(shù)據(jù)基礎(chǔ)和業(yè)務(wù)規(guī)模,這是因?yàn)橹挥挟?dāng)自身數(shù)據(jù)多樣、業(yè)務(wù)規(guī)模不斷擴(kuò)大、業(yè)務(wù)相互獨(dú)立,急需通過(guò)全媒體中臺(tái)解決效率、成本和質(zhì)量的問(wèn)題。并且,媒體數(shù)據(jù)不能局限于現(xiàn)在的媒資數(shù)據(jù),而應(yīng)該是基于媒體連接能力、地緣優(yōu)勢(shì)、服務(wù)定位特色等形成的各類數(shù)據(jù)。
媒體的數(shù)據(jù)庫(kù)建設(shè)不能停留在簡(jiǎn)單的媒資庫(kù)時(shí)代。盤活媒體數(shù)據(jù)使用需要新思維,要以加快數(shù)字經(jīng)濟(jì)時(shí)代媒體融合創(chuàng)新發(fā)展為戰(zhàn)略目標(biāo),以“數(shù)據(jù)資產(chǎn)增值”為考量,以市場(chǎng)需求為導(dǎo)向,圍繞不同的用戶需求和市場(chǎng)需求,打造實(shí)用有效的媒體數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù)。
重視數(shù)據(jù)流通變現(xiàn),打造有價(jià)值的數(shù)據(jù)庫(kù),數(shù)據(jù)積累是一方面,更重要的是數(shù)據(jù)變現(xiàn),實(shí)現(xiàn)媒體數(shù)據(jù)資產(chǎn)增值。無(wú)論是傳統(tǒng)媒體或是新媒體,都應(yīng)該在原有的商業(yè)盈利模式基礎(chǔ)上,把握數(shù)字經(jīng)濟(jì)發(fā)展的機(jī)遇,開放媒體數(shù)據(jù)服務(wù)能力,開拓盈利新渠道。