互聯(lián)網(wǎng)+時(shí)代的來臨,移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,并且在各個(gè)領(lǐng)域中應(yīng)用,為其他行業(yè)的發(fā)展提供了技術(shù)支持。隨時(shí)隨地發(fā)布新聞、了解咨詢、關(guān)注國計(jì)民生以及發(fā)表個(gè)人觀點(diǎn)和看法成為新常態(tài)。 輿情的發(fā)生、發(fā)展、演化及傳播等特點(diǎn)發(fā)生著翻天覆地的變化,與之相應(yīng)的輿情監(jiān)測、分析和決策方法日益成為公司部門關(guān)注的焦點(diǎn)。利用信息技術(shù)、輿情監(jiān)測等方面理念、理論及方法對(duì)網(wǎng)絡(luò)輿情的演化發(fā)展進(jìn)行了大量研究,提出面向大數(shù)據(jù)的網(wǎng)絡(luò)輿情監(jiān)測:發(fā)現(xiàn)輿情主題,分析情感傾向,設(shè)計(jì)主題,傳播趨勢;采用數(shù)據(jù)挖掘技術(shù)在事前、事中和事后分三個(gè)階段對(duì)輿情進(jìn)行分析,對(duì)其風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià),預(yù)測其發(fā)展趨勢,及時(shí)提出預(yù)警。 由此可見,時(shí)代在進(jìn)步,技術(shù)在發(fā)展, 工作模式、工作方法的革新勢在必行。過去在網(wǎng)絡(luò)輿情處置中采用過“遮、掩、封、堵、刪”等極端手段,隨著“大數(shù)據(jù)+移動(dòng)互聯(lián)網(wǎng)”的蓬勃發(fā)展,這些方法和手段往往會(huì)使問題復(fù)雜化,增加問題的神秘感,激發(fā)民眾的好奇心,給敵對(duì)勢力以大肆渲染和炒作的借口。不如敞開胸懷,正視問題,走入民眾,主動(dòng)發(fā)聲,參與互動(dòng), 利用大數(shù)據(jù),依靠新技術(shù),“治理+智理”,在解決問題過程中不斷提升解決問題的能力。 提出面向大數(shù)據(jù)的輿情監(jiān)測、分析和決策新理念,新方法。按照?qǐng)D1的邏輯流圖展開,面向大數(shù)據(jù),分?jǐn)?shù)據(jù)流和控制流兩方面。以數(shù)據(jù)流將輿情的處理分為三個(gè)部分,輿情監(jiān)測,輿情分析和輿情決策。 網(wǎng)絡(luò)輿情監(jiān)測的數(shù)據(jù)是決策者進(jìn)行數(shù)據(jù)分析和決策處置的基礎(chǔ)。依靠新興信息技術(shù)多角度廣泛采集輿情數(shù)據(jù),建立和完善輿情數(shù)據(jù)庫、知識(shí)庫和案例庫。 輿情監(jiān)測的總體思路由事件驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變。 有輿情事件發(fā)生,針對(duì)事件監(jiān)測輿情的演化,從中發(fā)現(xiàn)潛在的輿情風(fēng)險(xiǎn)和工作中的不足。按照?qǐng)D2所示流程展開監(jiān)測。 涉警輿情數(shù)據(jù)主要來自三個(gè)方面: (1)內(nèi)部輿情集散地:官方微博、微信公眾號(hào)、門戶網(wǎng)站及政務(wù)網(wǎng)等。 (2)外部輿情集散地:微信、微博、論壇、 貼吧以及新聞媒體等網(wǎng)站。 (3)自媒體發(fā)言人:頭條號(hào)、百家號(hào)、微信公眾號(hào)等自媒體號(hào)。 輿情監(jiān)測分兩個(gè)方法: 被動(dòng)輿情監(jiān)測:事件已發(fā)生,根據(jù)輿情動(dòng)態(tài),監(jiān)測詞,通過輿情監(jiān)測系統(tǒng)對(duì)輿情集散地,發(fā)現(xiàn)熱點(diǎn),提取主題,分析情感傾向。 主動(dòng)輿情監(jiān)測:事件未發(fā)生,設(shè)計(jì)并拋出輿情主題,引發(fā)討論,將被動(dòng)化為主動(dòng)。 網(wǎng)絡(luò)輿情數(shù)據(jù)多為非結(jié)構(gòu)性的多元異構(gòu)數(shù)據(jù)。輿情監(jiān)測的步驟為數(shù)據(jù)采集→數(shù)據(jù)預(yù)處理→數(shù)據(jù)存儲(chǔ)。信息檢索和分析要求建立關(guān)鍵詞倒排索引;文本處理需要進(jìn)行切分詞處理,建立詞庫;語義分析要求建立語義語料庫,詞性標(biāo)注庫;情感傾向性分析需要建立情感詞庫等。而案例數(shù)據(jù)庫是進(jìn)行輿情分析和決策的基礎(chǔ); 通過知識(shí)挖掘建立的知識(shí)庫,輿情分析方法庫和輿情決策方法庫是輿情智能決策的基礎(chǔ)。 將抓來的網(wǎng)頁進(jìn)行粗略處理或者不處理直接保存在本地,用非關(guān)系型數(shù)據(jù)庫進(jìn)行管理,如NoSQL數(shù)據(jù)庫 HBbase,采用的文件系統(tǒng)隨之需改為分布式文件系統(tǒng), 如HDFS。數(shù)據(jù)存儲(chǔ)模式的改變,導(dǎo)致數(shù)據(jù)處理手段和方法隨之改變,大數(shù)據(jù)對(duì)數(shù)據(jù)處理分析的擴(kuò)展性、可靠性及時(shí)性要求不斷提高,需采用各種先進(jìn)的大數(shù)據(jù)處理技 術(shù)。考慮到采集平臺(tái)的存儲(chǔ)計(jì)算能力、可擴(kuò)展性以及后期維護(hù)的方便性,可采用當(dāng)前流行的開源分布式采集、 存儲(chǔ)、計(jì)算和處理框架,如建設(shè)基于Hadoop的分布式計(jì)算平臺(tái),可管理不同類型的數(shù)據(jù),包括分布式文件系 統(tǒng)HDFS、并行編程框架MapReduce、內(nèi)存流式計(jì)算引擎 Spark、大數(shù)據(jù)引擎Pig等。 針對(duì)事前、事中及事后的網(wǎng)絡(luò)輿情大數(shù)據(jù),其分析流程為:統(tǒng)計(jì)、計(jì)數(shù)→聚類、分類→學(xué)習(xí)、識(shí)別→回歸、預(yù)測。輿情大數(shù)據(jù)分析需結(jié)合統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法以及人工智能算法進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),給出各個(gè)階段的輿情風(fēng)險(xiǎn)評(píng)價(jià),提供互動(dòng)查詢、圖表可視化和分析報(bào)表服務(wù),為決策提供參考,具體流程可參考圖3。 (一)中文分詞和詞頻統(tǒng)計(jì) 輿情分析的核心是自然語言處理,主體是文本數(shù)據(jù)挖掘,中文分詞統(tǒng)計(jì)是網(wǎng)絡(luò)輿情大數(shù)據(jù)分析的基礎(chǔ),是熱點(diǎn)發(fā)現(xiàn),建立倒排索引的關(guān)鍵技術(shù),比如可以對(duì)同一時(shí)段輿情主題進(jìn)行分詞統(tǒng)計(jì),當(dāng)前熱點(diǎn)便一目了然。對(duì)同一主題一個(gè)時(shí)段內(nèi)的關(guān)注量進(jìn)行統(tǒng)計(jì)可以發(fā)現(xiàn)本主題的熱度變化。以“雅思”為關(guān)鍵詞進(jìn)行搜索,2019年1 月22日—2月14日為監(jiān)測時(shí)段,時(shí)段內(nèi)出現(xiàn)了一個(gè)大的熱度波動(dòng)。繼續(xù)統(tǒng)計(jì)與之相關(guān)度高的搜索詞頻如圖。 進(jìn)一步了解熱詞相關(guān)度,反映了雅思及其相關(guān)關(guān)鍵詞之間的緊密程度,關(guān)鍵詞“報(bào)名”“雅思報(bào)名官網(wǎng)”“官網(wǎng)”反映出網(wǎng)民時(shí)段內(nèi)對(duì)學(xué)習(xí)雅思、報(bào)名等參與較多。 除了數(shù)字顯示外還可以將詞頻以詞云的形式更為直觀地顯示,根據(jù)1data監(jiān)測系統(tǒng),利用pagerank改編的算法,繪制的有關(guān)“雅思”的詞云。 詞云以不同大小和形狀非常直觀地顯示關(guān)鍵詞的詞頻,給人以強(qiáng)烈的視覺沖擊。 (二)情感傾向性分析 首先對(duì)抓取的輿情數(shù)據(jù)進(jìn)行分詞處理,然后結(jié)合情感語料數(shù)據(jù)庫和情感分析算法對(duì)切分后的語料進(jìn)行情感計(jì)算、分析,并進(jìn)行情感標(biāo)注。通過聚類和分類得出個(gè)體情感傾向和群體情感傾向,以便進(jìn)一步發(fā)現(xiàn)個(gè)體情感異常和群體情感異動(dòng),以便及時(shí)采取措施,疏導(dǎo)負(fù)面輿情。根據(jù)1data監(jiān)測系統(tǒng),利用情感深度學(xué)習(xí)模式,繪制的有關(guān)“雅思”的情感分布圖如下 (三)輿情風(fēng)險(xiǎn)評(píng)價(jià) 對(duì)網(wǎng)絡(luò)信息發(fā)布者進(jìn)行用戶畫像,包括年齡、性別、地域、使用終端等信息,用戶畫像便于對(duì)高輿情風(fēng)險(xiǎn)人群進(jìn)行動(dòng)態(tài)跟蹤監(jiān)視;建立風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系、風(fēng)險(xiǎn)評(píng)價(jià)模型,根據(jù)動(dòng)態(tài)輿情數(shù)據(jù),對(duì)事前輿情隱患風(fēng)險(xiǎn)、事中輿情惡化風(fēng)險(xiǎn)以及事后輿情衍生風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià),并適時(shí)給出輿情風(fēng)險(xiǎn)預(yù)警。 (四)趨勢分析預(yù)測 通過對(duì)采集到的時(shí)序網(wǎng)絡(luò)輿情數(shù)據(jù)運(yùn)用線性回歸分析、決策樹回歸分析、隱馬爾可夫預(yù)測、深度學(xué)習(xí)等方法進(jìn)行回歸預(yù)測分析,可給出網(wǎng)絡(luò)輿情的演變趨勢,為風(fēng)險(xiǎn)預(yù)警和處置決策提供參考。 (五)大數(shù)據(jù)分析工具 EXCEL內(nèi)置的財(cái)務(wù)統(tǒng)計(jì)函數(shù)可以做一些統(tǒng)計(jì)分析, 如計(jì)數(shù)、相關(guān)性分析、線性回歸等,如果能靈活應(yīng)用 VBA可以大大擴(kuò)充Excel的統(tǒng)計(jì)分析功能;SPSS、SAS是專業(yè)的統(tǒng)計(jì)分析、數(shù)據(jù)挖掘工具,功能強(qiáng)大,接口豐富, 編程簡單,但成本高昂,不便集成到網(wǎng)絡(luò)輿情系統(tǒng)中; Matlab是通用的數(shù)學(xué)數(shù)值計(jì)算、模擬仿真軟件,其統(tǒng)計(jì) 分析、機(jī)器學(xué)習(xí)及人工智能方面有很豐富的函數(shù)支持, 而且可視化效果也很好,是算法研究的有力工具;R語言是專業(yè)的開源大數(shù)據(jù)統(tǒng)計(jì)分析工具,有非常豐富的數(shù)據(jù)挖掘包,而且方便與第三方函數(shù)庫和算法庫集成,可視化也是其一大優(yōu)勢,是網(wǎng)絡(luò)輿情大數(shù)據(jù)分析的首選工具;Python作為一門膠水式的開源編程語言,近年來以其編程簡單、功能強(qiáng)大受到各行業(yè)青睞,其有很強(qiáng)大的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能工具包,而且升級(jí)速度很快,是網(wǎng)絡(luò)輿情大數(shù)據(jù)分析的理想選擇。 (一)輿情專家決策 一是充分利用大數(shù)據(jù)技術(shù)和人工智能技術(shù),做好對(duì)重點(diǎn)網(wǎng)站、重點(diǎn)人群的輿情監(jiān)測,及時(shí)發(fā)現(xiàn)問題,評(píng)價(jià)風(fēng)險(xiǎn),提出預(yù)警。同時(shí),積極參與到各焦點(diǎn)話題的討論中,發(fā)帖子、發(fā)微博、發(fā)微信、寫文章、寫段子,引導(dǎo)輿論導(dǎo)向,為網(wǎng)絡(luò)注入正能量;二是充分利用移動(dòng)互聯(lián)網(wǎng)平臺(tái),進(jìn)行網(wǎng)絡(luò)民意調(diào)研,改變過去走街串巷式的、專門問卷式的調(diào)研,學(xué)會(huì)從網(wǎng)民對(duì)各類事件、各種話題所發(fā)表的圖、文、聲、像等多媒體意見的分析中挖掘提煉對(duì)觀點(diǎn)、情感和態(tài)度。 (二)輿情智能決策 海量異構(gòu)輿情數(shù)據(jù)為輿情智能決策的知識(shí)挖掘提供了豐富的資源,以機(jī)器學(xué)習(xí)技術(shù)為核心的輿情智能決策是未來工作的重要發(fā)展趨勢。網(wǎng)絡(luò)輿情智能決策的邏輯框圖如下,是決策支持系統(tǒng)和專家系統(tǒng)的合體,建設(shè)各種各樣的知識(shí)庫是智能決策的基礎(chǔ),各類機(jī)器學(xué)習(xí)方法是智能決策的主要手段。 網(wǎng)絡(luò)輿情智能決策支持系統(tǒng)結(jié)構(gòu)框圖 建立知識(shí)庫,采用搜索引擎技術(shù)建立理論、政策及相關(guān)法律智能咨詢系統(tǒng),提供便民服務(wù)。按照預(yù)設(shè),到指定輿情集散地、重點(diǎn)人物微博、微信采集多媒體數(shù)據(jù),識(shí)別輿情主題,分析情感傾向,建立主題識(shí)別知識(shí)庫、情感識(shí)別知識(shí)庫、決策模型庫,決策知識(shí)庫,最終實(shí)現(xiàn)政策解讀專家系統(tǒng),機(jī)器人聊天交流系統(tǒng),決策建議推送系統(tǒng)。其中決策建議推送可以結(jié)合微信公眾號(hào)、以及電子郵件等多種方式展開。一、大數(shù)據(jù)輿情背景
二、面向大數(shù)據(jù)的輿情監(jiān)測
三、面向大數(shù)據(jù)的輿情分析
四、面向大數(shù)據(jù)的輿情決策