總體框架 網絡輿情監控系統以基礎硬件為支撐,海量互聯網數據源為采集對象,以標準、規范和安全體系為保障,提供給客戶集輿情信息的采集、分析、展示、預警、管理、應急導控處置于一體的監控平臺。 系統總體框架由硬件支撐層、數據采集層、應用層和操作層組成。采用面向服務的思想,利用松散耦合的分層方式將系統整體上分為四個層次和兩個體系,各層間的界限清晰,功能明確而不交叉,具有較高的可配置性和伸縮性。 1 硬件支撐層 硬件支撐層所需設備由客戶投入建設,主要由服務器(若干)、存儲設備、路由器、網絡、安全基礎設備等構成,一般放置在信息中心的機房中,也可托管于網通或電信機房,為整個系統提供基礎的硬件支撐。互聯網信息采集設備需接入互聯網,內部用戶訪問可使用局域網。 2 數據采集層 實現對上萬個全國知名網站及論壇、地方性網站及論壇、行業網站及論壇、境外重點中文網站及論壇信息的實時監控;實現對國內外著名博客、微博、貼吧、SNS、QQ群、帶文字的音視頻、手機網站的信息監控采集。對重點來源網站信息實現5分鐘頻率更新,一般網站信息更新頻率為30-60分鐘內。 3 應用層 應用層是整個系統的核心,采用面向服務的思想,為用戶輸出輿情監測結果和用戶對信息的查詢、管理等任務。應用層由五大應用平臺組成,包括輿情搜索展示平臺、輿情管理工作臺、應急導控處置平臺、用戶管理平臺和通訊平臺,利用Web Services技術為系統升級服務或為其他外部系統提供基于SOAP的遠程方法調用接口,用以完成異構系統之間的數據交換和同步。 4 操作層 系統為操作員提供友好的操作界面,易操作、易使用。 5 安全保障體系 從技術安全、運行安全和管理安全三方面構建安全防范體系,切實保護系統的可用行、機密性、完整性、抗抵賴性、可審計性、可控性。 6 標準規范體系 為保證系統有效運行及與后續建設系統有效的集成,在系統建設和運行中,需遵循和制定相關的業務規范、技術標準和運行管理規范。 此外系統還滿足高可擴展性和易操作的特性。可根據用戶單位的業務需求變化對軟件功能進行擴充與拓展;同時軟件操作和維護操作簡單,便于使用。 技術路線及系統架構 在技術實現上,本互聯網輿情監測系統是采用目前最流行的B/S架構,使用面向對象的JAVA開發語言研發而成,具有高擴展性、高移植性和良好的跨平臺性。系統總體架構圖如下: 輿情搜索和采集系統 互聯網信息采集技術是輿情監控系統的基礎技術,考察采集技術優劣有及時性和全面性兩個指標,及時性要求重要網站信息的5分鐘采集入庫,一般性網站信息的30分鐘采集入庫;全面性要求采集來源能覆蓋全國性、地方性及行業性的知名網絡,凡對輿論傳播有著影響力的新聞站點、知名論壇、博客、微博、視頻均需納入監控范圍。此外還要求采集引擎具有可操作性,用戶可對采集環節進行調整和優化。 及時性和全面性是一組對立指標。客戶自建的網絡輿情項目,一般投入有限,設備和網絡建設不可能支撐到對整個互聯網的監測,而要追求采集的及時性,需采集頻率快,勢必會減少監控的采集范圍,將輿情采集范圍更多地優化為具有輿論傳播價值的網絡媒體,而非整個互聯網。東方剪報網絡輿情采集引擎,主要幫助客戶監測重點輿論發布及傳播網站、跟蹤傳播內容、分析首發媒體及事件傳播演變過程,通過信息和數據為輿情預警、研判和應急處置提供支持,我司輿情產品具有以下采集特色及優勢: (一)重點采集 對輿情高發網站和主流網站設置最高采集優先級權重,以5分鐘的采集頻率采集信息,這些重點網站包括: 1. 地方性、行業性新聞網站及論壇:一般情況下,地方性、行業性新聞網站及論壇是輿情的首發地,以普通網友為發布人,表現為各種爆料求證信息,是輿情的重要監測來源,這類信息的發現有助于傳播早期的輿論控制和引導; 2. 全國性的新聞及社區網站:這些網站的用戶量大,瀏覽量大,是輿情最重要的傳播渠道,因能快速形成關注和傳播,且擴大傳播面,如在這類網站上出現報道,也表示輿情事件的傳播進入了發展或爆發期,需采取和早期不同的應對和處置辦法,也是輿情的重要監測來源; 3. 重點人的網絡ID:對于重點人的網絡(包括論壇、博客及微博賬戶)發言和活動, 能代表網上大部分人的言論,或是煽動言論,或是有害言論,是輿情的重要監測源; 4. 自動啟動重點采集任務:在設置專題和導控任務后,會自動啟動重點采集任務,調整其優先級和采集頻率,確保重點任務的完成; 5. 重點文章回復數/評論數及內容的采集,用于分析網友觀點及態度; 6. 導控任務采集:追蹤文章在網絡上的發展動態, u 文章是否存在, u 在各大搜索引擎是否存在快照,快照是否被刪除, u 點擊/回復數量的增幅情況; 7. 熱詞采集:采集百度熱詞。 (二)采集任務可操作性 用戶可手動調整采集任務: 1. 自定義采集頻率:用戶可自定義網站的采集頻率,為不同權重的網站設置不同采集頻率; 2. 自主添加采集網站:用戶可自行添加采集的網站; 3. 自定義網站權重及優先級:監測網站的權重可維護,用戶也可為不同權重網站設置采集優先級; 4. 自定義采集任務:用戶不僅可以調整單個網站的采集頻率,也可對其采集進程進行管理,關停或暫停網站的采集任務; 5. 自定義微博地址:用戶可添加微博地址到采集庫,系統還提供導入模板供用戶批量導入微博地址。 6. 自主全網搜索添加:在全網搜索功能中,用戶可指定關鍵詞隨時搜索互聯網,并可將搜索結果形成結構化數據加入數據庫。 7. 定制搜索:提供關鍵詞、來源、時間、網站性質等多種條件,供用戶定制搜索方案,用于經常性的搜索請求。 (三)核心采集技術 采用定點采集和全網搜索相結合的采集機制,定點采集可確保第一時間采集到重點網站的信息,全網搜索可進行傳播全面性的補充采集; 1. 定點采集:系統內置的重點監測網站,采用定點采集方式; 2. 全網搜索:通過關鍵詞對新聞類搜索引擎、論壇類搜索引擎、博客類搜索引擎、微博類搜索引擎及大型網站的站內搜索工具的信息聚合搜索; 3. 內嵌腳本執行引擎:隨著Web2.0相關技術的發展,腳本語言越來越多地應用于論壇、新聞評論、博客等類型網站的建設。內嵌腳本引擎對腳本語言的自動解析和執行,實現對采用腳本語言的論壇、博客以及新聞評論網站的采集; 4. 7X24小時不間斷采集,5分鐘采集頻率,信息更新掃描最小間隔為1分鐘; 5. 關聯采集:在針對QQ群監測中,系統可以自動將QQ群內成員的騰訊微博加入到采集源中; 6. 對新浪微博、騰訊微博、境外推特、Facebook實行無限制、無屏蔽訪問搜索。 (四)支持網絡媒體形式 網絡媒體形式全:本系統內置上萬個網站,可以對各類網絡媒體進行監測: 1. 門戶網站:系統可采集以媒體發布為主的新聞網站的信息; 2. 論壇:各種形式的BBS、貼吧、論壇、社區; 3. 博客:各博客網站的博客信息; 4. 微博:國內外微博網站信息監測; 5. 電子報:各類報紙的電子報的信息監測; 6. QQ群:可監測QQ群內的聊天記錄; 7. 問答:對問答類網站的采集; 8. 視頻:對視頻網站文字信息的采集; 9. 境外信息:集成代理技術,通過代理服務器采集屏蔽訪問的境外網站,監控涉及國家安全、煽動等信息; 10. RSS:對RSS聚合信息的采集; 11. WAP:對WAP網站信息的采集; 12. 搜索引擎:對搜索引擎信息的聚合。 (五)采集內容豐富 通過自動識別技術識別并抽取網頁的要素,包括:標題、來源網站、來源頻道、發布人、發布時間、鏈接(URL)、正文、圖片、快照、表格,自動剔除廣告(圖片或flash)等垃圾部分,除此以外,針對不同媒體,還采集了其他要素: 1. 新聞:①是否頭版,②專題,③評論數,④評論內容; 2. 論壇:①點擊數,②回帖數,③是否論壇首頁、④置頂,⑤加精,⑥推薦,⑦熱帖,⑧回帖人,⑨回帖內容; 3. 博客:①回帖數,②回帖人,③回帖時間,④回帖內容; 4. 微博:①轉發次數,②評論數,③粉絲數,④評論人,⑤評論內容,⑥博主信息,⑦粉絲名,⑧話題; 5. 視頻網站:①播放次數,②評論數,③評論內容; 6. QQ群:①群內發言,②群內成員,③發言時間,④發言QQ,⑤發言圖片; 7. 附件采集:支持對.doc/.xls/.pdf/.txt文檔的監測 8. 網站屬性:①TCP/IP信息,采集網站TCP/IP備案信息,②網站所屬地域; 采集存儲:系統抽取各類網絡媒體的信息要素,統一形成結構化信息,供后續分析、檢索、查詢、統計和展示。 (六)其他采集技術 1. 支持驗證碼采集; 2. 支持多頁合并采集。 (七)支持多語言采集 自動識別多種字符集編碼,支持對中文、英文、中文簡體、中文繁體、彝文、維文、藏文、蒙文、朝鮮語、韓國語、日語、西班牙語等語言的采集,并可以轉換為統一編碼格式。 (八)智能采集 1. 需要登錄與需要驗證碼的網站信息采集,采集過程完全仿人工,實現了“登錄驗證”采集。 2. 長期大量采集網站信息,會引起網站重視并可能導致封鎖IP,通過自動獲取代理IP地址并及時替換代理IP地址等技術,防止個別網站進行反采集,反監測。支持多種網站的信息的編碼,GBK、BIG5、UNICODE、UTF8,軟件會自動轉換成GBK碼進行統一的處理。軟件即會自動識別網站的組織結構,自動識別網站的編碼。 (九)增量采集與自動更新 對于初次采集目標網站,軟件支持完全采集。而對于已采集過的站點支持增量采集。自動檢測站點是否發生更新,并不會遺漏任何一個重要信息。 (十)帶寬占用優化 可采用分布式多線程并發指令執行體系結構、增量實時索引、智能分詞等多項先進技術,提高采集和數據管理效率,管理員可以靈活設置更新周期。客戶端采用可視化的配置工具,靈活配置應用屬性頁的抓取信息。 (十一)主題跟蹤采集 針對熱點話題進行信息跟蹤采集,自動啟動更高的優先級,調動全網搜索模式,進行信息量的快速聚合。跟蹤內容包括:信息來源、轉載量、轉載地址、地域分布、發布人等元素。 根據新聞來源的權威度、評論數、發言時間頻率等參數,識別出設定時間段內的熱門話題。