隨著互聯網技術和應用的普及和發展,新聞、論壇、博客、微博客、視頻網站等輿情產生速度、傳播渠道等均呈現出爆炸式快速增長的態勢,據初步統計,2009年以來,互聯網網上具有負面影響的輿情數量同比增長了近 2倍以上。目前主要存在以下問題拯待解決: 1)網絡輿情監測導控工作幾乎完全是通過人工的方式開展的,手工發現關注網站的局部性、時間上的滯后性與信息發布的隨意性、隨時性之間的矛盾日益嚴重。 2)缺乏輿情信息綜合分析,導致分析關聯能力不足。例如,特定輿情事件在新聞、論壇、微博、博客等不同來源上的關聯分析。 3)各分支在輿情信息的管理上缺乏統一的信息報送、輿情導控任務下發等業務流程的信息化工具支撐。 4)目前,輿情導控體系中缺乏可量化的考核數據作為各級領導年底評分的依據; 在經過多次現場充分調研的基礎上,提出建設輿情綜合導控系統的規劃,制定一個統一的元數據標準和數據交換接口規范,作為輿情分析研判和考核統計的元數據,從而對互聯網上傳播的輿情信息進行準確查找、歸類、排重、分析、研判、導控和核查,實現對互聯網上各類海量數據快速分析處理,更加準確的掌握各類輿情信息傳播的數量、范圍、趨勢、影響等情況,最終形成一套科學、全面、高效地掌握網上輿情監測導控系統。 1.2建設目標 系統建設總體實現目標是:能夠全面、準確、及時的獲取與“我”有關的網絡信息,深層次的對互聯網輿情信息進行分析和挖掘,通過統一的綜合指揮系統實現輿情的及時上傳和導控任務的集中下達,并從在線率、引導發帖、信息報送及任務下發等多方面綜合考核,確保以互聯網輿情監測小組為核心的整體監測成效。 1總體架構 1.1軟件架構 整個系統設計分為數據采集子系統、輿情信息數據倉庫、輿情研判分析子系統、引導指揮子系統、引導考核子系統幾個部分。 .1.1數據采集子系統 負責對信息源頭采集,采集子系統主要實現多線程、集群采集模式。滿足項目采集深度和廣度要求,采集深度按照需求可采集到新聞評論、微博轉發數、粉絲數以及論壇的評論樹回帖數等。 采集廣度本系統提供通用采集配置,支持大部分新聞、論壇的采集,只需要配置 URL即可實現采集。采集性能可以靈活配置策略,分為指定調度和隨機調度兩個模式。采集時效性可以定制。 1.1.2輿情信息數據倉庫 按照系統制定的數據規范支持外圍系統數據接入,數據倉庫設計分布式架構,通過集群方式擴展項目的規模。主要分為分布式儲存與全文索引、關系數據庫。同時對外提供 API訪問接口。數據入庫經過數據的加工處理包括自動摘要、實體抽取、內容分類等操作為后續研判提供標準數據。 整個系統設計分為數據采集子系統、輿情信息數據倉庫、輿情研判分析子系統、引導指揮子系統、引導考核子系統幾個部分。 .1.1數據采集子系統 負責對信息源頭采集,采集子系統主要實現多線程、集群采集模式。滿足項目采集深度和廣度要求,采集深度按照需求可采集到新聞評論、微博轉發數、粉絲數以及論壇的評論樹回帖數等。 采集廣度本系統提供通用采集配置,支持大部分新聞、論壇的采集,只需要配置 URL即可實現采集。采集性能可以靈活配置策略,分為指定調度和隨機調度兩個模式。采集時效性可以定制。 1.1.2輿情信息數據倉庫 按照系統制定的數據規范支持外圍系統數據接入,數據倉庫設計分布式架構,通過集群方式擴展項目的規模。主要分為分布式儲存與全文索引、關系數據庫。同時對外提供 API訪問接口。數據入庫經過數據的加工處理包括自動摘要、實體抽取、內容分類等操作為后續研判提供標準數據。