Ⅰ. 介紹 現(xiàn)如今,人們?cè)絹碓蕉嗟厥褂没ヂ?lián)網(wǎng)與他人進(jìn)行溝通,發(fā)表他/她們的關(guān)于某些話題的看法和表達(dá)他/她們的關(guān)于某些事的怨言(我們把所有這些相關(guān)的話題和人們的觀點(diǎn)叫做網(wǎng)絡(luò)輿情,簡稱IPO)。互聯(lián)網(wǎng)可能會(huì)被攻擊者或敵人用作破壞互聯(lián)網(wǎng)穩(wěn)定和威脅網(wǎng)絡(luò)社會(huì)安全的工具[1]。然而,網(wǎng)絡(luò)輿情可能會(huì)對(duì)真實(shí)世界的社會(huì)安全產(chǎn)生巨大的沖擊[2]。當(dāng)前對(duì)網(wǎng)絡(luò)輿情的研究主要是研究它對(duì)真實(shí)世界的社會(huì)或政府的影響,并且從心理學(xué)或社會(huì)學(xué)的角度分析它的活動(dòng)方式[3]。文本分類在大量的信息管理和檢索任務(wù)扮演一個(gè)根本角色。但是網(wǎng)頁分類比純文本分類困難在于網(wǎng)頁中存在著大量的嘈雜信息。網(wǎng)頁是不同于一般的的文本文檔集合。文本文檔可以被認(rèn)為是一個(gè)詞語的匯集,而網(wǎng)頁則含有附加的結(jié)構(gòu)信息。 在本文,我們?cè)O(shè)法顯示我們的網(wǎng)絡(luò)輿情分析系統(tǒng)(IPOAS)的模型。 我們的主要工作如下: 1)參考各種各樣的相關(guān)技術(shù),我們提出一種改進(jìn)的網(wǎng)絡(luò)語請(qǐng)分析模型,它可以更加有效地處理和探求網(wǎng)絡(luò)輿情的特征。 2)在這個(gè)系統(tǒng)中,有二個(gè)重要的核心模塊:信息預(yù)處理模塊和網(wǎng)絡(luò)輿情語義分析模塊。 我們分析了他們的實(shí)現(xiàn)方法。 3) 我們通過在摘要中應(yīng)用網(wǎng)頁分類法來提取網(wǎng)頁中最為相關(guān)的內(nèi)容,然后再將他們傳遞到標(biāo)準(zhǔn)文本分類算法(NB或SVM)中。根據(jù)實(shí)驗(yàn)結(jié)果,我們證明了系統(tǒng)結(jié)構(gòu)在系統(tǒng)設(shè)計(jì)中的重要性。 本文的其他部分結(jié)構(gòu)如下。在第2部分,我們將回顧有關(guān)網(wǎng)絡(luò)輿情最新的工作成果和有關(guān)傳統(tǒng)網(wǎng)絡(luò)輿情分析方法的研究,然后將提出我們的IPOAS模型。我們的方法將在第3部分和第4部分詳述。在第5部分,實(shí)驗(yàn)結(jié)果和一些相關(guān)的討論將會(huì)被列出。最后,在第6部分,我們將總結(jié)我們的工作。 Ⅱ. 相關(guān)著作 網(wǎng)絡(luò)輿情是一個(gè)寬泛的題目。從網(wǎng)絡(luò)中獲取情感傾向是一個(gè)困難的語義問題。與文本文檔比較,網(wǎng)頁有一些額外特點(diǎn),例如HTML標(biāo)簽,URL,超鏈接和錨文本,他們都被證明在獲取情感傾向時(shí)是有用的。最近許多有關(guān)利用這些特性進(jìn)行情感傾向提取的網(wǎng)頁摘要研究[4,5]都完成了。 Dou[4]指出用于在網(wǎng)頁分類中預(yù)處理的網(wǎng)絡(luò)摘要技術(shù)是一個(gè)可行的且有效的技術(shù)。證據(jù)顯示考慮到上下文信息的摘要比僅僅從目標(biāo)文檔提取的內(nèi)容相關(guān)性更強(qiáng)。同樣,我們?cè)谡^程中利用網(wǎng)頁分類去從網(wǎng)頁中提取最相關(guān)的內(nèi)容。我們系統(tǒng)的網(wǎng)絡(luò)輿情信息預(yù)處理模塊也使用了這些特點(diǎn)。 這個(gè)模塊由二個(gè)方法構(gòu)成:數(shù)學(xué)算法或神經(jīng)網(wǎng)絡(luò)和文本分類/聚類。 有許多根據(jù)數(shù)學(xué)算法中的方法構(gòu)建的模塊。網(wǎng)絡(luò)公共會(huì)話的的增長使得網(wǎng)絡(luò)通信成為了一個(gè)潛在的富有的數(shù)據(jù)來源。P.D. Turney[6]介紹了一種從龐大的語料庫中對(duì)語義傾向進(jìn)行無監(jiān)督學(xué)習(xí)的簡單算法。這種方法涉及了向搜索引擎進(jìn)行請(qǐng)求和利用逐點(diǎn)交互信息來分析結(jié)果。 類似地,Peter Jorgensen[7]探索了競爭(IAC)的相互作用和人工神經(jīng)網(wǎng)絡(luò)(ANN)的使用來找到存在于電子郵件文本中的關(guān)系。最終,Pjianping Zeng[8]提出了隱馬爾可夫模型(HMM)來描述網(wǎng)絡(luò)輿情的活動(dòng)。所有他們的研究最終形成了有關(guān)網(wǎng)絡(luò)輿情活動(dòng)過程的數(shù)學(xué)模型的整合,這一整合可以利用一定的數(shù)據(jù)進(jìn)行自動(dòng)的分析。 其他的研究使用了文本分類或聚類的方法。文本分類當(dāng)前是信息搜索和數(shù)據(jù)挖掘領(lǐng)域研究的一個(gè)熱門主題[9,10]。其在近年來有著迅速的發(fā)展,并在信息過濾,自然語言處理和信息的組織和管理方面有著廣泛的應(yīng)用。Pyanjun Li和Soon M.Chung [11]提出了二種新的文本聚類算法,名為根據(jù)頻繁詞序的聚類(CFWS)和根據(jù)頻繁詞意序列的聚類(CFWMS)。 Ⅲ. IPOAS模型概覽 IPOAS模型采用了三層結(jié)構(gòu),分別是I/O層、服務(wù)處理層和數(shù)據(jù)層。圖1顯示了系統(tǒng)的具體結(jié)構(gòu)。每層都可以被細(xì)分。每層的具體分解見圖1。 圖1. IPOAS模型 A. I/O層 1) 數(shù)據(jù)集:數(shù)據(jù)集與用戶要求要收集的數(shù)據(jù)有關(guān)。它主要包括內(nèi)部數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)和媒體數(shù)據(jù)。 互聯(lián)網(wǎng)在日常生活中逐漸成為了公眾交換信息的一個(gè)重要平臺(tái)。例如BBS、博客、門戶網(wǎng)站和政府網(wǎng)站等等信息平臺(tái)可以作為對(duì)輿情進(jìn)行監(jiān)視和疏導(dǎo)的一個(gè)來源。 2) 前端應(yīng)用模塊:前端應(yīng)用模塊是網(wǎng)絡(luò)輿情分析系統(tǒng)的輸出程序。在大多數(shù)情況下,它提供適應(yīng)用戶需要的功能,包括有——熱點(diǎn)查尋,關(guān)鍵詞檢索,自動(dòng)摘要,主題詞自動(dòng)推薦,輔助收集功能等等。 B. 服務(wù)加工層數(shù) 1) 網(wǎng)絡(luò)輿情信息收集模塊:網(wǎng)絡(luò)輿情信息收集模塊用來定位網(wǎng)頁資源和獲取它的源代碼。 當(dāng)前基于網(wǎng)頁鏈接的信息收集技術(shù)可以自動(dòng)地獲取基于的網(wǎng)頁資源和源代碼。因而收集覆蓋面便可以通過鏈接遍及整個(gè)互聯(lián)網(wǎng)。網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以根據(jù)用戶提供的網(wǎng)絡(luò)輿情關(guān)注點(diǎn)制定主體目標(biāo),然后利用手工干預(yù)和信息自動(dòng)收集的聯(lián)合方法完成信息收集的任務(wù)。對(duì)于那些被定位的網(wǎng)頁資源,系統(tǒng)會(huì)判斷這些資源是否被保存進(jìn)了歷史數(shù)據(jù)庫。如果是并且兩者相同,系統(tǒng)將忽略這樣的資源并繼續(xù)收集其他資源。相反,如果資源未被保存入數(shù)據(jù)庫或保存過后被改變了,系統(tǒng)將使用網(wǎng)絡(luò)爬蟲技術(shù)收集這些信息然后保存這些數(shù)據(jù)到數(shù)據(jù)庫中以便之后進(jìn)行信息預(yù)處理工作。 2) 信息預(yù)處理模塊:信息預(yù)處理模塊的主要作用是通過使用諸如去雜、分詞和分類等方法將從網(wǎng)頁上收集的數(shù)據(jù)處理成格式化數(shù)據(jù),然后將他們保存到數(shù)據(jù)庫中。這個(gè)模塊是網(wǎng)絡(luò)輿情分析系統(tǒng)中的數(shù)據(jù)準(zhǔn)備和技術(shù)準(zhǔn)備階段。預(yù)處理收集到的信息意味著轉(zhuǎn)換網(wǎng)頁格式并且過濾出網(wǎng)絡(luò)輿情信息。對(duì)于新聞評(píng)論,這個(gè)模塊需要過濾掉無關(guān)的信息并保留諸如新聞標(biāo)題、來源、日期、內(nèi)容、點(diǎn)擊量、評(píng)論者、評(píng)論內(nèi)容、評(píng)論數(shù)量等等信息。類似地,對(duì)于BBS,模塊需要記錄帖子的標(biāo)題、發(fā)帖人、發(fā)帖日期和時(shí)間、內(nèi)容、回復(fù)、回復(fù)的數(shù)量的標(biāo)題,最后要產(chǎn)生格式化過的信息。 收集模塊和信息預(yù)處理模塊的數(shù)據(jù)交互是通過文件完成的。所以信息預(yù)處理模塊可以直接將處理后的數(shù)據(jù)結(jié)果存放到數(shù)據(jù)庫中。 3) 網(wǎng)絡(luò)輿情語義分析模塊:網(wǎng)絡(luò)輿情語義分析模塊進(jìn)一步地從信息預(yù)處理模塊生成的數(shù)據(jù)中挖掘數(shù)據(jù)。所運(yùn)用的關(guān)鍵技術(shù)有熱點(diǎn)發(fā)現(xiàn)的和跟蹤,新事件發(fā)現(xiàn),關(guān)聯(lián)分析和趨勢分析。 這一模塊是整體系統(tǒng)的核心模塊。它有著像網(wǎng)絡(luò)輿情監(jiān)視,熱點(diǎn)跟蹤和事件發(fā)現(xiàn)等等功能。 在系統(tǒng)實(shí)現(xiàn)過程中,網(wǎng)頁信息分析方法基于向量空間模型,并且采用了成熟的的數(shù)據(jù)挖掘算法和技術(shù),例如文本分類和文本聚類。與其他研究相比,這個(gè)系統(tǒng)的好處是它采用了靈活的方法對(duì)數(shù)據(jù)挖掘算法進(jìn)行了整合應(yīng)用,并且這些算法可以根據(jù)文本分析和數(shù)據(jù)挖掘的需要進(jìn)行定制。可以確信,整體系統(tǒng)可以執(zhí)行策略調(diào)整和優(yōu)化以適應(yīng)用戶和應(yīng)用的需要,因此系統(tǒng)可以在使用中達(dá)到它的設(shè)計(jì)水平。 4) 趨勢分析模塊:趨勢分析模塊用來分析公眾對(duì)一個(gè)主題在不同的時(shí)期的關(guān)心程度。因而它可以提供網(wǎng)絡(luò)輿情趨勢的預(yù)測和預(yù)警服務(wù)來幫助決策者了解網(wǎng)絡(luò)輿情的趨勢和事先發(fā)現(xiàn)熱點(diǎn)問題。 C.數(shù)據(jù)層 數(shù)據(jù)層主要負(fù)責(zé)保存物理數(shù)據(jù)到數(shù)據(jù)庫中,這其中會(huì)用到有關(guān)算法、網(wǎng)絡(luò)輿情收集、網(wǎng)絡(luò)輿情特征向量、語義分析等方面的知識(shí)。 Ⅳ. 網(wǎng)絡(luò)輿情信息預(yù)處理技術(shù) 網(wǎng)絡(luò)輿情信息預(yù)處理模塊是網(wǎng)絡(luò)輿情分析系統(tǒng)中最重要信息處理的模塊之一。這個(gè)模塊將進(jìn)一步處理從網(wǎng)絡(luò)輿情信息收集模塊傳來的網(wǎng)頁源代碼。現(xiàn)今有許多信息預(yù)處理技術(shù),例如網(wǎng)頁摘要,網(wǎng)絡(luò)文本組織法,網(wǎng)頁凈化,網(wǎng)頁去重,文本分割,停用詞和功能詞刪除和詞頻統(tǒng)計(jì)。在這個(gè)部分,我們考慮如何分析嵌在網(wǎng)頁中的復(fù)雜隱晦的結(jié)構(gòu)和如何使用這些信息進(jìn)行網(wǎng)頁摘要。我們的方法是從網(wǎng)頁提取最相關(guān)的內(nèi)容然后傳遞他們到一種標(biāo)準(zhǔn)文本分類算法中。 尤其是,我們將用頁面布局分析法識(shí)別出的內(nèi)容主體指導(dǎo)網(wǎng)頁的摘要工作。 網(wǎng)頁中結(jié)構(gòu)化的字符使網(wǎng)頁摘要與純文本摘要不同。這項(xiàng)任務(wù)的難點(diǎn)在于在網(wǎng)頁中數(shù)量眾多的“嘈雜”成分,例如導(dǎo)航條、廣告和版權(quán)信息。為了運(yùn)用網(wǎng)頁的結(jié)構(gòu)信息,我們使用了如[12]所描述的基于功能的對(duì)象模型(FOM)的一個(gè)簡化版本。 簡言之,FOM試圖通過辨認(rèn)對(duì)象的作用和類別來了解作者的意圖。在FOM中,對(duì)象被分類成一個(gè)作為最小的信息體并不可進(jìn)一步被劃分的基本的對(duì)象(BO),或者是一個(gè)組合對(duì)象(CO)。組合對(duì)象是對(duì)象(BO或CO)的集合,而這些對(duì)象可以同時(shí)發(fā)揮某些作用。BO的一個(gè)例子是jpeg文件。在HTML內(nèi)容中,BO是一個(gè)在兩個(gè)標(biāo)簽或一個(gè)內(nèi)嵌對(duì)象中的不可分的元素。在BO的內(nèi)容的里面沒有其他標(biāo)記。根據(jù)這個(gè)標(biāo)準(zhǔn),我們可以容易地在網(wǎng)頁里找出所有的BO。同樣,CO可以被網(wǎng)頁布局分析所查出。基本思想是在同一個(gè)類別的對(duì)象通常有一致的視覺樣式,以便他們可以從其他類別對(duì)象中由明顯的可見邊界分離,例如表格邊界。在查出網(wǎng)頁中的所有的BO和CO后,我們可以根據(jù)一些啟發(fā)式規(guī)則辨認(rèn)每個(gè)對(duì)象類別。 這些規(guī)則的詳細(xì)例子在[15]中被展示;這里我們僅提供概要。首先,對(duì)象類別包括: 1)信息對(duì)象:這個(gè)對(duì)象表示內(nèi)容信息。 2)導(dǎo)航對(duì)象:這個(gè)對(duì)象提供導(dǎo)航指南。 3)互動(dòng)對(duì)象:這個(gè)對(duì)象提供用戶端互動(dòng)。 4)裝飾對(duì)象:這個(gè)對(duì)象起裝飾作用。 5)特殊功能對(duì)象:這個(gè)對(duì)象執(zhí)行特殊功能例如廣告、商標(biāo)、聯(lián)系方式、版權(quán)、參考等等。 為了利用這些對(duì)象,從上述的對(duì)象類型中,我們定義了一個(gè)網(wǎng)頁中包含與該頁主題有關(guān)的主要對(duì)象的內(nèi)容體(CB);這些是表達(dá)關(guān)于網(wǎng)頁重要信息的對(duì)象。找出CB的算法如下: 1. 把每個(gè)被選擇的對(duì)象當(dāng)作一個(gè)單一文檔并且為對(duì)象建立的TF*IDF索引。 2. 利用余弦相似度算法計(jì)算任意兩個(gè)對(duì)象的相似度,如果相似度大于某個(gè)閾值,就增加一個(gè)這兩個(gè)對(duì)象間的鏈接。閾值需要根據(jù)經(jīng)驗(yàn)進(jìn)行選擇。在處理完所有對(duì)象對(duì)之后,我們將得到一張連接不同的對(duì)象的關(guān)聯(lián)圖。 3. 在圖表中,擁有最多邊緣的對(duì)象被定義為核心對(duì)象。 4. 提取CB作為與核心對(duì)象相連接的所有對(duì)象的組合。 最后,我們將分配CB值S到每個(gè)句子。如果句子包括在“內(nèi)容體”中,則Scb= 1.0;否則, Scb= 0.0。最后,所有Scb等于1.0的句子將用來進(jìn)行我們所談到的的網(wǎng)頁摘要。 Ⅴ. 網(wǎng)絡(luò)輿情信息的語義分析(IPOISA) IPOISA是系統(tǒng)的核心技術(shù),主要用來檢測和追蹤熱點(diǎn)。由它來確定網(wǎng)絡(luò)輿情(IPO)信息的準(zhǔn)確性。系統(tǒng)運(yùn)用文本分類和文本聚類的算法來實(shí)施語義分析和處理被預(yù)處理過的內(nèi)容,以便建立由索引信息組成的分析數(shù)據(jù)庫。 圖2. 網(wǎng)絡(luò)輿情信息的語義分析 圖2顯示的是IPOISA的結(jié)構(gòu)。 IPOISA包括文檔特征據(jù)庫、算法庫和分析結(jié)果數(shù)據(jù)庫。 文檔特征數(shù)據(jù)庫是在預(yù)處理網(wǎng)絡(luò)輿情(IPO)信息以后生成的知識(shí)數(shù)據(jù)庫。分析結(jié)果數(shù)據(jù)庫保存IPOISA的結(jié)果。 IPOISA的主要功能是算法庫,算法調(diào)度和線程操作: A. 算法庫 算法庫包括一些可以動(dòng)態(tài)地被擴(kuò)展和增加的配置文件。算法庫可以為每一種類型的執(zhí)行線程生成特定的算法,并被算法調(diào)度程序所使用。系統(tǒng)根據(jù)系統(tǒng)管理員的需求保存關(guān)于算法策略的配置信息到算法庫中。 B. 算法調(diào)度 算法調(diào)度負(fù)責(zé)分配多線程的執(zhí)行和管理任務(wù),即IPOISA的引擎。算法調(diào)度用來調(diào)度不同的算法和處理次序來分類或聚類本文的特征向量,并且控制線程的運(yùn)行。系統(tǒng)掌管和控制每個(gè)用戶的不同進(jìn)程,這意味著他可以在同一時(shí)間處理一個(gè)用戶的不同進(jìn)程。例如,由系統(tǒng)提供的基本的處理方法是熱點(diǎn)事件的探測和用戶感興趣的事件的追逐,然后系統(tǒng)可以同時(shí)為用戶A創(chuàng)造兩個(gè)進(jìn)程—熱點(diǎn)探測進(jìn)程“A_Detection”和事件跟蹤進(jìn)程的“A_Tracking”,用這兩個(gè)進(jìn)程來分析和處理來自多方面的信息。 C. 線程處理 每個(gè)處理線程都是文本分類或聚類之一的過程,包含值向量的生成、特征選擇或者特征提取、文本分類或聚類。算法庫確定每個(gè)線程的每個(gè)部分的算法。線程根據(jù)預(yù)編程序時(shí)間頻率和處理策略從文檔特征向量庫中讀取需要的內(nèi)容,并且進(jìn)行進(jìn)一步的分析和處理,其結(jié)果將被保存入結(jié)果數(shù)據(jù)庫。最后,用戶可以在結(jié)果數(shù)據(jù)庫中進(jìn)行查詢,所需要的結(jié)果將以適當(dāng)?shù)男问匠尸F(xiàn)給用戶。 Ⅵ. 實(shí)驗(yàn) 為了確定對(duì)網(wǎng)絡(luò)分類和IPOAS的摘要效果,我們進(jìn)行了幾次實(shí)驗(yàn)。 A. 數(shù)據(jù)集 實(shí)驗(yàn)數(shù)據(jù)集由我們自己的語科庫和北京大學(xué)中文網(wǎng)頁訓(xùn)練集CCT2006組成。它包含8個(gè)類別和6000個(gè)句子,其中有4000個(gè)被用作訓(xùn)練集合而其他的則用作測試。共有四個(gè)類別,包括教育、商業(yè)、計(jì)算機(jī)和互聯(lián)網(wǎng)、新聞和媒體,被選中用來分析結(jié)果。 B. 分類器 因?yàn)楸疚牡慕裹c(diǎn)是確定對(duì)網(wǎng)絡(luò)分類和IPOAS的摘要效果,在實(shí)驗(yàn)中我們選擇了兩個(gè)流行的分類器。 一個(gè)是原生貝葉斯分類器,另一個(gè)是支持向量機(jī)。 1) 原生貝葉斯分類器(NB) 原生貝葉斯分類器(NB)是在實(shí)踐中被證明很好使用的一種簡單但有效的文本分類算法。NB的基本思想是使用詞匯和分類的聯(lián)合概率來估算一篇給定文檔所在分類的概率。多數(shù)研究者通過運(yùn)用貝葉斯規(guī)則使用NB方法: 當(dāng)P(Cj|θ)可以通過計(jì)數(shù)在訓(xùn)練數(shù)據(jù)出現(xiàn)的每個(gè)類別Cj的頻率來計(jì)算;|C| 是類別的數(shù)量;p(wi|cj)代表詞wi可能在分類cj出現(xiàn)的概率在可能小在訓(xùn)練數(shù)據(jù),這種概率在訓(xùn)練數(shù)據(jù)中可能會(huì)較小,因此拉普拉斯過濾被用來估算它;N(wk,di)是單詞wk出現(xiàn)在di中的次數(shù);n是單詞在訓(xùn)練數(shù)據(jù)中的數(shù)量。 2) 支持向量機(jī)(SVM) 支持向量機(jī)(SVM)是V.Vapnik最近介紹的一個(gè)強(qiáng)有力的學(xué)習(xí)方法。它是建立在計(jì)算型學(xué)習(xí)理論之上的,而且已被成功地用于文本分類。 SVM通過在可能的輸入空間內(nèi)發(fā)現(xiàn)超曲面來運(yùn)作。超曲面試圖通過最大化最近的距離的正負(fù)面例子來從負(fù)面例子中分裂正面例子到超曲面。直觀地,這使為那些與訓(xùn)練數(shù)據(jù)很近但又不相同測驗(yàn)數(shù)據(jù)分類正確。有各種各樣的方式訓(xùn)練SVM。一個(gè)特別簡單和快速的方法是由J.Platt開發(fā)的序列最小最優(yōu)化(SMO)。他的序列最小最優(yōu)化算法將二次規(guī)劃(QP)問題分解為一系列小的QP問題來進(jìn)行分析解決。因而SMO算法有效地適用于大型的特征和訓(xùn)練集。 3) 評(píng)估指標(biāo) 我們使用標(biāo)準(zhǔn)指標(biāo)來評(píng)估網(wǎng)頁分類的效果,即精確度、召回率和F1-measure指標(biāo)。要確定這些,我們必須首先來了解一篇文檔的分類是否是真陽性(TP),假陽性(FP)或假陰性(FN) (參見表1) 表Ⅰ 一篇文檔的分類 TP 決定于一篇文檔是否根據(jù)其相關(guān)的分類被正確地分類。 FP 決定于一篇文檔是否被說明錯(cuò)誤地與分類關(guān)聯(lián)。 FN 決定于一篇文檔是否本應(yīng)關(guān)聯(lián)到一個(gè)分類卻沒有關(guān)聯(lián)上。 精確度(P)是在系統(tǒng)返回的所有被預(yù)言的正面類成員之中的系統(tǒng)返回的實(shí)際正面類成員的比例。P=TP/(TP+FP)。召回率(R)是被預(yù)言的正面成員在數(shù)據(jù)中所有實(shí)際正面類成員之中所占的比例。R= TP/(TP+FN)。F1是精確度和召回率的調(diào)和平均數(shù),如下所示: F1 = 2* P *R/ (P + R) C. 實(shí)驗(yàn)結(jié)果和分析 表Ⅱ 有關(guān)P、R和F1實(shí)驗(yàn)結(jié)果 Education News and Media Computer and Internet Business P NB 95.51 97.36 94.37 92.24 SVM 93.29 97.06 95.03 91.85 R NB 90.33 96.93 91.34 93.71 SVM 90.87 96.25 91.08 93.65 F1 NB 92.85 97.14 92.83 92.96 SVM 92.06 96.65 93.01 92.74 實(shí)驗(yàn)結(jié)果顯示兩種類型的成熟文本分類算法在被大量訓(xùn)練集訓(xùn)練后再次被聚類處理,精確率和召回率以及F1值大致相同。例如,兩種算法的結(jié)果在新聞和媒體方面令人滿意,然而NB在教育和商業(yè)類別中表現(xiàn)得要比SVM更好,而SVM比NB更擅長計(jì)算機(jī)和互聯(lián)網(wǎng)類別。可見一個(gè)適用不同的種類的文本分類算法的通用平臺(tái)由IPOAS建立。根據(jù)實(shí)際需要和用戶需求,IPOAS可以通過滿足不同算法的處理需求來運(yùn)用更多更為有效的的算法。因此,這再次證明了IPOAS有良好的擴(kuò)展性和多算法兼容性。 Ⅶ. 總結(jié) 以前,網(wǎng)絡(luò)輿情分析系統(tǒng)只不過是輿情信息處理的其中一環(huán),只是文本分類或文本聚類而已。這種應(yīng)用在某種狀況下經(jīng)常被認(rèn)為是差強(qiáng)人意的,例如,在用戶想要在某個(gè)時(shí)期把新聞歸類為教育、經(jīng)濟(jì)、文化、科學(xué)技術(shù)等等,并且想要查看每個(gè)類別中的熱點(diǎn)事件時(shí)。很明顯地,這些要求的實(shí)現(xiàn)需要首先對(duì)文本進(jìn)行分類,再從前一階段的結(jié)果中針對(duì)每個(gè)類別的文本進(jìn)行聚類操作。 本文提出了一份網(wǎng)絡(luò)輿情分析的系統(tǒng)計(jì)劃。這個(gè)建模方法是可行且有效的。我們將文本分類和聚類算法巧妙地結(jié)合了起來,并證明了這種結(jié)合比僅使用它們其中的一個(gè)要更有效率、更有效果。我們通過應(yīng)用網(wǎng)頁摘要技術(shù)可以從網(wǎng)頁中提取最相關(guān)的內(nèi)容,然后把它們傳遞給一個(gè)標(biāo)準(zhǔn)的文本分類算法。通過實(shí)驗(yàn)的結(jié)果,我們證明了這一系統(tǒng)在系統(tǒng)結(jié)構(gòu)和設(shè)計(jì)上的優(yōu)越性。 致謝 這一成果是在CEEUSRO工程(No.2008B090500201)和廣東省高校科學(xué)技術(shù)成果轉(zhuǎn)化重點(diǎn)工程(No.cgzhzd0807)的支持下完成的。