2018年我接觸了很多輿情公司,主要原因還是因?yàn)橄牒献髂脝位蛘叽硭麄兊漠a(chǎn)品,也正因?yàn)槿绱?,對一些基礎(chǔ)功能和數(shù)據(jù)情況的對比感受會(huì)更明顯,到了年底最后幾天了,著手一些總結(jié)性的文章,于是就寫出了本文。 首先輿情產(chǎn)品的狹義,大體來說是基于輿論情報(bào)的分析,提供決策支持。其中輿論的部分比較重,因?yàn)閭鹘y(tǒng)輿情產(chǎn)品主要是對網(wǎng)絡(luò)輿論的監(jiān)測、預(yù)警、報(bào)告三項(xiàng)核心服務(wù)。如果說廣義的輿情,其實(shí)就是情報(bào),從網(wǎng)絡(luò)的任何細(xì)小角落里發(fā)現(xiàn)蛛絲馬跡,推導(dǎo)出可以提供決策支持的信息、情報(bào)、知識(shí)、結(jié)論等等。 所以,如果單指傳統(tǒng)輿情產(chǎn)品,大都包含以下核心功能: 今年,傳統(tǒng)輿情產(chǎn)品大都開始加入了一些更細(xì)致的功能,一方面是因?yàn)閭鹘y(tǒng)產(chǎn)品同質(zhì)化情況過于嚴(yán)重,另一方面也是因?yàn)楝F(xiàn)階段如果只做政府輿情已經(jīng)市場比較飽和了,但是突破到企業(yè)市場的時(shí)候,就不是這么簡單了。首先企業(yè)對輿情的本質(zhì)需求偏低,這里通常細(xì)分成口碑輿情、品牌輿情、高管輿情等,也就是說只有部分有實(shí)力的公司愿意購買輿情系統(tǒng),一般公司很可能不愿意付出多少代價(jià)來采購輿情系統(tǒng)。而且很多公關(guān)公司包攬了輿情產(chǎn)品的功能及作用,所以如果真要說的話,那就是所有的公司大都只想買個(gè)服務(wù),并不是非要買個(gè)系統(tǒng)然后自己的運(yùn)營人員還得學(xué)習(xí)怎么用。 那么問題就來了,既然買的是服務(wù),服務(wù)的可能性是遠(yuǎn)大于輿情系統(tǒng)自身的,服務(wù)里面有人工的作用,所以人工可以判斷一些情況,包括報(bào)告、預(yù)警、引導(dǎo)處置等等。但是輿情系統(tǒng)則需要負(fù)責(zé)的設(shè)定,包括關(guān)鍵詞組合、預(yù)警條件組合、引導(dǎo)處置語料配置等等。這些設(shè)置的繁瑣程度,如果是沒接觸過輿情系統(tǒng)的,尤其是“懶惰”的體系內(nèi)人員的話,估計(jì)只有甩臉和罵街的份,只有積累了一定規(guī)則和詞庫的組織才能比較好的用起來,否則大都需要商務(wù)、運(yùn)營人員介入幫助客戶來配置。 為什么輿情系統(tǒng)的配置一直是大家詬病而且更傾向于買個(gè)服務(wù)“全包”呢?這就要從關(guān)鍵詞規(guī)則配置說起了,目前市面上大多數(shù)系統(tǒng)都有一些通用的配置方法,比如: 上圖是凡聞的方法,基本策略是,包含全部(and關(guān)系),包含任意(or關(guān)系)和排除(not,and關(guān)系),也就是說(a and b and c) and (d or e or f) not (g and h and i),但是這樣的配置實(shí)際上是一個(gè)非常簡化的配制方法,很多細(xì)項(xiàng)功能是無法實(shí)現(xiàn)的。 上圖是輿情通的方案配置方法,第一層是匹配,第二層是排除,每個(gè)都支持基礎(chǔ)布爾表達(dá)式,包括:括號(hào)、與(+號(hào),表示and)、或(|號(hào),表示or),這樣就可以做一些更復(fù)雜的組合。同時(shí)這里允許選擇該表達(dá)式生效區(qū)域是標(biāo)題還是正文還是全部。 上圖是Meltwater的高階布爾表達(dá)式搜索框,關(guān)鍵詞配置監(jiān)測任務(wù)也是一樣的操作。這個(gè)布爾表達(dá)式的檢索邏輯以及可控制的維度可以說是比較全面的,其他公司的基本類似,包括百分點(diǎn)輿情、智慧星光、清博輿情、慧科等等,大都只是他們的變種或者增加了一些維度,殊途同歸。這個(gè)布爾表達(dá)式可以多復(fù)雜呢?見下圖說明。 也就是說,Meltwater的布爾表達(dá)式不僅具備了與或非關(guān)系,還支持標(biāo)題匹配、邏輯順序、模糊匹配、位置關(guān)系等細(xì)分功能。但是看到這么多配置方法,再加上輿情中可能出現(xiàn)的詞千變?nèi)f化,每次檢索出來的數(shù)據(jù)還要大海撈針找到有價(jià)值的線索,這種工作實(shí)在不是一般人能享受過程的,所以所有市面上的輿情系統(tǒng)都無時(shí)不刻的在被詬病。 近年來,輿情公司應(yīng)對這種客戶的詬病的方法不外乎幾種,一,由公司安排運(yùn)營人員、商務(wù)人員協(xié)助配置甚至直接幫助配置關(guān)鍵詞規(guī)則;二,直接購買服務(wù),全部操作都由運(yùn)營人員操作,客戶只需要提出需求便可。至于簡化配置方法的第三條路,也就是規(guī)則庫或者詞庫一直因?yàn)榭蛻舻目缧袠I(yè)、跨地域區(qū)別太大,導(dǎo)致停留在摸索期。積累了大量用戶操作行為之后,一些公司已經(jīng)開始將詞庫進(jìn)行模型訓(xùn)練并建立基于深度學(xué)習(xí)技術(shù)的文本分類模型,用于輿情的下一代功能改進(jìn),比如某公司輿情分類模型已經(jīng)至少可以看到二級(jí),且覆蓋較全面。 我個(gè)人認(rèn)為以后可以預(yù)見到,關(guān)鍵詞配置會(huì)進(jìn)入輔助階段,而已經(jīng)訓(xùn)練好的模型會(huì)進(jìn)入主流,只要勾選便可以直接使用,并且還可以通過用戶行為不停地優(yōu)化,最終甚至引入更復(fù)雜的推薦引擎,將找到線索的可能性以及用戶體驗(yàn)大幅度改進(jìn)。這也是2018年輿情系統(tǒng)的一個(gè)重要的改進(jìn)方向。 另一個(gè)比較重要的輿情系統(tǒng)改進(jìn)方向是加強(qiáng)了監(jiān)測類型,傳統(tǒng)監(jiān)測類型是關(guān)鍵詞自定義監(jiān)測任務(wù)、專題監(jiān)測任務(wù)、事件監(jiān)測任務(wù),現(xiàn)在則是開始加入更精細(xì)化的人物監(jiān)測任務(wù)、傳播監(jiān)測任務(wù)等等。 人物監(jiān)測一直是一個(gè)老生常談的監(jiān)測類型,一方面因?yàn)樯婕皞€(gè)人,有一定的隱私問題,所以盡可能不跨越那條線,主要面對公眾知名人物的正面形象問題進(jìn)行把控。另一方面人物監(jiān)測的方法一直是一個(gè)頭疼的事情,首先人名是不靠譜的,重名可能性很高;其次是人作為一個(gè)實(shí)體,具備很多屬性,包括出生地、居住地、現(xiàn)時(shí)活躍地都可能不同,職位可以有多個(gè),身份也可以有多個(gè),別名和昵稱都可以有多個(gè),這是互聯(lián)網(wǎng)的天然優(yōu)勢所在,但是導(dǎo)致的結(jié)果就是監(jiān)測的時(shí)候會(huì)比較麻煩,準(zhǔn)確率和召回率都會(huì)成為問題。解決方案就是通過NLP,對每個(gè)文章中的人名識(shí)別,人名最近距離的描述句法進(jìn)行識(shí)別,找出描述詞-分析詞性-識(shí)別組織機(jī)構(gòu)、職位-企業(yè)庫內(nèi)驗(yàn)證,最終識(shí)別出要監(jiān)測的人物對象是否在這篇文章中,是否是本文的主要內(nèi)容主體等等。通過這一系列的技術(shù)手段,才可能讓人物監(jiān)測變的準(zhǔn)確“那么一點(diǎn)點(diǎn)”,而人物的別名庫的引入,會(huì)讓召回率盡可能提高一些。雙劍合璧,才能讓人物監(jiān)測變的更好用,但是說實(shí)話,考慮到非規(guī)范文章中對人物的描述信息極為缺失,人物監(jiān)測在政府輿情監(jiān)測上肯定不會(huì)是一項(xiàng)好用的功能。因?yàn)槭紫冗@是大海撈針,輿情一般不會(huì)直接出現(xiàn)在新聞稿中,大都是在社交平臺(tái)上滋生和蔓延,引起注意后才開始新聞稿件(這個(gè)主要是針對政府,因?yàn)橐话阈侣劷M織不會(huì)沒事亂發(fā)針對政府的負(fù)面新聞,大都是要審閱核實(shí)一下的)。那也就是說即使系統(tǒng)識(shí)別準(zhǔn)確了,每天可能有大量關(guān)于某人的文章被發(fā)現(xiàn)了,即使情感分析判斷了一遍,也很難說工作就結(jié)束了。人判斷的因素一直存在,因?yàn)槿耸窃谧鰶Q策,系統(tǒng)的用戶看到了大量信息,篩選出可能會(huì)被領(lǐng)導(dǎo)注意的部分,領(lǐng)導(dǎo)再次進(jìn)行決策,找出最符合該組織利益影響點(diǎn)的信息,決定是否需要處置。幾次篩選過程很受人的主觀因素影響,所以機(jī)器無法輕易替代,只能是個(gè)輔助。于是就產(chǎn)生了問題,每次篩選都會(huì)有信息丟失,丟失的信息是否有價(jià)值后續(xù)的決策人員是不知道的,而不篩選的話,大量信息又無法一一審查,每日工作量都會(huì)變得很大。所以這里就會(huì)形成一個(gè)悖論,召回率越高,數(shù)據(jù)量越大,又需要進(jìn)一步篩選,未來AI技術(shù)會(huì)在這部分盡可能降低人工的繁瑣性識(shí)別工作。 還有一個(gè)在18年被重視并強(qiáng)化的功能是傳播鏈分析,實(shí)際情況是通過持續(xù)采集數(shù)據(jù),分析某篇文章傳播鏈條或者某個(gè)事件的傳播軌跡。包括原創(chuàng)、轉(zhuǎn)載、轉(zhuǎn)發(fā)、閱讀和點(diǎn)贊等情況。如果數(shù)據(jù)覆蓋范圍夠大,數(shù)據(jù)量夠多的系統(tǒng),可以生成樹狀或者網(wǎng)狀傳播圖。 例如上圖(百分點(diǎn)輿情),雖然這個(gè)樣例中只有一層傳播,所以沒法看出是一個(gè)樹狀結(jié)構(gòu)。不過如果是分析某篇熱門文章的時(shí)候,就變成了一個(gè)從中心放射出的圓形網(wǎng)狀結(jié)構(gòu)了。這種傳播鏈條分析對數(shù)據(jù)要求比較高,不僅要識(shí)別出文章自身,還要識(shí)別文章變種,相似相關(guān)等等,最重要的是,字段中還要識(shí)別出原創(chuàng)和轉(zhuǎn)載。當(dāng)然這里面有一些套路和技術(shù)策略,我就不多說了,屬于業(yè)界技術(shù)小秘密。 以上就是我對2018年輿情產(chǎn)品的一些理解和認(rèn)知。我是兔哥,輿情和公安大數(shù)據(jù)行業(yè)出身,后續(xù)主攻企業(yè)多維度數(shù)據(jù)分析和挖掘。我在知識(shí)星球上有免費(fèi)和收費(fèi)群,歡迎搜索“兔哥數(shù)據(jù)星球付費(fèi)群”、“兔哥的數(shù)據(jù)星球免費(fèi)群”,其他事宜可以知乎私信聯(lián)系我。