求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

情感分析檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋

來自 站酷網 的圖片

情感分析(又稱為觀點挖掘或感情AI)是指使用自然語言處理[1]、文本分析、計算語言學和生物特徵識別來系統地識別、提取、量化和研究情感狀態和主觀信息。情感分析廣泛應用於分析客戶的心聲,如評論和調查回復,在線和社交媒體,以及從市場營銷到客戶服務再到臨床醫學的保健材料。

例子

情感分析的目的和挑戰可以通過一些簡單的例子來說明。

1.1簡單案例

Coronet擁有最好的全天候巡洋艦陣容。

Bertram有一個很深的V形船體,可以輕鬆地穿越海洋。

上世紀80年代佛羅里達的淺色巡洋艦很難看。

我不喜歡老式的客艙巡洋艦。

來自 搜狐網 的圖片

來自 搜狐網 的圖片

來自 搜狐網 的圖片

來自 站酷網 的圖片

1.2更具挑戰性的例子

我不討厭客艙巡洋艦。(否定處理)

厭惡船隻不是我真正的愛好。(否定,顛倒詞序)

有時候我真的很討厭排骨。(狀語修飾感情)

我真的很喜歡在這種天氣出去!(可能是諷刺)

Chris Craft比Limestone好看。(兩個品牌名稱,識別態度目標很困難)。

Chris Craft比Limestone好看,但Limestone突出了適航性和可靠性。(兩種態度,兩個品牌名稱)。

這部電影有許多令人不安的情節轉折,令人驚訝。(在某些領域中用於積極意義的消極術語)。

你應該看看他們頹廢的甜點菜單。(態度術語最近在某些領域已經改變了極性)

我喜歡我的手機,但不會推薦給我的任何同事。(合格的積極情緒,難以歸類)

下周的演出將會很精彩!(「新的世界?」Fr.:「有什麼新消息?」。新造的術語可能是高度態度化的,但是極性不穩定,並且經常超出已知的詞彙。

類型

情感分析的一個基本任務是在文檔、句子或特徵/方面級別對給定文本的極性進行分類,判斷在文檔、句子或實體特徵/方面中表達的意見是積極的、消極的還是中性的。高級的「超越極性」情感分類着眼於諸如「憤怒」、「悲傷」和「快樂」等情緒狀態。

進行情感分析的先驅包括「一般詢問者」(General Inquirer),它提供了量化文本模式的線索,另外,還提供了基於對人的言語行為進行分析來檢查一個人的心理狀態的心理學研究。

隨後,沃卡尼和福格爾在專利中描述的方法專門研究了情緒,並根據不同的情緒等級識別了文本中的單個單詞和短語。基於他們工作的當前系統叫做EffectCheck,其提供的同義詞可用於增加或減少每個尺度上的誘發情緒水平。

其他許多後續工作都沒有那麼複雜,只是從積極到消極的使用了情感的極端觀點,例如特尼,還有龐的研究,他們分別使用不同的方法識別產品評論和電影評論的極性。這項工作是在文檔級別進行的。人們還可以在多方向尺度上對文檔的極性進行分類,彭日成曾試圖這樣做斯奈德呢其中包括:彭和李擴展了將電影評論分類為正面或負面的基本任務,以預測3星或4星級別的星級,而斯奈德對餐館評論進行深入分析,預測給定餐館的各個方面的評級,例如食物和氛圍(五星級別)。

將各種方法結合起來的第一步——學習、詞彙、基於知識等。——在2004年的AAAI春季研討會上,語言學家、計算機科學家[2]和其他感興趣的研究人員首先聯合興趣,並為文本中的情感、吸引力、主觀性和情感的系統計算研究提出了共享任務和基準數據集。

儘管在大多數統計分類方法中,在假設中性文本位於二進制分類器邊界附近的情況下,中性類被忽略,但是一些研究人員建議,如同在每個極性問題中一樣,必須識別三個類別。此外,可以證明諸如最大熵和支持向量機的特定分類器可以受益於中性分類的引入,並提高分類的整體準確性。原則上,中性類有兩種操作方式。一:算法首先識別中性語言,過濾掉它,然後根據積極和消極情緒評估其餘的語言,二:它在一個步驟中建立一個三向分類。第二種方法通常涉及估計所有類別的概率分布(例如,由NLTK實現的樸素貝葉斯分類器)。是否以及如何使用中性類取決於數據的性質:如果數據被清晰地歸類為中性、消極和積極的語言,過濾掉中性語言並關注積極和消極情緒之間的極性是有意義的。相比之下,如果數據大多是中性的,對積極和消極影響的偏差很小,那麼這種策略將使得很難清楚地區分兩極。

另一種確定情緒的方法是使用標量系統,其中通常與消極、中立或積極情緒相關聯的單詞被賦予-10到+10標度(最消極到最積極)或簡單地從0到積極上限(如+4)的相關數字。這使得相對於環境(通常在句子的層次上)調整給定術語的情感成為可能。當使用自然語言處理分析一段非結構化文本時,指定環境中的每個概念都會根據情感詞與該概念的關聯方式及其關聯分數獲得分數。這允許對情感進行更複雜的理解,因為現在可以相對於圍繞它的修改來調整概念的情感值。例如,強化、放鬆或否定概念表達的情感的詞語會影響其得分。或者,如果目標是確定文本中的情緒,而不是文本的整體極性和強度,則可以給文本一個正面和負面情緒強度分數。

2.1主觀性/客觀性識別

這項任務通常被定義為將一個給定的文本(通常是一個句子)分為兩類:客觀的或主觀的。這個問題有時可能比極性分類更難。單詞和短語的主觀性可能取決於它們的上下文,客觀文檔可能包含主觀句子(例如引用人們觀點的新聞文章)。此外,正如蘇所提到的,結果很大程度上取決於注釋文本時使用的主觀性定義。然而,龐表明在對文檔極性進行分類之前從文檔中移除客觀句子有助於提高性能。

2.2基於特徵/方面

它指的是確定對實體(例如手機、數碼相機或銀行)的不同特徵或方面表達的意見或觀點。特徵或方面是實體的屬性或組件,例如手機屏幕、餐館服務或照相機的圖像質量。基於特徵的情感分析的優勢是可以捕捉感興趣對象的細微差別。不同的特徵可以產生不同的情感反應,例如,一個酒店可以有一個方便的位置,但普通的食物。這個問題涉及幾個子問題,例如,識別相關實體,提取它們的特徵/方面,以及確定對每個特徵/方面表達的意見是積極的、消極的還是中立的。特徵的自動識別可以通過句法方法、主題建模,或者通過深度學習。關於這種情感分析水平的更詳細的討論可以在劉的工作中找到。

參考文獻