/bin/osh

ソフトフェアエンジニアリングしたりデータ分析したりプロジェクトマネジメントの勉強したりする人のブログ

Google Cloud Natural Language で簡単感情分析

この記事はねおりんアドベントカレンダー19日目の記事です。
ざっくり言うとねおりんのツイートを分析してみたよというお話しです。


Google Cloud Natural Languageは、 APIを投げるだけでGoogleが事前に学習させたモデルを使って自然言語処理ができてしまう優れものです。 最近はGoogle Cloud AutoMLという データを与えるだけでそのデータから学習したモデルを作ってくれるサービスも出ています。

今回はねおりんアドベントカレンダーということでCloud Natural Languageを使って @noir_neoのツイートの感情分析をしてみました。

Cloud Natural Language を使った感情分析

Cloud Natural Language での感情分析では、文章を与えると

  • -1.0(ネガティブ)~1.0(ポジティブ)の範囲で表わされるスコア
  • 0.0~+infで表わされる感情の強度であるマグニチュード

の2つが出力されます。

例えば このツイートのテキストを入れると

Score: 0.6000000238418579
Magnitude: 0.6000000238418579

という値が返ってきます。 これはスコアが0.6もあるので非常にポジティブな内容であるということが分かります。 ねおりんがニッコリ笑顔になってるのでポジティブと出てるのはあってそうですね。

こんどはこのツイートのテキストを入れると

Score: -0.8999999761581421
Magnitude: 0.8999999761581421

今度は非常にネガティブなスコアになりました。

2つのツイートから得られるマグニチュードは非常に低いものですが、これは文章自体が 短いことに起因すると考えられます。

ねおりんのツイートを分析

ツイートの期間は2018/09/06~2018/12/18 (UTC)

今回はマグニチュードは考慮せず、スコアだけを取りました。

f:id:ushiumi:20181219205501p:plain

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
-0.4500  0.0500  0.1211  0.1097  0.1985  0.4133

第1四分位数が正なのを見るとねおりんはポジティブな発言が75%以上ということが分かります。

最小値の日は

Amazonにキレてました。

11月は

曜日ごと(UTC)の最小値、第1四分位点、中央値、平均、第3四分位点、最大値を見てみると

day of the week Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.06667 0.12680 0.18570 0.18280 0.23530 0.41330
-0.16670 0.05777 0.12960 0.11840 0.21810 0.35000
-0.45000 0.04062 0.09583 0.08636 0.17900 0.31820
-0.30000 -0.02593 0.05926 0.04662 0.12660 0.27040
-0.38330 0.02316 0.10690 0.09655 0.20210 0.30450
-0.03788 0.08788 0.12780 0.13010 0.15700 0.32000
-0.22310 0.07211 0.12110 0.10610 0.18030 0.29170

1Qを見ると分かりやすく月曜日がスコアが高い。 月曜は憂鬱になる人が多いのにねおりんはポジティブになるという発見。

まとめ

  • Cloud Natural Language 簡単!
  • ねおりんはAppleAmazonに厳しい
  • ねおりんは月曜にポジティブになる