新語・流行語は、twitter上ではどの程度使われているか調査した

概要

今年も、「現代用語の基礎知識」選 ユーキャン 新語・流行語大賞のノミネートが発表された。新語・流行語の発表があると、そろそろ年の瀬だなと感じる。 このエントリーは、その新語・流行語はtwitter上で実際どのように使われているかを調査するものだ。 ネットでの言葉の流行と、マスメディアでの言葉の流行は異なる。twittertwitterで偏った世界だ。 そのため、選ばれた新語・流行語がtwitter上でつぶやかれてないのに流行語ではないなどとは言えない。あくまで、一つのSNSサービスであるtwitter上でどのようつぶやかれているかを調査したものだ。 twitterはタイムラインがあるため、twitterユーザーでも見えている世界が異なる。新語・流行語で自分のタイムラインで見かけなかったからと言って他の人にタイムラインでは流れていたかも知れない。今回は、twitter内で新語流行語がどのようにつぶやかれたかを調査することで自分のタイムラインとどのように違うかを観察する。

忙しい人のまとめ

twitterに投稿されたツイートデータセットを元に、新語・流行語大賞にノミネートされた言葉がどの程度呟かれたかを調査した。

  • スポーツは瞬発力があり、がっと盛り上がる
  • 対して、社会、政治、芸能は台形に近い形になる。
  • スポーツでは、「金足農旋風」と「(大迫)半端ないって」が呟かれた。
  • 社会では、仮想通貨/ダークウェブが人気だったが、TikTokが追い上げている。
  • 政治では、首相案件、高プロが人気だった
  • 芸能では、おっさんずラブが強かった

調査の手法、データについて

twitterでは全公開tweetから少数のデータをサンプルデータとして公開している。  GET statuses/sample — Twitter Developers サンプリングのサイズは一説には、全tweetの1%ではないかと言われている。Substance: 666 and How Twitter Samples Tweets in Streaming API

私は11ヶ月前からそのサンプルデータを取得して、Google Cloud PlatformのBigQueryに保存している。一日に55万件程度のtweet標本を手に入れることができる。今回は、そのtweetデータを利用している。全tweetからランダムに抽出されているため、1%のサンプリング調査だと考えることが出来る。たとえ1%のデータであっても、きちんとランダム化されサンプリングサイズが大きければ母集団の特徴をよく表す集計値になる。

使ったデータセットは、twitterから提供されいるSample realtime Tweets APIから日本語ツイートだけを抽出して保存したものを利用した。取得データの期間は、2018-01-09 から2018-11-13 標本ツイート数は、 182,336,084 ツイート。

月ごとの、標本投稿アカウント数、及び標本ツイート数は以下。

投稿月 投稿アカウント数 投稿数
2018-01 3,985,823 13,208,169
2018-02 4,285,399 15,366,631
2018-03 4,224,926 14,570,657
2018-04 4,754,814 18,695,446
2018-05 4,734,464 19,490,071
2018-06 4,592,642 21,338,895
2018-07 4,654,512 19,400,678
2018-08 4,517,688 18,376,566
2018-09 4,449,907 17,945,849
2018-10 4,326,238 17,136,263
2018-11 2,669,570 6,806,859

サンプリングされたーデータでは、月の投稿アカウントは、4百万、投稿数は2千万ツィート程度だ。

このくらいの標本数であれば、母集団の大体の傾向は掴めるだろう。

新語・流行語がtwitter上でどのくらいつぶやかれたか調査した。

新語流行語大賞によると、今回ノミネートされた新語・流行語は次のようなものだ。

エントリーナンバー 新語・流行語
No.01 あおり運転
No.02 悪質タックル
No.03 eスポーツ
No.04 (大迫)半端ないって
No.05 おっさんずラブ
No.06 GAFA(ガーファ)
No.07 仮想通貨/ダークウェブ
No.08 金足農旋風
No.09 カメ止め
No.10 君たちはどう生きるか
No.11 筋肉は裏切らない
No.12 グレイヘア
No.13 計画運休
No.14 高プロ高度プロフェッショナル制度
No.15 ご飯論法
No.16 災害級の暑さ
No.17 時短ハラスメント(ジタハラ
No.18 首相案件
No.19 翔タイム
No.20 スーパーボランティア
No.21 そだねー
No.22 ダサかっこいい/U.S.A.
No.23 TikTok
No.24 なおみ節
No.25 奈良判定
No.26 ひょっこりはん
No.27 ブラックアウト
No.28 ボーっと生きてんじゃねえよ
No.29 MeToo
No.30 もぐもぐタイム

それらが実際twitter上で月間どのようにつぶやかれたか見てみよう。

サンプルツイート数 18/01 18/02 18/03 18/04 18/05 18/06 18/07 18/08 18/09 18/10
あおり運転 363 178 187 114 115 317 325 240 136 86
悪質タックル 2 0 2 2 3577 447 153 68 37 80
eスポーツ 173 924 504 355 926 1426 932 1101 984 1120
半端ないって 235 203 272 396 657 24189 7615 3028 1478 2461
おっさんずラブ 3 172 85 4446 18432 21975 4603 3827 2396 2892
GAFA 47 63 66 71 105 99 81 107 87 116
仮想通貨 16922 14593 9944 18088 11501 11939 9928 9364 8837 7787
金足農 1 0 0 1 30 32 132 29571 1573 1285
カメ止め 0 1 2 10 16 98 409 1054 646 445
君たちはどう生きるか 138 138 81 60 83 125 44 39 19 18
筋肉は裏切らない 10 14 19 11 22 171 29 1324 352 125
グレイヘア 1 0 0 3 14 3 1 0 7 104
計画運休 1 0 0 0 1 0 5 2 346 288
高プロ 117 217 1412 531 10183 9439 1454 535 271 248
ご飯論法 0 0 0 0 512 357 109 54 275 120
災害級の暑さ 0 0 0 0 0 0 23 6 2 0
時短ハラスメント 2 3 3 2 2 1 0 3 1 0
首相案件 0 0 59 6822 1162 116 103 26 25 15
翔タイム 4 2 4 35 7 3 4 11 9 11
スーパーボランティア 0 0 0 0 0 0 0 1513 68 40
そだねー 53 4965 1744 816 508 520 288 220 208 232
ダサかっこいい 19 28 20 37 419 1302 1815 3284 1037 1148
TikTok 1209 1161 1310 1982 2113 2680 3262 4121 5241 5171
なおみ節 0 0 0 0 0 0 0 0 15 0
奈良判定 0 0 0 0 0 0 15 279 24 15
ひょっこりはん 445 681 1046 1776 2328 2587 1491 1890 732 781
ブラックアウト 149 201 141 200 194 166 184 194 2609 878
ボーっと生きてんじゃねえよ 0 0 0 1 4 3 3 3 3 9
#MeToo 655 389 364 2764 1172 652 502 642 771 340
もぐもぐタイム 9 772 542 330 1052 262 165 131 122 222

グラフにすると以下のようになる。 項目が多すぎて何がなんだか分からない。

f:id:shioshio3:20181115213414p:plain

30語は多すぎるので、、分野を分ける。スポーツ、芸能、社会、政治で分けた。

分野と個数は次のようにした。

分野 個数
スポーツ 9
社会 10
政治 4
芸能 7

スポーツ

18/01 18/03 18/04 18/05 18/06 18/07 18/08 18/09 18/10 18/11
悪質タックル 2 2 2 3577 447 153 68 37 80 127
eスポーツ 173 504 355 926 1426 932 1101 984 1120 647
半端ないって 235 272 396 657 24189 7615 3028 1478 2461 579
金足農 1 0 1 30 32 132 29571 1573 1285 117
翔タイム 4 4 35 7 3 4 11 9 11 50
そだねー 53 1744 816 508 520 288 220 208 232 280
なおみ節 0 0 0 0 0 0 0 15 0 3
奈良判定 0 0 0 0 0 15 279 24 15 28
もぐもぐタイム 9 542 330 1052 262 165 131 122 222 82

f:id:shioshio3:20181115221522p:plain

  • 「(大迫)半端ないって」と「金足農旋風」がよく呟かれた。
  • スポーツ分野の特徴は、熱しやすく冷めやすいこと。一ヶ月でピークが出来る。

社会

18/01 18/02 18/03 18/04 18/05 18/06 18/07 18/08 18/09 18/10
あおり運転 363 178 187 114 115 317 325 240 136 86
GAFA 47 63 66 71 105 99 81 107 87 116
仮想通貨/ダークウェブ 16922 14593 9944 18088 11501 11939 9928 9364 8837 7787
グレイヘア 1 0 0 3 14 3 1 0 7 104
計画運休 1 0 0 0 1 0 5 2 346 288
災害級の暑さ 0 0 0 0 0 0 23 6 2 0
スーパーボランティア 0 0 0 0 0 0 0 1513 68 40
TikTok 1209 1161 1310 1982 2113 2680 3262 4121 5241 5171
ブラックアウト 149 201 141 200 194 166 184 194 2609 878
#MeToo 655 389 364 2764 1172 652 502 642 771 340

f:id:shioshio3:20181115222831p:plain

  • 仮想通貨が一番言及されていたが、少し下がっている。
  • TikTokの言及数が増えている。
  • MeTooは、4月に山がある。
  • スポーツに比べて、継続的な言及が多い

政治

18/01 18/02 18/03 18/04 18/05 18/06 18/07 18/08 18/09 18/10 18/11
高プロ 117 217 1412 531 10183 9439 1454 535 271 248 141
ご飯論法 0 0 0 0 512 357 109 54 275 120 305
時短ハラスメント 2 3 3 2 2 1 0 3 1 0 15
首相案件 0 0 59 6822 1162 116 103 26 25 15 25

f:id:shioshio3:20181115224201p:plain

芸能

18/01 18/02 18/03 18/04 18/05 18/06 18/07 18/08 18/09 18/10
おっさんずラブ 3 172 85 4446 18432 21975 4603 3827 2396 2892
カメ止め 0 1 2 10 16 98 409 1054 646 445
君たちはどう生きるか 138 138 81 60 83 125 44 39 19 18
筋肉は裏切らない 10 14 19 11 22 171 29 1324 352 125
ダサかっこいい/U.S.A 19 28 20 37 419 1302 1815 3284 1037 1148
ひょっこりはん 445 681 1046 1776 2328 2587 1491 1890 732 781
ボーっと生きてんじゃねえよ 0 0 0 1 4 3 3 3 3 9

f:id:shioshio3:20181115225153p:plain

まとめ

twitterに投稿されたツイートデータセットを元に、新語・流行語大賞にノミネートされた言葉がどの程度呟かれたかを調査した。

  • スポーツは瞬発力があり、がっと盛り上がる
  • 対して、社会、政治、芸能は台形に近い形になる。
  • スポーツでは、「金足農旋風」と「(大迫)半端ないって」が呟かれた。
  • 社会では、仮想通貨/ダークウェブが人気だったが、TikTokが追い上げている。
  • 政治では、首相案件、高プロに興味が集まった。
  • 芸能では、おっさんずラブが強かった

後記

個人でも出来るデータ分析

これらのデータ収集は、さくらVPS メモリ1GB及び、GCPのGCE N1 Standard Instance (8cpu mem 30GB)を使って行われた。月額の金額は、サクラのVPSは1000円位、GCPはbigqueryを含めて、2000円くらいだ。このくらいあればtwitterの数億件のサンプリングデータを収集して分析することが出来る。個人でも集計できる良い時代になったものだ。