歌詞から読み解く虹コンの夏曲
12月29日、虹コンの晴れ舞台であるZepp Tokyo公演までに
またいろいろ発信していこうかなと思っているということです。
今日も仰々しいタイトルをつけてしまいました。
テキストマイニングをご存知でしょうか?
大量の文章データ(テキストデータ)から、有益な情報を取り出すことを総称してテキストマイニングと呼びます。自然言語解析の手法を使って、文章を単語(名詞、動詞、形容詞等)に分割し、それらの出現頻度や相関関係を分析することで有益な情報を抽出します。
らしいです。わたしもちゃんとは理解していないです。
たくさんの文章の中にある単語の関連性とかを探そうというやつです。
今日は虹コンの数ある夏曲のうち表題曲、
「THE☆有頂天サマー」
「限りなく冒険に近いサマー」
「キミは無邪気な夏の女王~This Summer Girl Is an Innocent Mistress~」
「ずっとサマーで恋してる」
「愛をこころにサマーと数えよ」
の歌詞をテキストマイニングした結果を書きます。
ある方がプリキュアの曲の歌詞をテキストマイニングされた記事を読んでの、
パク…オマージュです。
「KH Coder」というソフトを使っています。お勉強の記録がてらです。
とはいえ虹コンの夏曲歌詞、文体のクセが強いのでだいぶ調整しました。
「SUKIで SUKIで SUKIすぎるから」は「好きで 好きで(略)」に、
「あ゛ぁぁーーーっ‼」は「あーっ」に、
みたいな。
まず「抽出語リスト」というやつで、単語ごとの出現数をみます。
1位は「好き」。
めちゃうなずけるのですが、
「好き」が出てくるのは実はずっサマの、しかもサビだけでした。
あれだけ連呼すればそりゃあね…
2位の「サマー」はまあ、全曲のタイトルにも一応入っているし…
と思いきや内訳を見てみると
げっちゅ | 5 |
---|---|
ずっサマ | 5 |
女王 | 12 |
有頂天 | 7 |
冒険だけ入っていない!?「サマ-」出てこないっけ!?
どうやらラストの「フォーエバー サマーデイズ」は
「サマーデイズ」でカウントされてるっぽい。
それにしても冒険、1回なんだ…となりますね。
続いて共起ネットワーク図。
単語ごとの関連性をみます。
個人的にこれが一番興味深くて、エモかった!
例えば「好き」。
単体ではずっサマサビにしか出てこないため「大好き」としか関連しないけど、
「大好き」はげっちゅで「死ぬ」とセットになってることがわかります。
有頂天では「すげー泣いたペイン」って感じだった「恋」も、
げっちゅでは「真夏に出会って恋して愛し」ちゃっているのです。
女王での「わたしはわたしを生きてくんだ」から、
ずっサマでは「わたしたち」で「今を生きる」ことにして、
(この「わたしたち」は虹コン12人という方が捉えやすいですが…)
げっちゅで「ふたりでね生きてたいの だってあなたが受け止めてくれたから」
となっているの、めっちゃエモい…
そして対応分析。
この分析で言うと、曲単位で歌詞の関連性をみています。
近い要素は関連性が強いということなので、
曲名と単語が近くにある=その曲に多く出てくる単語、であることがわかります。
また、各軸における0の交点(黒点線)に近いほど、多くの曲に出てくる単語です。
たとえば「わたし」は5曲全曲に出てきますね。
それから曲名(赤)を見たとき、
冒険・女王・げっちゅは比較的近いので、出てくる単語と回数が近い。
…ほんとか?ちょっと勉強が足りないですね。
まとめとしては、
- ずっサマ:連呼型(サビのインパクトがトップ、「Baby」とかも回数で攻めてる)
- 女王:復唱型(やまびこっぽくなるフレーズ・コーラスが多い、ゆえ語数も多め?)
- 冒険:文学型(一番調整した文が少なかった(笑)、漢字単語多めの印象)
- 有頂天:語感型(響き重視っぽい、独立してる)
げっちゅは冒険寄りかな~という印象を受けました。
衣装も透けセーラーでアップデートされたし(歌詞と関係ないんだよなぁ)
作詞は全曲NOBEさんなのにどれもテイストが違うのすごいな~と思います。
どの曲も根強く愛されているわけだ…
あとはう~~~ん、付け焼き刃なので、
もっと精度上げられそうだなと思いました。
「夏の夜は~」とか「in (door) the summer」とか加えてもいいかもですね。
もうちょっと勉強して臨みたいです。
夏曲…SUKI…