シャニマス音声分析

目次

Abstract

  • シャニマスの各キャラの音声特徴の分析
  • 今回はざっくりと全員分の特徴量を抽出したとこまでで時間的変化は見てない
  • 話し方などの分析は次回を予定

Introduction

シャニマスの人数も23人と多くなってきたので、各キャラ毎の音声にどういった特徴があるのだろうかと思って分析をしてみました。この記事ではあくまで声質?的な部分に着目しています。話し方を含めた時間変化的な要素を絡めた分析は次回以降を予定。

※あまり正確な分析では無いのあしからず。

Method

分析音声の選定

音声の韻律的特徴は個人性以外に言語情報はもちろん、感情、態度、意図などのパラ言語情報も影響します。 そのため、個人性に着目して分析をするのなら、発話文言やパラ言語は近い内容のものを分析するのが望ましいです。 一方で、23人が同じ状況で同じ文言を発話している状況というのはあまり無いのですが、 その中で今回検討したのは、「プロデューサー」、「アイドルマスターシャイニーカラーズ」、「事務所」の3つの文言です。 「プロデューサー」という言葉は基本的にどのキャラクターも発声しているが、人を指す言葉であるため感情や態度といったパラ言語が含まれやすい、 「事務所」という言葉についても場所を指す言葉で発話する状況が変わりやすい。 ということで、今回は消去法で シャニマスのトップ画面で発話している「アイドルマスターシャイニーカラーズ」 の掛け声を利用しました。 おそらく最初期に収録したものであろうし、23人それぞれが同じ状況で発声するものであるため、 キャラクター毎の違いが分かるように発声しているのかなということで。(ディレクションもそういったものになるんじゃないかと)

分析するパラメータ

各音声特徴量は音声区間を25ms毎にフレーム分割して抽出。発話区間全体での平均値を記載。
今回抽出した特徴量は以下。

  • Speech Rate [mora/sec]
    • 発話速度。今回はモーラ/発話時間で計算
      • 発話時間には下記のPause時間は含めていないため有音区間(持続時間)のみ
    • 値が小さいほど遅く、大きければ速い
    • 物理量であるため、実際に聞いた感じの話す速さとは必ずしも一致しない
  • Pause [sec]
    • 今回の発話では「アイドルマスター/シャイニーカラーズ」で間にポーズが入るのでその時間を計測
    • 発話速度と同様に話す速さに影響を与える
  • Energy(RMS)
    • 声の大きさに影響するパラメータ
    • 振幅の2乗平均平方根として計算
    • 心理量ではなく実際に聞こえる音の大きさではない
      • そちらを計算する場合は等ラウドネス曲線など考慮する必要がありめんどい
  • fo [Hz]
    • 基本周波数。声の高さに影響するパラメータ
    • 声帯振動によって決まる値
    • 心理量のピッチ(実際に聞こえる高さ)とは異なるので注意
  • F1,F2,F3 [Hz]
    • 第1,2,3フォルマント
    • 声道の共鳴周波数にあたる
  • HNR (Harmonics-to-Noise Ratio) [dB]
    • 周期成分と非周期成分のエネルギー比
    • 値が低いほどかすれ度合いが強いと言われる
    • 嗄声などの診断に使われることの多いパラメータ

分析方法

foとF1~F3はpraatを利用。他は昔に作った自作の奴。

Result

以下の表を参照。 Onedriveにファイル用意してあるので、フィルタかけたり、グラフで見たい人は下のリンクのExcelファイルを参照

Onedriveリンク

■全体データ

統計量 Speech Rate Pause Energy fo F1 F2 F3 HNR
最小値 5.3 0.10 0.06 152 816 2036 3735 17.1
最大値 9.0 0.78 0.13 300 1259 2607 4291 20.7
平均 7.3 0.33 0.10 254 1046 2388 4000 19.4

■個人データ

No Name Age CV Age duration Speech Rate Pause Energy fo F1 F2 F3 HNR
1 櫻木 真乃 16 20 2.96 6.77 0.60 0.10 254 1022 2513 4133 18.8
2 風野 灯織 15 21 2.50 8.42 0.60 0.09 207 917 2282 3792 20.5
3 八宮めぐる 16 23 2.21 7.58 0.10 0.11 264 1108 2381 3989 20.0
4 月岡 恋鐘 19 26 2.38 7.25 0.17 0.10 262 1114 2450 4016 19.6
5 田中 摩美々 18 -1 3.26 5.28 0.23 0.08 276 850 2036 3888 17.8
6 白瀬 咲耶 18 -1 2.42 7.54 0.30 0.12 223 970 2354 3775 19.5
7 三峰 結華 19 25 2.51 7.57 0.39 0.12 287 1056 2388 4101 19.9
8 幽谷 霧子 17 24 2.54 7.04 0.27 0.11 274 995 2309 4248 19.8
9 小宮 果穂 12 22 2.70 6.54 0.26 0.12 288 1259 2535 4206 19.0
10 園田 智代子 17 25 2.37 7.63 0.27 0.10 263 1039 2375 4061 19.5
11 西城 樹里 17 -1 2.29 7.80 0.24 0.12 225 1016 2350 3760 20.0
12 杜野 凛世 16 25 3.10 6.87 0.78 0.08 271 816 2379 3948 19.5
13 有栖川 夏葉 20 -1 2.15 8.46 0.26 0.11 260 1000 2346 3819 20.0
14 大崎 甘奈 17 25 2.77 6.59 0.35 0.09 291 1174 2335 3898 18.8
15 大崎 甜花 17 -1 2.87 6.34 0.35 0.12 277 1081 2379 4022 18.3
16 桑山 千雪 23 29 2.47 7.38 0.30 0.10 289 925 2289 3735 20.0
17 芹沢 あさひ 14 22 2.48 7.14 0.24 0.13 285 1188 2396 4132 19.2
18 黛 冬優子 19 21 2.25 7.59 0.14 0.13 272 1113 2453 4088 20.1
19 和泉 愛依 18 27 2.86 6.29 0.32 0.13 201 1153 2444 3880 17.1
20 浅倉 透 17 25 2.15 9.04 0.38 0.06 172 1018 2395 3890 20.4
21 樋口 円香 17 23 2.50 8.64 0.65 0.06 152 963 2522 4223 20.7
22 福丸 小糸 16 -1 2.50 7.37 0.33 0.08 241 1162 2607 4291 19.7
23 市川 雛菜 15 22 2.97 5.71 0.17 0.10 300 1122 2408 4099 18.4

※CV-Ageは現在日時の年齢。また、-1は年齢非公開

Discussion

今回はざっくりと特徴量毎に気になったところを考察してみます。。

発話速度[mora/sec] & Pause

ゆっくり話すキャラとして認知されていると思われる凛世と摩美々に着目してみます。 凛世の方はmora/secの発話速度は意外にも平均よりやや低めに留まり、Pauseの時間が極端に長い傾向。 一方、摩美々の方はPause時間は平均より低く、mora/secの発話速度が低い値となっている。
同じゆっくりでも、凛世の方がポーズ時間を伸ばすことで丁寧さを演出しており、摩美々の方は発話時間を伸ばすことで眠たげな音声を演出しているのかなという印象です。
ポーズ時間を含めない発話速度と丁寧-粗雑の印象軸、発話時間(持続時間)と覚醒-睡眠の軸についての研究とかあったりしないかな。あったらそれと合わせて考察してみたい。

Energy

全体的にハイテンション系のキャラの値が高くて、ローテンション系のキャラの値が低めという妥当な結果。 あと、Straylight声でかいな。

fo

明るめなキャラクター(雛菜や甘奈、千雪)、年齢低い(果穂)とかの値が高く、クール系(咲耶、透、円香、愛依)とかの値が低めという妥当な値。もうちょっと、キャラ年齢とかCV年齢とかとの傾向もみれたりするかと思いましたが、そもそも年齢別の人数比に偏りあるのであまり見て取れなかった。(一般的に加齢するほどFoは低下する傾向)
キャラ年齢の違いに応じて、Fo変化させてたりするのかなとかに興味あったので、他のケースでまた見てみたい。

HNR

なぜか発話速度[mora/sec]と相関がありそうな値となっています。ゆっくり話すキャラは非周期成分多くなりがちっぽい。発話の持続時間を長くしているため、音声のゆらぎというかブレ的なものが多くなる傾向に有るのかも。HNR自体あんまり使ったこと無い特徴量だったから、後でもうちょっとHNRについて調べて見ます。ああ、それともHNRって発話全体で見るものじゃなくて、音素レベルとかで見たりする指標なのかな?

Conclusion

今回はだいぶざっくりとシャニマスのキャラ音声の特徴を見ましたが、色々なところで違いがあったり同じとこがあってあって面白いですね。透と円香の特徴量が割と似てたりとか。
次回以降ではアクセントとかイントネーションとかの時間的な変化についてとか、キャラ毎の詳細な分析をする予定。飽きなければ。。。