この記事の概要を簡単まとめ!
- テキストを代わりに読み上げる機能を持つ「読み上げソフト」
- 有名格ではVOICEROID、その他のソフトも有料・無料問わず続々登場する
- 無料でありながら性能がミドルクラスの”VOICEVOX”が登場し人気になっている
- 配信や動画制作には便利なものになるはずなので使ってみた!
- 公式サイトからインストーラまたはzipファイルをダウンロードして使用する
- 初期状態で多数の音声を使用可能、バリエーションも多数搭載
- ゆかりねっとコネクターとわんコメも対応、設定方法も簡単
- モデルによって規約は異なるため要確認
- 遊びにも創作にも使えるので、まずはここから始めよう
合成音声の進化は凄まじい。多くの人が想像する合成音声はやはりボーカロイド(VOCALOID)、特に初音ミクだ。これが様々な名曲を生んだことは説明不要なほど有名である。確かに「機械的」ではあるのだが、それを超える美声が皆に受け入れられ、大量の作品が作られ、他のボーカロイド音声も作られ、今でも人気の文化の1つとなっている。そこからの様々な派生は、現実のアイテムにもなるほどである。
同時に、合成音声を文章読み上げに使用することについても発展が見られた。単純な棒読みで、感情が見られないものが一般的だったそれはAIを利用して急速に進化した。所謂ディープラーニングによって、その膨大なパラメータを学習し、もはや人間なのか機械音声なのかの区別が殆どつかないほどに仕上がっている。人間らしい抑揚やアクセントを意識した自然な読み上げが可能なものが多くなっていて、それはもはや「人間」である。
大抵はそれらは有料のソフトウェアとなるが、ある程度の性能を落としたうえで無料で使用できるものが存在した。それが”VOICEVOX”である。これはVOICEVOXのオープンソースソフトウェア(OSS)版をベースとしてドワンゴ社員のヒロシバ氏を筆頭に開発されたものである。区別のために製品版とも称されるこれは、OSSでは不可能な「版権もの」が実装されている点で異なる。そこには有名音声も多数、デフォルトで搭載されている。また、ゆかNEO・わんコメがVOICEVOX読み上げに対応しているので、実際に使ってみることにした。
ひとっ飛びできる目次
ミドルユーザーには最適解の読み上げソフト
当たり前になった読み上げソフト
合成音声の歴史
合成音声の始まりは、1960年代に遡る。アメリカのベル研究所が当時の最新コンピュータであるIBM 7094を使い、合成音声によってコンピュータにデイジーベル(Daisy Bell)を歌わせたのが合成音声の始まりと言われている。歴史的にも有名なことがあって動画が残っており、2001年宇宙の旅(1968年の映画)ではHAL9000にこれを歌わせるシーンがある。実際には俳優が歌っているものを加工したものであるとはいえ、大きな影響を与えたことは間違いない出来事であった。
次に合成音声が注目されるのは2000年代のこと。発動機ではない方のヤマハ株式会社が2000年に打ち出した、Daisy Project。歌声合成の研究開発に関するプロジェクトであり、これが後のVOCAROID(ボーカロイド)、初音ミクに繋がるものとなる。なお、初音ミク自体の登場はVOCALOID2ベースで2007年となっている。ただ、これを話し出すとキリがない。
とりあえずボーカロイドそのものの歴史については公式サイトやWikipediaを参照してもらうとして、一般的な家庭用PCで合成音声が広く普及するようになったのは、2009年に株式会社AHSが発売したVOICEROIDで、これを起点として合成音声が一般化していくこととなる。読み上げソフト自体はそれ以前も存在していたわけだが、棒読みでいかにも機械的な音声なものと異なり、キャラクター性を付与した上で、当時としてはかなり綺麗に喋らせることができたので、かなりの人が
それが出来たのは、VOICEROIDに搭載されているエンジンが株式会社エーアイの開発したAITalkを使用していることによるものだ。これの凄いところは漢字・かな交じりの日本語のテキストを入力すると流暢に喋ってくれるということで、これが爆発的にヒットした理由である。その株式会社エーアイは音声合成を専門に研究・開発するソフトメーカーとして2018年に上場している。また、AITlak以前には2006年にアクエストが開発したAquesTalkが公開されていて、これは後の棒読みちゃんに繋がるものとなっている1)参照:【特集】音声合成ソフトの進化がすごい!無料で使えるVOICEVOXや有料のVOICEPEAKを試してみた – PC Watch ここに軽い歴史解説がある。。
合成音声に使用される技術
先に挙げた合成音声で使用されている技術は「波形接続型音声合成」や「コーパスベース音声合成」と呼ばれるものである。人間の声を直に録音し、これを子音と母音ほかに細かく分割し、コーパス(言葉データベース)に従って再構築して音声を作り出すものとなる。音MADを作るような感覚で録音データを切り貼りして再現するわけで、この時に声のパターン(楽しい、悲しい、怒り、声の高さなど)を複数用意しておけば、感情対応の音声も作れることになる。それぞれの感情で同じ言葉・文章でも全く違うものとして聞こえるので、録音の切り貼りであるなら別パターンを用意することは必須である。
ただ、この技術の場合はどうしても音声データ単体で容量が食われがちであるという、データ量の問題がある。もっともデータ量についてはデータ記録の単位がTBが当たり前の現代ではあまり気にならないことではあるが、記録媒体によっては生成スピードに影響があるのでその点も考慮したい。とはいえ、個人で使用する場合には気にならないものではあるはずだ。大抵は数個のデータしか使用しないためである。
では現代ではどうか。現代の技術進歩で最も目立っているのがAIである。2020年頃から急速に発展したイメージのあるそれは、当然音声分野でも使用されることになる。最近はAI音声合成、DNNパラメトリック音声合成といったものが使用されている。これも音声データを利用することは変わらないが、ここにディープラーニングを適用し、喋り方について学習を行わせ、これを基にして再合成を行う手法を用いている。その際にボコーダーという、喉や口をシミュレーションするシステムを通して発音させるようにしている。これによって、パラメータさえあれば合成できるということも特徴である。
それでは従来と同じではと考える人がいるだろう、しかしこちらはそれらの技術を有効に活かし、パラメータのデータサイズが小さくても再現できるようになっている。録音されたPCMデータ2)あるアナログ信号が、サンプリング周波数と量子化ビット数の2つのサンプリングデータに基づいてディジタルデータ化されたものである。PCで扱う音声データは原則PCMデータとなる。と比較しても遥かに小さく、インストールサイズも波形接続型と比較して1/100程度まで削減できるようになった。
ちなみにこれの代表的なソフトの1つにCoeFontがあり、既知範囲でcleaちゃんが自身の声を収録している。cleaちゃんが制作したCoeFontの素材については2022年12月現在、声少し高め1.0.0、低音1.0.0、哀1.0.0、楽1.1があり、最新は楽1.1となる。
スポンサーリンク
スポンサーリンク
合成音声ソフトの種類
現在リリース中の合成音声ソフトはどれくらいあるか、代表的なものを挙げてみる。
- VOICEROID:株式会社AHS製の合成音声ソフト。AITalkをベースにAHSが個人向け製品にパッケージングした製品群を示す。 コーパスベース音声合成を採用している。微妙なフレーズ(イントネーション)の調整やスピード調整、音声ファイルの作成などを行うことができるのが特徴で、現在展開中のモデルバージョンはVOICEROID2とVOICEROID+ EXで、当然EXの方が機能が多い。買い切り型の製品で、要求されるストレージ容量は多めである。製品群に何故か吉田くん=FROGMANもある。何やってんだ。
- 棒読みちゃん:みちあき氏個人製作の合成音声による読み上げソフト。規約の関係でエンジンにはアクエスト社の旧版のAquesTalk(Win用)を使用している。クリップボードの読み上げ機能を持つ。読ませたいとおりの読み上げには調教が必要なタイプである。2020年12月24日をもって更新が途絶えているが、とりあえずは使えているようである。無料で使用できる。
- CoeFont:株式会社CoeFontが提供するAI音声プラットフォームで、CoeFont側が用意する台詞のスクリプトに従って声を登録することによって、使用時はその録音データをAIを利用することで「本人らしい音声」を再現して読み上げさせることができる。声を登録するための料金はそれほど高くなく、設備さえ整っていれば誰でも簡単に作れる。利用する側は月額で、商用利用の場合は¥5,000~となる。cleaちゃんも音声を登録している。
- CeVIO AI:CeVIO自体はUGC(User Generated Contents、ユーザー生成コンテンツ)を支援し、
新しいエンターテインメントを創出するために生まれたプロジェクトのことであり、このうちCeVIO AIが人間の声質・癖・歌い方・話し方を高精度に再現するものとして展開されている。株式会社テクノスピーチ製の音声合成・歌声合成のエンジンを使用して作られている。ほか、このプロジェクトには有名企業が参加しており、それゆえに完成度は非常に高いものとなっている。製品はライセンス認証式で、公式サイトでの販売はなく、委託先の販売サイトでの購入となる。セット・単品販売の両方に対応している。商用利用は別料金となっている模様。 - VOICEPEAK:株式会社AHS製の入力文字読み上げソフト。特に、商用可能6ナレーターセットのことである。こちらはDreamtonicsのエンジンを採用している。Windows/Mac OS/Linuxの全てに対応し、感情パラメータによる喜怒哀楽表現も可能にしている。当然、商用利用可能である。買い切り型で、¥29,800となっている(2022年12月現在)。
- VOICEVOX:VOICEVOXのオープンソースソフトウェア(OSS)版をベースとしてドワンゴ社員のヒロシバ氏を筆頭に開発されたもの。一般にVOICEVOXを考えるとき、リンクのホームページにある方を示す。OSS版との違いはキャラクター系が入っていることである。VOICEVOX自体はエディター・エンジン・コアがそれぞれ独立したモジュールとして、それらを連結して構成されている。そのためコアだけを別のアプリで使用できるなどの特徴がある。ソフトウェア部分はElectron+Vue 、音声合成エンジン部分はPython+FastAPIで構成されている。条件を満たすことで商用利用も可能である。
上記のものが存在することが分かっている。殆どは高級な技術が採用されていること、版権ものであることから有料が原則である。そんな中で異例の存在とも言えるのがVOICEVOX(製品版)である。VOICEVOXについては上記説明の通り、OSS版もある。多くの場合版権ものは「公序良俗に反する利用の禁止」や「反社会的勢力の排除」が規約にあり、OSSは定義の1つに「利用する分野に対する差別の禁止」があり、これと相反するために別のものとしてリリースしていることになる。
通常VOICEVOXは製品版のことを示すので、以降は単にVOICEVOXとしたとき、製品版のことであるとする。製品版は版権ものの声が入っていて、従来の通りなら有料であってもおかしくない。だがこれは無料であり、商用利用する場合は実装されているキャラクターの規約に従うことで可能である。もちろん、性能は有料の物には劣るが、無料であるがゆえに読み上げソフト入門としては最適である。また、ゆかりねっとコネクターNEOとわんコメはVOICEVOXに対応しているので、その検証も含めて使ってみることにした。
VOICEVOX使ってみた!
インストール:インストーラorZIP、好きな方を選択
VOICEVOXを使うにあたってまず検討することが、インストーラを使用するか、ZIPで利用するかである。インストーラは何も考えなくてもインストールできるもので、ZIPは任意の場所に展開して使用する。スタートメニューに登録できるのはインストーラの方なので、基本的にはインストーラを利用する方がいい。複数のPCを保有し、それぞれで使用する予定があるのなら持ち運べるZIP形式が便利になる。もっとも、要求容量はそこまで多くないので、連携時のパスの設定の面倒さもあるため、それぞれでインストールしてしまった方が管理は楽であるが。
ここではインストーラを利用する。公式サイトのトップページにアクセスし、すぐ右の「ダウンロード」をクリックする。なお、インストール時のスクリーンショットはv0.13.3である。

インストール自体は非常に簡単なので、敢えて説明することもないであろう。インストール容量については、最低でも2GBの空きがあれば余裕でインストール出来る。ただし、今後新たな音声パックが追加された場合は、要求される容量は大きくなるはずなので、今後の更新でどうなるかを注視しておく必要があるだろう。ちなみにアップデートは最新のインストーラをダウンロードしてそれを実行すれば、自動でアップデートデータを適用してくれる。
音声モデル選択と文字入力による読み上げ
開始したら、標準では「四国めたん」のノーマルがセットされた、何もない状態の画面が現れる。この状態でテキストボックスをクリックすると、編集画面になり、ここで任意の文字を入力すると、画面下側にアクセントのグラフが表示される。この状態で再生ボタンをクリックすれば、読み上げてくれるようになっている。殆どはそのまま読ませれば普通に喋るのと同じように読み上げてくれるものに仕上がっている。まずは参考動画が以下である。
任意の文字を入力すれば、それに応じて自動で解析が行われ、アクセント、イントネーション、長さが「人間の喋りに近い形」でパラメータがセットされる。そのまま再生すれば、殆どが思っている通りの喋り方で読み上げてくれるはずである。その上で、聞いている時に違和感を感じた場合は下の読み方を調整するか、右のパラメータを調整することで自分好みに調整することができる。
基本的に、1つの読み上げ枠に対して文章は1つか2つまでが最適で、長くなる場合は別枠で切った方がいい。その際は右下のプラスマークから新しいモデル音声とテキストボックスを作成できる。モデル選択はアイコンをクリックすることで、選択可能なモデルを一覧から選択して使用することができる。それぞれ声質は異なるので、試聴したい場合は「設定/キャラクター並び替え・試聴」を開くことで試聴可能である。これを基にして、使用する音声モデルを選択していくといい。
様々な調整ができるVOICEVOX
VOICEVOXは任意の文章を入力すればすぐにでも読み上げが可能である。ただ、文章によっては妙にアクセントやイントネーションが違う気がする、という微妙な違和感を覚えることはあるはずだ。いくらAIと言えど、人間と同様に完璧ではないので、その場合は各種読み方のパラメータを調整することで、求めている読み上げ方に調教調整することができる。
アクセントは接続詞と句読点または空白を基準に文章が区切られ、それに合わせて強調部分をAIが決定する。アクセントは原則として1つしか強調できないが、文章によっては2つ以上のアクセントとなる読み方が必要なこともあるはずだ。その場合は読み方(カタカナ表記)の部分の、分離したいカタカナの空白をクリックすることで文を分離することができ、2つの読み方の文にすることができる。殆どはこれで自然な読み方に調整できるが、それでも違和感を感じるならイントネーションや長さを調整することで対応する。ここは通常は変更しなくていいものなので割愛する。
右側のパラメータは、喋り方を変えるものになる。それぞれの設定は次の効果がある。
- 話速:喋るスピードを変更する。1.00がデフォルトで、0.50~2.00の範囲となる。
- 音高:声の高さを変更する。0.00がデフォルトで、-0.15~0.15の範囲となる。
- 抑揚:感情をつけるかどうかを決定する。1.00がデフォルトで、これは普通に喋るときの感覚に一致する。0.00~2.00の範囲で、0に近付くほどロボット調になり、2に近付くほどくどいくらいにアクセントをはっきり言うようになる。
- 音量:音量を変更する。1.00がデフォルトで、0.00~2.00の範囲となる。0.00では完全に消音なので読み上げる意味がないが。
- 開始無音・終了無音:再生開始および終了時、「余白」を入れるかどうかを決定する。デフォルトは0.10で、0.00~1.00の範囲である。再生するとすぐ読み上げる/終了するか、或いは少し間を置いてから開始/終了するかの違いとなる。
- イントネーション、長さを含むパラメータ類は、マウスホイールを使うことで0.10単位で変更できる。
無料枠の場合の大抵の読み上げソフトは、パラメータの調整が行えることは少なく、ただ読ませることしかできないのが多い。VOICEVOXはパラメータを調整可能で、感覚的にも数値的にも調整できるようになっている。決して設定できる項目は多くないものの、逆に普通に使うにはこれくらいで丁度いいものになるであろう。
音声の書き出しや内容の保存も可能
読み上げソフトで読ませた文章について、それを動画制作で使用したいと考える人は多いはずだ。その場合は直接録音するよりも、単独のファイルとして出力した方が編集時に使いやすくなるはずである。VOICEVOXは制作した読み上げ音声についてはwav形式で出力することができるようになっている。その際、出力ルールを決めることができる。とはいえ、wavはファイル形式としては容量を圧迫するものなので、テキストデータで書きだしておくこともできる。また、プロジェクトそのものも保存できるようになっている。具体的には以下の通りである。
- 音声書き出し系
- 音声書き出し(ctrl+E):全ての音声を書き出しする。書き出し先のフォルダを指定して、「フォルダーを選択」で書きだす。
- 一つだけ書き出し(E):選択中の音声を書き出しする。右向きの三角形(▶)が表示されているものが選択中の音声となる。
- 音声を繋げて書き出し:全ての音声を1つのwavファイルにまとめて書きだす。
- テキスト書き出し系
- テキストを繋げて書き出し:テキストファイルに音声モデル情報、文章をカンマ区切りと改行で出力する。
- テキスト読み込み:上記形式のものを読み込む。形式に沿わない場合はVOICEVOX側がなんかいい感じに解釈して読み込むため、読み込みエラーにはならない模様。
- プロジェクト書き出し系
- 新規プロジェクト(ctrl+N):現在のプロジェクトを廃棄し、新しいプロジェクトを開く。
- プロジェクトを上書き保存(ctrl+S):プロジェクトを上書き保存する。
- プロジェクトを名前を付けて保存(ctrl+shift+S):プロジェクトを名前を付けて保存する。拡張子は専用拡張子(.vvproj)である。容量が重め。
- プロジェクト読み込み(ctrl+O):プロジェクトを読み込む。
このようになっており、これ単体で書き出しが可能なのはかなり大きな利点となる。外部ツール不要で出来るのは、コンテンツ制作においては負担軽減になる。また、内容を2通りの方法で保存することができ、文章のみが欲しい場合はテキストとして、読み方を加工した情報を残しておきたい場合はプロジェクトを保存することで、それぞれ対応することができる。当然のことながらプロジェクトの方がテキストデータより容量が大きいので、大掛かりなプロジェクトの場合はMB単位で占有するので注意が必要である。
他にも多数の機能があり、ツールバーをカスタマイズできたり、読み方とアクセントの辞書登録ができるなど、できることは多岐にわたる。このあたりは実際に使用して確かめてもらいたい。
ゆかNEOとわんコメで使うVOICEVOX
今まで書いてきたのは、VOICEVOX単体で使う場合についてである。これだけなら、解説することはなかった。ではなぜ解説しているかというと、既に多くの人におなじみとなったゆかりねっとコネクターNEOとわんコメでは、VOICEVOXによる読み上げ連携に対応しているためである。読み上げは主にコメントを読ませるために使用するが、使用にはゆかNEOと連携が必要になる。そこで、設定方法から実際に使用した結果を解説していく。解説にあたり執筆時のバージョンは、ゆかNEOはv2.0.48(読み上げ連携プラグイン v2.4), わんコメは4.1.1である。また、連携に関する基本部分は理解しているものとして省略する。
スポンサーリンク
スポンサーリンク
準備:ゆかNEOとわんコメでVOICEVOXを指定する
設定するにあたって、あらかじめVOICEVOXは起動しておく。これは各ツールで起動時にVOICEVOXへの問い合わせを行うためで、レスポンスを受け取れなかった場合読み上げエンジンとして認識されないためである。起動した状態でさらにゆかNEOとわんコメを起動したら、次の手順で設定していく。
- ゆかNEOの設定
- プラグイン一覧から「読み上げ連携プラグイン v[number]」を探し出す。これにチェックを入れ、設定を開く。以下の項目が設定可能である。
- 本文の読み上げを行う Read the text aloud:音声認識結果及び翻訳を読み上げるかを決定する。これにチェックを入れると、字幕と翻訳を結果を読み上げるようになる。
- 使う読み上げエンジン Engine:使用するエンジンをプルダウンメニューから選択する。
- 読み上げる内容 Speak about:読み上げる対象を選択する。母国語のみ、翻訳のみ、両方が選択できる。翻訳は1番のみ読み上げる。
- 出力先 Output to:音声の出力先をプルダウンメニューから決定する。ヘッドホンやスピーカーに出力する場合はデスクトップ音声として、仮想オーディオデバイスの場合は単体のソースとして取り込むことになる。
- かわいい語尾(Last words):入力した言葉を結果の最後につけて読み上げるようになる。
- ひらがなベースの読み上げ Use Hiragana(IMEが対応しているときのみ):IME辞書を使って漢字をひらがなに直して読み上げる。
- アルファベット読み上げフォロー Use Speech Assist(VOICEVOX系でおすすめ):英語が読めない場合それっぽく発音するように置き換える機能。VOICEVOX系は長い英単語を正しく読めないことが多いので、この設定が必要になる。
- 発話エンジンのIPアドレス(Engine’s IP):エンジンが同一PC上に存在するならlocalhost(127.0.0.1)、それ以外はそのPCが使用しているIPアドレスを入力する。殆どの場合、同一PC上で全て動かすはずである。
- パラメータを設定する(Use Custom Configuration):チェックすると調整可能になる。VOICEVOXの場合、読み上げに関するパラメータ調整はVOICEVOXからはできないので、代わりにここから調整を行う。文章単位での管理はできないが、読み上げ全体の調整は可能である。右のプルダウンメニューは気にしなくていい。パラメータを戻す場合は「パラメータリセット(Reset)」で行う。
- 他の機能の解説は公式ドキュメント参照か卯塚ウウ(うーちゃん)に聴くこと。
- プラグイン一覧から「読み上げ連携プラグイン v[number]」を探し出す。これにチェックを入れ、設定を開く。以下の項目が設定可能である。
- わんコメの設定
- 「メニュー/連携」を開き、「ゆかりねっとコネクターNEO/Trans-through」がWS接続になっていることを確認する。デフォルトで52000番を使用する。その下の「読み上げ連携(WebSocket接続時のみ可)」にチェックを入れる。
- 読み上げボイスは任意のものをプルダウンメニューから選択する。基本はこの設定だけでOKである。
- 「複数言語翻訳(バージョン2.0以上が必要です)」は、既に殆どの人がゆかNEOを2.0以上に更新していると思われるのでチェックを入れておいた方がいい。チェック後、任意の配信の「翻訳」またはコメントを取得したユーザーの「翻訳」のプルダウンメニューから翻訳したい言語(日/英/中(繁)/中(簡)のみ)を2つ選択する。この時選択順が重要となり、例えば日本語、英語の順で選択した場合、そのコメントが日本語以外であれば日本語へ翻訳、日本語なら英語へ翻訳するようになる3)参照:【翻訳/読み上げ】 | わんコメ – OneComme | 配信者のためのコメントアプリ 複数言語翻訳の項にある。。3つ以上の場合、先に選択した言語に優先して翻訳されるので、実は3個以上選択する意味はあまりない。
- 読み上げ言語:読み上げる言語を指定する。これを設定した場合、読み上げタイプはグレーアウトする。
- 読み上げタイプ:翻訳のみ・本文のみ・本文+翻訳の3つから選択する。翻訳は翻訳されていない場合、代わりに本文を読み上げる。読み上げ言語の設定をしている場合グレーアウトで選択できなくなる。
- 読み上げできるかどうかは、読み上げプレビューをクリックすることで確認できる。これで読み上げがされなかった場合、設定を見直して再度プレビューを行うようにする。
- 「メニュー/連携」を開き、「ゆかりねっとコネクターNEO/Trans-through」がWS接続になっていることを確認する。デフォルトで52000番を使用する。その下の「読み上げ連携(WebSocket接続時のみ可)」にチェックを入れる。

設定項目自体はそれほど多くなく、注意すべき点はゆかNEOを経由しないと読み上げ音声を適用できないこと、パラメータ調整はゆかNEOから行う必要があることであろう。そもそも、翻訳するにはゆかNEOとの連携が前提でもあるので、既に翻訳目的で連携している場合は後からVOICEVOXを入れるだけで完了というのは楽である。設定も難しくないので、この手の設定が苦手な人でも安心だ。
使用:読み上げを実際に行う
実際に使用して読み上げを行う。ここではコメントテスターによる検証と、妹ちゃんのTwitchに自分でコメントを行い、そのコメントを取得した際に認識し、読み上げができるかを確認していく。その結果である、実証動画が以下である。
前半はコメントテスター経由、後半は実際のTwitchのコメント欄に自分で入力したものをわんコメで取得した際のものである。コメントテスターの場合は読み上げもする機能があるほか、コメント欄から読み上げの設定ができるので読み上げできるのは当然である。ここではあくまでも機能確認のものでしかない。
なので、配信こそしていないがTwitchはいつでもコメントを打ち込めることを利用して、実際にコメントを打ち込んでそれを取得する形で確認した。その際は翻訳を「日本語、English」にセットし、読み上げをONにした状態で接続する。また、読み上げは日本語のみに設定している。この設定でコメントを日本語と英語の両方で入力すると、日本語だけ読み上げしていることが確認できるはずだ。実験中は何故か音声が途中で途切れることがあったものの、使用には概ね問題はないはずである。読み上げがあれば、コメントを耳で感知できるので、手と目を離しにくいFPSなどで役に立つはずだ。
読み上げをプラットフォーム別で分ける
ゆかNEOとの連携中は、読み上げ音声をプラットフォーム別で変えることもできるようになっている。これはうーちゃんが実際にやっている方法である。各配信枠の設定行の「読み上げ」スイッチの横にある歯車マークをクリックすることで、わんコメ本体の設定とは別で読み上げ音声を指定できるようになっている。この設定は本体設定よりも優先されるようになっている。
これを利用することで、同時配信においてどのプラットフォームのコメントを取得したかについて、配信者がわかりやすくなる。先も書いたように、目を離す隙が無いときの読み上げ音声は便利であり、さらにプラットフォーム別で変えておけば、どこからのコメントかを見なくても判別することができるようになる。使用した音声を覚えていく必要はあるものの、これで画面を見ることなく反応を返すことができるようになる。
音声の利用規約はそれぞれのキャラクターの規約による
VOICEVOXで注意したいこととして、無料でこそあるがこれはキャラクターものである。つまり、規約が必ず存在し、しかもその規約はVOICEVOXとしての規約ではなく、そのキャラクターの制作元の規約に従わなければならない。残念なことにVOICEVOXはそれらの音声を採用しているくせに規約リンクを全て貼っていないので、その点ではユーザーフレンドリーとは言えない。
VOICEVOXに搭載されている中で明確に判明しているのはずんだもん・四国めたん・九州そらで、これらは東北ずん子公式サイトのこのページに利用規約が掲載されている。そのページによれば、クレジット表記があれば非商用・商用問わず利用可能であるということが書かれている。表記ルールはソフトウェア名とキャラクター名が分かるようにすることで、これに従えば以下の通りになる。
- ずんだもんの場合:VOICEVOX: ずんだもん
- 四国めたんの場合:VOICEVOX: 四国めたん
- 九州そらの場合:VOICEVOX: 九州そら
それ以外のキャラクターについては、それぞれのキャラクターで検索した先の公式サイトをあたり、その中の利用規約を探し出してそれに従うことである。しかし中にはその規約がややこしい、制限がきついものも無きにしも非ず。よってそれらの規約が面倒だと思うのなら、VOICEVOXを使うことは推奨できない。そこは自分の理念と相談である。
遊びにも創作にも使えるので、まずはここから始めよう
読み上げ音声は、主に動画制作と配信で使われるほか、聴覚サポートの1つとしても利用される。商業にも利用するほどに実用的な性能を求めるのなら企業がしっかり作り込んだ製品版が必要になるが、それは往々にして高額で、個人が手を出すには少々ハードルが高い。その対極に位置する無料の読み上げソフトは、導入は簡単だが性能は据え置きであることが殆どで、良くも悪くも「機械的な音声」でしかない。今まではそれ以外になかったというのが一般的であった。
それを変えたのがVOICEVOX(製品版)で、OSS版VOICEVOXをベースに著名な合成音声キャラクターを入れたもので、製品版とありながら無料で使用でき、性能も殆どのユーザーが満足するほどの自然な読み上げができる仕上がりである。商用利用に関してはそれぞれのキャラクターの利用規約に従うものとして、今まで読み上げソフトを使ってこなかった人は、その入門としてはお勧めできるものである。
また、ゆかりねっとコネクターNEO、わんコメでも使用することができる。この2つは同時に使っている人が多いはずなので、連携機能を使えば音声認識結果(+翻訳)とコメントの読み上げが簡単に行えるようになる。導入も簡単、遊びにも創作にも使えるこれから、合成音声デビューしてみよう。
以上、VOICEVOX使ってみた!~無料なのにボリュームたっぷり~であった。次はどの音声で読み上げしようかな?
KIBEKIN at 00:00 Jan. 4th, 2023
スポンサーリンク
脚注
本文へ1 | 参照:【特集】音声合成ソフトの進化がすごい!無料で使えるVOICEVOXや有料のVOICEPEAKを試してみた – PC Watch ここに軽い歴史解説がある。 |
---|---|
本文へ2 | あるアナログ信号が、サンプリング周波数と量子化ビット数の2つのサンプリングデータに基づいてディジタルデータ化されたものである。PCで扱う音声データは原則PCMデータとなる。 |
本文へ3 | 参照:【翻訳/読み上げ】 | わんコメ – OneComme | 配信者のためのコメントアプリ 複数言語翻訳の項にある。 |