【声を文字に起こして】弱小配信者奮闘記:ゆかりねっとで字幕を反映する

この記事の概要を簡単まとめ!

  • 回線弱者KIBEKIN、稀に1Mbpsも出ない状況下で配信する
  • 音声を「出しにくい人」は音声を字幕にするという方法
  • 字幕に変換するアプリケーションに「ゆかりねっと」がある
  • ゆかりねっととは別に様々なサービスと連携するゆかりねっとコネクターがある
  • 字幕と翻訳を同時に試すため、KIBEKINが実際に設定してみる
  • インストールは簡単、しかしセットアップが難しい
  • 字幕の調整をゆかりねっとコネクター側で細かく調整していく
  • 実はゆかりねっとコネクターだけでも事足りる
  • ゆかりねっととの併用はVOICEROIDを使う場合など
  • UDトークと合わせて使う方法は次回記事で

回線弱者、それはインターネットにおける人権なしと同義である。配信という「趣味」であり「収益手段」でもあるこれを満足に行うには光回線が前提条件になるが、そうも言っていられないのが現実。しかし残念なことに殆どのルーターは上り速度を全く考慮していないものが多く、重要なのはそこじゃない!と何度もツッコミを入れたくなるほどだ。だが私は以前から言っている通り、金がない上に人脈も人望も人権もない嫌われ者。誰も助けてなどくれないから、与えられた環境でただひたすらにもがくしかないのだ。

そんな私は下心を隠さずに言えば金目的でやっているのだが、その道のりは嫌われ者である私にはとてつもない壁でしかない。最近はプライバシー保護のために声はなるべく出さないことにしているが、しかし無音というのは残念ながら誰も見ない条件に合致するものだ。ではどうするかといえば、声を読み取ってそれを変換し、字幕にすればいいのだ。

音声に合わせて字幕を生成し、それを画面に反映するというのは昔はできなかったことで、技術的に割と進んだ今だからこそできることである。とはいえ音声認識自体はいくら進化しても「個人差」までは完全に反映できないため、喋り方に癖があれば正しく認識してくれないのが玉に瑕というもの。しかしあるとないでは配信の見え方も大きく変わってくるというものである。今回はシェアウェアとなる音声認識アプリケーション「ゆかりねっと」と外部ツールの接続を可能にする「ゆかりねっとコネクター」。これ2つによって字幕を出す方法を探し実際に試したのである。その奮闘記をここに書き、備忘録と他の人への参考資料とすることにしたのである。

ブンブンハロー結月ゆかりモデルの字幕機能、どうもKIBEKINです。

配信と声と字幕

回線弱者KIBEKIN、稀に1Mbpsも出ない状況下で配信する

インターネット回線が存在しなければ、人権はない。それは現代ではごく当たり前であり、同時に私がこのブログで何度も書いてきたことでもある。しかし、単に「インターネット回線」について議論するだけであれば、その際に回線速度が問題となることはない。通常の使用方法においては回線速度が求められることはあまりないためだ。

では回線速度が求められる場合は何かというと、インターネットを利用した娯楽の場合だ。特にゲームと動画視聴には回線速度が高速であることはもはや前提であり、それがないならまともにゲームできないのと高画質で観ることができないという弊害が発生する。ゲームは外せないとして動画に関しては我慢すれば一応何とかなるものである。それは4Kテレビは不要と考える人に近いものがある。4Kになったところで汚さだけが拡大されるのと同じ、行き過ぎた綺麗よりもある程度の綺麗で十分だ。



ただ、一般的な話として回線速度を取り上げる場合、注目されるのはダウンロード速度だけである。アップロード速度について取り上げることは全くなく、寧ろ多くのプロバイダとルーターがそれを無視している。配信を行うには動画を「アップロード」する必要があるので、高画質の配信を行うにはこれが最低でも10Mbps以上は必須だ。しかし殆どは2Mbps以下が多い。コンテンツの新時代に到来しているというのに、コンテンツを提供する側のことを全く考えていないのはいかがなものかと思うが。

そしてその条件下にいるのが私だ。最低品質以下のアップロード速度をもたらしているのがかの悪名高きSoftbank Air、別名クソフトバンクダメダーという高級なゴミルーターだ。アップロード速度は良くて3Mbps止まり、ダウンロード速度も夜になるとガタ落ちになって満足のいく速度が全く出ない上に時々謎の接続不良が発生して回線が止まるという無能の極みである。そのためアップロード速度が1Mbpsも出ない状況下での配信を強いられる。したがって現在人気のマルチプレイ前提ゲームの配信など満足にできたものではなく、画質も満足に上げられないために配信者になることが環境によって不可能の烙印を押された存在である。環境ガチャは大ハズレで、そんな状況でも嫌われ者なりに配信しているという状況である。金が欲しいからだ。

音声を「出しにくい人」は音声を字幕にするという方法

さて、環境によっては他に家族がいて、稀に自分の部屋を持たないというタイプもいる。その場合はインターネット回線も部屋も「共有」を強いられるわけで、その状況下で配信するには非常にリスクがある。配信の定番であるマイクも全指向性(或いは無指向性)では周囲の音を拾ってしまうので、原則として自分の声だけを乗せたい場合にはこれは全く向いていないものになる。したがって通常は単一指向性(カーシオイド)か超指向性(完全に前方のみ)のマイクを使用する必要がある。現在一般的なものはエレクトレット素子を用いた単一指向性型のコンデンサマイクと、同様の構造で極性を正面にのみ向けたショットガンマイクまたは単にガンマイクが用いられる。とはいえいずれもダイナミック型と比較して高額になりがちで、正規メーカー品は1万円を超すことも珍しくない。なお、コンデンサマイクでも中国製を許容して安価で使えるのが欲しい人には、私が以前取り上げたM858(型)というマイクがあるのでそれも参照するといい。

しかし機材が揃っていてもやはり、音声を出しにくいということは十分考えられることだ。配信時間、配信者の周囲の状況、機材が揃っているかどうか。配信ができるのであればPCのスペックはクリアしているためそこは問題ない。その際に考えられることは、音声を「字幕化」するということだ。この時、字幕化は配信中にリアルタイムに字幕を出すことを意味する。配信中に配信者自身がチャットすることは難しいが、音声によって入力することもできることにはできる。ただし今回はその方法は考えない。

音声の文字化は前提としてマイクがPCに搭載されているか外付けで装備されていること、そして音声認識が可能であり、認識したそれを文字に起こすという作業を担うアプリが必要になる。とはいえ音声認識自体はOS標準機能として搭載されることが一般的になっており、Chromeをはじめとしたブラウザの検索時にも音声入力が可能になっているくらいであるので、開発者側がアプリ単位で導入することは容易になっている。

字幕に変換するアプリケーションに「ゆかりねっと」がある

さて、ボーカロイド(VOCALOID)というものがある。代表的な存在である初音ミク、と言えばボーカロイドの大体のことはおそらくわかるはずだ。とはいえ、肝心の私は世代にも関わらずボーカロイドに関しては全く知らないのである。それはともかく、発動機でお馴染みヤマハが送り出した革新的な「音声合成技術」のそれは様々に商品展開されていくようになり、ミク以降も新たにボーカロイドを制作する。その中のVOCALOID3ライブラリとして2011年12月22日に発売されたのが「結月ゆかり」だ。バージョンとしてVOICEROID2, VOICEROID+, VOCALOID4版も存在する。

合成音声によって「歌」を歌わせるVOCALOIDと入力した文字を読ませる「読み上げソフト」となるVOICEROIDの2つ。いずれも合成音声であり、それは元となる人の声をベースとして不自然にならないようにチューニングされ、普通に人が喋っている(歌っている)ように見せることができるというものである。今ではYouTuberの登場によって、そのYouTuberの「代役」としてそれを使うことがほぼ当たり前になっている。プライバシー保護の観点からすればある意味では賢い判断であると言える。自分のことを公開することがメリットに繋がらずむしろデメリットに繋がる現代では、身を潜めつつ結果を稼ぐには最適なものだ。



正直私には一体どのような差があるかわからないVOCALOID系だが、単純な「歌わせる」「喋らせる」に留まらずメディアミックスも積極的に行われ、同時に二次創作以降も盛んである。その中の1つである結月ゆかりも例外ではなかった。この手の物は特にニコニコ動画において盛んであったが、その中の投稿者の1人であろう、おかゆぅ氏が「結月ゆかりに音声認識した言葉を喋らせる」アプリケーションを開発したのである。それが「ゆかりねっと」である。分類はリアルタイム音声認識ソフトである。

目的としては結月ゆかりに、言ったことをそのまま字幕として出してもらうという形になる。ゆかりねっと自体には合成音声は存在しないものの、結月ゆかりをはじめとするVOICEROID, A.I. VOICE, CeVIO等の合成音声を利用することができる。これらは組み合わせることによって字幕+その合成音声による出力が可能なようにも設計されている。音声認識のレベルは高いようで、殆どの内容を正確に聞き取って変換することができるようである。極端な話、日本語字幕だけが要るなら字幕表示用にGBのウィンドウを表示させたうえで配信ソフトでクロマキー合成をしてやれば、ゆかりねっとだけでも事足りるアプリケーションとなっている。

ゆかりねっと起動中状態
ゆかりねっと単体を起動している状態。音声認識をONにするとゆかりさんと吹き出しのウィンドウが表示され、ここに認識したものが文字化する。OBSのウィンドウキャプチャなどでこれを映せばゆかりさんが喋っているように見えるわけである。

ゆかりねっととは別に様々なサービスと連携するゆかりねっとコネクターがある

ゆかりねっとの音声認識は優秀であるが、実は翻訳機能は持たない。そもそも翻訳に関しては辞書が必要だが、流石に膨大な量となる辞書をアプリ内に組み込めるわけがなく、基本的にはインターネットで翻訳サイトを経由した方が設計する側にとっても楽である。しかし翻訳を行うにも、原則としてコンピュータのリソースを消費する。また、翻訳APIについても基本的には有料のものが多く、無料のものも存在するが、その精度は明らかに有料のものに劣る。この話については実際に翻訳が関わるときに詳しく説明する。

ここ最近になって、配信というコンテンツは実は国際的コンテンツとなっている。それ故言語無関係に配信を見に来る人は多く、逆に母国語ではない人の配信を見たことがある人もいるだろう。しかし、全員が全員英語をペラペラに喋れるかと言われればそれは「いいえ」で、それはビジネスで英語を使っている人でも普段から英語圏の友人と英語で対面で話していたとしても、元々の母国語からすぐに英語に切り替えて喋るのは相当に高度な技である。それに、人間とは突然の事態にはなかなか対応できないものであるので、ずっと英語で話すということも難しいはずだ。

それに対応するため、字幕に加えて翻訳も行いそれを表示するアプリケーションがあり、それが「ゆかりねっとコネクター」だ。これはゆかりねっと作者のおかゆぅ氏とは別の人物であるNao氏によって作られたものである。前提としてゆかりねっとと接続することを考えてこの名前にしたのだろう。これも基本無料で使用できるが一部機能は「支援」という形で金を払うことで使用できるようになる形式を取っている金の無い私には縁のない話だが。

調べると、ゆかりねっとコネクターには外部ツールを用いた翻訳機能も搭載されており、これ単体でも外部の音声認識システム経由で音声認識が可能となっている。つまりゆかりねっとコネクターだけでも字幕と翻訳を表示するなら事足りるというものである。どうやらそのようなものがあるらしいと調べてわかった私であるので、声を出さず字幕を出すということを試したかったこともある。これと前述のゆかりねっとを組み合わせた字幕+翻訳を配信に反映させ、字幕が「正しく」表示されるか、文字の設定はOKか、表示スピードは適切か、翻訳は問題ないか。十分に使用できるまで様々な調整を行い、この記事で実際に使用できるまでに至った。それまでの備忘録と他の人への参考資料として、次項から書いていく。




ゆかりねっと+ゆかりねっとコネクター、設定備忘録

おかゆぅ氏のゆかりねっとと、Nao氏のゆかりねっとコネクター。この2つを使った日本語字幕+英文翻訳字幕を配信で実際に出すまでの手順と、配信時にどう映るかのテストまでを行った。なお、両アプリのインストールについては解説するレベルの難しいことはないため、既にインストールされているものとして話を進める。したがってここではインストール方法については省略する。その方法が知りたい人は各作者サイトを参考にするといい。

ゆかりねっと設定(字幕に関わる部分のみ)

まずはゆかりねっとの設定を行う。と言ってもゆかりねっとは音声認識のために使用するのが基本で、それ以外の用途はVOICEROID連動が主となる。とはいえ金のない私がVOICEROIDを持っているわけがないので連携については考えない。説明によれば連携させたいアプリケーションを選択することで各個の設定が開くらしいが、対応するものを1つも持っていない以上何もわからない。

ゆかりねっとを開いた上の方にはタブがあり、その上に音声認識を開始/停止/マイクミュートするキーがある。タブに関しては左から音声認識・字幕・フィルター・キー発声が左側に、プラグイン・設定・ゆかりねっとについてが右側にある。ここではゆかりねっとコネクターの接続を前提として字幕・フィルタ・設定のみを弄る。

ゆかりねっとコネクター向けの字幕・フィルター・設定

ゆかりねっとコネクターで使用するために、この3項目のいくつかを調整する。その手順は以下の通りだ。

  • 字幕:簡易字幕設定を開き、表示モードを結月ゆかりにセットするか、簡易字幕にセットする。ゆかりねっとのウィンドウとして字幕を使用したい場合は簡易字幕にセットして背景を緑などに設定した上で、字幕を細かく設定する。ゆかりねっとコネクター経由で字幕を表示する場合は結月ゆかりで問題ない
  • フィルター:何もしていなければ標準のプラグインがHTTP通信・写真連携・音源連携・ワード一括変換・ゆかりねっとコネクター転送の5個がセットされている。これらは認識した言葉に応じて通信・画像表示・音源再生・文字の変換を行うものと、特定ポートを指定してゆかりねっとコネクターと接続するものである。前4つは使い方が少々難しいものになる。ここでは解説は行わないが、使用しない場合は無効にしておくといい。なお、ゆかりねっとコネクター転送プラグインは通信ポートはデフォルトでTCP/50002を指定しており、ゆかりねっとコネクター側でもゆかりねっととの接続に同じポートを指定している。そのため、原則として設定を変更する必要はない
  • 設定:ここではGoogle Chromeの実行ファイルの位置の指定が正しく行われているかを確認する。インストール時に何も弄っていなければ、デフォルトでChromeがインストールされている場所が指定されている。無論Chromeがインストールされていない場合は何もない(はず)。なお、この部分は場合によっては使用したいサードパーティ製の音声認識アプリの実行ファイルを指定することができる。通常はC:\Program Files (x86)\Google\Chrome\Application\chrome.exeが指定されている
ゆかりねっとの必要設定画像
ゆかりねっと+ゆかりねっとコネクターの場合で必要な設定の画像説明。画像の通りにやっていればまず問題はない。Chromeが使えないPCを使っている人はいるのだろうか。

ゆかりねっとでは上記の設定を行っていれば問題ない。後はゆかりねっとコネクター側の調整を終えたタイミングで上にある開始/停止で制御すれば良くなるのである。

ゆかりねっとコネクター設定

字幕表示のメインとなるゆかりねっとコネクターの設定を行う。基本的な構造をおさらいすると以下の通りだ。

  1. ゆかりねっとで音声認識を行う(ここでマイクによる音声入力)
  2. 音声認識の結果を文字に出力する
  3. ゆかりねっとコネクター転送プラグインによって出力した結果をゆかりねっとコネクターへ転送する
  4. ゆかりねっとコネクター側の字幕設定及び翻訳設定に沿って、テロップ型表示のウィンドウでそれを表示する
  5. そのウィンドウをOBS等でウィンドウキャプチャ+クロマキー合成で取り込み、適当な位置に置いて字幕の完成

このような構造になっているが、このうち1~3はゆかりねっとが担当し、4, 5をゆかりねっとコネクターが担当する。したがってゆかりねっとコネクターの設定は4と5についての解説となる。と言っても4の比重が非常に高く、5はそこまで苦労することもなくできるので、字幕設定が解説の中心となる。




ゆかりねっとコネクター優先確認:通信ポートの確認

ゆかりねっとコネクターの”設定/通信設定”を選択する。ここには各通信ポートの設定ができ、ツール通信ポート・ゆかりねっと通信ポート・データ通信ポートの3つが設定できる。初期設定で何も弄っていなければ、全てTCPでツールが50002, ゆかりねっとが49513, データが65500で通信するように設定されている。

この時重要なのがツール通信ポートで、これをゆかりねっとのゆかりねっとコネクター通信ポート(TCP/50002)に合わせておくことだ。なお、私が確認した限りではゆかりねっとのゆかりねっとコネクター通信ポートの指定は、ゆかりねっとコネクター側の設定に従うものとなっていて、その値を変更すると自動で対応するようになっている。とはいえゆかりねっとコネクターはツール通信ポートのデフォルトを50002にしているため、特に弄ったり他に同じポートを使用するアプリケーションを実行していなければ、何の問題もなく使えるはずだ。

ゆかりねっとコネクター通信ポート設定
ゆかりねっとコネクターの通信ポート設定画面。赤枠の値が重要である。なお、ゆかりねっとコネクター側で値を変更してもゆかりねっと側は自動で認識して調整していることが分かった。また、設定を変更すると自動で変わる場合がある。

さて、ここまで確認出来たらゆかりねっと+ゆかりねっとコネクターでさらに翻訳も合わせて表示する場合の、字幕の設定と翻訳設定について詳しくチェックしながら設定を行っていく。

音声入力の手段確認

通信ポートに問題がないことを確認出来たら、音声入力の設定を行う。このとき、ゆかりねっとも確認のため起動しておく。その上で、次の設定を行う。

  • “音声入力/手段”の入力システムの一覧から”ゆかりねっとプラグイン経由で入力(Y)”を選択する。選択したタイミングでゆかりねっとが起動していれば、下のステータスが「=>準備ができました。」「音声認識ツールと接続OK」となり、接続が完了している
  • “音声入力/言語・その他/母国語の設定”が”44:日本語/Japanese”になっていることを確認する。英語を主言語とするならここを英語にする
  • 下のオプションはゆかりねっとコネクターだけで完結させる場合に使用する項目である。ゆかりねっとやUDトークを使用する場合には、この項目は無視していもいい
ゆかりねっとコネクター音声認識接続設定
ゆかりねっとコネクターの音声認識設定。ゆかりねっとと接続することが前提のため、ここでは”ゆかりねっとプラグイン経由で入力”を選択する。言語の設定で母国語が日本語であることを確認したら、この項はOKである。

上記の設定が上手くできているかどうかについては、ゆかりねっとコネクターの画面下部にあるステータスバーか、左の項目の”ステータス”から見ることができる。ステータスでは各機能の状態がOFF/ON/待機/エラーがそれぞれ色分けされており、うまくいっているかどうかについてはそこでも確認することができるようになっている。

翻訳設定確認:無料版はできることが限定されている

ゆかりねっとコネクターには翻訳に関する設定が行える。と言っても無料で使用する場合、翻訳可能な言語と使用できるAPIは限定されるため、気休め程度の翻訳しかできないというオチになる。とはいえ、翻訳は無いよりはマシというもの。その設定方法が以下である。

  • “翻訳設定/翻訳言語1/テロップ表示・多言語でつかう言語”の翻訳1(デフォルト)に英語をセットする。リスト表示でつかう言語については、今回のものには関係ないがとりあえず英語をセットする。無料では2~4は封印されているため無視していい
  • “翻訳設定/翻訳エンジン/翻訳エンジンの設定/翻訳システム”をプルダウンメニューからGoogle翻訳ライブラリ(google-trans/無料)を選択する。もっとも、無料ではGoogle翻訳以外使うことができない。DeepL API Free翻訳エンジン(無料)も使用することはできるものの、1か月に50万文字までしか利用できず、APIキーの取得も個人で行う必要があり、結局翻訳をフルに使用するには金の力が必要である。現実は非情だ
  • “翻訳設定/オプション/翻訳エンジンの設定”から、「翻訳回数はできるだけ減らしてAPI使用を節約」「翻訳文に捕捉分があれば省く」を有効にする。将来的にDeepLを使用するのであればチェックを入れておくといい。なお、デフォルトでこの2つにチェックがされている
ゆかりねっとコネクター翻訳設定
ゆかりねっとコネクターの翻訳設定。無料使用だとどう頑張っても英語以外は使えない。つまり金のない奴には人権がないということだ。しかし翻訳も無いよりはマシで、この通りに設定を行っておく。

上記の設定を行えば、粗末な翻訳となるが日本語を適宜英語に変換してくれるようになる。Google翻訳も最近はそこそこ精度は上がっているが、とはいえ所詮は機械翻訳の1つでしかない。上位互換となるDeepLも使えるには使えるが、そのAPIの1ヶ月制限を考えると、「趣味の範囲」の配信にしか向かない。したがって視聴者が全くいないようなことが想定されるのなら、Google翻訳に切り替えてお茶を濁した方がいいだろう。本格的に金を稼げるほんの一握りの配信者になれたのなら有料API使用を考えるべきである。

ちなみに翻訳を使用しない場合、”翻訳設定/翻訳エンジン/翻訳エンジンの設定/翻訳システム”のプルダウンメニューから「翻訳エンジンを使わない」にすると、翻訳を行わなくなる。翻訳が不要な場合はこうするといい。




字幕表示設定:ここで字幕の出方を決める

音声認識したらそれを文字起こしし、途中で翻訳を行うなら翻訳し、それを画面表示する。もっともそのためにやっているのだから表示されなければ意味がないが、そのまま表示してもただ使いにくいだけである。したがって”字幕の見せ方”で細かな設定を行うことで、配信で使う字幕にすることができる。ここの設定は初めて使用する人には少しばかりややこしいものになっている。しかし以下の手順を踏めば、迷うことはないはずだ。

  • “字幕の見せ方/共通設定”、項目が多いが調整すべき点は1つのみ。”投影時間/現在の表示待ち時間”を変更するだけである。これは1~6000[ms]の範囲で任意の値を設定できるが、1000ms以下では認識処理や翻訳の時間を考慮して自動で補正が入るため、1000ms以下にする意味はない。なお、待ち時間を短くするとそれだけ字幕も早く消えるようになるので、字幕が消えるのが早いと感じたら遅めにすること。ちなみに、ちょい速/ちょい遅は250ms単位で増減する。そして、投影時間より下の設定はデフォルトで問題ない
  • “字幕の見せ方/テロップ”で、基本設定から字幕の基本配置設定を行う。文字の配置を「左」、名前の表示を「表示しない」、翻訳を「2-母国語・翻訳 両方」にセットする。背景は任意の色をセットする。一般には緑が多い。他の設定に関しては画像の通りに行えば問題ない
  • “字幕の見せ方/テロップ条件”では、条件名は無視しても構わない。翻訳は英語にセットしておく。その下に文字色・縁・影を設定できる項目があり、縁と影はpx値が設定できるため、字幕をテスト表示しながら調整していくといい
  • その下の文字の位置は、左詰めを基本とする場合は左右のバーを左いっぱいにする。上下はウィンドウからはみ出ないよう字幕を出しながら調整する。これは母国語・翻訳共に同じでOKだ。ここで行間設定が重要で、これは両者とも同じにしておく。この設定を間違えると字幕の表示がおかしくなるためである。具体的な症状として、字幕の文字の色が指定した色にならない現象が起き、これについてはかなり悩んだものである
  • 上記より下の項目については、「フォント」の項目のみチェックする。ここで母国語・翻訳それぞれで使用するフォントとその大きさを1px単位で調整できる。この項目も字幕をテスト表示しながら調整するといい。それ以外は基本的に使用しないので問題ない
ゆかりねっとコネクター字幕関連設定
ゆかりねっとコネクターの字幕関連設定。基本的にはこれらの項目について画像の通りに設定していけば問題ない。他の項目はここでは無視する。

字幕表示の設定は無料でゆかりねっと併用の場合を前提としており、基本的にこの通りにやっていけば問題ない。この画像にない部分については、ここでは設定を行わないことであるので無視する。無視した項目については必要になった場合、各自で調べて調整すること。

なお、翻訳精度に満足しない場合は辞書を自分で作成して調整することができるが、今回は単純に字幕を出すことを優先するため、この部分は一旦考えないものとする。

字幕を実際に表示:その設定は確かに反映されているか

ここまで設定できたら、ゆかりねっとコネクターの右上のアイコン欄から字幕アイコン(あいうaiuと書かれているもの)をクリックする。すると、名前が「テロップ型表示」のウィンドウが出てくるはずだ。表示されるウィンドウの大きさはそれぞれ異なるが、ウィンドウサイズロックを設定していないのであれば自由に大きさを変えられる。後述のOBS取り込みの際はウィンドウサイズロックをしない方が制御しやすいのでそのままにしておくこと。

さて、テストしたい場合はマイクを接続してゆかりねっとの音声認識をONにしてやってみるのがいいが、音声を出しにくい状況であったりマイクがないことが想定される。その際でも字幕が出せるようにゆかりねっとコネクターの下側に手動で文字を入力して字幕を送信できる欄がある。それを使うことでも字幕を表示することができる。実際にそれを使用して表示をした例が以下である。

 

この動画のように、入力して送信してから表示されるまで3秒のラグがあるが、これが「表示待ち時間」が反映されている証拠となる。もし字幕が消えるのが早い、字幕が見切れてしまっている、翻訳と位置が近すぎる、文字サイズが微妙。そう思うことがあれば調整後にテスト送信して、その表示が改善されているかを確認する。理想的な字幕表示が完成するまで、何度でも使って細かく見ていくといいだろう。

スポンサーリンク




スポンサーリンク

字幕を(SL)OBSに反映:ウィンドウキャプチャの応用

さて、理想的な字幕ができたら実際にOBSに取り込んで、字幕として機能させる。なお、使用するのはOBSの配信関係の機能の強化版となるStreamlabs OBS, 所謂”SLOBS”での使用を前提とする。したがって通常のOBSのWebSocketを利用した字幕の表示とその解説は行わないので注意。最近の配信者は殆どがSLOBSを使用している傾向があるのでそれ向けの方が解説としては需要があるためだ。また、SLOBSについては既にインストール済みで十分に使用できるものであるものとする。

先ほど、「テロップ型表示」のウィンドウを出して字幕を表示させていた。OBSにはウインドウキャプチャの機能があり、特定のウィンドウにフォーカスして、それだけをキャプチャできるものだ。つまりそのウィンドウをOBSでキャプチャしてやれば、配信に字幕を反映させてやることができることになる。ただ1つ問題があり、そのままウィンドウをキャプチャしてしまうと背景も一緒にキャプチャしてしまうことになるので、せっかく構築した配信画面に不自然な色が混ざってしまったり背景の一部を覆ってしまうことにもなってしまう。そこで必要になってくるのがクロマキー合成である。

配信に字幕を透過させて反映する方法については、以下の通りに行う。

  • 任意のシーンでソースから「ウィンドウキャプチャ」を選択し、「代わりに新しいソースを追加」から任意の名前を入力して追加する。キャプチャ対象の設定は「[Machan_YukarinetteConnertor.exe]: テロップ型表示」で、キャプチャ方法を自動、一致優先度は「タイトルに一致する必要があります」にセットする。カーソルのキャプチャはOFFにする
  • 追加した該当のソースに対して右クリックのメニューから”フィルタ/Edit Filters”を選択し、その画面からAdd Filterをクリックし、フィルタータイプからクロマキーを選択する。名前は任意。追加後、”色キーの種類”を背景の色に選択して透過を行う。色は直接スポイトで選択も可能。それ以外の項目は特に変更する必要がない
  • 設定を完了すると、下の画像左のように今まで背景込だったものが透明になっていることが分かる。この状態になれば設定完了である
ゆかりねっとコネクターのウィンドウをSLOBSで設定
ゆかりねっとコネクターのテロップ表示をSLOBSでクロマキー合成までも含めて反映させる設定とその手順。この画像の通りにやっていけば、字幕と翻訳を綺麗に反映することができる。

ここまでの手順を踏めば、字幕+翻訳を配信の画面に乗せることができるようになる。ところでウィンドウ幅の調整であるが、これはOBS側で調整するよりも字幕を表示しているウィンドウを直接調整した方がいい。そうすることで字幕の文字が微妙にかすれたりはみ出してしまうということはなくなる。また、先の”字幕の見せ方”での字幕の大きさと位置関係の調整もその方がしやすくなるので、調整する場合はゆかりねっとコネクター側でやるといいだろう。

TIPS:実はゆかりねっとコネクターだけでも事足りる

音声入力のところで気付いている人はいるであろう。実は字幕も翻訳もゆかりねっとコネクターだけで完結することができるのである。それは音声認識にChromeとEdgeがあるためだ。この2つのうちどちらかを使えば、後は翻訳設定を任意に設定すれば字幕表示をすぐにでも始めることができるというものになっている。つまり、無理にゆかりねっとを使用する必要がない。

ではゆかりねっとを使用する理由は何かということだが、高精度の音声認識を利用する場合やVOICEROIDと連動させて音声を「発音させたい」場合には必要になる。今ではVTuberに必須ツールともなりつつあるVOICEROIDないしそれに準じた「声を変える」アプリケーションの存在、それを使用するとともに字幕も出し、そして国際的に攻めるなら翻訳も出す。それを同時に行うには、「ゆかりねっと」と「ゆかりねっとコネクター」の2つを同時に使うべきであり、逆にこれを上手く使いこなせれば、配信の装飾は完璧なものになるであろう。




ゆかりねっと+ゆかりねっとコネクター=字幕は99%完成

回線弱者で嫌われ者である私は、声を出しにくい環境であることも影響してあまり声を出さない、配信者無音プレイをしばらく行っていた。しかしそれでは味気なく、下心丸出しで金のためにやっているとはいえ何の面白みもない配信の映像になってしまっていることは、自分でも薄々わかっていた。そんな中で思いついた、音声認識を利用した字幕表示。それはかつて誰かがVアバター+読み上げ+字幕をやっていたのを1回くらいか見ていた記憶があり、そこからヒントを得たものである。声を「代行」するという意味では、利口というべきか。

その過去の記憶と、配信と字幕というキーワードから上がってきたのがゆかりねっと、ゆかりねっとコネクターだった。前者はVOICEROID等の音声アプリケーションとの連携に強く、後者は字幕と翻訳に強い。別々の開発者によって作られたものであったこれはいつしかそれぞれが連携可能になっており、この2つを同時に使えば現在のYouTubeの投稿動画ないし配信で見られる、現実の人物は一切出ないようなものを作れる。これの是非については問うことはここではしないが、もし今更ながらに参戦したいというのであれば、これらを使うことは必須とも言える。しかし設定方法が分からないと詰むので、ここで基礎を学び、そこから独学で進んでいくといいだろう。

ちなみにUDトーク経由で字幕+翻訳もできるのだが、それもここに書こうとすると膨大な量になってしまうことが発覚したためやむなく別記事として掲載することにした。その情報については完成次第公開する予定である。

 

以上、弱小配信者奮闘記:ゆかりねっとで字幕を反映する、であった。それでは、次回の記事で会おう。ン、バァーイ!

 

KIBEKIN at 00:00 Dec. 15th, 2021


スポンサーリンク




KIBEKIN
会社員という働き方が合わないのに会社員になってしまってから、半ば自分からリタイア後ブログクリエイターとなり活動してきた社会不適合者。今後の活躍の約束とHIKAKINリスペクトの意味を込め、リンクス岐部からKIBEKINに改名した。

コメントを残す

メールアドレスが公開されることはありません。
名前は必須項目となります。記入をお願いいたします。

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)