【完璧な字幕を目指して】弱小配信者奮闘記2:UDトークも使ってみた!

この記事の概要を簡単まとめ!

  • 前回記事でゆかりねっと+ゆかりねっとコネクターで字幕表示を行った
  • その2つだけでも十分だが翻訳精度は期待できない
  • ゆかりねっとコネクターは他のアプリとも接続可能である
  • 音声を認識し文字変換と翻訳を同時に行うUDトークとも接続できる
  • UDトーク側で喋り、ゆかりねっとコネクターに結果を送信する形式
  • 必要なのはスマートフォン1台、あるいはスマホエミュレータ
  • 翻訳精度については問題なし、しかしそれは取り込めない模様
  • UDトーク側の設定で特定の単語を容易に変換登録できる
  • 無料版は継続して喋れるのは30分、だが接続し直せば問題なし
  • 字幕精度の高いUDトーク、誤認識を少なくしたいならこれ

どの世界も奥の深いものである。入りのきっかけは何でもよく、それこそちょっと気になったレベルのものでもOKなわけで、そこから新しい世界が始まる。その反面、一度沼にはまってしまえばそれはもう無限に沈んでいくだけである。記事のネタにするためだけだったのに、いつしか何かに憑りつかれたように熱心に調べるようになって、人並みに使えているということがあるためだ。不思議なものである。

ところで前回はゆかりねっと+ゆかりねっとコネクターで字幕と翻訳をする方法について、設定とその手順、そして配信に反映するまでを書いた。この2つのアプリケーションはよくできており、設定が正しくできていれば配信で使うことができる。コンデンサマイクと発音の良さがあれば、日本語字幕は綺麗に出すことができる。しかし翻訳は無料ユーザーには残念ながら使用できるAPIに制限があるせいで、翻訳精度は低いものになり使えたものではない。

しかし無料でもその問題を解決する方法がある。それが音声認識によって文字化を行い、同時に割と高精度な翻訳も可能なiOS/Androidアプリ「UDトーク」を利用した、ゆかりねっとコネクターによる字幕+翻訳出力である。UDトーク自体はある制約さえ目をつぶれば無料で利用でき、前回記事の方法よりも翻訳精度の高さもあって使いやすいものとなる、はずだった。字幕は満足だったが翻訳精度には満足できなかった私がとる2つ目の手段となるUDトーク+ゆかりねっとコネクター。ここにもまた、その奮闘記を書き、備忘録と他の人への参考資料とすることにしたのである。

ブンブンハロー文字起こしアプリとゆかりねっとコネクター、どうもKIBEKINです。

配信のための字幕の構成

前提:前回記事の知識が要る

この記事を読む前に、ゆかりねっと+ゆかりねっとコネクターで字幕と翻訳を行った前回記事についてここで紹介しておく。読みたい人は以下にリンクを掲載するため、読むといい。

読みたくない人のための概要も一応書いておく。上記ではおかゆぅ氏制作のゆかりねっと、Nao氏制作のゆかりねっとコネクターを連携させて、ゆかりねっとで音声認識を行い文字データへ変換→そのデータをゆかりねっとコネクターへ転送→ゆかりねっとコネクターで翻訳を行い、日本語字幕と共に別窓で字幕表示→それをOBSのウィンドウキャプチャとクロマキーのフィルタで取り込む、という形である。ただし無料で使用する場合は翻訳は原則としてGoogle翻訳しか使えず、その翻訳精度はお察しの通りでしかない。DeepLも無料で使用できるものの、API取得を自力で行う必要があり、1ヶ月50万文字の制約もあるので、快適に使うには金が必要である。所詮金の世界だ。



字幕の設定は基本的にゆかりねっとコネクター側で行うものとなる。その設定方法に当初は手間取っていたが、設定すべき項目を抑えると問題なく設定できるようになった。その際に日本語字幕と翻訳(英語)字幕のそれぞれのフォントと表示する位置を調整し、ウィンドウ幅自体を動かすことでOBSで表示する方の大きさを制御するという方式を取っている。これによりOBSで拡大縮小することによる字幕の可読性を失うことを避けつつ、見やすい字幕配置を行った。基本的な字幕と翻訳についてはこれで十分となる。

翻訳精度問題:その2つだけでも十分だが翻訳精度は期待できない

前回記事を見てくれた人はしっかりわかっていることであろう。字幕と翻訳の表示は確かに行えていて、見た目にも綺麗にでき、発音さえしっかりしていれば喋った通りに表示してくれるものになっている。翻訳はインターネットを経由する関係から時間を置く必要があるため、字幕の表示にはおおよそ2~3秒の余裕を持って表示をあえて遅らせるのがちょうどいい。これは字幕が消える時間も含めてのもので、あまりにも早すぎると読み切る前に字幕が消えてしまうことがあるためだ。視聴者に対する配慮を考えながら設定するのもまた配信者の務めである。

ただ、使っていて1つ問題があった。それは翻訳が無料のもの(Google翻訳)であるが故、どうしてもその翻訳精度は劣るというものだ。特に話し言葉をそのまま文字に起こし、それを翻訳しようとすると、Google翻訳は混乱してしまうのか全く頓珍漢な翻訳をして、日本語の意味と英語の意味が全く通じないようなものに翻訳してしまう。極端な例、長文の「話し言葉」の日本語を翻訳した結果、たった一単語のまるで意味が通じないような翻訳結果を出力することがあった。Google翻訳自体の精度が上がっても、やはり「限界」があるようだ。

もっともそれは無料で使用している以上仕方ないことであり、文句を言える立場にはない。それが世の常だ。とはいえ翻訳が思ったようにされないと、使っている側としては意味が伝わっているかどうかが不安になってしまう。下手をすれば誤解もされかねないわけで、翻訳が火種のきっかけとなってしまうのなら翻訳を使わない方が安全である。そう考えたとき、翻訳とは一体何だったのかを考えさせられる案件となってしまう。

ゆかりねっとコネクターは他のアプリとも接続可能である

ゆかりねっとコネクターについては、この記事を読んでいる人ならそれが何であるかわかっているはずだ。簡単に言えば、様々な音声認識可能なアプリケーションと接続し、接続したアプリケーションからの音声認識の結果をゆかりねっとコネクターが受信して字幕と翻訳の処理を行うものである。翻訳については翻訳API(インターネット経由)に対してゆかりねっとコネクターが間に入る形で行われることが多く、「コネクター」の名前がつく通り仲介者の存在である。また、別の制作者のものである「ゆかりねっと」の名前があるため、ゆかりねっとと接続するために作られたのであると言える。

さて、そんなゆかりねっとコネクターであるが、ゆかりねっと以外と接続ができることは既に気付いているはず。その一覧としては今回取り上げるUDトークのほか、Nao氏制作のノートテイク(まあちゃん)、Google Chrome, Microsoft Edgeの音声認識、従量課金制となるMicrosoft音声認識がある。まあちゃんはNao氏自身の研究成果から出来上がってきたものであるようだ。これも併用して使用できると共に、多くのPC1)ここではOSをWindowsであるものとして考える。でインストールされているGoogle ChromeやMicrosoft Edgeの音声認識と接続することで、ゆかりねっとコネクター単体でも済むような設計となっている。それら自体の音声認識の精度についてはまた別の話であるが。

音声を認識し文字変換と翻訳を同時に行うUDトークとも接続できる

世の中は便利なもので同時に進化も早い。スマホのアプリには便利なアプリが続々開発されては公式プラットフォームでリリースされる。それらの中でも必須アプリともされるものも多く、ビジネス向けにも有料であるが割と安く出しているものもあり、様々な人の需要を満たせるような構図になっている。ゲームに関しては言うまでもないが、今回の話とは全く関係ないので無視する。

そんな中、シャムロック・レコード株式会社(Shamrock Records, Inc.)によって、最初はiOS向けに音声認識を使ったコミュニケーション支援を目的とするアプリケーションが開発・App Storeで配信された。それが今回使用する「UDトーク」である。現在はiOS/Android(以下スマホ版)の両方に存在するが、更新が早いのはどうしてもiOSの方である。また、クライアントはWindows/MacOSも存在するが、これらは音声認識機能はなく、あくまでもスマホ版のサポート機能のみに絞られている。したがってメインで使用するのはスマホ版ということになる。



UDトークの開発経緯としては、主に聴覚障害者とのコミュニケーションを、文明の利器であるPCやスマートフォンで行うことを目的として制作された。つまり、音声を文字化することによって聴覚障害者とのコミュニケーションを行いやすくしようというものである。通常、聴覚障害者とのコミュニケーションを行う場合は手話が用いられるが、手話の会得はかなり難しいのが現実。それならばと文字を手書きか或いは電子機器などで文字を入力し、それを見せるという方法があるが、それも慣れないとどうしても遅くなりがちである。世の中、フリックマスターやタッチタイピングマスターばかりではないからだ。

それを解決するのが音声認識からの文字起こしというわけだ。もっとも、使用するスマホのマイク精度や発音によっては正しく認識されず誤変換をもたらすことも少なくないが、それでも書く(入力する)よりは早くコミュニケーションを行えることは間違いない。そんなUDトークであるが、聞くところによればその認識精度と翻訳精度が高いことで、配信者の一部では人気のアプリとなっているようである。そして偶然か必然か、ゆかりねっとコネクターはUDトークと接続し、その結果を字幕と翻訳として使用することができるのである。使えるのであれば私としては使ってそのことを書くまでであり、前回記事と同様、それまでの備忘録と他の人への参考資料として、次項から書いていく。なお、本記事ではゆかりねっとは使用しないので注意。

UDトーク+ゆかりねっとコネクター、設定備忘録

シャムロック・レコード株式会社から現在配信中のUDトークと、前回記事で活躍したNao氏のゆかりねっとコネクター。この2つを使った日本語字幕+英文翻訳字幕を配信で実際に出すまでの手順と、配信時にどう映るかのテストまでを行った。なお、本記事でも各アプリケーションは既にインストール済みであるものとして話を進める。インストール方法については特に難しいことがないはずであるからだ。

UDトーク設定

先に接続するためにUDトークの設定を行う。UDトーク自体はアプリインストール後にすぐ使い始めることができる構造になっている。そのためすぐに使いたくなることだろうがそれをこらえて、まずは設定を行う。なお、私のメインはAndroidのため操作はAndroid準拠となる。

  • 右上にある縦置きの3点リーダーをタップし、設定を開く。
  • “設定/名前”からデバイスの名前を入力する。この名前は任意で良いが、ゆかりねっとコネクターから探しやすいように端末名などを入力しておくといい
  • “設定/接続先(サーバー)として起動する”にチェックをする。これによりWiFi環境下では自身の端末がサーバーとなるため、ゆかりねっとコネクターに結果を送信する際のディレイを低減することができる。ただしこの機能を使用する場合、端末側のIPは固定IPにセットしておく必要がある
  • 先の”接続先(サーバー)として起動する”にチェックが入っている場合、初期画面の一番上に”[端末名]に接続する”がメニューに追加される。そのメニューには小さく自分のIPv4アドレスが記載されている。これはゆかりねっとコネクター側で使用するので控えておく。もっとも、固定IP設定にしている場合はその設定しているIPを使用するだけであるが
UDトーク設定
UDトークの設定。インストールしたらまずはこの項目について変更する。これらの設定を行うことで、ゆかりねっとコネクターで使用する際に楽に使用することができるようになる。

これらの設定をまず行っておき、UDトークとゆかりねっとコネクターが接続可能な状態になるようにしておく。設定内容については幸い難しいものは何もないので、手順通りに行えばよい。なお、iOS版については検証は不可能であるが、おそらくは殆ど同じように行えるものであると思われる。

ゆかりねっとコネクター設定

UDトークの方はこれで設定は一通り完了である。次はゆかりねっとコネクターで接続するために設定を行う。もしここでゆかりねっととの接続設定を崩したくない場合、プロファイルを変更した上で設定を行うといい。プロファイルの変更は”設定/設定ファイル/設定の切り替え”にあり、最大4つまでプロファイルを設定することができる。これによって接続するアプリケーションに応じていちいち手動変更しなくても、プロファイルの変更だけで済むようになる。



さて、ゆかりねっとコネクターでは設定することは多いが、まずはUDトークと接続するところの設定から行っていく。次の手順で行うことで、UDトークと接続できるようになる。

  • “音声入力/手段/入力システム”を開く。一覧の中から「UDトーク®から入力(U)」を選択する。オプション項目である『ゆかりねっとを中間に挟む「上級者モード」』は、UDトーク→ゆかりねっと→ゆかりねっとコネクターとなるもので、字幕・翻訳に加えてVOICEROIDも連動させたい場合はチェックする。今回はVOICEROID連携を考えず、字幕・翻訳のみの使用なのでチェックをしない
  • “音声入力/手段/UDトーク接続”から下の方にある「UDトーク:ローカル通信でつかうIPアドレス」をここで設定する。初期値は意味のないローカルホスト(127.0.0.1)がセットされているが、これを先程UDトーク設定で設定した端末のIPv4アドレスに設定したうえで、そのIPアドレスのUDトーク、接続先に設定した端末名が現れる。現れた端末名をダブルクリックするとその端末と接続され、下のステータスが「[端末名]=>準備ができました。」「音声認識ツールと接続OK」となる。この状態になれば接続が完了しており、UDトークからゆかりねっとコネクターへ音声認識した結果を送信することができるようになっている
  • ちなみにゆかりねっとコネクターにある招待用ユーザーIDを使用して、招待して接続する場合は部屋名または端末名の前に【QR】が付く。この場合ディレイが少々発生するため、ディレイを少なくしたい場合は【QR】がないもの、つまり直接接続を使うようにする
ゆかりねっとコネクターでのUDトーク接続設定
ゆかりねっとコネクターでUDトークと接続するための設定。UDトークとはローカルネットワークで接続することで低遅延でUDトークからゆかりねっとコネクターに情報を送信できるようになる。

これらを設定することで、UDトークからの音声認識の結果をゆかりねっとコネクターへ送信することができるようになる。ただ現状確認した限りでは「日本語だけ」を直接送信しているようで、翻訳については送信していないようである。また、直接接続の場合は端末アプリ側でルームから退出すると、その度にゆかりねっとコネクターで切断→接続の再接続処理を手動で行う必要があるため、その点についても注意が必要である。これは端末の複数持ちまたはスペックに余力のあるPCでスマホをエミュレートし、PC内のスマホを通じてゆかりねっとコネクターと接続するという方法で解決できるであろう。

UDトークの結果ゆかりねっとコネクターに取り込み反映する方法

上記は接続方法であり、日本語の音声認識しか直接表示しないものであった。UDトークの結果を両方とも取り込みたい場合は、不可能ではないものの設定が少々面倒である。しかも現時点では通常のOBSにしか対応しておらず、SLOBSで両方の結果を直接表示するということができないようである。そして方法はOBS用の遠隔操作プラグイン(OBS-websocket)を利用したものである。ここではそのプラグインの導入から通常のOBSで表示するまでの方法を記載する。

前段階準備:OBS-websocketを導入する

まずは表示に必要となるものである、OBS-websocketを導入する。これは遠隔操作プラグインというものであるらしく、OBSをマイコンよろしくOBSの外から制御しようというものである。要するにOBSを直接弄らなくてもOBSの設定変更や構成ができることになるということであろう。それではまず、以下の手順で導入を行う。ここで、OBSはインストール済みであり、デフォルトのフォルダ構成であるものとする。

  • GitHubよりWindows向けのzipをダウンロードする。インストーラ形式のものは環境によってはエラーが出るようで、確実性が高いzipで行う2)参照:音声からリアルタイムでダブル字幕(日英翻訳)を作る方法!Vtuber&生配信者&動画投稿者必見【ゆかりねっとコネクター+UDトーク】 – 「Vtuberの雑学メモ帳」 インストーラ版が一度うまくいかずにエラーが出たとのことで、デフォルトの構成でない場合はエラーが出るものと考えられる。。本記事では最新安定版となる4.9.1を採用する
  • 解凍した中身を自身のobs-studioフォルダの中の、フォルダ名と同じところにその中身を移動する。binとobs-pluginsは32bitと64bitの2つがあるため、自身の使用しているバージョンに合わせて移動すること。例:64bit版を使用中なら、bin/64bit/の中身[imageformats]をobs-studio/bin/に移動する
  • 全てのファイルないしフォルダの移動を完了した後、OBSを起動する。すると上部ツールバーの”ツール(T)”に「Websocketサーバー設定」が追加される。この状態になれば導入完了である。なお、ローカル内でのみ使用の場合はデフォルト設定、遠隔使用する予定がある場合はパスワードの設定を推奨する
OBSのWebsocket導入手順
OBSのWebscoketを導入する手順と導入が出来ているか確認している状態。この手順通りに行えばWebsocketの導入は全く難しくない。

通常のOBSはプラグインを独自に追加することができ、有志によってそのプラグインが様々に作られている。またOBSをベースとして配信関係の機能を強化したものがあり、それがSLOBSである。その話はここでは行わないが、プラグインの導入に関しては上記の通りフォルダの中にプラグインのファイル一式を、OBSのフォルダの通りにコピーするだけでOKである。インストーラ形式のものはデフォルトの配置以外であると機能しない場合が想定されるので、zip解凍したものを直接コピーする方が確実性も高いであろう。




ゆかりねっとコネクター設定1:OBSとの接続設定をチェックして実際に接続

Websocketの導入が確認出来たら、次はゆかりねっとコネクターでOBSとの接続を行うための設定を行う。設定を行う場所は”字幕の出力先/OBS Studio”にある。なお、OBSの接続設定についてはローカル内での使用のみに限定するものとして、デフォルト設定であるとする。接続設定のチェックを以下の手順で行う。

  • OBS Studioの設定について、Websocketサーバーを有効にするにチェックを入れ、サーバーポートを4444, 認証をなしとしておく。なお、OBSがインストールされているPC以外からのアクセスを予定する場合はデフォルト設定から必ず変更すること。以降はデフォルト設定の場合を想定して行う
  • ゆかりねっとコネクターは”字幕の出力先/OBS Studio/接続設定”から、接続するための諸設定を行う。ここではデフォルト設定かつOBSとゆかりねっとコネクターは同一のPCにあるので、通信先はlocalhost(127.0.0.1), ポートは4444を指定し、パスワードは空欄とする。この設定でOBSを起動した状態で「OBSに接続(C)」を行うことで接続が完了する。切断する場合は下の「OBSから切断(B)」をクリックする。なお接続がうまくいっていない場合はステータスから”OBS Websocket”がエラーと表示されるので、それを目安として判断することができる。また、接続が成功するとOBSから通知が表示される
ゆかりねっとコネクターでのOBS Websocket接続設定
ゆかりねっとコネクターからOBS Websocketに接続する手順。基本は画面の通りに行えば問題なく接続できるようになっている。

この手順の通りに行えば、OBSとの接続は原則として問題なく行える。また、ゆかりねっとコネクターを起動してから再接続する際は”字幕の出力先/OBS Studio/接続設定”から接続しなくても右上にあるOBSのアイコンをクリックすることでも再接続が可能である。無論、OBSの設定を変えた場合は再度設定し直しが必要になるため、その点には注意すること。

ゆかりねっとコネクター設定2:どの「ソース」に転送するかを設定する

OBSとの接続が確認できたところで次に設定するのは、OBSで表示するための「ソース」と、ゆかりねっとコネクターではどの「ソース」に転送すればいいか、それを設定する必要がある。これについては先にOBSで対応させたいソースを作成しておき、ゆかりねっとコネクターでそれに当てはめる形で行うものになる。なお、ソースはテキスト(GDI+)で作成すること。転送設定は以下の手順で行う。

  • OBSで任意のシーンにおいて、ソースからテキスト(GDI+)を指定する。任意の名前で、2個作成しておく。名前は日本語用と翻訳用で分けておくといい
  • “字幕の出力先/OBS Studio/OBSの送り先ソース”で、母国語と翻訳1にそれぞれ割り当てたいソース名を指定する。ここでは無料版想定のため、翻訳2以下は指定する必要はない
  • “字幕の出力先/OBS Studio/文章の整形オプション”で、任意に改行について変更できる。これは実際に試しながら行うといい
ゆかりねっとコネクターのOBS転送設定
ゆかりねっとコネクターのOBSへの転送設定。これらの通りに行えば問題なくOBSへの転送が可能となる。無料版ではどう頑張っても日本語と翻訳1つしか表示できないため、これでいいのである。それより下は実際に表示させながら調整する。表示に関しては次項に解説する。

OBSへの転送の際、任意のソースに送る設定をする際はそのソースを先にOBSで作成することが必要である。ソース作成の際はわかりやすい名前を入力することを推奨する。そうすることで、どのソースに割り当てたかが分からなくなる可能性がなくなるからである。その設定から下については、実際に表示させながら変更するようにするといい。




ゆかりねっとコネクター設定3:実際に表示させる

それではOBSで実際に表示させてみる。ここではUDトークを音声認識で使用する。ここで、翻訳についてはGoogle翻訳を使用している。これで実際に録画したものが次である。

 

これはウィンドウキャプチャではなく、字幕データをそのままOBSに流し込んでいる。この場合、文字の装飾をOBSで制御することができるようになり、配置場所と大きさもOBSで拡大縮小しても文字のぼやけが起きなくなる。したがって、詳細に文字装飾を行いたい場合にはこの方法で取り込んでいくといいだろう。

UDトークを実際に試して分かったこと

発覚:UDトークの翻訳までは取り込めない

UDトークを試そうと思った理由は、Google翻訳の精度に満足しなかったため、UDトークの翻訳を配信で取り込めないかを試したかったからである。調査すると、通常のOBSでなら使えるという先駆者の情報があったため、それを試したのである。その際、Websocketを利用して転送するという形で行えるというものであったので、ここまでOBSの設定を行ってきた。

そしてここにきてついにわかってしまったのである。一旦翻訳エンジンをオフにしてUDトークから喋って字幕が出るかを試したところ、翻訳は当たり前のように出なかった。そう、UDトークの翻訳部分までは、ゆかりねっとコネクターには送信していないのである。よって当初のもくろみであった「Google翻訳よりも高精度の翻訳を利用する」ということは不可能であることを証明してしまったのである。

そのため、残念ながら翻訳に関しては無料版ならGoogle翻訳で我慢するしかないということになる。そして私は事情により一線を退いたプログラマであるため、APIや翻訳の変数格納場所等のことは全くわからない。内部のことが分かれば色々と自分で弄れたかもしれないが、そのことが分からない以上、私にはどうしようもないことであるので諦めるしかなかったのである。残念だ。

UDトーク側の設定で特定の単語を容易に変換登録できる

ところでUDトークではアカウント作成を行うことによって、単語登録を行うことができる。この単語はUDトーク単語登録というところでアカウントを登録すれば、そのアカウントをアプリとリンクさせる(アプリで登録したアカウントにログインする)ことで、UDトークで音声認識した際に、ひらがなの読みが登録した単語の読みと一致すれば、自動で登録した単語に変換されるようになる

例えばAPEX Legendsでは、正式名称も略語も独自なものが多い。それを音声認識させようにも、殆どの場合は既存の単語に頑張って修正しようとしてしまうことが多いため、めちゃくちゃな字幕が出来上がることが想定される。その際に表記と読み方を合わせて登録することによって、その単語を表示させることができるのである。私は一部単語について以下のように登録し、UDトークでその通りに発音すると実際に「変わる」ことを確認したのである。

UDトークで単語設定と実際に変換されるか確認
UDトークの単語設定でAPEX Legendsの一部単語を設定し、それをUDトークで実際にその通りに発音し、変換されるかをチェックした。確かに読み通りなら変換されている。

いくつかの単語をあらかじめ登録しておき、そのうちL-スター、アル促(アルティメット促進剤)、EVA-8の口頭略称えばはちを試してみたところ、確かに変換されその通りになっているのである。アル促に関しては翻訳がどう頑張っても不可能なために意味は通じないが、ここはUlt rechagerとでもしとけばいいだろうか。なお翻訳訂正についてはゆかりねっとコネクター側で調整できる。これは別項として後述する。

ちなみにこの単語登録はAPEX Legends用に調整したものであるため、APEX Legendsをやらない場合にはこの単語登録は邪魔になってしまうことが考えられる。その際はカテゴリを設定しておき、カテゴリごと有効/無効を切り替えればOKだ。無効にしておけば変換されなくなるので、ゲームや配信内容に応じて切り替えれば、かなり快適な字幕表示を期待できることであろう。

注意事項:無料版は1度に30分まで

UDトークは基本無料のアプリだが、そんなことをしていては当然のことながら収益など出ない。したがって無料で使用する際は、一度のタップで発音(認識)可能な時間が制限されている。その上限が30分となっており、これはUDトーク公式サイトでもプラン比較のところで表にされている(現在の表には時間の記載なし)。つまり1回「認識を始める」と、30分後には自動で認識を終了するということでもある。したがって時間無制限にしたい場合は金が必要だということだ。ちなみに料金は¥240/Mのサブスクリプション制である。私の嫌いなパターンだ。

UDトークプラン比較表・旧
UDトークの過去のプラン比較表。現在の比較表は料金部分が修正されているので、別で用意した。もし上位プランを使用したければ要相談ということになる。

だが1度に30分ということなら、認識をその都度手動で始めればいいだけのこと。つまり再接続し直せば金を払わずとも実質無制限なのである。ビジネスシーンであれば再接続のために機器に触るという行為自体あまりよく見られないものの、今回ここで想定しているのは配信関係であり、それは少なくともビジネスではない。会社を作って配信しているのならそれはビジネスかもしれないが、多くは個人で行っているわけで、個人で使うのであれば特別な問題はどこにもないはずである。ところで手が離しにくいRTAなどを配信するのなら、サブスクリプションは考えてもいいことかもしれない。



修正:ゆかりねっとコネクターでも認識結果や翻訳を修正できる

ところでUDトークが使えない場合は前述の単語登録による置き換えは使用できないが、同じことはゆかりねっとコネクターでも行える。これは”辞書”の項目から色々と設定を行うことができ、対訳辞書・音声認識後・翻訳前・翻訳後・ルビがある。ツールでは所謂MTG向けの辞書を作成することができるが、これは今回は考えない。

最も制御しやすいのは音声認識後であろう。音声認識した結果がどうしても思ったような感じにならないとき、誤認識しやすい言葉を本来言いたい言葉にあらかじめ修正させるようにするものである。これはUDトークの単語登録とほぼ同じものである。次に翻訳前の修正であるが、これは翻訳をかける前に認識した言葉を修正し、その言葉で翻訳をかけるようにするものとなる。略称で翻訳をかけても何のことだかわからない結果が返ってくることが多いので、それを無くすためには翻訳前修正をかけておくといい。

そして翻訳後の結果に満足しない場合、最後に翻訳語の該当する言葉を置き換えるのが翻訳語修正となる。これは翻訳結果を完全一致(大文字・小文字・空白の区別も含めて)で指定しなければならないので、置き換え難易度が非常に高い。これについてはどうしても結果に納得できない場合に使った方がいいであろう。ちなみにそれぞれの辞書は作成後、ゆかりねっとコネクター専用の拡張子[.ydic]として個別のファイルとして保存することが可能で、UDトークに似たものとなっている。もしかしたらこっちの方がオフラインで編集できる分、制御しやすい可能性がある。

なお、対訳辞書についても使用してみたのだが、どうしても対訳辞書が設定したのにうまく認識しないようである。そのため、この部分については詳しい人に教えを請いたいことろである。

字幕精度の高いUDトーク、誤認識を少なくしたいならこれ

以上でゆかりねっとコネクター+UDトークの解説は終了である。調査結果としては、当初のもくろみでもあった高精度翻訳の反映はどう頑張っても不可能であると判明し、自分の認識の甘さを自覚せざるを得なかった。しかしUDトークを調べていくうちに、音声認識精度や単語登録の機能の便利さ、ゆかりねっとコネクターとの接続に関する難易度の低さなどの利点が判明した。そして使用するスマホとPCが同一のWi-Fiネットワークに存在する場合、スマホ側をサーバーとして扱うことによって低遅延でゆかりねっとコネクターを起動しているPCにUDトークの認識結果を転送できるので、リアルタイム字幕表示をしたい人にとっては非常に便利な方法であることがはっきりしたのである。

字幕に対する考え方、そして配信に対する考え方は多種多様である。所謂VTuber形式でVOICEROID等の音声出力を併用を考える場合はゆかりねっとも同時に起動して対応させるが、字幕だけ欲しい人からすればゆかりねっとは要らずゆかりねっとコネクターだけあれば事足りるというもの。中には欲張りにもリアルタイム字幕を出しながら音声出力もしたい人が必ずいる。その場合でもUDトーク経由で使用でき、その場合はUDトーク→ゆかりねっと→ゆかりねっとコネクターの中間挟み利用も可能としている。ゆかりねっとコネクターがそのような使い方を想定して設計していたと考えると、作者は相当頭のキレる人物であるようだ。

現時点ではここまでであるが、おそらくここから先、また新たな改良がなされてどんどん便利になっていくはずだ。その時には「配信」というジャンルはより一般化され、誰でも行う時代となるだろう。もっと簡単に誰でもできるような状態になるかもしれない。とはいえそれには時間がかかるものであるので、既存の便利な方法についてはここに書き記し、自身の備忘録と皆への参考資料として、有効活用していってほしいものである。

 

以上、弱小配信者奮闘記2:UDトークも使ってみた!、であった。それでは、次回の記事で会おう。ン、バァーイ!

 

KIBEKIN at 00:01 Dec. 22th, 2021


スポンサーリンク




脚注

脚注
本文へ1 ここではOSをWindowsであるものとして考える。
本文へ2 参照:音声からリアルタイムでダブル字幕(日英翻訳)を作る方法!Vtuber&生配信者&動画投稿者必見【ゆかりねっとコネクター+UDトーク】 – 「Vtuberの雑学メモ帳」 インストーラ版が一度うまくいかずにエラーが出たとのことで、デフォルトの構成でない場合はエラーが出るものと考えられる。
KIBEKIN
会社員という働き方が合わないのに会社員になってしまってから、半ば自分からリタイア後ブログクリエイターとなり活動してきた社会不適合者。VRやVTuberに触れる機会が増え、今後はリスペクトだけではなく自分を作る意味を込め、VTuberならぬVBlogCreator"KIBEKIN"として新しいスタートを切る。

コメントを残す

メールアドレスが公開されることはありません。
名前は必須項目となります。記入をお願いいたします。

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)