VTuber | Raven's Articles

【非常用の域を出ない】ゆかコネ検証報告:オフライン認識はどこまで戦えるか

この記事の概要を簡単まとめ!

  • ゆかコネブラウザ音声認識、Edge vs Googleの構図
  • デバイスを指定できないEdge、負荷が高まっているChrome
  • ゆかコネ搭載のオフライン認識を代用できないかと考える
  • 音響モデルを切り替えることで精度と言語を変更できる
  • Alpha CepheiのVOSK軽量モデル(デフォルト)と大容量モデルで比較
  • 音声認識精度はそこまで変わらず、接続詞などが補完された程度
  • モデルロードの異常で音声認識結果が崩壊するバグ(発生原因不明)
  • あくまでも非常用、他が使えるならメインにする理由はない

YukariWhisperの方は、v0.0.3にアップデートされた。無許可改造が効いたかどうかは果たしてわからないが、そのバージョンからは皆に優しいものになった。しかし実用には3080Tiレベルでない場合、2GPU体制でなければほぼ使い物にならないので、解決するまではブラウザ音声認識に戻している。

しかしブラウザ音声認識にも問題があることを発見した。EdgeとChromeに対応するそれは、Edgeはマイクを選択できず、Chromeは利用者の増加に伴って応答が悪くなっていた。UDトークは環境上うまく使えなかったため、残った音声認識としてオフライン認識を試すことにした。これが使えれば、今後の音声認識のヒントになるはずだ。

【改造我慢できない】ゆかコネ検証報告:YukariWhisperをもっと快適に使う

この記事の概要を簡単まとめ!

  • faster-whisperベースの音声認識”YukariWhisper”を検証した
  • 設計上の仕様でNVIDIA製GPU、2000番台以下はcuda_8(int8_bfloat16)を使えなかった
  • もしかしてソースコードに不備があるのではと考え、中身を調べることにした
  • ソースコードと設定ファイルを改造、最低動作保証1000番台に対応した
  • 制作サイドではゆかコネのポート動的取得の対応完了
  • int8_float16をデフォルトに使用し、実際の配信で音声認識精度と負荷を確認
  • 結果:ヒロアカでは問題なく伝説のレジェンド(A P E X L e g e n d s)では支障が出た
  • 対策:上位モデル3000番台以上か2GPU構成を行う
  • 代用:ノイズ除去を他の音声認識にも適用する
  • 不完全なものは自分で完全にしてしまえばいい

1週間程度、ゆかコネで使用可能になった音声認識”YukariWhisper”について調査していた。ゆかコネ音声認識比較のデータの1つとして試験後、実際の配信でも使用してみた。しかしcuda_8非対応、VRAMが最低で4GB消費する、ノイズ除去を十分行わないとノイズを音声と誤認する、時々反応が悪いなどの問題があって、使用を休止していた。

GPU問題はこの際、もう無視することにした。もう1つ考えたのは、ソースコードに不備があるということ。元となるfaster-whisperについての解説は探せば出てくるほか、変数を追うことなどは割とやったことがあって得意である。おそらくタブーに手を出している気がするが、だが使いづらさや不備を見過ごせないので中身を見ることにした。

【手軽にAIで音声認識】ゆかコネ解説書:YukariWhisperを使って音声認識する

この記事の概要を簡単まとめ!

  • ゆかコネ×AIの研究はDiscordで盛んである
  • OpenAIの音声認識AI”Whisper”が2022年9月に登場
  • 外部ツールとしてTYAPA氏によりゆかコネで使用可能になった
  • 前提条件:NVIDIA製GPUで1000番台以上を使用している
  • 機械学習の応用であるためPython3.1.17のインストールが必要
  • プログラミング未経験者がつまづく部分の初期設定も解説
  • 使用感想:かなり正確、ノイズ除去調整で良くなる
  • 問題:int8_bfloat16が使用できない場合、VRAMの余裕がなくなる
  • 解決策:3000番台以上を使うか機械学習専用GPUの2枚運用を行う
  • GPUに余裕があれば、正確性はより高くなる

ゆかコネ検証はやり始めると止まらない。また、検証にあたってはうーちゃんからヒントを貰うことが多い。技術への探求心は互いに高いということであろう。そして検証結果をまとめてどこかに残しておくことで、私の知らないところで誰かがゆかコネで困っていることを解決しているであろう。

AIの発展はゆかコネの使い方にも影響を与えている。OpenAIのGPT-3系が公開されるとAIアシスタントで使われるようになり、このあたりを積極的に使用・調査している人もいる。一方で音声認識では同じくOpenAIの”Whisper”が公開され、有志によりゆかコネで使えるものが制作された。使うには準備が必要なため、その解説をすることにした。

【目的別で使い分ける】ゆかコネ検証報告:音声認識の種類とそれぞれの違い

この記事の概要を簡単まとめ!

  • ゆかコネ、できることが増えていく
  • 音声認識経路は実は多彩に用意されている
  • それぞれで特徴が違うはずなので比較してみることにした
  • 検証用の録音音声を12パターン容易し、入力を均一化する
  • 1音声ずつ現在使用可能な7種類を同時に比較する
  • ブラウザ: 文章性はEdge, 正確性はChrome
  • オフライン認識: 応答性は高いがどうしても正確性に欠ける
  • UDトーク: エミュレータよりスマートフォンの方が良い可能性
  • YNC-Whisper: ノイズ除去が重要である
  • 結論:それぞれの特徴から、自分に合ったものを選んで使う

世には人知れず登場して人知れず消滅していくものが多すぎる。なので気付いたら存在して気付いたら消えている、をよく経験する。その存在が自分にとって必要なものだったのが、無くなってかなり時間が経ったときに気付くというのが多いために、もっと早くに気付いていればと思うことも少なくない。

ゆかコネは幸い、cleaちゃんをはじめとした多くのユーザーに愛されて、検証班も多いため提案や不具合レポートも盛んである。機能も多数追加されている中、最も基本となる音声認識も経路が増えている。そこで今回はゆかコネが現在扱える音声認識経路をそれぞれ使用し、その結果からどういう使い分けが最適かを考えていく。

【大躍進】cleaちゃん観察レポート:戦略の成功と活動の意味を証明した6ヶ月

この記事の概要を簡単まとめ!

  • 2023年6月20日、cleaちゃんは方針転換をした
  • アバターワーク、how-to系動画投稿を主軸に活動開始
  • 配信自体は上記の合間、息抜きとしてやるようになる
  • 2023年12月29日、YouTube5000人越え達成
  • how-to系が企業やメタバースに関心がある人にヒットし始める
  • アバターワーク、MC・パネラー、ウェビナー、アプリ企画参加で流入が増える
  • 東京スクールオブミュージック&ダンス専門学校に単独で特別講師に選出される偉業を達成
  • 先を見据えた方針転換と行動で、次のステージに進む準備が出来た

現在は広義のVTuberとして活動しつつ、本業のブログクリエイターを行うという状態である。実際は配信の方が多くなっている関係でブログクリエイターが滞っているが。しかし広義のVTuberとして活動するその起因は、間違いなくcleaちゃんにある。

cleaちゃんは2023年6月20日に3周年を迎え、その際に活動方針を変えた。how-to系の動画投稿と所謂アバターワークを中心とし、配信はその合間に行うというものだ。これはcleaちゃんが次のステージに立つための下準備として行うもので、その成果が12月29日に大成した。それまでの6ヶ月間について観察結果を書いていく。

【一種の自傷行為】VTuber活動のトリセツ~耐久配信はガイドラインが要る~

この記事の概要を簡単まとめ!

  • VTuberの配信スタイルは様々にわたる
  • よくある配信スタイルの1つに「耐久配信」がある
  • しかし私としては同意しかねることが多くある
  • 基本は条件を設けるが、やり方を間違えると時間やることになる
  • 日常生活のリズムを破壊してまでも行うことは「異常」である
  • どうしてもやりたいなら「自分専用のガイドライン」を作れ
  • やってもやらなくても、耐久配信の画一的な「ガイドライン」は作るべき

様々な配信関係機材を調査することは1つの趣味のようなものになっているが、実はその調査が本来すべきことのはずが疎かになっている気がしている。また、調査に際して見本となるいいアイデアが浮かばないこともある。折角多数の機能があるのに使いきれていないことに、少し悩んでいる。

一方で配信に関して、あるパターンの配信については言いたいことが溜まっていて仕方ない。所謂「耐久配信」とそれに準ずる配信は、見ていて痛々しいものだ。その理由は多数列挙でき、そしてそれに対して単純否定ではなく回避策の提案によって、禁止ではなく妥協という部分で指摘を行っていく。

【セオリーなんて無視するわ】私が歌わない理由~知らないものは、楽しめない~

この記事の概要を簡単まとめ!

  • VTuber定番の動画ないし配信のネタ「歌枠」
  • しかし個人的は全くそれを見たことがない
  • 曲は完全に趣味が分かれるため、同じ曲を聞いていることはほぼない
  • 知らない曲を聴いて楽しめるか?という疑問
  • 私が歌ってもそれは単なる自己満足に終わる可能性
  • 「VTuberのセオリー」的捉え方をされていることへの反抗心もある
  • 歌わないVTuberがいてもいい

私はVTuberのセオリーからはかなりかけ離れたことをしている自覚がある。他のVTuberがやっていることを全くやっていないことがその自覚理由の1つである。もっとも私はあくまでも「実験」の延長に存在するVTuberであり、ゲームのついでの配信という意味合いが大きいのであまり気にしていない。

そんなVTuberのセオリーに「歌」があるが、残念ながら私はそれを見ることは全くなく、同時に私自身が歌うこともない。それには私なりの明確な理由があるからで、決して理由なき反骨精神ではない。そして1つ思うのは、歌わないVTuberがいてもいいじゃないか、ということである。

Ads Blocker Image Powered by Code Help Pro

広告ブロックを検知しました。 | Ad block detected.

ブラウザのアドオン、及びブラウザに内蔵されているアドブロック機能により、広告ブロックが行われていることが検知されました。
本ブログは広告収入により運営されており、広告ブロックは正当な理由の下で配信されている広告をも阻害することとなり、運営が非常に困難になります。
この表示は広告ブロック機能の無効化、あるいはホワイトリストへの追加を行った上で、更新を行うことで消すことができます。または、広告ブロック機能のないブラウザで閲覧ください。
広告で嫌な思いをしたことがあるとは思いますが、一律に広告をブロックすることで失われるコンテンツも存在します。そのことへのご理解とご協力をお願いします。

We have detected that ad-blocking is being performed by browser add-ons and the browser’s built-in ad-blocking function.
This blog is operated by advertising revenue, and ad blocking will interfere with advertisements that are also being served under legitimate reasons, making it very difficult to operate.
This display can be removed by disabling the ad-blocking function or adding it to the white list and then updating it. Alternatively, please view the site with a browser that does not have an ad-blocking function.
We understand that you may have had bad experiences with advertisements, but there are some contents that are lost by uniformly blocking advertisements. We ask for your understanding and cooperation in this matter.

Powered By
Best Wordpress Adblock Detecting Plugin | CHP Adblock