この記事の概要を簡単まとめ!
- ゆかコネブラウザ音声認識、Edge vs Googleの構図
- デバイスを指定できないEdge、負荷が高まっているChrome
- ゆかコネ搭載のオフライン認識を代用できないかと考える
- 音響モデルを切り替えることで精度と言語を変更できる
- Alpha CepheiのVOSK軽量モデル(デフォルト)と大容量モデルで比較
- 音声認識精度はそこまで変わらず、接続詞などが補完された程度
- モデルロードの異常で音声認識結果が崩壊するバグ(発生原因不明)
- あくまでも非常用、他が使えるならメインにする理由はない
YukariWhisperの方は、v0.0.3にアップデートされた。無許可改造が効いたかどうかは果たしてわからないが、そのバージョンからは皆に優しいものになった。しかし実用には3080Tiレベルでない場合、2GPU体制でなければほぼ使い物にならないので、解決するまではブラウザ音声認識に戻している。
しかしブラウザ音声認識にも問題があることを発見した。EdgeとChromeに対応するそれは、Edgeはマイクを選択できず、Chromeは利用者の増加に伴って応答が悪くなっていた。UDトークは環境上うまく使えなかったため、残った音声認識としてオフライン認識を試すことにした。これが使えれば、今後の音声認識のヒントになるはずだ。