片足をひたしてみるマイクと音声編集の沼 後編
一昨日、深夜。
いつものように作業が済んで、音声認識アプリに取り込んだ録音ファイル名を変更し、画面右側を見て思わず声を上げました。
…うげ。
残時間、40分だと(゚◇゚)ガーン
Nottaで僕が選んだコースは月間1800分=30時間ぶんの録音ファイルかリアルタイムで入力される音声データの文字化を行えて月間2000円の設定。
ですが、これまで一ヶ月に1200分の利用を超えたことがなかったのです。
5月4日の打ち合わせ、大揉めな陳述書作成の依頼人は13時前にやってきて22時前に帰っていきました。
5月3日の打ち合わせも大揉めな、こちらは労働紛争に関する新件の受託に伴うものです。
この二件でNottaの残り時間を一気に使い切りました…そんなゴールデンウィークでした。まぁ今月前半はもう裁判事務の新件受託を停めたので大丈夫といえば大丈夫、であるはずです。
僕のしごと自体が何かの沼にはまってる気もしますが、少し手が空いたので今日は表題の件。
当事務所では大揉めな裁判事務で活躍する文字起こしサービス、Notta。そんなNottaの反訳精度を検討するうち、新しい機材よりも十数年前買ったICレコーダのほうが音質も音声認識の結果もよい、と気づいてしまったのです。
その後買った国内メーカーのマイクは機種選定ミス、次に買った中華なマイクはカタログスペックは魅力的だったものの、使用中にロボットの声になる…レビューに記載通りの支障が当方でも発生した、さてどうしよう。というのが前回までのあらすじです。
早速ですが、Yetiのマイクを買いまして(汗)
ちょうどいい訳あり、の品が出ていたのです。
最初に買って手放したオーディオテクニカのAT2020シリーズと同じ価格帯&カタログスペック&レビュー、と思えて気になっていたLogicool Blue Yetiシリーズの安いやつが手に入りました。
本機を選定した理由。
Logicoolのマイクは安い機種でも同社製の音声編集ソフト(Blue Voice)が使えるとわかったのが決め手です。
実は、本件でまず購入して手放したオーディオテクニカのAT2020シリーズにはそうしたソフトがありませんでした。
で、このAT2020がYoutubeで推奨されているだけの性能=音質を発揮するには、別にソフトを使ってあれやこれやの処理を施すことがほぼ必須である(そうでない場合も当然使用はできるが、だったら昔のVictorのICレコーダをそのまま使えば安定した音質であり、マイクを買う意味がない)と気づかされたのです。
単純に敗北を認めるのはいささか悔しいので。
Youtubeでゲーム実況者がしている解説を見ながらAudacityでノイズ除去→コンプレッサー→イコライザー→ハイパスフィルター→リミッター、などの処理をひととおり施しました。
さらに細心の注意を払ってマイクと口元の距離と声量を定め、そうして作った音源がなるほど音声配信に適するほどの高音質であることを確認したのち、AT2020USBを売っ払いました。転売差損、約2千円。
つまりこうした編集処理は、音質を追求するならほぼ必須である、ならば使えるソフトが同時に手に入ることがわかっているYetiのほうがAT2020よりよいのではないか、あとは中古で安いのを探すだけだ、と考えまして…見つかったから買った、と。
ではありますが購入したのは(今回も)動作未確認として出品されていた訳ありの一品です。
Yetiも新品実売価格の5分の1に満たないお値段でこのたび僕の手元に転がり込んできた、ということで。まぁちょっとした冗談で済ませられる程度の出費でしかありません。いま僕の手元にある二つのマイクを合わせても、調達価格は合計8千円を超えないのです。
というわけでこの記事は、一万数千円で中古のマイクを買った失敗をさらに安い中古マイク2つ買って復旧し手元に余剰予算数千円を残した話、になっています。迷走後にたどりついたハッピーエンドの一形態、といえる気がします。
そうやっていささか安易なお買いものを楽しんではみたものの。
YetiとBlue Voiceの組み合わせで万事解決、記事投稿終了、というわけではないようなのです。
こちらのマイクは僕のみたところAT2020シリーズとほぼ同じ、つまり適切な音声編集ソフトを用い細心の注意を払った運用をするなら音声であれ楽器であれ良好な音源がとれる、ということはわかったのです。ですが。
指向性設定を無指向性にしても、マイクを一つ真ん中においてそこから反対方向にそれぞれ1m弱離れて正対する2人以上の話者、つまり僕と依頼人たち、の会話を録音するのにこのマイクが向いてるか、といったらどうなのでしょう。費用対効果の点であまりおすすめできるものでもない、と思えました。
具体的には、声の大きな人と小さな人の混在する環境で、Blue Voiceはあまり上手な処理ができていない印象があります。
ただし、これは僕がまだBlue Voiceの設定を追い込んでないだけである可能性があります。
このため僕はまだ、このマイクの売却を決めておりません(苦笑)
お話が前後します。Nearstream、とはいうが浙江省寧波市のベンチャー企業、のマイクは録音開始後のどこかのタイミングで音声が崩壊してロボットのような声になる…Amazonのレビューに書かれていたとおりに実際なった、という話を前回記事でしました。
実はこの時点で、マイクの運用は音声編集ソフトを通じておこなっていたのです。
当然ながら、タダで手に入るやつで。
レビュー通りに音声が崩壊したとはいえ、単純に敗北を認めるのはいささか悔しいので。
あれこれ試してみたところ、以下の結果が得られました。
まず導入したマイクはNearstream AM10です。
同シリーズのAM10UとAM10Bはおそらく付属品と内蔵バッテリーの有無が違うだけで中身は多分おなじです。
ソフトとしては、VSTホストには文字通りのVSTHost(という名前のVSTホスト)、これに、コンプレッサー、リミッターなどいくつかのVSTプラグインを入れておりました。
※この分野に全く興味のない…沼から遠ざかることができている方のために説明すると、コンピュータによる音声編集は近年、長足の発達を遂げたのだそうです。もちろん僕も3週間まえまで、そんなこと一つも知らずに幸せに生きてこれました。
そうしたソフト=DAWに別途組み込んで使える、音声効果や加工といった機能の付加に際してデータをやりとりする規格の一つがVSTです。この規格に従って作られた、音声効果などの小さな機能を発揮するソフト=プラグインをVSTプラグインといい、VSTプラグインを束ねて動かすソフトウェアが一般的な意味でのVSTホスト、なんだそうで。
僕はこのVSTホストの機能を果たすソフトとして、タダで手に入りネットでの情報も充実しているVSTHostを選定しました。
USBマイクからの音声はいったんVSTHostに入力し、同ソフトで処理した音声出力をVB-CABLE(PCの音声出力と音声入力をつなげるソフト)でブラウザに、つまりNottaに入力させたのです。
前提となる説明はここまでです。上記のソフトウェア環境の整備には、note『VSTHostを使った配信者向けマイク環境構築』の記事が参考になりました。ノートPCにこのシステムを積んだので、この会議用長時間ボイスレコーダは出張先でも運用できることになります。
僕なりに作った運用環境であれこれ試したところ、VSTHostの『Engine』メニューにある『Restart』のコマンドを最長1時間30分ごとに1回実行する限りにおいて、Nearstream AM10の録音音質が毀損されることはない、最大10時間程度の録音を続けても決してロボットの声にはならないと確認できたのです。
なんでそうなるのかは全然わかりません。
なんで浙江省寧波の会社が作ったマイクの不具合をドイツ人が作ったフリーウェアで解決できるのか、もう全然わかりません。
しかし、対策と現象とのあいだに因果関係があればもうそれで十分です。ちなみに上記の措置をとらない場合、録音開始1時間33分~4時間の
アットランダムなタイミングで、それ以降の
音声がロボットに変化します。
…捨てるだろそんなマイク
とは思うのですが説明を続けます。
中古市場で半ば騙されたか、Amazonを見て何かの間違いでAM10を買っちゃったごく少数の不運な方にも、この記事は有用かもしれません。
とにかくこのマイクは、なんの準備もしないままでは1時間半超の長時間運用には適しません。
しかしVSTHostを使って1時間半に一回、ちょっとマウスクリックしてあげればふつうに運用可能だ、ということがわかりました。VB-CABLEの出力先はブラウザでもボイスレコーダでもSkypeやIP電話でもかまいませんので、事実上どんな用途でもこれで対処可能、ということです。
そして、実はそうなった場合の本機の性能は音声反訳を前提とした人の音声の収録=イケボを目指すのではなく、十分な精度で音声反訳システムにかけられる程度を目標としておこなう音声の録音、に限っては、なかなかよろしいのです。
こいつはマイクのくせにリセットボタンを実装してる、と前回記事に書きました。つまり本機は単なるUSBマイクではなく、マイクとコンピュータの集合体と考えるのがよいようです。マイク、というより内蔵するシステムの音声処理は、人の音声の収録にわりと重きをおいているらしい、ともわかりました。背後で音楽(ボーカルのあるもの)を聞かせながら文章を読み上げて録音を試したところ、なにやら必死で音楽をカットしたがっている様子が窺えて微笑ましくなってしまったところです。つまり本機が売りにするAIを搭載したノイズキャンセリング機能、というのは一応存在しているらしい、といえます。ノイズキャンセリングだけではなく、前述した声の大きな人と小さな人との混在、という問題にもそれなりに(自動で)対処していることがわかりました。そういう挙動はYetiにはない、というよりYetiとBlue Voiceの組み合わせでは実現が難しいのです。
ここまでの検討を重ねた結果。
当事務所ではNottaの音声認識に使う機材として、VictorのAlneo XA-C110、NearstreamのAM10シリーズ、LogicoolのYetiシリーズが候補に残りました。
まずXA-C110は安定の品質です。話者が半径1m以内にいてくれれば、あとはAudacityで処理すれば必ず聞ける音声が手に入ります。録音自体に準備の必要はありません。
新たに導入した後二者のUSBマイクは、実際の利用状況(話者の位置関係と声量)でそれぞれ対応するソフトウェアとの併用時にはAlneo C-110よりいくぶん良好な音質にできる、なによりAlneoと違ってリアルタイムでNottaに入力できる、と確認できたのです。
※Alneoで録った音源にAudacityで各種のエフェクトを施したときの音質はAM10やYetiの音源に劣らない、ということにもなっており、あらためて日本Victor(合併前)の偉大さを知らされたところでもありますが。
そんな試行錯誤を一通り終えたところでもう一つ、気づいてしまったのです。
音声配信に必要な機材と知識を、当事務所にひととおり蓄積できてしまったことに。
というより、マイクだけでなく音声編集の沼に、もう片足をひたしつつあることに(゚◇゚)ガーン
士業の事務所で運用する、依頼人との相談・聴取事項の音声反訳としての上記マイクとソフトの設定運用に関してはいずれ別の機会に記事にしようと思っています。ここまでの作業に突っ込んだ時間とは別に、そもそもこの作業に着目するきっかけになった陳述書作成案件で派手な超過労働をしておりまして…どうやら僕のゴールデンウィークが灰色に染まった原因の半分は、マイクと音声編集ソフトの沼のほとりで遊んでいたことにあったようです。
最近のコメント