日中は久しぶりに、すずき電器店の仕事をしておりました。
当事務所では裁判事務のご依頼を無事に終えた方に、電気製品の修理選定運用等の助言または代行等をおこなっております。ふだんはパーソナルコンピュータ関連品を扱うことが多いのですが、今日の案件は換気扇。
といっても取り外し後の制御部品の故障箇所診断だけですので、電気工事士法および同法施行規則には抵触しないことを確認しています。
…まさか電気工事士さんとのあいだに業際問題を発生させるわけにもいかないし(苦笑)
なにをやるにも法律が気になる立場、ということで前回の記事の続きと表題の件です。
民事訴訟でたまに必要となるが、真面目に取り組んだら録音時間の10倍はかかる、大抵の場合立場が対立する複数の話者による会話の文字化。そんな反訳作業と反訳書作成の話の2回目は、僕が自動反訳サービスとしてNottaを選定したわけと留意点について、です。
人の発話を文字化する(テープ起こしなり記事録作成なり反訳で検索すると見つかる)サービスやソフトはいくつもあります。
大きくは、スタンドアロンつまりネットにつながっていないコンピュータ上で動作するソフトと、リアルタイムにインターネットにつながって動作するサービスとの二者に分けられるでしょう。
会話の内容を文字にする、という効用のみに注目すると、スタンドアロンのソフトはクラウドを利用するサービスに比べて劣ります。特に、不特定多数の話者の会話を何がどうあっても文字化せねばならない民事訴訟での反訳書作成業務では、そういえます。
理由は超簡単です。十分に流行っているクラウド型の反訳サービスには、それこそ日進月歩の勢いで『さまざまな音声のサンプル』と『利用者が勝手に修正してくれた音声反訳の成果』がサービス提供事業者にどんどん集まってくるわけだから。
それらを反映してサービス品質は、迅速に確実に顕著に向上します。
性能のみに着目すれば、反訳書作成でスタンドアロンのソフトなんか使う奴は馬鹿だ、と言い切って差し支えありません。
事務局で働く労働者に十分な残業代を払わないからそんなことやってられるんだろ、と僕なら疑いますがこれは極論です(苦笑)
ただしこれは会話を文字化する、という効用に関してのみの話です。
その辺の上司のパワハラとか別れかけの夫婦の駆け引きとか詐欺的投資の勧誘とか、とりあえず当事務所が現在扱っていない案件で例示しましたが…第三者からみてどうだっていいような会話なら興味を持つ人もそうはいない、とは思います。
これが中国政府の打倒だとちょっと話が変わってくるわけです。例えとして極端なのは自覚していますが。
今やってるオリンピックでも一部から指摘が出ているように、開催国に行った選手や随行者のオモテやウラの情報はあらゆる電子デバイスから当局が取り放題♪になる可能性について、少しは意識しておきたいところです。
本人訴訟の当事者として=つまり自分が了解して中国・香港の事業者が提供するサービスやアプリを使うなら別にどうこう言う話ではないですが、士業が誰かから依頼を受けた案件で勝手にこうしたサービスを選定するのはマズい気がしています。
まぁ潜在的にデータが他人に漏れる可能性は、全てのネット関連サービスにつきまとっています。gmailが安全でNottaが危険ということもない。
というよりgmailなんか、アドレス持ってると他人に言うだけでアカウントを乗っ取られる危険度を自分で上げているように思えてなりません。
だってgmailのアドレスって、あれはメールアドレスじゃなくてIDじゃないか、と思うのです。それを使ってログインすれば実にいろんなサービスを受けられるのに…お客さん達、みんな見え見えまるわかりなパスワードしか設定してないんですもん(詳細はこれ以上は言いませんが)
実は僕のgmailのアドレスをお客さまとのやりとりに用いないのには、上記のワケがあったりします。もちろん二段階認証を用いてはいますが…人によってはそれもなかったりします。
結局のところクラウドサービスの提供者から情報が漏れるよりサービス利用者から漏れるほうが可能性としてずっと高い、という不都合な真実はさておいて、お話しを戻します。
今時のクラウド型サービス事業者なら、少なくとも日本語でサービスを提供しているなら、一応見られるプライバシーポリシーを制定公開しています。
まぁ業界団体およびその会則やら専門家倫理、監督官庁からのお呼び出しくらいならクリアできそうな規定を持っているであろう、これは米国所在の超巨大企業からそのへんに生えてるCATVのプロバイダまで共通です。
そこに書いてあるプライバシーポリシーを信頼しました、と遠い目をしてつぶやいていればまぁ、品位保持義務違反を認定されたり懲戒事由への該当を指摘されることはないだろう、とは僕も思います。
ただ中華人民共和国については、最初っから喧嘩腰な法律を制定してくれています。いわゆる国家安全法と国家情報法がそれで、あれはどうみたって香港所在の企業が日本人向けに出してるプライバシーポリシーなんかよりそっちの法律の方が優先するに決まってます。
端的に言うと、あの国で事業やってるかぎり役人が見たいといった情報は全部見せる義務があるようにしか見えません。
繰り返しになりますがお話しが日本国内で完結するパワハラや離婚条件や投資詐欺程度なら真剣に考える必要はないとしても、法体系として守秘義務が害されるような状況になりうるサービスを敢えて利用するなら依頼人の同意は一応求めておいたほうがよかろう、ということで。
会話の反訳でクラウド型サービスを使おうとする場合、提供事業者が日本国内にあるか香港を含む大陸中国にあるかは、士業にとっては重要になってきます。
たとえ会話内容に、天安門事件への歴史的評価や新疆ウイグル自治区の人権状況が含まれていなくても。
クラウド型サービスがいいと言いながら反訳サービスの選定で最後までAmivoiceを残したのはこの提供会社は日本にあるから、だったりします。
性能だけで比べた結果、以前のブログでも少し書きましたがクラウド型ではRimo VoiceとNottaの二者が残りました。
この両者は、録音されたデータに含まれる日本語会話の文字化なら甲乙つけがたい精度を持っています。ただし、Nottaのほうが話者を切り分けて改行や録音ファイル中の発言時間を入れてくれる機能に優れています。
このため、話者複数・長時間の録音になりやすい裁判書類としての反訳書作成業務ではNottaが第1選択肢に上がってくるのです。
※Rimo Voiceはそのウェブサイトで、日本語に特化したAIがどうこう、というアピールをしていますがそうした恩恵は感じません。むしろ利用者の数(提供される音声データと修正結果)が多ければ性能は勝手に上がっていくのがクラウド型反訳サービスの特徴であり可能性だ、と考えます。
もう一つ、両者の大きな違いはRimoが日本の会社、Nottaはどこに国籍があるか明示されていない会社によって運営されていること、です。
Nottaのほうは、ウェブサイトからは会社がどこにあるか読み取れませんでした。
特定商取引法に基づくサービス提供者の表示も実はないようです。
でもウェブサイトのソースには繁体中国語が書いてある、と。
で、念入りに見ていくと。本日時点の利用規約第22条では紛争発生時の専属的合意管轄を香港国際仲裁センターにしてあることがわかります。
こんな会社、日本にあるわけがない(笑)
むしろNottaの提供会社は香港にあり、ゆえに中国の国家安全法その他の法律が利用規約に優先し、当局がその気になったら録音も反訳結果も読み放題♪という可能性は一応想定しておくのがスマートな利用法です。
そんなNottaを単純にありがたがって使うのはいささか間抜け、ということになりましょうか。
ウェブで仕事するライターがNottaを推奨するツイートをあれこれ見ますが、こんなオッチョコチョイの取材は受けたくないな、と思わされます。
士業としては、依頼人に一応のリスクを説明し、録音会話中に大陸反攻とか自由チベット万歳といったNGワードがないことを事前確認し、さらに念のため文書またはメールによる明示的承諾を得られれば反訳書作成にNottaを使い、そうでなければRimo voiceを使うことにして。
実はこの両者と、音声の文字化に際してスタンドアロン型では大きな国内シェアを持っているであろうAmivoiceとの品質差は凄く大きい、という話を済ませてしまいます。
テープ起こしに関連するサービスをいろいろ調べていると、国内ではVoXTというサービスのウェブサイトが出てきます。
これはAmivoiceを組み込んだサービスを提供する会社が運営する音声認識サービスで、一応クラウド型を標榜しています。録音データをアップロードお金払えば文字化してくれる、というもの。
そのウェブサイト中、音声文字化に供する音声ファイルの品質の重要さを説明するページがあります。
音源が遠かったり雑音があったりすると文字化困難になる、ということで、4つの音声ファイルと同サービスでの認識結果が出ています。
と、なれば。
そのページで提供されている音声ファイルをNottaの音声認識にかけてみるのは誰でも考えますよ(笑)
結果は当然、Nottaが圧倒的に優越するものでした。
性能のみに着目するかぎり、VoXTその他Amivoiceの関連サービスの採用は非推奨、選択肢にも挙がらない、というわけです。
ただ、上記引用箇所のページ記載の主張内容は正しいのです。
提供される録音の品質は、クラウド型でもスタンドアロン型でも音声認識の精度に決定的な影響を与えます。
限定的ながら、音源の提供をうけた後に若干の対処が可能です。ここで使用するのはAudacityですが、音声の増幅とノイズ除去の機能がありWav形式でのエクスポート可能ならどんな音声編集ソフトでもかまいません。
『Audacity ノイズ除去』等で検索してソフトと使用法は把握していただくとして、説明を続けます。
※気づいたらこの超優秀フリーウェア、開業以来十数年使わせてもらってます…ネットの普及で世の中がよくなった、と思える数少ない例の一つかもしれません。
余談はさておいて。以下の比較を試みました。
守秘義務に反しない範囲で説明します。さいきん提供された要反訳ファイルは以下のようなものでした。
- 録音機材は一般的なAndroidスマホ+同スマホ標準装備の録音アプリ
- 録音場所は普通の部屋のなか
- 録音担当者もそうでない者も勝手に発言する、2名の会話
要するにスマホさえありゃ誰でも録れる音声ファイルが来た、ということです。
これをまず、提供されたままNottaで音声認識にかけました。これをファイルaとします。
自動で反訳した結果の大雑把な印象として、総文字数の半分~7割程度が正しく文字化された感じがします。
さらに、Audacityで音声の増幅を弱めにおこなったものと強めにおこなったものを用意しました。それぞれファイルb、cとします。
最後に、ファイルcで音声増幅後にAudacityでノイズ除去をおこなったものを用意しました。ファイルdとします。
ファイルb・c・dの認識結果を、それぞれ当初のファイル、つまりファイルaと比べました。
比べた箇所は、裁判所に提出できる反訳書作成の手間に直結する『比較したファイルの片方だけ、発話した内容が正しく文字になっている箇所』と、『同じく片方だけ、発話した人が違う箇所の前後で適切に改行した箇所』です。
双方ともに正しく認識したり、双方とも誤認した箇所はカウントせずに比べました。同じ箇所2分間の反訳内容を比べた結果。
ファイルa:修正なし b:弱度の増幅 ファイルc:強度の増幅 d:強度の増幅+ノイズ除去
a b | a c | a d |
2 7 4 14 5 16
見にくい表ですね(苦笑)
aとb、つまり提供された音源aと軽度の増幅を施した音源bを比べた場合、aが正確に認識した位置でbが間違った箇所は2箇所、bが正確に認識したのにaが間違っていたのは7箇所、そういった比較結果になりました。
bとcの結果を比べると、ある程度は音声を増幅したほうがいいようには思います。ただし音割れするまで増幅すると、かえって認識結果は悪くなります。Audacityには音声の波形が出ますので、原音の波形が損なわれない範囲で増幅するのがよいでしょう…が、たまたま波形が大きい箇所は会話とは違う雑音が入ってるということも多いもの。録音を一通り聞いてから決めますが、僕は多少波形が壊れても強めに増幅していいと考えていたりします。
実施するかしないか微妙に迷うのはノイズ除去をするかどうか、です。これは機材に固有の(一定の周波数・音量の)ノイズをカットするもので、その辺のICレコーダーやスマホなら絶対入ってしまうノイズの低減に威力を発揮します。最終的に録音を人間が聞き分けるときにも有用ですから、一応微弱に実施するのがよさそうだと考えているところです。
そんなことやったってファイルacとadの比較を見ていると、2分の録音で差し引き10箇所ちょっと修正の手間が減るだけでは?と思われるかもしれません。
いいえ。その音源が180分あり、更にそんな録音ファイルが20個ある状況を考えてください(と、ドス黒い声で言ってみたい今日この頃)
この記事には後日、Audacityの波形の画像を加えたほうがよさそうです。次回以降に続きます。
あと、法的判断に立ち入らない=もっぱら技術的な観点からの助言のみを求める反訳書作成相談については、司法書士法第3条1項5号所定の裁判書類作成にかかる相談として当事務所でお受けします。地裁家裁簡裁などの提出先・請求額にかかわらず対応可能です。
そんな相談するのかい、とご同業の皆さまから突っ込まれそうですが、当事務所ではときどきあるのです。
なにしろ、これは合法的に提供可能なサービスなんですから(遠い目)
最近のコメント