続々:Windows7の音声認識を導入する件(活用編)
7月からいろいろ試しているWindows7の音声認識機能は、おおむね実用になるかたちで機材の設定を整えることができました。
これでキーボードを使わなくても文字の入力ができることになりますし、少しの間ならディスプレイを見ることさえ必要がない状態で文章の入力を続けることができることになりますので、作業の風景がいささか変わってきました。
タブレットとスタンドマイクを使っての作業風景です。
あ、ついでにダメ人間維持システムを作ってしまったようです。
もちろん、半分冗談ですが(汗)
持ち運びができるWindowsタブレットと音声認識のシステムを併用した場合、椅子に座って作業を行う必要もない、ということにはなっているのです。
もちろん、写真の作業姿勢で訴状の起案をしているなどということはありません。
ま、せいぜい「依頼はしますが今は一円も払えません」とかいう相談メールへの応対をする程度です(遠い目)
もう少し真面目にこの音声認識のシステムを使うにはどういったことに気をつけたらいいでしょうか。
マイクを中心とする機材の選択と設定はこれまでの説明で出来ているものとして、これまでの使い方で起きた問題点をいくつか指摘していきます。
利用するソフト
Windows7以降に音声認識は標準で装備されていますが、これを具体的にどのような場面で利用するか考えておく必要があります。
一般的なのは、
- 日本語の普通の文章の、しかも長文を入力することと
- スマートフォンではすでに可能な、音声検索の利用
- コンピュータのショートカットキーなどの操作を音声で代用させること
といったところです。
さまざまな長文の書類を起案することが多い僕の事務所で常用しているのは、もちろん文章の入力です。使い慣れれば意外と便利なのは、ショートカットキーなどのコマンドの入力です。たとえばコピーやペーストは範囲指定してからCtrl+Cなどのショートカットキーの組み合わせでキーボードを使ったりマウスの右クリックメニューを呼び出しているところを、範囲を指定したら「コピー」などの声で済ませるのです。
これでマウスからキーボードに手を伸ばすよりも早く作業ができるとわかりました。
こうしたコマンドの利用は、キーボードやディスプレイの前にいて通常の文字入力等を続けることを前提としています。使ってみてよかったと思えるコマンドは以下のものがあります。
- コピー
- 貼り付け
- メモ帳を起動(他のソフト名でも起動可。ショートカットやスタートメニューを探す必要がない)
- デスクトップを表示(複数のウィンドウを開いていると、一斉に最小化される)
- ソフト内のプルダウンメニュー(どのソフトでも左上にある『ファイル(F)』というメニューを開きたい場合、「えふ」と言えばよい。サブメニューも同様)
こうしたコマンドの利用は、ワープロやブラウザ等大部分のソフトで可能ですので、早速試してみることができるのではないでしょうか。またこれらのコマンドのみでの利用は、音声認識させる語彙が少なく済みますから、結果的に認識の精度も上がってくることが期待できます。
EPSON SCANのスキャン開始などのコマンドも音声で動作させられるため、USBで接続したスキャナがマウスのある場所と離れている場合、スタンドマイクに向かって「スキャン!」と叫べばリモコンの代わりになります。
…僕はすでに、スキャン時にはマウスに代用するUSB接続のフットスイッチを買ってあったのですがこちらの使用頻度が下がりそうです(苦笑)
音声による長文の入力
僕の事務所で一番注目しているのがこれ。日本語の文章のしかも長文を連続して音声で入力していくことです。
大雑把な印象として日本語の日常の表現が用いられる文章であるならば、通常のキーボードの入力によった場合よりも早い速度で入力でき、さらに腕の痛みなどの体の負担はほぼない、ということがわかっています。ちょっとまとまった文章はまず音声で入力できないか試してみるようになりました。
その文章入力に用いるソフトは、メモ帳を常用しています。
古いバージョンの一太郎など、ワープロソフトによってはWindows標準の音声認識から文字を直接入力されることに対応していないものもありました。メールソフトもそうです。Windowsが標準で持っているメモ帳であればこうした問題はなく、認識結果はただちに入力され、キーボードによる修正も併用できます。
このメモ帳を音声入力エディタの代わりにして、一旦音声入力をしてから先ほどの音声コマンドなどを使ってコピー&ペーストをして、目的のソフトウェアに文章を入れるとよいようです。文字入力はメモ帳で、編集はワープロで、ということになりました。
また、この方式を取らないと問題が発生することがあります。
Windowsの音声認識は声でコンピュータを操作するコマンドと文章の入力であるディクテーションをオペレータが区別して使うことができません。
ブラウザでウェブサイトを表示している場合のリンクなど、文字が割り当ててあってマウスでクリックできる場所もあれば文字を入力することができたりするアプリケーション内で音声認識を使うと、クリックできる場所がある場合には該当する音声の発声で、そこをクリックする動作をしてしまいます。
そのため、ブログの記事をブラウザで音声入力していると悲惨なことになります。
ブラウザ内にたまたま全く違う話題やページへのリンクがあった場合(これがよくあるのです!)にそれと同じ読みを発声したら、音声認識の文字が入力されるのではなくそのリンクを踏んで別のページに遷移するのです。つまり入力した記事が丸ごと吹っ飛ぶこともありました。
たとえばブラウザに『ログアウト』というリンクがあり、『ログアウト』という文字で表示されている場合に、音声入力する文章中に『ログアウト』という語があってうっかりその語を口にすると、ブラウザは文章を入力する画面からログアウトする画面遷移を行うのです。最悪です(苦笑)
こうしたソフトウェア固有の問題は、まさにブラウザで表面化してきます。表示している画面ごとにどんな文字がリンクになっているか変わりますので、ブラウザはうっかり文章入力に使えません。逆にリンクを踏みたいならその語の一部を発声すればよいので、マウスを動かす必要はなく、楽ではあるのですが。
こうしたことから、プルダウンメニューがシンプルでソフトの操作=コマンドとして利用できそうなものがなるべく少ないソフトとして、メモ帳を使うということを考えたのです。
逆に、音声による文章入力を全く期待せずにコマンドのみを使うことを目的として音声認識を使うということも考えられます。
音声入力エディタの代わりにWindows標準装備のメモ帳を使えるとして、音声入力してできる文章や音声認識の精度にも特徴的な挙動があります。
特定の言葉を正確に認識できない、あるいは同じように間違えて認識し続けるということがあることに気づきました。
例えば文末の『~です。』を正しく入力できずいつも『~で』になるのは僕の癖だと思います。ほかには、
- 有声音と無声音を間違える(「しょうかいします」と言ったら「商売します」と入力する、など)
- 清音と濁音を間違える(「じでん」と言ったら「自然」と入力する、など)
こうした特有の癖は、マイクの使い方にも影響されますがオペレータのほうで覚えておいて、あとでまとめて修正するなどの対処法を身に付けたほうがよさそうです。
『合意』と言ったつもりで『語彙』と表示されるのは、あとで修正しようとしても意味が通らなくなりかねませんが。
長文を入力するために音声認識を利用する場合、間違った入力結果がディスプレイに表示されるたびに修正をかけたくなりますが、これはあまりおすすめできません。メモ帳に入力し終わった文章なら、後でキーボードを使って直していくことができます。
ですので意味が通る文章が入っているなら、こだわらずに入力を続けるほうが思考が中断されません。音声認識で同音異義語を正確に変換させるためには、ひとまとまりの文章を一気にしゃべって入力してしまうのがよいのです。
こうした音声認識固有の癖を自分のものとして認識しておくことで、日本語の日常入力で音声認識をぐっと使えるものになってきます。
Windowsの音声認識にも、新しい語彙を登録したり学習させる機能がありますが、あまりよく機能している印象はありません。
ですので、最近は新たな語彙をいちいち入力させるということしていません。これはあきらめたほうがいい機能に思えます。
これまでのブログの記事で出してきた音声認識の結果というのはこうしたことを考慮して行ったものではありますが、 まず何時間か普通の文章を入力する作業をやってもらえれば、自分が話者としてどんな癖があるか分かると思います。あれこれ難しく書きましたが、音声認識の作業そのものはやはりそんなに難しいものではありません。
思い通りにならないことが突然起きるから、腹が立つだけなのです(笑)
そして、慣れれば、他の作業をしながら普通の日本語の文章を入力できるということの便利さがわかってきます。
極端な例としては、ヘッドセットとタブレットを利用して自動車の運転中に音声入力ができるかどうか先月試してみたのですが、これは思ったより正確に入力できるということがわかりました。今後は少し、公共交通機関の利用が減るかもしれません。
周辺雑音と機材への影響をいろいろ試しています。ヘッドセットを用いる場合、雑音、特に突発的な音が発生しないのであれば、音声入力はどこでもできるということになりそうです。
冗談のような話ですが、掃除機を使いながらお客さまに連絡するメールの文章を音声入力できました。掃除機の音はほぼ一定の連続音なので、ヘッドセットマイクのノイズキャンセル機能がよく働くのだと推測します。
あとは昼寝をしていたり(完全に意識が絶えてはいけませんが)、食事の準備その他の家事労働をしながらブログの記事が執筆できそうで、これは大変いいことです。まとまった時間がなくてもまとまった文章が書けることになりますから。
しかしながら、仕事や家事が忙しいのでブログが書けないといった言い訳はこれまで常に用意されていたのですが、これからはそうした言い訳が使えなくなってしまいそうです。
しかしWindowsの音声認識には、特にコマンドとディクテーションを区別する方法がないことや入力した数字の表示の様式など細かな設定ができない不満もあることが分かってきました。「せんはちじゅうえん」としゃべると「\1,080」と入力されるのが一向に直りません。
こうしたことを解決するために、いずれは音声認識専用のソフトを導入するのもよいかもしれません。体験版のAmivoiceも試してみましたが、ドラゴンスピーチとATOKの連携にも興味があります。
あと、この機材にも興味が。
« 数年に一度の無料法律相談をどうぞ | トップページ | 連続三日間、の制約(関西方面出張の日程調整をはじめました) »
「零細事務所の電算・情報・通信」カテゴリの記事
- 片足をひたしてみるマイクと音声編集の沼 後編(2024.05.06)
- 片足をひたしてみるマイクと音声編集の沼 中編(2024.05.01)
- 片足をひたしてみるマイクと音声編集の沼 前編(2024.04.24)
- 申請用総合ソフト:バーコードリーダを使用せずに行うQRコード読込の導入事例(2024.03.21)
- 冗談から使い始める生成AI(2024.01.20)
« 数年に一度の無料法律相談をどうぞ | トップページ | 連続三日間、の制約(関西方面出張の日程調整をはじめました) »
コメント