1枚のスキャンから (代書やさんのDocuWorks その3)
これは『代書やさんのDocuWorks その2』のつづきです。例によってアフィリエイトへのリンクを貼っておきますが、ヤフオクであれば一つまえのバージョンが1万円弱で手に入ります。僕としてはこっちもおすすめです。
さてさてお手もとにDocuWorks(体験版含む)とスキャナがあるとして、手元の紙をどうやって電子文書として収容していけばよいのでしょうか。今日はその話しです。
題材にするのは先ごろ当事務所にやってきだダイレクトメール。相続登記の名刺広告を出さないか、といういつものやつです。愛知県内の司法書士さん方がみんな持ってるだろう1枚。(dm1.pdf)
これはグレースケール300dpi、圧縮率50%でスキャンしたものです。ファイルサイズは630KBほどになっています。
同じ原稿を、やはりグレースケール300dpiでスキャンし、DocuWorksに取り込みます。ファイルサイズは540KBです。(dm1.xdw)
上記両者を見比べてみましょう。白黒の文書を取り込むだけであればフルカラーにする必要はありません。文書のサイズとスキャンの時間がいたずらに増加するだけです。白黒2値にしてしまうとファイルサイズは減少しますが、鉛筆で手書きした部分や細かい文字が読み取りにくくなります。ファクスで受信した文書はもともと白黒にされてしまっているのでそのままスキャンしてかまいませんが、見やすい文書の保存という点からはおすすめできません。
さて、上記設定でDocuWorksに取り込んだ文書をOCRにかけたらどうなるか、は上記添付ファイルのOCR結果のとおりです。以下の問題が見受けられます。
下半分の『実施要項』欄内で、まず●を付けた項目を始めに下までよみ、その後本文を認識しました。
文字の認識の間違いが15カ所あります。『テーマ』のテの部分を複数の文字として認識した・『掲載料金』の金を盒と認識した・金額欄の『000-』の-を、漢数字の一と認識した箇所が13箇所です。このほか、文字ではありませんがピクトグラムの電話のマークを文字と誤認したのが二箇所あります。
この結果を満足すべきものと考えるかなんだそんなもんかよとみるかは各人の個性ですが、それでも
『人力で目視で検索するよりよっぽどまし』であることは確かです。いざとなったらプリントアウトしなおして再度紙にしてパラパラめくる、ということもグレースケール300dpiで読み込んでおけば可能ですから(ってそれを言っちゃおしまいですがね)
ところでこのOCR結果、200dpiと600dpiでスキャンしたサンプルを作ってみましたが、特に精度が変化することはありませんでした。なら200dpiでもよいではないか、という声もでてきそうなのですが、プリンタで再度印刷したり画面上で拡大したりすると、200dpiでは多少劣ることが肉眼でわかってしまいます。これに対して300dpiと600dpiでは目でみて比べる限りさしたる違いを見いだしにくいのです。一方で600dpiでのスキャンは所要時間が顕著に増大してきます。解像度が2倍になればデータ量は4倍になってきますから。
参考に200dpiでスキャンしたもの(330KB)(dm200.xdw) をあげておきます。
なお、OCRの詳細設定には注意が必要です。『空白文字を挿入する』にチェックをつけてしまうと、本来空白が入るべきでないところに空白が入ることがあります。『司法書士』という認識結果が『司法書 士』となったりします。こうした文書に対して『司法書士』というキーワードで検索をかけても後者の結果はヒットしませんので、空白文字の挿入はさせないほうが無難です。
あとは、文中に英単語がなければ言語は『日本語』にし、『日本語知識処理を行う』にはチェックをするのがよいでしょう。原稿レイアウトは上記の例のような文書であれば『横書き多段』、縦書きであれば『縦書き多段』を選択します。横書き・縦書きとも、一段を積極的に選ぶメリットはないような気がします。これを行いたい場合(どうあっても一段組の文書とさせたい場合)には、OCRにかける領域を指定したほうが確実です。そしてそんなことをやって作業性を落とすより、初期設定のままたくさん取り込むことを優先したほうがよいでしょう。複数のページを読み取らせるが文書内に縦書きや横書き、表や文章が混じる場合には構成も段組も『自動判別』にしてしまいます。空白文字さえ挿入させなければ、個々の文字列そのものの認識結果にまで影響が生じるようなことはありませんので、それ以外は自動にしてあまり深く考えないことを推奨します。
まとめです。
お手元にある紙の文書をDocuWoksに取り込むには
- 色の設定はグレースケール
- 解像度は300dpi程度
- 取り込みと同時に、または事後にOCRにかける
- OCRの設定では空白文字を挿入させない。あとは自動判別で
というのがよいことになります。ただしこれは、e-文書法に準拠した設定ではありませんが、手元の紙文書をとにかくさっさと取り込むにはこれくらいでよいでしょう。
たとえばこれならお客さまからあずかった取引履歴を片っ端からスキャンしておいて、訴訟になるならプリントアウトして甲第●号証としても全然支障ありません。従来通りのコピーをするにしたってコピー機のフタを開いてスキャン(または、ホチキスをとってADFにセット)→印刷という動作は誰かがやるのです。それとくらべて、DocuWorksに取り込んでおく作業がとくに手間がかかる、というわけでもないでしょう。
ところで。同業者さんのブログで一つ気になる記事がありました。
僕が平成15年に派遣切りされるまえに住んでいたその市で事務所を開いておられるそちらの執筆者さんはこっちを読んでるはずなんですが、その方がお使いのPCで毎朝一回目の起動に失敗するとのこと。これはよくある現象でして、電源かマザーボードのコンデンサが劣化(ドライアップ)していることで発生します。Windowsが勝手にセーフモードに突入するのは電源周りの不調を察知してのことで、これはこれなりに所定の挙動です。
いずれにせよ業務用として長期の使用はおすすめしません(が、僕のように秋葉原で新しいコンデンサ買ってきてマザーボードのコンデンサをハンダゴテで引っこ抜いて交換して使用続行、などということをおすすめもしません♪)。
もしメーカー製のPCなら『(型番または機種名) 冷間起動 失敗』で検索をかけると誰かがなにか言ってるのが見つかるかもしれません。
さてさて、明日は当事務所の忘年会です。出席者は補助者さまと自称産業医の親友。楽しみです。
« 気分で動く新鋭機 | トップページ | 行き暮れて、三河安城 »
「零細事務所の電算・情報・通信」カテゴリの記事
- 片足をひたしてみるマイクと音声編集の沼 後編(2024.05.06)
- 片足をひたしてみるマイクと音声編集の沼 中編(2024.05.01)
- 片足をひたしてみるマイクと音声編集の沼 前編(2024.04.24)
- 申請用総合ソフト:バーコードリーダを使用せずに行うQRコード読込の導入事例(2024.03.21)
- 冗談から使い始める生成AI(2024.01.20)
コメント