1万ページの処理時間
先々月から進めてきた過去の事件の資料の電子化は、とりあえず相手側が作成した文書と僕が紙に書いた手控えをすべてDocuWorksに収容していったん終了しました。
その総数、1万ページ余。ファイル数、1007。これらが一つのフォルダに突っ込んであります。これだけのファイルが同一フォルダに置いてあっても動作に支障を来さないことが確認できたことを、さしあたり喜ぶべき…なんでしょうか?
さて、この文書の大部分は、活字が印刷されているかプリンタで出力されています。検索性の向上(というより、検索性の確保でしょうか?)のため、これをぜんぶOCRにかける仕事が残っています。一つの文書を処理するだけならクリック数回で終わる単純作業ですが、なにしろ物量が膨大です。そこで試しに、A4判の文書10ページをDocuWorksでOCR処理したら
2分弱かかりました。つまり1ページあたり10秒ちょっと。
ということは?
1ページ10秒として1万ページの処理にかかる時間は10万秒。
1分は60秒、60分が1時間だから、
10万÷60÷60≒27時間46分。
当初この作業を始めたときにはなんとなく後回しにしていたOCR化がまさか一日で終わらない工程になろうとは。しかたがないので出張から帰った次の日である今夕19時25分から作業を始めることにしました。
実は何度か設定と処理を試してみたところ、どうも1ページ『10秒ちょっと』の所要時間が『11秒に近い』気がしたのです。また、約1万ページと把握しているのも実はA4判シートフィードスキャナでスキャンした枚数だけで、A3・B4判の文書がこのほかに結構あります。結構…つまり枚数不明です。おそらくは数百ページ程度です。
これらのことを考えると、おそらく作業時間は上記の20%ほど増えるのではないか、と考えました。順調にいけば、月曜日の朝には作業が終わっているはずです。作業に使っているのはPentiumⅣ1.6GHzのマシンですから、新しい機材ならこの半分くらいの所要時間で処理を終えるのでしょうか。
お話を昼間に戻します。いつも使う地下鉄の駅の手前でふらりと立ち寄ったローソンの複合機の画面が、いつもと違っています。その場でメディアからプリントだって…?
どうやら昨年から徐々に使える店舗が増えているらしく、気づくのが遅れました。つまりこの機能を使えば、
- PCで作成したり受信した文書をPDFにしてUSBメモリに落とし
- USBメモリをローソンに持っていって複合機に挿せば
- 複合機からプリントアウトできる
ということになります。素晴らしい!これまで使っていたセブンイレブンのネットプリントでは、PDFにした文書をいったんインターネットでアップロードしなければならず、ネットに接続しなくても複合機が使えるぶんローソンのサービスを使ったほうが便利かもしれません。
問題が一つありました。僕はUSBメモリを持っていません(失笑)
さっそく、というよりはようやく、図書館に行ったついでにUSBメモリを買ってきたところです。1980円のものでもなかなか思い切って買い物ができません。
…と、書いて終わろうとしたのですが。
隣の部屋から突然異音が聞こえてきました。
ブォー、と。
先ほどのOCR作業中のPCが、いままで聞いたこともないような気合いの入った音を立てています。電源ファンの後ろから、熱風が吹き出ています。時計をみると22時30分。作業開始から3時間経ったところです。
戦々恐々として隣の部屋の音に耳を傾けること、約10分。始まったときと同じくらい突然に、ファンは回転数を下げました。特に作業に支障が発生した様子はありません。
少し、不安な夜になりそうです。
« 虹の街発知立行 | トップページ | 帰ってきた?過払い書士 春の夜の妄想 »
「零細事務所の電算・情報・通信」カテゴリの記事
- SH-01Jで始める合理的シンプル290プラン(2022.12.29)
- (10年ぶりに!)代書やさんのDocuworks(Boox Note Air2におけるDocuworks Viewer Lightの導入と設定について)(2022.06.26)
- 山の中に好きなものが増えた話し(中通り山林調査 最終日)(2022.06.18)
- eKYCが本人確認を面談によらない『合理的な理由』になるかな、という期待(2022.05.19)
- 能ある鷹がやってきて普段は爪を隠して使えるらしいが性能批判は許可制(RTK-GNSSレシーバ導入の件)(2022.05.15)
コメント