« 訴訟代理人、いずこにありや!? | トップページ | 探しものはナンですか »

代書やさんのDocuworks その7 全文検索への布石(の、打ち間違い)

Windows Searchに関しては、各ウェブサイトに大変充実した情報が提供されています。

  • 曰く、削除の方法。
  • 曰く、無効化の方法。
  • 曰く、停止の方法。

なかなかの逆風を受けつつあるWindows Searchをこのほど有効活用しようという試みをはじめました。今日は2年半ぶりの、『代書やさんのDocuworks』その7回目です。


さて、Docuworksで文書管理をはじめてから約三年。電子化して保管している文書が、増えてきました。

何ページ、とは数えられません。20GBちょっとあるね、という感じです。A4判の裁判書類をグレースケール300dpiでスキャンしてDocuworksに置くと、だいたい1ページ200KB程度になる一方、住民票のように地紋がある紙をスキャンすると1ページ1MBを超えることもあるので、ファイルサイズの合計からページ数を推し量ることすらできない迷宮が…フォルダの中に広がっています。ライブラリーというよりは、ラビリンスが。

Docuworksが標準で装備する検索機能は、この迷宮に分け入るにはいささか力不足です。OCR結果を検索する場合、検索語は事実上、一語しか入力できません。二語を検索語として入力するとor検索がかかってしまって候補数が膨大になるだけです。

理想的には上記フォルダに突っ込んだ数をも知れない文書のなかから『割増賃金請求事件での弁護士による準備書面読みたいな』と思ったら、検索語に

  • 割増賃金 弁護士 準備書面

とか適当に入力したら候補がコロっと出てくる、などという妄想をあっさり打ち破るのがDocuworks純正の検索機能であります。

対処方法は、ないわけではありません。Docuworks6.2まで同梱されていたExpand FinderというJustsystem製のソフトがこの検索を可能にしているようですが、すでに販売停止になっています。Windows7環境下で運用して嬉しいソフトウェアではなさそうです。

いろいろ探しているうちに、Docuworks Content Filterなるものがあることがわかりました。iFilterの一種であるこれは、Windows SearchとDocuworks文書の間に立ってWindows SearchがDocuworks文書を全文検索することを可能にするものなのだそうです。

で、Windows Searchとはどんなスバラシイ機能なのかとググったら…冒頭の結果にたどり着きました、と(苦笑)

みんなひどい言いようだねぇ、と思いながら自分のHDDのプロパティを確認したら、インデックスを作成していないことに気づきました。どうやらWindows7をインストールした直後にこのク●機能の排除を図っていたようです。その前身がWindows インデックスサービスだということさえ忘れ去っていました…もちろん、真っ先にサービスを停めたまま。

ではこの●ソ機能、導入するか否かでいろいろ考えていたのですが、要は新しいHDDを増設してDocuworks文書専用にし、そこだけはインデックスを作成させてWindows Searchで検索可能な状態にすればこのクソ機能の影響は最小化できるような気がします。

で、インデックスを構築して検索をかけてみました。

そこで気づいたのです。ただちに全文検索することはでき、検索速度も十分実用に耐えるが、この検索は『文書内の該当ページまでを示すものではない』ことに。

さてここで、当事務所の文書管理にはおそるべき問題があることがわかりました。僕のところでは各案件ごとにフォルダを一つ設けて、準備書面やら登記情報やら参考資料のコピーやらを逐次収容する一方、依頼終了時点でフォルダ内の各文書をバインダーに束ねて終了案件専用のフォルダに移動する、という管理手法を採っています。一フォルダのなかの各文書がサムネイル表示される、というDocuworks Viewerの機能にはよく合う(終了後のファイルをバインダーに束ねれば、終了したいろいろな文書が一覧できる)と思っていたのですが、このバインダー、Windows Searchからはあくまで一つのファイルとして扱われます。

そうすると。依頼受託中に多くの文書を集めてしまった案件ほど終了後にバインダーにまとめられる量も増え、増えた文字に応じて検索に無駄にひっかかってくる可能性も増えて、結果的に検索性が落ちることになるわけです。現状でWindows Searchを使って当事務所の文書フォルダを検索すると、たとえば『賃金 訴訟代理人 準備書面』という検索語では

  • 賃金の計算方法を説明している本のコピーと依頼人が訴訟代理人をつけませんと言ってきた連絡書と地位確認請求事件を本人訴訟で遂行した人の準備書面が束ねられているフォルダ
  • 訴訟代理人が作成した賃金に関する訴訟の準備書面(欲しいのはこれ)が入っているフォルダ
  • 賃借人は企業倒産に伴い賃金を払ってもらえず困窮しています、という記載のある陳述書と、原告に訴訟代理人がついている建物明渡請求訴訟の準備書面

なんかが軒並みひっかかってくる、ということになってしまうのです。困りました!

一つのバインダー内に複数文書が収容されている場合に各文書ごとに検索ができるようでないと、バインダーに多数の文書をまとめるのは全文検索の観点からは自殺行為、ということになりかねません。いまのところ、検索結果を片っ端から開いてDocuworks標準装備の貧弱な検索を複数回行う、ということで一応は運用可能なんですが…

さて、今後さらに数倍に増加していく文書の管理方法がこれでいいものかどうか、かなり迷いがあります。

もちろん、本当のバインダーに収納された紙文書をぱらぱらめくって検索するよりは全然速いに決まってるんですがね。

« 訴訟代理人、いずこにありや!? | トップページ | 探しものはナンですか »

零細事務所の電算・情報・通信」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック

« 訴訟代理人、いずこにありや!? | トップページ | 探しものはナンですか »

2021年4月
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30