フォト
無料ブログはココログ

« 作ろう、インデックスファイル | トップページ | 一から設定するWindows search »

使おう、インデックス検索

小さな事務所が数年の業務で溜めた、Docuworks形式の文書約7000ファイル。

LANに接続したHDD(NAS)において全文検索をかけたら終了までに30分以上かかってしまって呆然…さてどうしましょう、という記事の続きです。

実はこれ、Windows7標準のインデックス作成型全文検索をつかうと1秒弱で検索が終わるんです(失笑)

CPUにcorei7-860を使ってこの所要時間、Pentium4(3GHz)の別マシンからですと3秒ほどかかります。つまり現用のほとんどのPCで実用になる所要時間におさまるはずです。

これはむしろ当たり前でして、あらかじめインデックスファイルを各PCの内蔵HDDに作成させるからです。

そして検索実行時にはNAS内のデータではなくまずインデックスを検索し、ヒットしたファイルの閲覧だけNASにアクセスして行うことができるために速いに決まってる、ということで。Docuworks7まではこうしたインデックス型の検索ができず、NAS内の各ファイルに逐次アクセスして一つ一つのファイルからデータを読んで探していた…だから法外な所要時間をかけていた、というのが現状です。

当ブログでもDocuworksについて言及した記事にはときどきfujizerox.co.jpからアクセスがあるんですが、上記のようだからDocuworks8にアップデートしましょう、などとは申しません。もちろん、大規模な弁護士法人ならいざしらず数十万円単位の文書管理システムに発展させることも全く考えません。

ほとんどタダで何とかしよう、というのが基本方針です。そうした身の丈にあった使い方ができるのがDocuworksの長所の一つだと考えています(これで年賀状作ってる、と補助者さまにいわれた時には少々たまげましたが、なるほど非ビジネスユースでもいいんですね)

さて、WindowsXPや7には標準でインデックス検索型の検索システムが実装されています。

これが世間では素晴らしく評判が悪く、実は僕もそういうものだと先月まで思っていたんです。こいつは勝手にHDDのそこら中にアクセスしてカリカリ音を立てCPUパワーを横取りし空き容量を侵食し云々、ならば無効にしておくべきだ、それがPCの安定化とパフォーマンス改善への道だ、と。

しかしながら、特にWindows7のWindows searchについては落ち着いて設定してあげればそう問題があるものでもないし、なにしろWindows7を持ってればタダで手に入るものだしシステムとの親和性は抜群、という利点を持っています。

そこで、まずこれを使って高速な全文検索を実現することを考えます。

PCに内蔵されたHDD=ローカルディスクであれば、Windows searchの利用は当然に可能です。それこそ勝手にインデックスを作ってくれます。

少々音を立てたりパフォーマンスが悪くなったりHDDの空き容量が減ったりもしますが(笑)

一方でLANに接続されているNAS(特に家庭用の安価なもの)では、エクスプローラでそのフォルダやネットワークディスクのプロパティを見るとわかるようにインデックスを作成できず、インデックス検索もできません。

これとは全く別に考えていた、NAS上のファイルの暗号化がこれを解決することがわかりました。

Truecryptという暗号化ソフトでNAS上に暗号化された領域を作成する場合、利用時には(暗号化ソフト経由で暗号化領域にアクセスし、ファイルの読み書きを行う場合には)暗号化された領域はPC上のローカルディスクとして認識されるのです。ドライブレターも付与されます。

PCから見りゃローカルディスクなんだから、当然インデックス作れるもんね、という論理でNAS上においたファイルも、Truecrypt経由であればWindows searchでインデックス検索ができる、そうした状態が作れることになりました。

Truecryptを導入する以上、暗号化-複号という流れが必然的に発生しますが、CPUの能力が十分なら処理に遅れは感じません。というより、もっぱらLAN内の通信速度に制約されるので暗号化されていようがいまいがほぼ気になりません。

そうしたわけで、データのセキュリティを真剣に考える人は暗号化ソフトとして、そうでなくても、ネットワークドライブを『なんちゃってローカルディスク』にしてしまうためにTruecryptをとにかく導入してしまうとしましょう。解説はいろいろなサイトにでています。

僕はとりあえず100GBほどを、暗号化領域としてNAS上に確保しました。この領域はLAN内の複数のPCからアクセスでき、TruecryptをインストールしたどのPCからみてもローカルディスクに見える、ということになっています。

導入にあたっては、Windows搭載機からの運用しか想定しないならファイルシステムをNTFSにしておくのがよいと考えます。FAT32で領域を確保したときと比べて、少しだけアクセスが速いような気がします。特にDocuworksで、NASの暗号化領域に設定したリンクフォルダの配下にある数百個のフォルダを展開するような場合に…2秒弱くらい違う気がします。少なくとも1秒は違うはず(笑)

大容量の暗号化領域を作るのは、それ自体数時間がかりの作業になります。100BASE-Tで、当時からあまり速くないと言われていたIODATAの数年前発売のNASで100GBの領域をフォーマットするのに5時間弱かかりました。もちろん、この間PCで他の作業をすることは可能です。

それができたら、その領域に収容したい冒頭のファイル群(約15GB)をコピーするのに約1時間、ここまでやってようやくインデックスファイルの作成になるのですが、この作業も僕の環境では1時間弱かかったようです。

作業にあたってはインデックスするファイルの種類をかなり限定したため、インデックスファイルの大きさはいまのところ100MB弱を超えていません。調子にのってRAMディスク上にインデックスファイルを作成させようとしたらWidows searchのサービスが止まってしまったのでこれはやめておいたほうがよいのかもしれません。今は素直に、PC内蔵のHDD上にインデックスファイルを作成しています。

次の記事では、Truecryptで確保した領域を含むローカルディスク上の希望の場所と希望のファイル名を指定して、インデックスファイルを作成させるまでの設定を説明します。

今は、別の全文検索ソフトでインデックスファイルの作成~検索までの流れをあれこれ試しています。こちらのソフトは3千円ほどするシェアゥェアなんですが、テキストデータの検索に限定するならWindows searchより使いやすい気がするのです。

« 作ろう、インデックスファイル | トップページ | 一から設定するWindows search »

零細事務所の電算・情報・通信」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: 使おう、インデックス検索:

« 作ろう、インデックスファイル | トップページ | 一から設定するWindows search »

2021年12月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31