« 期待のインデックス型全文検索ソフト、導入の件 | トップページ | 4両の虫干しから(趣味再開に関する件) »

行き暮れて、黄金週間

夕方になり、とりあえず散歩に出ました。

どうしたらいいか、わからなくなってしまったのです。

Dsc_0019

…というのは若干大げさなんですが、前回の記事で取り上げた全文検索ソフトが思い通りに動作しないことに気づかされ、この週末の自由時間をあらかた突っ込んだところです。

※上の写真は、天白川の対岸から当事務所入居物件を撮ったもの。そこ本当に名古屋市なのか、という突っ込みは一応歓迎です。

さて、現在の状況です。

  • 当事務所では過去の仕事で扱ったファイルを一案件一フォルダにまとめています。
  • ファイルは一太郎・PDFのほか、やむを得ず受け入れたWord・Excel、最も重要なものとしてDocuworksの文書・バインダーがあります。
  • これらが44GBほどあり、ファイル数は約2万7千個、普段は容量64GBのUSBメモリに入れて暗号化後、PCに挿しっぱなしにしてあります。

これを適切に、検索・参照できるようにしたいわけです。具体的には「名古屋簡易裁判所」といった語句を入力したら、それを内容に持つ各ファイルが検索にヒットするようになってほしい。

内蔵のHDD・SSDなら運用可能なのはWindowsが標準で持っているインデックス検索なのですが、当事務所のWindows搭載機からは内蔵HDDを撤廃しSSDに置き換えた関係で容量は常に逼迫気味です。

加えてWindowsのインデックス検索は検索値の入力方法についてわかりやすいヘルプが標準装備されておらず、しかも入力した語を勝手に分解して検索結果を出したりします。「東京地方裁判所」と入力すると、「東京 and 地方 and 裁判所」のような検索結果を出してくる(^_^;)

そんなこともあって代わりのインデックス検索ソフトを常に探していたところ、たまたま見つけたのが前回の記事に出たSAVVYでした。

導入して試してみたところ、Docuworks以外の各ファイルに対しては大変良好な挙動を示すのです。検索値を内容に持つファイルを迅速に探し、ファイル名と該当箇所のハイライト表示を出してくれ、検索結果から場所・ファイル名等でサクサク絞り込んでいけます。

でもDocuworks形式のファイルのみ、中身を読んでいない…検索できないのです。

ファイル名でだけは検索がかかるので思わず有頂天になってしまったのですが、実はそうだった、と(苦笑)

ただ、この支障は開発者が想定したものではないようです。むしろDocuworksのファイルもインデックス化され内容も検索対象になる旨の説明が提供者のウェブサイトに出ています。

念のためWindows10の64bit、Windows7の32bit、ファイルの場所も内蔵SSD・USBメモリ等々試してみたのですが、やはりDocuworksのファイルの内容だけが認識されていません。PDFも一太郎もWordもみんなインデックス化されているのに。並行して試したWindows純正のインデックス検索ではしっかりヒットしているので、iFilterの導入が不適切という可能性もありません。なぜか当事務所のPCでは、SAVVYはDocuworks文書の内容を拾ってくれないのです。

ここまで気づいたのが昨夕のこと。

ただ、ここで引き下がったらゴールデンウィーク前半の成果は風呂桶と床の黒ずみをとっただけ、ということになりかねません(汗)

どうせいつかは導入せねばならないシステムではあったので、いくつかのソフトを入れてみました。

大量のファイルがあるフォルダを探させるとハングアップする有料の○○検索くん、挙動は安定しているがGrep検索(インデックスを作らない)なので検索に対する応答に常に10分以上かけてくるK○IC、こういったところは有名ですが不採用。その他諸々も不採用。

なんとか使えるのは、「butterfly search」ではないか、ということになりました。今はこのソフトの運用を始めています。

少なくとも、Windows純正の検索機能で捕捉されるファイルをbutterfly searchが発見できない、ということはないし、その逆は普通にある(笑)ということでWindowsのインデックスサービスを置き換えられるものではあるようです。

不便といえば不便なのが、検索の起点になるパスを一箇所しか設定できないこと。CドライブとDドライブを同時にインデックス化・検索対象にはできず、ショートカットをどちらかに置くなどの工夫を要するとありました。いまのところはUSBメモリの中身がまるごと検索対象にできればよいので、この点は大きな支障とは考えないことにします。仮想ドライブなりどこかにUSBメモリをまるごとマウントしてしまうなりといった対処ができるかどうか試してみるつもりです。

各ソフトの挙動の違い。

USBに入れた2万7千ファイル44GBのファイル群から「除籍」という語を内容に持つファイルを検索させました。

ハングアップしたもの…○○検索くん。これで税別3千円は反則です。

3時間経過後、終了せず…Windows標準の検索システム。「インデックスが作成されていない場所」で「ファイル名と内容を検索する」のオプションをつけて検索させると、DocuworksのファイルもOCR結果などに「除籍」という語を含めば該当として出してくれるのですが、6時過ぎに検索開始したのに10時前になっても候補を74個出した状態で絶賛検索中、という現状です。もういいよ、ということで終了させました。

応答無しにならなければ20分程度…K○IC。翻訳業界では人気があるらしいGrep検索ソフトですし検索値・場所の入力方法も厳密にしやすいので嫌いではないのですが、遅いです。バンドルされているインデックス検索ソフトはなぜかUSBメモリをインデックス化の対象にしない(エラーはログに残るので、何かしようとして失敗したことはわかる)、ということでこれもアンインストール。

で、butterfly searchは15秒ほどで、350個あまりの該当を検出してきました。引っかかったのはHTML・PDF・一太郎・Word・Docuworksなどなど一通りのファイルは内容を読んでいるようです。その前段階で必要なインデックスの作成も、上記の環境では1時間かかっていません。

そんなわけで。

明日・明後日はまじめに仕事して、連休後半はbutterfly searchをいじって過ごそうと決めました。

今週は、29・1・2・5日に相談の予定が入っています。引き続き、3・4日の相談のご予約も受付中です。

« 期待のインデックス型全文検索ソフト、導入の件 | トップページ | 4両の虫干しから(趣味再開に関する件) »

日記・コラム・つぶやき」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: 行き暮れて、黄金週間:

« 期待のインデックス型全文検索ソフト、導入の件 | トップページ | 4両の虫干しから(趣味再開に関する件) »

2020年8月
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31