フォト
無料ブログはココログ

« MFクラウド確定申告、採用の件 | トップページ | さようなら、『無料』相談 »

登記情報提供サービスPDFファイルからのテキスト抽出

先週は労働審判手続が2件、いずれも良好な結果をみて調停成立となりました。

ちょっと余裕な週末に、トライしたのが表題の件です。


おことわり

この記事は、不動産登記に関する業務支援ソフトを導入済みの司法書士さんとは別世界の住人が作成しています…そうした諸先生方には参考になりませんのでご了承ください。


登記情報提供サービスで入手できる情報がPDF化されたのは4年ほど前のことだったでしょうか。このPDF、マウスで範囲選択してコピー&ペーストできるので不動産番号を登記申請書に転記するのには重宝しています。

…あ、僕のところではオンラインで登記申請やってないのですが、それはさておいて。

このPDF、いったんAdobe Readerで読みこんでからテキスト情報を書き出すことはできます。

そうすると、罫線素片と文字情報からなるテキストファイルが書き出されます。

このテキストファイルを見て常々思っていたのです。どうせならPDFじゃなくて、CSVその他の表計算ソフトで読み込める形式で登記情報を提供してくれればいいのに、と。

コンピュータ化された登記情報はそれ自体がデータベースなんだから、一定の規則性を持たせてデータを区切ったファイルで情報を提供してくれればこちらでいくらでも加工ができるはずなのです。

具体的には、業務支援ソフトを運用中の諸先生方が普通にやってる作業=ダウンロードした登記情報のPDFのファイルを指定したら、そこに記載されている所在や床面積が適切に読み取られて登記申請書や遺産分割協議書に正確に反映される、そんな仕組みが自分で作れるのに、と考えています。

ところが誰もそうした方法をWebに放ってはくれません(当然ですよね)しかたがないので、

まずダウンロードしたPDFから文字情報を抽出するところから

自分で作ってみることにしました。先日の東京出張であれこれ予備調査を行って、さしあたっては一番近いシステムを作られた方のをパクる、いえ参考にさせていただこうと。

日経パソコンのウェブサイトの連載記事の一つ『100個以上あるPDFからテキストを抜き出そう』はJavascriptでプログラムが書かれており、僕にもなんとか読めます。まずスタンドアロンのPCでこのシステムが動くか試してみました。

記事中の説明にしたがってファイルをダウンロードし、適当な登記情報のPDFをpdf2text.batにドラッグ&ドロップしてみたところ

81

きっちりエラーメッセージを吐いてきました(苦笑)

こうでなくては当ブログの記事にふさわしくない気はします。

処理させたPDF名の直後に出てくるエラーを読むと、あるべきクラスが見つからない、とか言っています。その行に出てくるBouncyCastleProviderをググると、暗号に関連するライブラリだとか。JREのほかに、これをインストールする必要があるようです。

これには、『職人気質を目指すプログラマの日記』さんの記事が参考になりました。

この説明にそってbouncycastle.orgからjarファイルをダウンロードします。http://www.bouncycastle.org/latest_releases.html のページ下部 SIGNED JAR FILES の項目直下の『bcprov-jdk15on-154.jar』が使えました。

java.securityにsecurity.providerの行を追加する必要がありますが、これは僕のところでは最終行(security.provider10.)に追加しても動作しています。

このライブラリをインストールしたシステムでは、不動産・商業登記とも、登記情報提供サービスでダウンロードできるPDFからテキストを抽出できるようです。メモ帳でテキストデータとして見ることができました(下記の白い□の部分は、あとから塗りつぶしたものです)

82

このシステムのいいところは、Adobe Readerで一つ一つテキストファイルを書き出すのと違って複数のPDFファイルをまとめてドラッグ&ドロップすれば、それに対応する複数のテキストファイルを書き出してくれる点です。

細部に問題はあります。

  • 不動産の登記情報に出てくる『余白』という小さな字を長方形で囲んである記載は空白として出力されます。
  • 出力されるテキストファイルの文字コードはUTF-8です。文字コードを明示的に指定してファイルを開かないと、文字化けして表示され思わず絶望します(ええ、僕がそうしましたとも)
  • たぶん、人名や地名の特殊な文字は出力されません。

とはいえ、これで『登記情報提供サービスからもらってきた複数のPDFをまとめてどこかに投げたら、自動的にテキストファイルになって返ってくる』という状態にはなりました。

テキストファイルであれば分析や加工は普通にできるので、まずここから『不動産の表示』に記載するデータを抽出して整列させるプログラムを組むことを目指してみます。

ところでこのシステムの研究なんですが、最終的な目標は僕の事務所での導入にはありません。

登記申請書のひな形を公開している同業者さんのウェブサイトは世にたくさんあり、もう珍しくもありません。

仮にブラウザ上でこのプログラムを動かせるならば、最終的には登記申請する不動産のPDFを指定してあげれば誰でも正確に自分の(ひな形ではなく、自分の)登記申請書や委任状、遺産分割協議書が一気に作成できるようになるのではないか、と思うのです。

申請人や不動産などの申請諸元を与えてあげれば申請類型ごとに表計算ソフトでもこうした必要書類の一連の出力はできるので、だったら登記情報提供サービスで取ったPDFから不動産の表示が直接入力できれば楽ちんかな、と。

つまり素人さんむけに登記申請を支援するシステムが無料配布できればいい、と思っています。うまくできれば、当事務所ウェブサイトのフロントエンド商品に育つかもしれません。

以上、業務支援ソフトを使ってる事務所さんとは別の世界からお伝えしました(遠い目)

« MFクラウド確定申告、採用の件 | トップページ | さようなら、『無料』相談 »

零細事務所の電算・情報・通信」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: 登記情報提供サービスPDFファイルからのテキスト抽出:

« MFクラウド確定申告、採用の件 | トップページ | さようなら、『無料』相談 »

2021年12月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31