目次
検索可能なPDF=テキスト化
書類をスキャナーでスキャンすると基本的にPDFになります。
「基本的」と書いたのは、ScanSnapではJPEGでスキャンすることもできますし、スキャナーによってはTIFFにすることができるからです。
ただ今回はPDFということで説明します。
ScanSnapでスキャンした書類は、検索可能なPDFとなるようにテキスト化することができます。
テキスト化とは、画像から文字を抽出する技術「OCR(Optical Character Recognition:光学文字認識)」を使い、文字として検索可能な状態にすることと理解してください。
これによりPDFが全文検索が可能になるわけです。
テキスト化処理する2つの方法
ScanSnapでスキャンした書類をテキスト化するタイミングは「スキャンしながら」と「スキャンした後」の2つがあります。
どちらも「全てのページをテキスト化」することはできますが、「指定したページのみをテキスト化」することは、「スキャンした後」にしかできません。
「スキャンしながら」テキスト化する場合、「全ページ」か「先頭ページ」かの二択になります。
全ページ | 先頭ページのみ | 現在(選択)ページのみ | |
スキャンしながら | ○ | ○ | ✕ |
スキャンした後 | ○ | ○(選択する) | ○ |
それぞれでのテキスト化する設定方法を説明します。
どちらも「ScanSnap Organizer」という同梱されているソフトを使います。
スキャンしながらテキスト化の設定方法
右上のフォルダアイコンをクリックして、「ScanSnapの設定」をクリックします。
タブから「ファイル形式」を選択し、「検索可能なPDFにします」にチェックを入れます。
チェックを入れると対象ページのラジオボタンがアクティブになりますので、選択します。
スキャン後テキスト化する方法
メニューから「検索可能なPDFに変換」から「選択中のPDFを変換」するクリックします。
「テキスト情報をページに埋め込む」にチェックを入れ、対象ページを選択します。
テキスト化する時間の比較
時間を検証するために使った資料は全62ページ(両面)の「平成29年度法人税関係法令の改正の概要」です。
テキスト化しない場合の時間を基準に、それぞれでどれくらい時間がかかったか。
画質 | テキスト化しない | 全ページ | 先頭ページのみ |
ノーマル | 1.13.31 | 1.18.79 | 1.13.79 |
ファイン | 1.15.80 | 1.28.41 | 1.16.22 |
スーパーファイン | 1.19.45 | 1.51.79 | 1.25.79 |
スキャンした後に、テキスト化した場合も検証してみました。
1回目 | 2回目 | |
ノーマル | 59.81 | 59.72 |
ファイン | 1.06.17 | 1.04.93 |
スーパーファイン | 1.12.56 | 1.14.18 |
スキャンをしながらよりは速いですが、けっこうな時間がかかりました。
「スキャンしながら」と「スキャンした後」どっちがいいか?
今回は1つのPDFのみをテキスト化する時間を検証しました。
「スキャンしながら」の方が時間はかかりますが、トータルで考えると「スキャンした後」の方が時間がかかります。
ただ「スキャンした後」の場合、複数のPDFを一括でテキスト化することができます。
テキスト化を実行するタイミングも、コンピュータの空き時間に実行するといったこともできます。
ですので方法としては
少量の書類をPDFにする→「スキャンしながら」
大量の書類を一括でPDFにする→「スキャンした後」にまとめてテキスト化
がいいかなと思います。