Scansnap

ScanSnapでスキャンした書類の検索可能なPDFにする2つの方法

更新日:

検索可能なPDF=テキスト化

書類をスキャナーでスキャンすると基本的にPDFになります。

「基本的」と書いたのは、ScanSnapではJPEGでスキャンすることもできますし、スキャナーによってはTIFFにすることができるからです。

ただ今回はPDFということで説明します。

ScanSnapでスキャンした書類は、検索可能なPDFとなるようにテキスト化することができます。

テキスト化とは、画像から文字を抽出する技術「OCR(Optical Character Recognition:光学文字認識)」を使い、文字として検索可能な状態にすることと理解してください。

これによりPDFが全文検索が可能になるわけです。

テキスト化処理する2つの方法

ScanSnapでスキャンした書類をテキスト化するタイミングは「スキャンしながら」と「スキャンした後」の2つがあります。

どちらも「全てのページをテキスト化」することはできますが、「指定したページのみをテキスト化」することは、「スキャンした後」にしかできません。
「スキャンしながら」テキスト化する場合、「全ページ」か「先頭ページ」かの二択になります。

全ページ 先頭ページのみ 現在(選択)ページのみ
スキャンしながら
スキャンした後 ○(選択する)

それぞれでのテキスト化する設定方法を説明します。
どちらも「ScanSnap Organizer」という同梱されているソフトを使います。

スキャンしながらテキスト化の設定方法

右上のフォルダアイコンをクリックして、「ScanSnapの設定」をクリックします。

タブから「ファイル形式」を選択し、「検索可能なPDFにします」にチェックを入れます。

チェックを入れると対象ページのラジオボタンがアクティブになりますので、選択します。

スキャン後テキスト化する方法

メニューから「検索可能なPDFに変換」から「選択中のPDFを変換」するクリックします。

「テキスト情報をページに埋め込む」にチェックを入れ、対象ページを選択します。

テキスト化する時間の比較

時間を検証するために使った資料は全62ページ(両面)の「平成29年度法人税関係法令の改正の概要」です。

テキスト化しない場合の時間を基準に、それぞれでどれくらい時間がかかったか。

画質 テキスト化しない 全ページ 先頭ページのみ
ノーマル 1.13.31 1.18.79 1.13.79
ファイン 1.15.80 1.28.41 1.16.22
スーパーファイン 1.19.45 1.51.79 1.25.79

スキャンした後に、テキスト化した場合も検証してみました。

1回目 2回目
ノーマル 59.81 59.72
ファイン 1.06.17 1.04.93
スーパーファイン 1.12.56 1.14.18

スキャンをしながらよりは速いですが、けっこうな時間がかかりました。

「スキャンしながら」と「スキャンした後」どっちがいいか?

今回は1つのPDFのみをテキスト化する時間を検証しました。
「スキャンしながら」の方が時間はかかりますが、トータルで考えると「スキャンした後」の方が時間がかかります。

ただ「スキャンした後」の場合、複数のPDFを一括でテキスト化することができます。
テキスト化を実行するタイミングも、コンピュータの空き時間に実行するといったこともできます。

ですので方法としては
少量の書類をPDFにする→「スキャンしながら」
大量の書類を一括でPDFにする→「スキャンした後」にまとめてテキスト化

がいいかなと思います。

03投稿記事下_関連コンテンツ

-Scansnap
-,

Copyright© 経理と総務の効率化 , 2024 All Rights Reserved.