紙をスキャンして作ったPDFは、見た目は文字でも中身は「画像」です。そのため文字を検索できない・コピーできない、という不便があります。これを解決するのがOCR(光学文字認識)——画像の中の文字をコンピューターに読み取らせ、テキストとして扱えるようにする技術です。

この記事では、スキャンPDFをOCR(光学文字認識)で無料でテキスト化する方法を、ブラウザ完結のサービスと、アップロード不要で安全なGoogleドライブ・OneNoteの標準機能に分けて解説します。さらに、認識精度を上げるコツOCRの限界・機密ファイルの注意まで、実務目線でまとめます。

まず目的を決める:「検索可能PDF」か「テキスト抽出」か

OCR(光学文字認識)には大きく2つのゴールがあり、最適な方法が変わります。最初にどちらかを決めましょう。

  • 検索可能PDF(サーチャブルPDF)にしたい:見た目はスキャンしたそのままで、上に透明な文字情報を重ねる処理です。レイアウトを保ったまま、Ctrl+Fで検索したり文字をコピーできるようになります。資料の保管・全文検索に向きます。
  • 文字だけ取り出したい(テキスト抽出):レイアウトは気にせず、本文の文字をWordやメモに起こしたい場合です。再利用・編集が目的のときに向きます。

「保管して後で探したい」なら検索可能PDF、「中身を書き直したい」ならテキスト抽出、と覚えておくと迷いません。

方法①:ブラウザだけで「検索可能PDF」にする(インストール不要)

レイアウトを保ったまま検索可能にするなら、オンラインのOCRサービスが手軽です。代表的な無料サービスは次のとおりです。

サービス 特徴(無料利用時)
PDF24 Tools 登録不要。アップロードすると、元のレイアウトをほぼ保った検索可能PDFを生成。
Smallpdf 数秒で検索可能PDF化。そのままWord変換にも繋げられる。無料は回数制限あり。
Adobe Acrobat オンライン PDF開発元の公式。OCR精度が高め。無料はログインなしだと回数制限あり。

手順は共通です。OCR(またはテキスト認識)ツールを開き、スキャンPDFをアップロード、言語を「日本語」に設定して実行、できた検索可能PDFをダウンロードします。仕上がったら、PDFを開いてCtrl+F でキーワードを検索し、ヒットすれば成功です。

方法②:Googleドライブで「テキスト抽出」する(アップロード不要・無料)

Googleアカウントがあれば、追加コストなしでOCR(光学文字認識)できます。日本語の精度が高く、縦書きにも対応しているのが強みです。

  1. スキャンPDF(または画像)をGoogleドライブにアップロード
  2. そのファイルを右クリック →「アプリで開く」→「Googleドキュメント
  3. 自動で文字が読み取られ、テキストとして抽出される
  4. 「ファイル」→「ダウンロード」からWord(.docx)やテキストで保存

注意点として、Googleドキュメントは元のレイアウトを保持しません(文字だけのシンプルな状態になります)。紙面の見た目を保った検索可能PDFが欲しい場合は、方法①のオンラインOCR(光学文字認識)を使ってください。なお、これはGoogleのサービス上での処理になるため、機密書類では後述の注意を確認しましょう。

方法③:OneNoteで画像の文字を抜き出す(Windows標準系)

MicrosoftのOneNoteにも、画像から文字を抽出するOCR(光学文字認識)機能が標準で備わっています。

  1. OneNoteにスキャンした画像(またはPDFのページ画像)を貼り付ける
  2. 貼り付けた画像を右クリック →「画像からテキストをコピー」
  3. メモ帳やWordに貼り付けると、文字として取り出せる

少量の文字をさっと抜き出したいときに手軽です。1ページずつの処理になるため、大量ページには方法①②が向きます。

認識精度を上げる4つのコツ

OCR(光学文字認識)の仕上がりは、元のスキャン画像の質に大きく左右されます。次を意識すると誤認識がぐっと減ります。

  • 解像度を上げる:低すぎると認識が落ちます。300dpi程度を目安にスキャンします(最低でも一定以上の解像度が必要です)。
  • 傾きを直す:斜めにスキャンされた文書は誤認識の原因。まっすぐ取り込む、または傾き補正をかけます。
  • 濃さ・コントラストを整える:薄い・かすれた文字は読み取りにくいため、はっきりした濃さでスキャンします。
  • 言語を正しく指定する:OCR実行時の言語設定を「日本語」にします。英数字混在の文書でもまず日本語で試します。

OCRの限界:100%にはならない

OCR(光学文字認識)は便利ですが、完璧な認識は保証されません。特に次のようなケースでは誤認識が起きやすく、確認・修正が必要です。

  • 特殊なフォントや装飾文字、手書き文字
  • 表や複雑なレイアウト(セルの区切りが崩れやすい)
  • かすれ・汚れ・低解像度のスキャン

検索してもキーワードがヒットしないときは、その文字が誤認識されている可能性があります。重要な書類は、OCR後に必ず原本と照らして目視チェックし、数字や固有名詞の誤りを直しましょう。「OCRは下書きを作ってくれるもの、仕上げは人の目」と考えると失敗しません。

機密ファイルをOCRするときの注意

オンラインのOCRサービスは、PDFを外部サーバーに送って処理します。多くは「処理後すぐ削除」と説明していますが、契約書・個人情報・社外秘を含むスキャンには注意が必要です。機密性が高い書類は、できるだけアップロード不要の方法(OneNote、または社内ルールで許可されたGoogleドライブ)で処理し、勤務先のルールがあれば必ず従ってください。

どの方法を選ぶ?目的別の早見表

やりたいこと おすすめ
見た目を保ったまま検索・コピー可能にしたい 方法①(オンラインOCR)
文字だけ取り出してWordで編集したい 方法②(Googleドキュメント)
画像の一部の文字をさっと抜き出したい 方法③(OneNote)
大量・高精度・機密で本格運用したい Adobe Acrobat など専用ツール(有料/体験版)

まとめ

スキャンPDFのOCRは、まず「検索可能PDFにしたいのか、文字を取り出したいのか」を決めるのが出発点です。レイアウトを保つならオンラインOCR、文字の抽出ならGoogleドキュメント、少量ならOneNoteと使い分けましょう。

精度は解像度・傾き・濃さ・言語設定で大きく変わり、OCRは完璧にはならないため最後は目視チェックが大切です。そして機密書類は、安易に外部へアップロードしないこと。これらを押さえれば、溜まったスキャン書類を無料で手軽にデジタル整理できます。

関連して、PDFをWordに変換する方法PDFのサイズを無料で圧縮する方法PDFを結合・分割する方法も合わせてご覧ください。

ABOUT ME
IT解決チャンネル編集部
ExcelやWord、Windows、Googleスプレッドシートなど、ビジネスで使うITツールの使い方を初心者にもわかりやすく解説しています。関数の使い方から実務で役立つ応用テクニックまで、画像付きでていねいに紹介。パソコン操作で困ったときの頼れる情報源を目指しています。