スキャンPDFをOCRで無料でテキスト化する方法|検索可能PDF化・文字抽出の使い分けと精度のコツ
紙をスキャンして作ったPDFは、見た目は文字でも中身は「画像」です。そのため文字を検索できない・コピーできない、という不便があります。これを解決するのがOCR(光学文字認識)——画像の中の文字をコンピューターに読み取らせ、テキストとして扱えるようにする技術です。
この記事では、スキャンPDFをOCR(光学文字認識)で無料でテキスト化する方法を、ブラウザ完結のサービスと、アップロード不要で安全なGoogleドライブ・OneNoteの標準機能に分けて解説します。さらに、認識精度を上げるコツとOCRの限界・機密ファイルの注意まで、実務目線でまとめます。
まず目的を決める:「検索可能PDF」か「テキスト抽出」か
OCR(光学文字認識)には大きく2つのゴールがあり、最適な方法が変わります。最初にどちらかを決めましょう。
- 検索可能PDF(サーチャブルPDF)にしたい:見た目はスキャンしたそのままで、上に透明な文字情報を重ねる処理です。レイアウトを保ったまま、Ctrl+Fで検索したり文字をコピーできるようになります。資料の保管・全文検索に向きます。
- 文字だけ取り出したい(テキスト抽出):レイアウトは気にせず、本文の文字をWordやメモに起こしたい場合です。再利用・編集が目的のときに向きます。
「保管して後で探したい」なら検索可能PDF、「中身を書き直したい」ならテキスト抽出、と覚えておくと迷いません。
方法①:ブラウザだけで「検索可能PDF」にする(インストール不要)
レイアウトを保ったまま検索可能にするなら、オンラインのOCRサービスが手軽です。代表的な無料サービスは次のとおりです。
| サービス | 特徴(無料利用時) |
|---|---|
| PDF24 Tools | 登録不要。アップロードすると、元のレイアウトをほぼ保った検索可能PDFを生成。 |
| Smallpdf | 数秒で検索可能PDF化。そのままWord変換にも繋げられる。無料は回数制限あり。 |
| Adobe Acrobat オンライン | PDF開発元の公式。OCR精度が高め。無料はログインなしだと回数制限あり。 |
手順は共通です。OCR(またはテキスト認識)ツールを開き、スキャンPDFをアップロード、言語を「日本語」に設定して実行、できた検索可能PDFをダウンロードします。仕上がったら、PDFを開いてCtrl+F でキーワードを検索し、ヒットすれば成功です。
方法②:Googleドライブで「テキスト抽出」する(アップロード不要・無料)
Googleアカウントがあれば、追加コストなしでOCR(光学文字認識)できます。日本語の精度が高く、縦書きにも対応しているのが強みです。
- スキャンPDF(または画像)をGoogleドライブにアップロード
- そのファイルを右クリック →「アプリで開く」→「Googleドキュメント」
- 自動で文字が読み取られ、テキストとして抽出される
- 「ファイル」→「ダウンロード」からWord(.docx)やテキストで保存
注意点として、Googleドキュメントは元のレイアウトを保持しません(文字だけのシンプルな状態になります)。紙面の見た目を保った検索可能PDFが欲しい場合は、方法①のオンラインOCR(光学文字認識)を使ってください。なお、これはGoogleのサービス上での処理になるため、機密書類では後述の注意を確認しましょう。
方法③:OneNoteで画像の文字を抜き出す(Windows標準系)
MicrosoftのOneNoteにも、画像から文字を抽出するOCR(光学文字認識)機能が標準で備わっています。
- OneNoteにスキャンした画像(またはPDFのページ画像)を貼り付ける
- 貼り付けた画像を右クリック →「画像からテキストをコピー」
- メモ帳やWordに貼り付けると、文字として取り出せる
少量の文字をさっと抜き出したいときに手軽です。1ページずつの処理になるため、大量ページには方法①②が向きます。
認識精度を上げる4つのコツ
OCR(光学文字認識)の仕上がりは、元のスキャン画像の質に大きく左右されます。次を意識すると誤認識がぐっと減ります。
- 解像度を上げる:低すぎると認識が落ちます。300dpi程度を目安にスキャンします(最低でも一定以上の解像度が必要です)。
- 傾きを直す:斜めにスキャンされた文書は誤認識の原因。まっすぐ取り込む、または傾き補正をかけます。
- 濃さ・コントラストを整える:薄い・かすれた文字は読み取りにくいため、はっきりした濃さでスキャンします。
- 言語を正しく指定する:OCR実行時の言語設定を「日本語」にします。英数字混在の文書でもまず日本語で試します。
OCRの限界:100%にはならない
OCR(光学文字認識)は便利ですが、完璧な認識は保証されません。特に次のようなケースでは誤認識が起きやすく、確認・修正が必要です。
- 特殊なフォントや装飾文字、手書き文字
- 表や複雑なレイアウト(セルの区切りが崩れやすい)
- かすれ・汚れ・低解像度のスキャン
検索してもキーワードがヒットしないときは、その文字が誤認識されている可能性があります。重要な書類は、OCR後に必ず原本と照らして目視チェックし、数字や固有名詞の誤りを直しましょう。「OCRは下書きを作ってくれるもの、仕上げは人の目」と考えると失敗しません。
機密ファイルをOCRするときの注意
オンラインのOCRサービスは、PDFを外部サーバーに送って処理します。多くは「処理後すぐ削除」と説明していますが、契約書・個人情報・社外秘を含むスキャンには注意が必要です。機密性が高い書類は、できるだけアップロード不要の方法(OneNote、または社内ルールで許可されたGoogleドライブ)で処理し、勤務先のルールがあれば必ず従ってください。
どの方法を選ぶ?目的別の早見表
| やりたいこと | おすすめ |
|---|---|
| 見た目を保ったまま検索・コピー可能にしたい | 方法①(オンラインOCR) |
| 文字だけ取り出してWordで編集したい | 方法②(Googleドキュメント) |
| 画像の一部の文字をさっと抜き出したい | 方法③(OneNote) |
| 大量・高精度・機密で本格運用したい | Adobe Acrobat など専用ツール(有料/体験版) |
まとめ
スキャンPDFのOCRは、まず「検索可能PDFにしたいのか、文字を取り出したいのか」を決めるのが出発点です。レイアウトを保つならオンラインOCR、文字の抽出ならGoogleドキュメント、少量ならOneNoteと使い分けましょう。
精度は解像度・傾き・濃さ・言語設定で大きく変わり、OCRは完璧にはならないため最後は目視チェックが大切です。そして機密書類は、安易に外部へアップロードしないこと。これらを押さえれば、溜まったスキャン書類を無料で手軽にデジタル整理できます。
関連して、PDFをWordに変換する方法、PDFのサイズを無料で圧縮する方法、PDFを結合・分割する方法も合わせてご覧ください。







