スキャンPDFをOCRで無料でテキスト化する方法｜検索可能PDF化・文字抽出の使い分けと精度のコツ

紙をスキャンして作ったPDFは、見た目は文字でも中身は「画像」です。そのため文字を検索できない・コピーできない、という不便があります。これを解決するのがOCR（光学文字認識）——画像の中の文字をコンピューターに読み取らせ、テキストとして扱えるようにする技術です。

この記事では、スキャンPDFをOCR（光学文字認識）で無料でテキスト化する方法を、ブラウザ完結のサービスと、アップロード不要で安全なGoogleドライブ・OneNoteの標準機能に分けて解説します。さらに、認識精度を上げるコツとOCRの限界・機密ファイルの注意まで、実務目線でまとめます。

コンテンツ

まず目的を決める：「検索可能PDF」か「テキスト抽出」か
方法①：ブラウザだけで「検索可能PDF」にする（インストール不要）
方法②：Googleドライブで「テキスト抽出」する（アップロード不要・無料）
方法③：OneNoteで画像の文字を抜き出す（Windows標準系）
認識精度を上げる4つのコツ
OCRの限界：100%にはならない
機密ファイルをOCRするときの注意
どの方法を選ぶ？目的別の早見表
まとめ

まず目的を決める：「検索可能PDF」か「テキスト抽出」か

OCR（光学文字認識）には大きく2つのゴールがあり、最適な方法が変わります。最初にどちらかを決めましょう。

検索可能PDF（サーチャブルPDF）にしたい：見た目はスキャンしたそのままで、上に透明な文字情報を重ねる処理です。レイアウトを保ったまま、Ctrl+Fで検索したり文字をコピーできるようになります。資料の保管・全文検索に向きます。
文字だけ取り出したい（テキスト抽出）：レイアウトは気にせず、本文の文字をWordやメモに起こしたい場合です。再利用・編集が目的のときに向きます。

「保管して後で探したい」なら検索可能PDF、「中身を書き直したい」ならテキスト抽出、と覚えておくと迷いません。

方法①：ブラウザだけで「検索可能PDF」にする（インストール不要）

レイアウトを保ったまま検索可能にするなら、オンラインのOCRサービスが手軽です。代表的な無料サービスは次のとおりです。

サービス	特徴（無料利用時）
PDF24 Tools	登録不要。アップロードすると、元のレイアウトをほぼ保った検索可能PDFを生成。
Smallpdf	数秒で検索可能PDF化。そのままWord変換にも繋げられる。無料は回数制限あり。
Adobe Acrobat オンライン	PDF開発元の公式。OCR精度が高め。無料はログインなしだと回数制限あり。

手順は共通です。OCR（またはテキスト認識）ツールを開き、スキャンPDFをアップロード、言語を「日本語」に設定して実行、できた検索可能PDFをダウンロードします。仕上がったら、PDFを開いてCtrl+F でキーワードを検索し、ヒットすれば成功です。

方法②：Googleドライブで「テキスト抽出」する（アップロード不要・無料）

Googleアカウントがあれば、追加コストなしでOCR（光学文字認識）できます。日本語の精度が高く、縦書きにも対応しているのが強みです。

スキャンPDF（または画像）をGoogleドライブにアップロード
そのファイルを右クリック →「アプリで開く」→「Googleドキュメント」
自動で文字が読み取られ、テキストとして抽出される
「ファイル」→「ダウンロード」からWord（.docx）やテキストで保存

注意点として、Googleドキュメントは元のレイアウトを保持しません（文字だけのシンプルな状態になります）。紙面の見た目を保った検索可能PDFが欲しい場合は、方法①のオンラインOCR（光学文字認識）を使ってください。なお、これはGoogleのサービス上での処理になるため、機密書類では後述の注意を確認しましょう。

方法③：OneNoteで画像の文字を抜き出す（Windows標準系）

MicrosoftのOneNoteにも、画像から文字を抽出するOCR（光学文字認識）機能が標準で備わっています。

OneNoteにスキャンした画像（またはPDFのページ画像）を貼り付ける
貼り付けた画像を右クリック →「画像からテキストをコピー」
メモ帳やWordに貼り付けると、文字として取り出せる

少量の文字をさっと抜き出したいときに手軽です。1ページずつの処理になるため、大量ページには方法①②が向きます。

認識精度を上げる4つのコツ

OCR（光学文字認識）の仕上がりは、元のスキャン画像の質に大きく左右されます。次を意識すると誤認識がぐっと減ります。

解像度を上げる：低すぎると認識が落ちます。300dpi程度を目安にスキャンします（最低でも一定以上の解像度が必要です）。
傾きを直す：斜めにスキャンされた文書は誤認識の原因。まっすぐ取り込む、または傾き補正をかけます。
濃さ・コントラストを整える：薄い・かすれた文字は読み取りにくいため、はっきりした濃さでスキャンします。
言語を正しく指定する：OCR実行時の言語設定を「日本語」にします。英数字混在の文書でもまず日本語で試します。

OCRの限界：100%にはならない

OCR（光学文字認識）は便利ですが、完璧な認識は保証されません。特に次のようなケースでは誤認識が起きやすく、確認・修正が必要です。

特殊なフォントや装飾文字、手書き文字
表や複雑なレイアウト（セルの区切りが崩れやすい）
かすれ・汚れ・低解像度のスキャン

検索してもキーワードがヒットしないときは、その文字が誤認識されている可能性があります。重要な書類は、OCR後に必ず原本と照らして目視チェックし、数字や固有名詞の誤りを直しましょう。「OCRは下書きを作ってくれるもの、仕上げは人の目」と考えると失敗しません。

機密ファイルをOCRするときの注意

オンラインのOCRサービスは、PDFを外部サーバーに送って処理します。多くは「処理後すぐ削除」と説明していますが、契約書・個人情報・社外秘を含むスキャンには注意が必要です。機密性が高い書類は、できるだけアップロード不要の方法（OneNote、または社内ルールで許可されたGoogleドライブ）で処理し、勤務先のルールがあれば必ず従ってください。

どの方法を選ぶ？目的別の早見表

やりたいこと	おすすめ
見た目を保ったまま検索・コピー可能にしたい	方法①（オンラインOCR）
文字だけ取り出してWordで編集したい	方法②（Googleドキュメント）
画像の一部の文字をさっと抜き出したい	方法③（OneNote）
大量・高精度・機密で本格運用したい	Adobe Acrobat など専用ツール（有料/体験版）