画像から文字を抽出する無料 OCR ツール (日本語対応)
PNG / JPEG 形式の画像から、Tesseract OCR エンジンを使ってテキストを抽出します。日本語・英語の混在テキストにも対応。スクリーンショット・写真・スキャン書類・名刺・領収書から文字を取り出して、コピー可能なテキストに変換できます。会員登録不要、完全無料。
OCR (光学文字認識) とは
OCR は画像内の文字を機械学習モデルで識別し、編集可能なテキストに変換する技術です。スマホで撮影した書類のテキスト化、スクリーンショットからの文字コピー、紙資料のデジタル化など、画像と文字の橋渡しをします。
本ツールは Google が支援するオープンソース OCR エンジン Tesseract (バージョン 5 系) を採用。日本語訓練データ (`tesseract-ocr-jpn`) を内蔵しているため、ひらがな・カタカナ・漢字・英数字が混在した日本語テキストも正確に読み取れます。
使い方
1. 画像 (PNG / JPG / JPEG) をドラッグ & ドロップでアップロード (最大 20 MB / Free プラン) 2. 自動で OCR 処理が走り、抽出テキストが下に表示される 3. テキストをコピーして他のツールに貼り付け、または .txt / .md ファイルとしてダウンロード
処理時間は 1 ページあたり 3〜10 秒程度。テキスト量と画像解像度に依存します。
精度を上げるコツ
・**解像度**: 300 DPI 以上のスキャンや、スマホで近距離撮影した画像が理想 ・**コントラスト**: 白背景 + 黒文字が最も精度高い。色背景や写真の上の文字は精度が落ちる ・**傾き補正**: 撮影時に書類が斜めになっていると認識率が下がる。スマホアプリで自動補正してから取り込むと良い ・**手書き文字**: Tesseract は活字に最適化されているため手書きは苦手。手書きが多い書類は別の AI 専用 OCR (Google Vision など) の検討を
他のツールとの組み合わせ
OCR で抽出したテキストはそのまま使うより、他のツールと組み合わせると価値が増します。
例: 会議のホワイトボードを撮影 → OCR でテキスト化 → AI 議事録作成で構造化された議事録に変換、というワークフロー。または、紙の書類を撮影 → OCR → AI 文書フォーマッターで議事録 / 報告書フォーマットに整形、など。
本ツールはあくまで「文字の抽出」に特化しているため、後段の整形は別ツールに任せる設計です。