OCR Optical Character Recognition 70年史 1957-2026。OCR-A (1968 ANSI 機械読取専用フォント)+OCR-B (1968 ISO 1073-2 European)・David Shepard Intelligent Machines IMR (1951 First OCR・現Solutron Inc)・Reader's Digest IBM 1965 (Subscription Card OCR)・USPS Sorting OCR (1965 米郵便)・Kurzweil Reading Machine (1976 Ray Kurzweil・Visually Impaired・初Omnifont OCR)→Xerox 1980年・Calera Systems・Caere OmniPage (1990s 商用Mac/Win)→Nuance OmniPage→Kofax 2017→Tungsten Automation 2024・ABBYY FineReader (1989 Russia David Yang・99%+精度・OCR業界Top・Multi-language 200+)・ABBYY Cloud OCR API (2014)・IRIS Readiris (Belgium 1987)・ScanSoft+Caere・Adobe Acrobat Pro OCR (1996 Built-in)・PDF24+iLovePDF (Web Free OCR)・Tesseract (1985 HP Labs→2005 OSS化Apache→Google 2006以降maintenance・LSTM追加 2018→Tesseract 5.0 2021・Tesseract 5.4 2024)・GOCR+Cuneiform+OCRopus FOSS・Microsoft Office OneNote OCR (2003-)+Office Lens (2014 iOS Mobile)・Apple iOS Live Text (2021 iOS 15・Visual Lookup→2024年 Visual Intelligence iPhone 16)・Google Lens (2017 Photo→Real Translate)+Google Cloud Vision API・AWS Textract (2019)・Azure Form Recognizer (2019→Document Intelligence 2023)・PaddleOCR (Baidu FOSS Multi-language)・EasyOCR (FOSS Python)・Surya (2024 FOSS Lite・Mac M-series)・GPT-4V+Claude 3.5+Gemini Vision (2024 LLM Native OCR・複雑Layout Diagram理解 高精度)・¥0 OSS-¥¥¥¥¥/Year 2026 LLM Vision OCR Tesseract超え時代。
光学文字認識(OCR)は、紙媒体や画像に写った文字をデジタルテキストへ変換する技術で、1957年にDavid Shepard の Intelligent Machines IMR が最初の実用化例となった。以降、フォント標準化(OCR‑A、OCR‑B)や郵便・出版業界の自動化、そして近年のAIベースの文書解析へと進化を遂げてきた。本稿では、1957年から2026年にかけての主要製品と技術的特徴を整理し、2025–2026 年の動向を踏まえて選定の指針を示す。
| 技術 | 主要アルゴリズム | 代表的な実装 | 重要な数値指標 |
|---|---|---|---|
| 文字認識 | 画像前処理 → 文字分割 → 特徴抽出 → 分類 | Tesseract 5.4, ABBYY FineReader 20 | 誤認識率 0.1% 以上、文字数 1,000,000 文字/時 |
| 文字レイアウト解析 | 画像解析 → 行・列検出 → 階層構造 | Adobe Acrobat Pro DC, Google Cloud Vision | 行検出精度 99.5%、列検出精度 98.7% |
| 多言語対応 | フォント・言語モデル | ABBYY FineReader 20 (200+ 言語) | 文字種 5,000 以上、言語 200 以上 |
| LLM 統合 | 画像→テキスト→LLM で意味解析 | GPT‑4V, Claude 3.5 Vision | 文字認識精度 99.8% 以上、文脈理解 95% 以上 |
| クラウド API | RESTful でスケーラブル | AWS Textract, Azure Form Recognizer | 1,000 ページ/秒、料金 0.001 USD/ページ |
| 製品名 | 発売年 | 主な特徴 | 対応言語 | 精度 | ライセンス | 主な利用ケース |
|---|---|---|---|---|---|---|
| Tesseract 5.4 | 2024 | LSTM + CNN, OSS, 100+ 言語 | 100+ | 99.6% | 無料 | 学術論文スキャン、図書館デジタル化 |
| ABBYY FineReader 20 | 2023 | 99%+ 精度、PDF/画像変換、OCR‑B | 200+ | 99.8% | 1,200 USD/年 | 法務・行政文書処理 |
| Adobe Acrobat Pro DC | 2022 | PDF内文字認識、レイアウト保持 | 50+ | 99.5% | 14.99 USD/月 | ビジネスレポート、契約書 |
精度と言語数
レイアウト保持
クラウド vs オンプレミス
コスト
拡張性
Tesseract はどの程度の精度が期待できますか?
クラウド OCR API の料金はどのように算出されますか?
LLM ベースの OCR は従来の OCR と比べてどのようなメリットがありますか?
1957 年の IMR から 2026 年の LLM 統合まで、OCR はフォント標準化、クラウドサービス、AI への統合という三つの軸で進化を遂げてきた。選定時には「精度」「レイアウト保持」「コスト」「拡張性」の四点を中心に検討し、業務要件に合致する製品を選ぶことが重要である。2025–2026 年の動向では、LLM を組み込んだ OCR が主流となり、従来の単純文字認識を超えた情報抽出が可能になる時代が到来している。
| Google Cloud Vision OCR | 2018 | クラウドベース、画像解析+LLM | 300+ | 99.7% | 0.001 USD/ページ | マルチメディアコンテンツ、SNS |
| AWS Textract | 2019 | フォーム・テーブル抽出、API | 80+ | 99.6% | 0.0015 USD/ページ | 申請書類、請求書 |
| Azure Form Recognizer | 2019 | カスタムモデル、文書分類 | 70+ | 99.4% | 0.001 USD/ページ | 銀行取引、保険請求 |
| Microsoft OneNote OCR | 2003 | 手書き文字認識、クラウド同期 | 50+ | 98.9% | 無料 | 学習メモ、会議記録 |
| Apple Live Text | 2021 | iOS 15 以降、リアルタイム | 60+ | 99.2% | 無料 | スマホ撮影、QR 文字 |
| GPT‑4V | 2024 | 画像→テキスト+文脈解析 | 100+ | 99.8% | 0.03 USD/1000 token | 研究、データ抽出 |
| Claude 3.5 Vision | 2024 | 画像理解+LLM | 120+ | 99.7% | 0.02 USD/1000 token | カスタマーサポート、FAQ生成 |