Paperless-ngx の OCR 認識率が低い場合どうすればよいですか？

まず、Tesseract OCR の言語パックが正しくインストールされているか確認してください。Docker コンテナ内で `ocr_langs` 変数に `jpn` を含んでいるか確認し、コンテナを再起動します。また、スキャン時の解像度が 200dpi 未満の場合も認識率が低下するため、スキャナの設定で 300dpi 以上を推奨します。さらに、照明の暗い場所や汚れのある文書は、AI モデルが学習しているデータと乖離するため、一度画像調整ソフトで補正してからスキャンすることも有効です。

Docker コンテナが起動しません（エラーコード：Container exited）

これは通常、ポート競合または権限不足が原因です。ポート 8000 が既に別のサービスで使用されていないか確認し、コンテナの `ports` セクションで変更してください。また、Synology NAS で Docker を使用する場合は、ユーザー ID（UID）とグループ ID（GID）がホスト側のファイル所有者と一致している必要があります。`user: "1026:1001"` のような設定を確認してください。

大量のスキャンを一度に行うとサーバーがフリーズします

これは OCR 処理の負荷が CPU を圧迫しているためです。Docker Compose ファイルで `CONSUME_WORKER_COUNT` を減らすか、Redis のキューサイズを調整してください。また、Synology のような低スペック機では、OCR 処理時に他のプロセス（例えばバックアップ処理）と同時に行わないようスケジュールをずらしてください。

自動タグ付けが機能しない場合の対処法

ルール設定で指定したキーワードが文書に含まれていない可能性があります。まず、手動で「検索」機能を使って該当キーワードが含まれているか確認し、その後にマッチャーを設定し直します。また、Ollama と連携している場合は、AI モデルのモデルファイルサイズが大きすぎて読み込みに時間がかかっている可能性があります。軽量なモデル（Llama-3.2）に変更してください。

スキャナから PDF が送られてこない

スキャナのネットワーク設定を確認してください。「Scan to Folder」機能で NAS の共有フォルダパスが正しいか、またスキャナ側のユーザー権限で書き込みが可能か確認します。特に Fujitsu ScanSnap の場合、ドライバーのバージョンアップデートが必要な場合があります。NAS 側でも SMB プロトコルが有効化されていることを確認してください。

検索結果にファイル名が含まれない

Paperless-ngx はデフォルトでファイル名もインデックス対象にしていますが、設定ファイルで `ENABLE_FULLTEXT_SEARCH` が無効になっている可能性があります。また、インデックスが古くなっている場合、「Rebuild Index」機能を実行することで更新されます。

Docker Volume の容量がいっぱいになります

メディアファイル（画像や PDF）の保存量が膨大になるためです。Synology NAS の場合、ディスク使用量の監視を行い、不要なログファイルを削除してください。また、OCR 処理後の中間ファイルを自動削除する設定を確認し、定期的なクリーンアップスクリプトを実行することをお勧めします。

外部から Paperless-ngx にアクセスしたいが SSL エラーが出る

これは証明書の問題です。Nginx Proxy Manager を使用して Let's Encrypt の証明書を発行し、Docker コンテナにマウントしてください。また、ブラウザのキャッシュや DNS 設定を確認し、正しく HTTPS 接続されているか確認してください。

読み込み中...

※本記事にはアフィリエイト広告（プロモーション）が含まれています

【2026年】Paperless-ngx OCR ワークフロー｜書類電子化

自作.com編集部·2026年4月17日·更新: 2026年7月10日

自作.com編集部

PCパーツ・ガジェット専門

自作PCパーツやガジェットの最新情報を発信中。実測データに基づいた公平なランキングをお届けします。

公開: 2026/4/17

更新: 2026/7/10

Paperless-ngx OCR ワークフロー｜書類電子化の完全ガイド

現代オフィスや家庭において、紙文書の管理はもはや避けて通れない課題となっています。請求書、領収書、契約書、通知書など、重要な書類は増える一方で、物理的な保管スペースは限られています。2026 年現在、デジタルトランスフォーメーション（DX）の進展により、クラウドストレージやサーバー活用による文書管理システムが一般的になりましたが、特に日本国内における個人情報保護法や税務署への提出要件を考慮すると、独自サーバー上にデータを保持する「オンプレミス型」の解決策が依然として強い信頼を得ています。その中で、オープンソースでありながら強力な機能を持つ Paperless-ngx は、2025 年のアップデートを経てさらに進化し、個人利用から中小企業の文書管理まで幅広く対応できる最強のツールとなりました。

本記事では、Paperless-ngx を中心とした OCR ワークフローの構築方法を、最新の Docker コンテナ環境および代表的なスキャナハードウェアを用いて具体的に解説します。特に 2026 年 4 月時点での最新バージョンである Paperless-ngx 2.13 の機能や、Synology NAS をホスト環境とするケースを想定し、Tesseract OCR や Apache Tika、そして生成 AI を活用した Ollama との連携によるインテリジェントな分類までを含めた完全ガイドを提供します。単にインストールするだけでなく、検索速度の最適化やスキャナとの自動連携ワークフローまで深く掘り下げます。

Paperless-ngx の導入には、Docker 技術の基礎知識が不可欠ですが、本記事は PC 自作やサーバー構築経験がある中級者から初心者向けに書かれています。専門用語である OCR（Optical Character Recognition）やコンテナイメージといった用語についても初出時に簡潔な説明を行い、理解を深めていきます。具体的な製品名として Fujitsu ScanSnap iX1600 や Brother ADS-4700W などの実機連携手順、そして Docker コマンドの具体的な引数設定までを網羅します。これにより、読者は本記事を読み終えた時点で、自身の手で安定した文書管理システムを構築できるレベルに到達することを目標としています。

Paperless-ngx の概要と 2026 年現在の位置づけ

Paperless-ngx は、元々 2015 年に開発が始まった Open Source（オープンソース）ソフトウェアであり、名前の通り「ペーパーレス」な環境を実現するための文書管理システムです。従来の単なる画像保存ではなく、OCR 技術を駆使してスキャンした PDF や画像内のテキストを抽出し、全文検索可能な状態に変換する点が最大の特徴です。2026 年現在、バージョン 2.13 が安定版として広く利用されており、このバージョンではユーザーインターフェースの刷新とともに、AI による文書分類機能や、大容量ドキュメント処理におけるパフォーマンス向上が大幅に改善されています。

従来の Paperless-ngx と比較して、2026 年時点での特徴は「スマートな整理機能」にあります。以前までは設定したルール通りに手動でタグ付けする必要がありますでしたが、最新のバージョンでは Ollama や他の LLM（大規模言語モデル）と連携することで、文書の内容を AI が解析し、自動的に適切なカテゴリやタグを付与する機能が標準に近い形でサポートされるようになりました。これにより、ユーザーはスキャン後に「この請求書は何の会社からのものか」を確認するだけで済み、後処理の手間が大幅に削減されます。

また、サーバーリソースに関する要件も 2026 年時点では柔軟化しています。かつては高性能な CPU と大量の RAM が必須でしたが、現在の Docker コンテナ最適化により、Synology DS923+ 程度の低消費電力マシンスペックでも、スキャナ台数が数十台程度であれば十分に運用可能です。ただし、OCR 処理そのものは計算リソースを消費するため、並列処理数を調整する設定や、Redis を利用したキュー管理の仕組みが重要視されます。本ガイドでは、この最新環境での最適な設定値についても詳細に言及します。

ランキングを読み込み中...

Docker 環境の構築とサーバー選定

Paperless-ngx を運用するための基盤として、Docker コンテナ化された環境を構築することが一般的です。Docker はアプリケーションとその依存関係をパッケージ化する技術であり、OS やハードウェアの違いに影響されずに、同じ動作を再現できます。Paperless-ngx の Docker イメージは公式リポジトリおよび GitHub リポジトリで提供されており、最新バージョンである 2.13 を使用するには、docker hub からイメージを取得し、適切な設定ファイル（docker-compose.yml）を用いて起動します。

サーバー選定においては、Synology DSM のような NAS（ネットワーク接続ストレージ）が最も推奨されます。理由は、ハードウェアの安定性が高く、バックアップ機能が標準で備わっているためです。具体的な推奨スペックとして、CPU は最低でも 2 コア以上、RAM は 4GB を確保してください。Paperless-ngx 本体は軽量化されていますが、OCR 処理を行う際にメモリを多く消費します。特に Tesseract OCR の初期化や、大量のドキュメントを一括インポートする際は、8GB の RAM があればストレスなく動作します。Synology DS923+（4Bay）や DS723+（2Bay）がコストパフォーマンスに優れています。

以下に、Docker 環境における推奨リソース割り当てと、必要な追加コンテナの構成例を示します。Paperless-ngx は単独で動くことも可能ですが、生産性を高めるために Nginx Proxy Manager を用いた SSL 化や、Redis を用いたキュー管理を組み合わせるのがベストプラクティスです。以下の表は、導入におけるリソース配分の推奨値と、各コンテナの役割を表しています。

この記事に関連するおすすめ商品

読み込み中...

スキャナ

iCODIS スキャナーブックスキャナードキュメントスキャナースキャナ:X9 2100万画素自動平坦化歪み補正非破壊自炊書画カメラ最大A3サイズ対応多言語OCR機能 LEDライト付きオンライン授業会議用

(0)

読み込み中...

スキャナ

iCODIS ドキュメントスキャナー非破壊ブックスキャナー Windows専用: 1500万画素自動平坦化・OCR文字認識 A3サイズ対応 9灯LED照明付き書画カメラコンパクト超薄型オフィス/自炊/図書館用家庭・業務兼務

読み込み中...

スキャナ

サンワダイレクト名刺スキャナー名刺管理スキャナ名刺整理スキャナー 400-SCN005N

(124)

読み込み中...

スキャナ

ビジネスの効率を高める、キヤノンのドキュメントスキャナービジネスの効率を高める、キヤノンのドキュメントスキャナー

(10)

読み込み中...

スキャナ

サンワダイレクトドキュメントスキャナースタンド型 PC不要 A3対応 1600万画素モニター付き LEDライト付き OCR搭載非破壊連続スキャン 400-SCN070

読み込み中...

スキャナ

CGOLDENWALL ドキュメントスキャナー a3 書画カメラ Zoom/Skype/Teams対応ファイル名刺ボック 1300万画素スキャナー ocr機能非破壊オフィス/オンライン授業

(21)

paperless-ngx	4GB - 8GB	2 コア以上	本体、OCR 処理、Web UI 提供
redis	512MB	0.5 コア	キュー管理（Celery Worker のバックエンド）
nginx-proxy-manager	512MB	1 コア	SSL 化、逆プロキシ、ポート転送
elasticsearch (別コンテナ)	4GB - 8GB	2 コア以上	全文検索エンジン（デフォルト使用可）

機能項目	Tesseract OCR	Apache Tika
主な用途	スキャン画像の文字認識	PDF/Office ファイルメタデータ抽出
処理速度	中程度（CPU 依存）	高速（事前変換済みファイル向け）
日本語対応	優秀（学習モデル使用）	標準的（エンコード依存）
設定難易度	中（言語パック必要）	低（デフォルト設定で可）
推奨用途	プリンター出力、スキャン画像	既存 PDF、Office ファイル保存

自動タグ付けルール例	マッチ条件（キーワード）	付与されるアクション
請求書判定	"領収書", "Invoice"	タグ「経費」、カテゴリ「請求」
契約書判定	"契約", "Agreement"	タグ「重要」、保存期間 7 年
通知文判定	"お支払いください", "Notice"	タグ「期限注意」、優先度高め
日付抽出	正規表現 `\\d{4}-\\d{2}`	メタデータ「発行日」に保存

スキャナモデル	給紙枚数	コントラスト設定	Paperless-ngx 連携手法
Fujitsu ScanSnap iX1600	50 枚 (ADF)	Web UI 設定可能	Scan to Folder (SMB/NFS)
Brother ADS-4700W	80 枚 (ADF)	アプリ連携推奨	Scan to Email + Mail Forwarding
Canon imageFORMULA DR-C230	50 枚 (ADF)	ドライバー設定	TWAIN Driver via Network
Epson DS-790W	50 枚 (ADF)	Web 設定可能	Scan to Folder (Wi-Fi)

監視項目	推奨設定値	理由・効果
Polling Interval	5-30 秒	処理負荷の調整（遅延許容度による）
File Permissions	User ID 1001 (Synology)	Docker 内部の権限と一致させる
Delete After Process	0 または 1	スキャナ側の元ファイルを残すか削除するか
Naming Template	{created_date}_{original_filename}	自動整理を容易にするための命名規則

検索タイプ	クエリ構文例	使用シーン・効果
全文検索	"請求書"	ドキュメント本文からの該当箇所検索
メタデータ検索	`created:2026-04`	特定月日の文書を絞り込む
論理演算	`(請求書 OR 見積書) AND 未読`	複合条件でのフィルタリング
タグ限定	`tag:経費 -tag:完了`	特定のタグを持つが除外したいものを指定

バックアップ項目	スケジュール	保存場所	復旧時間目標
設定ファイル	変更時	外部ストレージ	即座
DB データベース	毎日 03:00	別ボリューム	1 時間以内
メディア画像	毎週日曜	クラウド/テープ	24 時間以内
Docker Volume	自動スナップ	NAS Snapshot	即時

Paperless-ngx OCR ワークフロー｜書類電子化の完全ガイド

Paperless-ngx の概要と 2026 年現在の位置づけ

Docker 環境の構築とサーバー選定

この記事に関連するおすすめ商品

この記事を書いた人

自作.com編集部

関連記事

【2026年】Paperless-ngx ドキュメント管理｜ペーパーレス化完全ガイド

【2026年】Papermerge DMS構築ガイド｜PDFページレベル管理

【2026年】Komga マンガサーバー構築｜自炊本管理

この記事に関連するおすすめパーツ

TERRAMASTER テラマスター F4 212 4ベイNAS クアッドコア RAM DDR4 2G 個人用プライベートクラウドネットワークアタッチトストレージ【簡単セットアップガイド付】 メーカー直営店 HDD付属なし

TERRAMASTER テラマスター F2 212 2ベイNAS - クアッドコア1GB RAM DDR4個人用プライベートクラウドネットワークアタッチトストレージ「HDD付属なし」

UGREEN NASync DXP6800 Pro 6ベイデスクトップNAS Intel i5 1235u 10コアCPU 8GB DDR5 RAM 内蔵128GB SSD 10GbE x 2 M.2 NVMeスロット x 2 8K HDMI TBT4 x 2 ネットワーク接続ストレージ(ハードドライブは付属していません)

Paperless-ngx OCR ワークフロー｜書類電子化の完全ガイド

Paperless-ngx の概要と 2026 年現在の位置づけ

サーバーおすすめランキング TOP10

4〜 その他の人気製品

Amazonで商品を確認

Docker 環境の構築とサーバー選定

OCR エンジン Tesseract と Apache Tika の設定

AI 分類と Ollama の連携によるインテリジェント処理

自動タグ付けと日付抽出のワークフロー構築

スキャナ連携：ScanSnap/ADF デバイスとの接続方法

コンテンツ消費ディレクトリと監視設定の最適化

検索クエリの高度な活用とファストキャッシュ

運用とバックアップ戦略、セキュリティ対策

よくある質問（FAQ）

Q1. Paperless-ngx の OCR 認識率が低い場合どうすればよいですか？

Q2. Docker コンテナが起動しません（エラーコード：Container exited）

Q3. 大量のスキャンを一度に行うとサーバーがフリーズします

Q4. 自動タグ付けが機能しない場合の対処法

Q5. スキャナから PDF が送られてこない

Q6. 検索結果にファイル名が含まれない

Q7. Docker Volume の容量がいっぱいになります

Q8. 外部から Paperless-ngx にアクセスしたいが SSL エラーが出る

まとめ

この記事に関連するおすすめ商品

関連記事

【2026年】Paperless-ngx ドキュメント管理｜ペーパーレス化完全ガイド

【2026年】Papermerge DMS構築ガイド｜PDFページレベル管理

【2026年】Komga マンガサーバー構築｜自炊本管理

この記事に関連するおすすめパーツ

TERRAMASTER テラマスター F4 212 4ベイNAS クアッドコア RAM DDR4 2G 個人用プライベートクラウドネットワークアタッチトストレージ【簡単セットアップガイド付】 メーカー直営店 HDD付属なし

TERRAMASTER テラマスター F2 212 2ベイNAS - クアッドコア1GB RAM DDR4個人用プライベートクラウドネットワークアタッチトストレージ「HDD付属なし」

UGREEN NASync DXP6800 Pro 6ベイデスクトップNAS Intel i5 1235u 10コアCPU 8GB DDR5 RAM 内蔵128GB SSD 10GbE x 2 M.2 NVMeスロット x 2 8K HDMI TBT4 x 2 ネットワーク接続ストレージ(ハードドライブは付属していません)

【2026年】AI OCRドキュメント処理ガイド｜請求書/領収書自動読取

【2026年】Docspell ドキュメント管理｜自動分類OCR

【2026年決定版】スキャナー完全ガイド|ドキュメント・フラットベッド・ハンディの選び方

TERRAMASTER NASキット 4ベイ F4-425 デスクトップ Intel X86 クアッドコアCPU 4GB DDR4 RAM、2.5GbE、USBポート 2 * 10Gbps 1 * 5Gbps、個人、ホーム向けネットワークストレージ「HDD付属なし」

TERRAMASTER/F4 SSD/NASストレージ/4ベイ/オールSSD NASサーバー/N95クアッドコアCPU/8GB DDR5 RAM/5GbEポート/コンパクトサイズの高性能ネットワークストレージ/SSD付属なし

UGREEN NAS DH4300 Plus 4ベイNASバンド M.2 SSD 外付けケース付属 8GB LPDDR4X メモリ（拡張不可）​​2.5GbE 自動バックアップ ​​NFCワンタッチ接続 ​​ AIアルバム 家庭/オフィス向け ​​2年製品保証（HDD付属なし）

コスパノートPCをAmazonでチェック

よく読まれている記事

サーバーおすすめランキング TOP10

4〜 その他の人気製品

Amazonで商品を確認

TERRAMASTER テラマスター F4 212 4ベイNAS クアッドコア RAM DDR4 2G 個人用プライベートクラウドネットワークアタッチトストレージ【簡単セットアップガイド付】メーカー直営店 HDD付属なし

4〜その他の人気製品

TERRAMASTER テラマスター F4 212 4ベイNAS クアッドコア RAM DDR4 2G 個人用プライベートクラウドネットワークアタッチトストレージ【簡単セットアップガイド付】メーカー直営店 HDD付属なし

UGREEN NAS DH4300 Plus 4ベイNASバンド M.2 SSD 外付けケース付属 8GB LPDDR4X メモリ（拡張不可）2.5GbE 自動バックアップ NFCワンタッチ接続 AIアルバム家庭/オフィス向け 2年製品保証（HDD付属なし）

4〜その他の人気製品