【Python】PyMuPDFでPDFを画像化するバッチを社内配布する方法(AGPLライセンスと運用設計)
概要
今回はPyMuPDFを使ってフォルダ配下のPDFを再帰的に一括PNG化するWindows向けバッチツールを、社内配布する際の設計と注意点について解説していきたいと思います。
「PDFをページ単位でPNGにしたい」というニーズ、業務だと地味に多いですよね(^^
OCR前処理、スライドの画像化、PDFの比較の為の画像化あたりでよく行います。
ただ「動くだけ」のスクリプトと「社内配布して運用できる」バッチでは、設計で意識するポイントが結構違います。
さらにPyMuPDFはAGPL-3.0 / Artifex商用のデュアルライセンスというクセ付きなので、配布範囲を誤るとライセンス違反になるリスクもあります(- -;
本記事ではPyMuPDF 1本で作った小さなツールを題材に、ライセンス運用・再帰探索・設定ファイル駆動・ジェネレータ設計・終了コード連携など、社内配布を想定した判断ポイントを一通り解説します。
それではやっていきましょう!
目次
作ったもの
Windows向けCLIバッチとして、以下の仕様で実装しました。
- config.iniで入力フォルダ・DPI・上書き可否・ファイル名書式を指定
- 指定フォルダを再帰的に探索してPDFを全部PNG化
- 各PDFと同じフォルダに
<PDF名>_p001.png,p002.png, … を生成 - 終了コード 0/1/2 で状態を返す(バッチ呼び出し側が分岐可能)
構成は超シンプルで、Pythonファイルは2つだけです。
ディレクトリ構成
1 | PDF画像変換ツール/ |
配布前に必ず確認:PyMuPDFのAGPLライセンス
実装の前にライセンス運用の話を先にしておきます。
ここを誤ると、作った後に「配布できません」という話になりかねません。
PyMuPDFのライセンス形態
PyMuPDFはAGPL-3.0とArtifex商用のデュアルライセンスです。
- GNU Affero General Public License v3.0(AGPL-3.0)
- Artifex Software 商用ライセンス(有償、見積もり制)
AGPLは普通のGPLに加えて「ネットワーク越しにサービス提供する場合もソース開示義務」という条項が付く、比較的強めのコピーレフトライセンスです。
社内バッチCLI限定なら問題ない条件
AGPLがソース開示を要求するのは「配布」または「ネットワーク経由での提供」が行われたときなので、以下を満たすなら無料のAGPLのまま運用できます。
- 社内の特定部署・チーム内でのみ利用する
- ネットワーク越しに外部ユーザへ機能を提供しない
- 社外の組織・個人にバイナリ・ソースを配布しない
- GitHub等での一般公開も行わない
AGPLが発動する「3つの再評価トリガー」
以下のいずれかに該当した瞬間、AGPL条項が発動してライセンス再評価が必要になります。
- 外部配布(協力会社納品、社外利用者への配布など)
- SaaS/Web API化(ネットワーク越しに機能提供)
- 派生物の公開(GitHub等での一般公開)
該当したら対応は2択です。
対応2:Artifex社から商用ライセンスを購入する
個人・小規模配布でもArtifex商用は見積もり制で、安くはない金額になる前提で予算確保が必要です。
逃げ道:pypdfium2への乗り換え
AGPLを避けたいならpypdfium2(Apache-2.0 / BSD-3)への乗り換えが最有力候補です。
Chromium組み込みのPDFiumをPythonから叩くラッパーで、商用配布・SaaS化・GitHub公開が自由にできます。
APIはPyMuPDFよりやや煩雑ですが、「PDFをページ単位で画像化するだけ」ならラッパー1枚挟めば数時間で移植可能です。
LICENSE.AGPL-NOTICE.md を同梱しておく
社内利用でも将来の自分のために、以下のファイルを同梱しておくと安全です。
- PyMuPDFが使用されている旨とライセンス種別
- 本プロジェクトの運用前提(社内CLI限定など)
- AGPL再評価が必要になるトリガー条件
- 対応オプション(AGPL公開 or Artifex商用)
運用方針が変わって「このツールを他社にも渡せないか?」という話が出たときに、再評価ポイントが即座にわかる状態になります。
PyMuPDFラッパの設計(pdf_renderer.py)
ライセンス面がクリアになったら、実装に入ります。
まずPyMuPDFを薄くラップする層を切り出します。
src/pdf_renderer.py
1 | """PyMuPDF ラッパ |
設計ポイント1:with で Document を確実に解放する
PyMuPDFの pymupdf.open() は内部でMuPDFのネイティブリソースを握ります。
Python層で pymupdf.open(path) を変数に代入しただけだと、例外でスコープを抜けたときにリソースが残る可能性があります。
必ず with で開いて、スコープを抜けたら自動closeされる形にするのが安全です。
設計ポイント2:Pixmapを yield する理由
関数をジェネレータにしてページごとに yieldしています。
PDFが100ページあっても、100枚のPixmapを同時にメモリに載せないために重要なパターンです。
200DPIで1ページ数MBのPixmapになるので、大量ページPDFを全ロードすると普通にメモリを食い尽くします。
yieldした後でpixを使い続けても問題ありません。
設定ファイル設計(config.ini)
設定はPython標準の configparser で読めるINI形式にしました。
config.ini
1 | [input] |
ini形式だと設定変更が簡単にできるので、個人的にはマストです!!
filename_pattern の {stem}/{page:03d}
出力ファイル名の書式を{stem}_p{page:03d}.pngにしています。
{stem}: PDFの拡張子なしファイル名。Explorerで視覚的にグループ化できる_p: ページ区切り識別子(他の文字列と混同しにくい){page:03d}: 3桁ゼロ埋め。Explorerのファイル名ソートで正しい順序になる
{page} のままだと 1, 10, 11, 2, 20, 3, ... という文字列ソートになってしまうので、ゼロ埋めはやっておいた方がソートしやすくて便利かと思います(^^
DPI設定の使い分け
- 150 : ドラフト・メール添付用
- 200 : 業務文書のサムネ生成(デフォルト推奨)
- 300 : OCR前処理、印刷品質
- 400以上 : 細かい図版があるマニュアル等、特殊用途のみ
300DPIあたりから処理時間とファイルサイズが急増するので、OCR前処理の必要がなければ200固定で十分です。
再帰探索とシンボリックリンク対策(main.py)
フォルダ配下を再帰的に探索してPDFだけ拾う関数です。
src/main.py
1 | def iter_pdfs(folder: Path) -> Iterable[Path]: |
ポイント:resolve() + set で重複排除
ショートカット(.lnk)やシンボリックリンクが絡むと、同じ実体PDFが複数回拾われる可能性があります。
そこでresolve() で正規化したパスを set に入れて重複排除しています。
拡張子判定は suffix.lower() == ".pdf" にしているので、.PDF のように大文字拡張子のファイルもちゃんと拾えます。
1ファイル変換とエラー遮断
1つのPDFを処理する関数です。
src/main.py
1 | def convert_one(pdf_path: Path, cfg: Config) -> tuple[int, int, int]: |
ポイント:try/except を二重にする
1ページの失敗で全体が止まらないよう、try/exceptを「PDF全体」と「ページ単位」で二重に張るのが重要です。
- 外側のtry : PDFを開く段階・構造が壊れている場合を捕捉
- 内側のtry : 特定ページだけレンダリング失敗した場合を捕捉
これで「1ファイル壊れていても他のPDFは全部処理する」「1ページだけ異常でも他ページは出力する」バッチになります。
途中で処理を止めたくないので、こういった制御にしてます。
ポイント:例外は logging.exception で吐く
printではなく log.exception() を使っているのは、スタックトレース込みでERRORログに流れるからです。
業務で使うバッチは、エラーが出たときに「何時何分にどのファイルで落ちたか」を後から追跡できることが必須なので、logging経由で統一します。
設定も見やすいし、ファイルに出力するとしてもすぐ変更可能なのでお勧めです!
終了コード設計(0/1/2)
main関数の末尾で終了コードを返しています。
src/main.py
1 | def main() -> int: |
終了コードの意味論
0: 全PDF正常処理(失敗0件)1: 設定不備・入力フォルダ不在(処理開始前に失敗)2: 処理は進んだが1件以上変換失敗(要ログ確認)
batファイル側の分岐例
Windowsのbatから呼び出す場合、%ERRORLEVEL%で分岐できます。
call.bat
1 | python src\main.py |
タスクスケジューラに登録したときも、失敗検知が楽になります。
動作確認の目安(手動テスト)
小規模ツールで自動テストを書かない代わりに、5種類の代表的PDFでの手動確認項目をREADMEに記載しておきました。
- 単ページPDF(最小ケース)
- 複数ページPDF(10ページ程度)
- 日本語ファイル名のPDF(エンコーディング確認)
- スキャン画像のみのPDF(ベクタなし)
- テキスト主体のPDF(フォント描画の回帰確認)
加えて、overwrite=false での再実行でskipログが出ること、壊れたPDFを混ぜて実行しても他のPDFは処理されることも確認項目に入れています。
社内配布前のチェックリスト
最後に、配布前に必ず確認したいポイントをまとめました。
配布前チェック
1 | □ LICENSE.AGPL-NOTICE.md を同梱した |
1つでも該当しなかった項目があれば、そのまま配ると後でトラブルになる可能性が高いので、見直してから配布しましょう。
また確実に上記だけで足りている保証はできないので、各自自分で調べるようにしてください(^^
締め
今回はPyMuPDFでPDFを一括PNG化するツールの社内配布向け設計を紹介しました。
ポイントをおさらいすると以下のとおりです。
- PyMuPDFはAGPL / Artifex商用のデュアルライセンス。配布範囲は要確認
- 社内CLI限定ならAGPLのまま運用可能、配布時は注意
- 終了コード 0/1/2 でbat呼び出し側と連携
- AGPLを避けたい場合はpypdfium2に乗り換え可能
ツールを作るときに運用側の視点とライセンス面を少し書いておくと、感謝されることが多いので、業務用のPythonツールを書く人は意識するとよいかもです(^^b
以上となります。
ライセンスは複雑で難しいですよね。。。頑張って理解するようにしましょう!
それではお疲れさまでした。