Tesseract.jsでブラウザだけの日本語OCRを実装する方法(PSM二段階戦略)
概要
今回はTesseract.js を使って、ブラウザ側だけで日本語 OCR を動かす実装方法について紹介していきます。
名刺やレシートをカメラで撮って文字起こしするような機能、サーバを持たずに全部ブラウザで完結できたら嬉しいですよね(^^
Tesseract.js なら WASM で OCR が動くので、Cloudflare Pages や GitHub Pages の無料枠だけで OCR 付きの Web アプリが作れます。
ただ、そのままサンプル通りに使うと日本語の認識精度がなかなか出なかったり、初回ロードが重くて UI が固まったりして、正直実用化は難しいところです。
ここでは、実際に使えるレベルまで持っていくための 2 つの工夫、worker の使い回しとPSM 二段階推論を中心にまとめます。
それではやっていきましょう!