GUI対応したPDFをページごとに画像変換(PNG/BMP/JPEG/GIF/TIFF形式)するツール [WPF]

木曜日 , 3, 2月 2022 makoto .NET, Windows, ソフトウェア, 技術的なメモ 3 Comments

『PDFをページごとに画像変換(PNG形式)するツール』にGUIをつけてみました。
基本的な操作はコマンド版と同じで、変換元PDF、変換後の画像ファイル保存先、DPI(解像度)を指定し実行ボタンを押すと処理が始まります。画像ファイルに変換後、指定フォルダの内容をGUIアプリケーションの画面下部に一覧表示します。

※2022/02/03 複数の画像形式(PNG/BMP/JPEG/GIF/TIFF)に対応しました。
ウインドウにPDFをドラッグアンドドロップすることで変換元PDFファイルの指定を行えるようにしました。
変換後画像ファイル保存先のフォルダを省略した場合、デスクトップにPDFファイル名+タイムスタンプのフォルダを作成し保存するようにしました。

※2022/02/05 Microsoft OCRを使ったPDFのテキスト化機能を追加しました。

ダウンロード

開発環境 Visual Studio Professional 2019 Version 16.11.9
動作確認した環境 Windows 10 Ver. 21H1(ビルド 19043)
ライセンス NYSL ( http://www.kmonos.net/nysl/ )
ダウンロード (2022/02/05 更新)
- ソース: http://www.ria-lab.com/omiyage/PDF2PNGUI_1.1.1_SRC.zip
- バイナリ(実行プログラム): http://www.ria-lab.com/omiyage/PDF2PNGUI_1.1.1_BIN.zip

ソースコードからビルドする際の注意事項

このプログラムはWinRT APIを使用しています。

NuGetなどでMicrosoft.Windows.SDK.Contractsをインストールしてください。

Microsoft.Windows.SDK.Contractsをインストールするためにプロジェクトの形式をPackageReferenceに移行する必要があるかも知れません。

移行の手順は『packages.config から PackageReference への移行』に詳しく記載されています。

移行が行えない環境の場合は、UwpDesktopなどWinRT呼び出しのために必要なパッケージをプロジェクトに追加することで解決できる可能性があります。

ビルド

※ソースコードから実行プログラムを作成するしたい場合、以下の手順で行うことができます。

ダウンロードしたソース一式を展開しお使いのVisual Studioに読み込みます。※Visual Studioをお持ちでない場合、こちらからCommunity版が無償で入手可能です。
Visual Studio中のNuGetの復元を行い必要なファイルをダウンロードします。
ビルドします。

使い方

配布されているZIPファイルを展開し適当なフォルダに展開します。
フォルダに含まれるアプリケーション(PDF2PNGUI.exe)をダブルクリックして起動します。
起動すると下図の画面が表示されます。

変換元PDFパス、変換後画像ファイル保存先、解像度、形式を入力します。
「選択」ボタンをクリックするとファイル選択ダイアログ、フォルダ選択ダイアログが開きます。

※変換元PDFパスはPDFファイルをドラッグアンドドロップしても指定できます。
※変換後画像ファイル保存先を省略した場合、デスクトップにPDFファイル名+タイムスタンプでフォルダを作成し保存します。
デフォルトは省略モードで、チェックボックスをONにすると保存先の選択を行うことができます。

「Microsoft OCRを使ってPDFの内容をテキスト化する」チェックボックスをONにすると、画像変換時にOCR処理を行いテキスト化します。テキスト化されたデータは変化後画像ファイルの保存先フォルダに出力されます。

実行ボタンをクリックすると処理が始まります。
パラメータが付属している場合などにはエラーメッセージが表示されるので表示内容に従い入力値を修正してください。

変換処理に成功した場合、指定されたフォルダに画像ファイルが保存されると同時にアプリケーション画面の下部に変換された画像ファイルが一覧表示されます。

※連続して処理を行うとメモリ不足などで処理が失敗する場合があります。その場合は、アプリケーションを再起動してください。
※DPIに大きな値を指定すると画像変換の際に多くのメモリを必要とします。DPIには適切な値を指定してください。
※変換後画像ファイル保存先として指定されたフォルダに同名のファイルが存在した場合、上書きされるので注意してください。

※OCR機能を使う場合、著作権の取り扱いに十分にご注意ください。
著作権の対象となる著作物をOCRを使い読み取るためには著作権者の承諾が必要となる場合があります。

OCRの精度

PDFを画像ファイルに変換するときに生成する画像データを使いMicrosoft OCRでテキスト化を行っています。
PDFの種類(画像であるかテキストであるかなど)・状態(フォントの種類や大きさなど)、変換時のDPI指定によりOCRの認識精度が変化しますのでご注意ください。
文字のあいだに空白などが入り込む傾向があるので正規表現などで取り除くなどの工夫をすれば比較的綺麗なテキストデータが入手できます。
OCRでテキスト化したサンプルを下図に掲載します。

Excelで作成した画像貼り付けを含む説明図をテキスト化

青空文庫『吾輩は猫である』のZIPファイルのデータを青空キンドル[Beta]様のサービスを使いPDF化。画像変換の際にOCRでテキスト化。

更新履歴

- 2022/02/03 Ver.1.0 初版公開
- 2022/02/05 Ver.1.1 複数の画像形式に対応。ドラッグアンドドロップに対応。
- 2022/02/05 Ver.1.1.1 Microsoft OCRを使ったテキスト化に対応。

注意事項

- PDFの品質・再現度は、マイクロソフト社の提供するAP(Windows.Data.Pdf)に依存しています。
  特に印刷・デザイン業務などでお使いの方は業務で使用するに十分な品質・再現度が確保されているか事前に十分にご確認の上ご使用ください。

RIALAB.

GUI対応したPDFをページごとに画像変換(PNG/BMP/JPEG/GIF/TIFF形式)するツール [WPF]

ダウンロード

ソースコードからビルドする際の注意事項

ビルド

使い方

OCRの精度

更新履歴

注意事項

Microsoft OCRを用いてPDFからテキストを抽出する – RIALAB. へ返信するコメントをキャンセル

RIALAB.

GUI対応したPDFをページごとに画像変換(PNG/BMP/JPEG/GIF/TIFF形式)するツール [WPF]

ダウンロード

ソースコードからビルドする際の注意事項

ビルド

使い方

OCRの精度

更新履歴

注意事項

Microsoft OCRを用いてPDFからテキストを抽出する – RIALAB. へ返信する コメントをキャンセル

Microsoft OCRを用いてPDFからテキストを抽出する – RIALAB. へ返信するコメントをキャンセル