私はノートをコピーし、コピーをスキャンしました。約200ページです。さまざまな理由で、この資料を印刷する必要があります。ページの側面(ページ自体が終了した後)に大量の黒い領域、「黒い余白」があります。
画像は次のようになります。
黒い場所を削除したいのですが、すべてのテキストは残しておきます。 *偶数ページと奇数ページでは、異なる場所に黒い部分があります。 *特に、黒いエッジの外側にも白いエッジがあります! *特に、黒い領域固定幅はありません(偶数ページと奇数ページのすべての画像を個別にオーバーレイしようとしました)。幅は変化します。バッチアルゴリズムはそれを検出できるはずです。
テキストを保持しながら、これらの白黒のマージンを自動的に削除する方法はありますか?
Windows XPまたはLinuxを使用できます。
私は Scan Tailor と呼ばれる無料のユーティリティを使用することをお勧めします。以下は、サンプルファイルへの最小限の入力で得られた結果です。バッチ全体でどのように機能するかを言うのは難しいですが、予備的な結果は有望なようです。
問題の真のスクリプトソリューションを探している場合は、イメージを操作するための非常に強力なコマンドラインユーティリティであるImageMagickを試してみてください。具体的には、 境界線の削除とトリミング のセクションを調べます。しかし、私はそれをあなたのテスト画像で機能させるのにあまり運がありませんでした。他の人が持っているように見えるフォーラムを調べたいと思うかもしれません 同様の問題 。
XnView には、自動クロップ機能を備えたバッチ処理モードがあります。
ご覧のとおり、色と許容レベルは必要に応じて変更できるため、役立つ場合があります。
IrfanView にも同様の機能がありますが、少し隠されています。 Options > Properties/Settings > Browsing/Editing
の下で、自動トリミング境界の許容値を設定できます。
File > Batch conversion
を介して自動トリミングをバッチ処理できます。
これらのどれも役に立たない場合は、大きな銃を打ち破って、おそらく適切な自動トリミングプラグインを使用して、Photoshopのようなものを使用する必要があるかもしれません。