C＃PDF PdfSharpを使用してテキストを抽出

Question

PdfSharpを使用してPDFファイルからプレーンテキストを抽出する可能性はありますか？ライセンスがあるため、iTextSharpを使用したくありません。

Ronnie Overby · Answer

Sergioの答えを取得し、いくつかの拡張メソッドを作成しました。また、文字列の累積をイテレータに変更しました。

public static class PdfSharpExtensions { public static IEnumerable<string> ExtractText(this PdfPage page) { var content = ContentReader.ReadContent(page); var text = content.ExtractText(); return text; } public static IEnumerable<string> ExtractText(this CObject cObject) { if (cObject is COperator) { var cOperator = cObject as COperator; if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || cOperator.OpCode.Name == OpCodeName.TJ.ToString()) { foreach (var cOperand in cOperator.Operands) foreach (var txt in ExtractText(cOperand)) yield return txt; } } else if (cObject is CSequence) { var cSequence = cObject as CSequence; foreach (var element in cSequence) foreach (var txt in ExtractText(element)) yield return txt; } else if (cObject is CString) { var cString = cObject as CString; yield return cString.Value; } } }

Sergio · Answer

私は、Davidがやった方法と似たような方法で実装しました。ここに私のコードがあります：

 { // .... var page = document.Pages[1]; CObject content = ContentReader.ReadContent(page); var extractedText = ExtractText(content); // ... } private IEnumerable<string> ExtractText(CObject cObject ) { var textList = new List<string>(); if (cObject is COperator) { var cOperator = cObject as COperator; if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() || cOperator.OpCode.Name == OpCodeName.TJ.ToString()) { foreach (var cOperand in cOperator.Operands) { textList.AddRange(ExtractText(cOperand)); } } } else if (cObject is CSequence) { var cSequence = cObject as CSequence; foreach (var element in cSequence) { textList.AddRange(ExtractText(element)); } } else if (cObject is CString) { var cString = cObject as CString; textList.Add(cString.Value); } return textList; }

David Schmitt · Answer

PDFSharpは、PDFからテキストを抽出するためのすべてのツールを提供します。 ContentReaderクラスを使用して、各ページ内のコマンドにアクセスし、TJ/Tj演算子から文字列を抽出します。

github に簡単な実装をアップロードしました。