.PDFファイルからデータを抽出してSQL 2008にロードする必要があります。続行方法を誰かに教えてもらえますか?
以下は、iTextSharpを使用してPDFからテキストデータを抽出する方法の例です。あなたはそれをあなたが望むとおりに正確に実行させるためにそれをいじる必要があるでしょう、それは良いアウトラインだと思います。 StringBuilderを使用してテキストを格納する方法を確認できますが、SQLを使用するように簡単に変更できます。
static void Main(string[] args)
{
PdfReader reader = new PdfReader(@"c:\test.pdf");
StringBuilder builder = new StringBuilder();
for (int x = 1; x <= reader.NumberOfPages; x++)
{
PdfDictionary page = reader.GetPageN(x);
IRenderListener listener = new SBTextRenderer(builder);
PdfContentStreamProcessor processor = new PdfContentStreamProcessor(listener);
PdfDictionary pageDic = reader.GetPageN(x);
PdfDictionary resourcesDic = pageDic.GetAsDict(PdfName.RESOURCES);
processor.ProcessContent(ContentByteUtils.GetContentBytesForPage(reader, x), resourcesDic);
}
}
public class SBTextRenderer : IRenderListener
{
private StringBuilder _builder;
public SBTextRenderer(StringBuilder builder)
{
_builder = builder;
}
#region IRenderListener Members
public void BeginTextBlock()
{
}
public void EndTextBlock()
{
}
public void RenderImage(ImageRenderInfo renderInfo)
{
}
public void RenderText(TextRenderInfo renderInfo)
{
_builder.Append(renderInfo.GetText());
}
#endregion
}
ツールを使用してPDFからテキストを抽出してから、ファイルをバイナリリーダーに読み込みます。次に、データベースに保存します..テキストを抽出します使用するいくつかのツールがあります。最初に言及するのは次のとおりです。
これらは最もよく知られており、文書化されたものです!次の例を確認してください。コードプロジェクトで次の例を試してください。
最後の注意:私と同様に、iTextSharpは、最もよく利用できる例を備えた最もよくドキュメント化されたライブラリであるためです。