JavaMailでマルチパート/代替メールを処理する方法は？

Question

受信トレイからすべての電子メールを取得し、特定の文字列を含む電子メールをフィルタリングして、それらの電子メールをArrayListに配置するアプリケーションを作成しました。

メールがリストに追加された後、私はそのメールの件名と内容についていくつかの作業を行っています。これは、添付ファイルのない電子メールでは問題なく機能します。しかし、添付ファイル付きの電子メールを使い始めたとき、すべてが期待どおりに機能しなくなりました。

これは私のコードです：

public void getInhoud(Message msg) throws IOException { try { cont = msg.getContent(); } catch (MessagingException ex) { Logger.getLogger(ReadMailNew.class.getName()).log(Level.SEVERE, null, ex); } if (cont instanceof String) { String body = (String) cont; } else if (cont instanceof Multipart) { try { Multipart mp = (Multipart) msg.getContent(); int mp_count = mp.getCount(); for (int b = 0; b < 1; b++) { dumpPart(mp.getBodyPart(b)); } } catch (Exception ex) { System.out.println("Exception arise at get Content"); ex.printStackTrace(); } } } public void dumpPart(Part p) throws Exception { email = null; String contentType = p.getContentType(); System.out.println("dumpPart" + contentType); InputStream is = p.getInputStream(); if (!(is instanceof BufferedInputStream)) { is = new BufferedInputStream(is); } int c; final StringWriter sw = new StringWriter(); while ((c = is.read()) != -1) { sw.write(c); } if (!sw.toString().contains("<div>")) { mpMessage = sw.toString(); getReferentie(mpMessage); } }

電子メールの内容は文字列に保存されます。

このコードは、添付ファイルなしでメールを読み込もうとすると、すべて正常に機能します。しかし、添付ファイル付きの電子メールを使用する場合、文字列にはHTMLコード、さらには添付ファイルのコーディングも含まれます。最終的には、添付ファイルと電子メールの内容を保存したいのですが、私の最優先事項は、HTMLや添付ファイルのコーディングなしでテキストだけを取得することです。

今、私はさまざまな部分を処理するためにさまざまなアプローチを試しました：

public void getInhoud(Message msg) throws IOException { try { Object contt = msg.getContent(); if (contt instanceof Multipart) { System.out.println("Met attachment"); handleMultipart((Multipart) contt); } else { handlePart(msg); System.out.println("Zonder attachment"); } } catch (MessagingException ex) { ex.printStackTrace(); } } public static void handleMultipart(Multipart multipart) throws MessagingException, IOException { for (int i = 0, n = multipart.getCount(); i < n; i++) { handlePart(multipart.getBodyPart(i)); System.out.println("Count "+n); } } public static void handlePart(Part part) throws MessagingException, IOException { String disposition = part.getDisposition(); String contentType = part.getContentType(); if (disposition == null) { // When just body System.out.println("Null: " + contentType); // Check if plain if ((contentType.length() >= 10) && (contentType.toLowerCase().substring( 0, 10).equals("text/plain"))) { part.writeTo(System.out); } else if ((contentType.length() >= 9) && (contentType.toLowerCase().substring( 0, 9).equals("text/html"))) { part.writeTo(System.out); } else if ((contentType.length() >= 9) && (contentType.toLowerCase().substring( 0, 9).equals("text/html"))) { System.out.println("Ook html gevonden"); part.writeTo(System.out); }else{ System.out.println("Other body: " + contentType); part.writeTo(System.out); } } else if (disposition.equalsIgnoreCase(Part.ATTACHMENT)) { System.out.println("Attachment: " + part.getFileName() + " : " + contentType); } else if (disposition.equalsIgnoreCase(Part.INLINE)) { System.out.println("Inline: " + part.getFileName() + " : " + contentType); } else { System.out.println("Other: " + disposition); } }

これはSystem.out.printlnsから返されるものです

Null: multipart/alternative; boundary=047d7b6220720b499504ce3786d7 Other body: multipart/alternative; boundary=047d7b6220720b499504ce3786d7 Content-Type: multipart/alternative; boundary="047d7b6220720b499504ce3786d7" --047d7b6220720b499504ce3786d7 Content-Type: text/plain; charset="ISO-8859-1" 'Text of the message here in normal text' --047d7b6220720b499504ce3786d7 Content-Type: text/html; charset="ISO-8859-1" Content-Transfer-Encoding: quoted-printable 'HTML code of the message'

このアプローチは、電子メールの通常のテキストだけでなく、メールのHTMLコーディングも返します。なぜこれが起こるのか本当にわかりません。グーグルで検索しましたが、この問題を抱えている人は他にいないようです。

どんな助けでもありがたいです、

ありがとう！

kevinarpe · Accepted Answer

JavaMailライブラリで電子メールを読むのは予想以上に難しいことがわかりました。私はJavaMailAPIのせいではなく、インターネット電子メールの公式定義についての私の不十分な理解のせいです RFC-822 -。

思考実験として：電子メールメッセージが現実の世界でどれほど複雑になる可能性があるかを考えてみてください。メッセージ内にメッセージを「無限に」埋め込むことができます。各メッセージ自体には、複数の添付ファイル（バイナリまたは人間が読めるテキスト）が含まれる場合があります。ここで、解析後にJavaMailAPIでこの構造がどれほど複雑になるか想像してみてください。

JavaMailで電子メールをトラバースするときに役立つ可能性のあるいくつかのヒント：

Message、Multipart、およびBodyPartはすべてPartを実装します。可能な場合は、すべてをPartとして扱います。これにより、一般的なトラバーサルメソッドをより簡単に構築できるようになります。

これらのPartメソッドは、トラバースに役立ちます。

String getContentType()：MIMEタイプで始まります。これをMIMEタイプ（ハッキング/カット/マッチングを含む）として扱いたくなるかもしれませんが、そうしないでください。検査のためにデバッガー内でのみこのメソッドを使用することをお勧めします。
- 奇妙なことに、MIMEタイプを直接抽出することはできません。代わりに、boolean isMimeType(String)を使用して一致させます。ドキュメントを注意深く読んで、_"multipart/*"_などの強力なワイルドカードについて学習してください。
Object getContent()：instanceof：の可能性があります
- Multipart-より多くのParts のコンテナ
  - Multipartにキャストしてから、int getCount()およびBodyPart getBodyPart(int) [.____を使用してゼロベースのインデックスとして反復します。]
    - 注：BodyPartはPartを実装します
  - 私の経験では、Microsoft Exchangeサーバーは、プレーンテキストとHTMLの2つの本文テキストのコピーを定期的に提供しています。
    - プレーンテキストに一致させるには、次を試してください：Part.isMimeType("text/plain")
    - HTMLと一致させるには、次を試してください：Part.isMimeType("text/html")
- Message（Partを実装）-埋め込みまたは添付の電子メール
- String（本文のみ-プレーンテキストまたはHTML）
  - MicrosoftExchangeサーバーに関する上記の注を参照してください。
- InputStream（おそらくBASE64でエンコードされた添付ファイル）
String getDisposition()：値がnullの可能性があります
- Part.ATTACHMENT.equalsIgnoreCase(getDisposition())の場合は、getInputStream()を呼び出して、添付ファイルの生のバイトを取得します。

最後に、公式Javadoc _com.Sun.mail_パッケージ内のすべて（および場合によってはそれ以上）を除外することがわかりました。これらが必要な場合は、コードを直接読み取るか、ソースをダウンロードで、プロジェクトのmailプロジェクトモジュールで_mvn javadoc:javadoc_を実行して、フィルタリングされていないJavadocを生成します。

Bill Shannon · Answer

これらのJavaMail FAQエントリを見つけましたか？

添付ファイル付きのメッセージを読んで保存するにはどうすればよいですか？
メッセージに添付ファイルがあるかどうかを確認するにはどうすればよいですか？
添付ファイルのあるメッセージでメインのメッセージ本文を見つけるにはどうすればよいですか？

Arved Sandstrom · Answer

Kevinの役立つアドバイスのフォローアップとして、メールの内容を分析するJavaオブジェクトタイプの正規名（または単純な名前）も役立ちます。たとえば、私が持っている1つの受信トレイを見ると現在、486個のメッセージのうち399個が文字列で、87個がMimeMultipartです。これは、my一般的な電子メールの場合instanceofを使用して最初に文字列を剥がす戦略が最適であることを示しています。。

文字列のうち、394はtext/plainで、5はtext/htmlです。これはほとんどの場合当てはまりません。これは、この特定の受信トレイへの私の電子メールフィードを反映しています。

しかし、待ってください-もっとあります!!! :-)それにもかかわらず、HTMLはそこに潜入しています。87のマルチパートのうち、70はマルチパート/代替です。保証はありませんが、ほとんど（これらすべてではないにしても）はTEXT + HTMLです。

他の17のマルチパートのうち、ちなみに、15はマルチパート/混合であり、2はマルチパート/署名されています。

この受信トレイ（および他の1つ）の私のユースケースは、主に既知のメーリングリストのコンテンツを集約して分析することです。メッセージを無視することはできませんが、この種の分析は、処理をより効率的にするのに役立ちます。