受信トレイからすべての電子メールを取得し、特定の文字列を含む電子メールをフィルタリングして、それらの電子メールをArrayListに配置するアプリケーションを作成しました。
メールがリストに追加された後、私はそのメールの件名と内容についていくつかの作業を行っています。これは、添付ファイルのない電子メールでは問題なく機能します。しかし、添付ファイル付きの電子メールを使い始めたとき、すべてが期待どおりに機能しなくなりました。
これは私のコードです:
public void getInhoud(Message msg) throws IOException {
try {
cont = msg.getContent();
} catch (MessagingException ex) {
Logger.getLogger(ReadMailNew.class.getName()).log(Level.SEVERE, null, ex);
}
if (cont instanceof String) {
String body = (String) cont;
} else if (cont instanceof Multipart) {
try {
Multipart mp = (Multipart) msg.getContent();
int mp_count = mp.getCount();
for (int b = 0; b < 1; b++) {
dumpPart(mp.getBodyPart(b));
}
} catch (Exception ex) {
System.out.println("Exception arise at get Content");
ex.printStackTrace();
}
}
}
public void dumpPart(Part p) throws Exception {
email = null;
String contentType = p.getContentType();
System.out.println("dumpPart" + contentType);
InputStream is = p.getInputStream();
if (!(is instanceof BufferedInputStream)) {
is = new BufferedInputStream(is);
}
int c;
final StringWriter sw = new StringWriter();
while ((c = is.read()) != -1) {
sw.write(c);
}
if (!sw.toString().contains("<div>")) {
mpMessage = sw.toString();
getReferentie(mpMessage);
}
}
電子メールの内容は文字列に保存されます。
このコードは、添付ファイルなしでメールを読み込もうとすると、すべて正常に機能します。しかし、添付ファイル付きの電子メールを使用する場合、文字列にはHTMLコード、さらには添付ファイルのコーディングも含まれます。最終的には、添付ファイルと電子メールの内容を保存したいのですが、私の最優先事項は、HTMLや添付ファイルのコーディングなしでテキストだけを取得することです。
今、私はさまざまな部分を処理するためにさまざまなアプローチを試しました:
public void getInhoud(Message msg) throws IOException {
try {
Object contt = msg.getContent();
if (contt instanceof Multipart) {
System.out.println("Met attachment");
handleMultipart((Multipart) contt);
} else {
handlePart(msg);
System.out.println("Zonder attachment");
}
} catch (MessagingException ex) {
ex.printStackTrace();
}
}
public static void handleMultipart(Multipart multipart)
throws MessagingException, IOException {
for (int i = 0, n = multipart.getCount(); i < n; i++) {
handlePart(multipart.getBodyPart(i));
System.out.println("Count "+n);
}
}
public static void handlePart(Part part)
throws MessagingException, IOException {
String disposition = part.getDisposition();
String contentType = part.getContentType();
if (disposition == null) { // When just body
System.out.println("Null: " + contentType);
// Check if plain
if ((contentType.length() >= 10)
&& (contentType.toLowerCase().substring(
0, 10).equals("text/plain"))) {
part.writeTo(System.out);
} else if ((contentType.length() >= 9)
&& (contentType.toLowerCase().substring(
0, 9).equals("text/html"))) {
part.writeTo(System.out);
} else if ((contentType.length() >= 9)
&& (contentType.toLowerCase().substring(
0, 9).equals("text/html"))) {
System.out.println("Ook html gevonden");
part.writeTo(System.out);
}else{
System.out.println("Other body: " + contentType);
part.writeTo(System.out);
}
} else if (disposition.equalsIgnoreCase(Part.ATTACHMENT)) {
System.out.println("Attachment: " + part.getFileName()
+ " : " + contentType);
} else if (disposition.equalsIgnoreCase(Part.INLINE)) {
System.out.println("Inline: "
+ part.getFileName()
+ " : " + contentType);
} else {
System.out.println("Other: " + disposition);
}
}
これはSystem.out.printlns
から返されるものです
Null: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Other body: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Content-Type: multipart/alternative; boundary="047d7b6220720b499504ce3786d7"
--047d7b6220720b499504ce3786d7
Content-Type: text/plain; charset="ISO-8859-1"
'Text of the message here in normal text'
--047d7b6220720b499504ce3786d7
Content-Type: text/html; charset="ISO-8859-1"
Content-Transfer-Encoding: quoted-printable
'HTML code of the message'
このアプローチは、電子メールの通常のテキストだけでなく、メールのHTMLコーディングも返します。なぜこれが起こるのか本当にわかりません。グーグルで検索しましたが、この問題を抱えている人は他にいないようです。
どんな助けでもありがたいです、
ありがとう!
JavaMailライブラリで電子メールを読むのは予想以上に難しいことがわかりました。私はJavaMailAPIのせいではなく、インターネット電子メールの公式定義についての私の不十分な理解のせいです RFC-822 -。
思考実験として:電子メールメッセージが現実の世界でどれほど複雑になる可能性があるかを考えてみてください。メッセージ内にメッセージを「無限に」埋め込むことができます。各メッセージ自体には、複数の添付ファイル(バイナリまたは人間が読めるテキスト)が含まれる場合があります。ここで、解析後にJavaMailAPIでこの構造がどれほど複雑になるか想像してみてください。
JavaMailで電子メールをトラバースするときに役立つ可能性のあるいくつかのヒント:
Message
、Multipart
、およびBodyPart
はすべてPart
を実装します。可能な場合は、すべてをPart
として扱います。これにより、一般的なトラバーサルメソッドをより簡単に構築できるようになります。
これらのPart
メソッドは、トラバースに役立ちます。
String getContentType()
:MIMEタイプで始まります。これをMIMEタイプ(ハッキング/カット/マッチングを含む)として扱いたくなるかもしれませんが、そうしないでください。検査のためにデバッガー内でのみこのメソッドを使用することをお勧めします。boolean isMimeType(String)
を使用して一致させます。ドキュメントを注意深く読んで、_"multipart/*"
_などの強力なワイルドカードについて学習してください。Object getContent()
:instanceof
:の可能性がありますMultipart
-より多くのPart
s のコンテナMultipart
にキャストしてから、int getCount()
およびBodyPart getBodyPart(int)
[.____を使用してゼロベースのインデックスとして反復します。]BodyPart
はPart
を実装しますPart.isMimeType("text/plain")
Part.isMimeType("text/html")
Message
(Part
を実装)-埋め込みまたは添付の電子メールString
(本文のみ-プレーンテキストまたはHTML)InputStream
(おそらくBASE64でエンコードされた添付ファイル)String getDisposition()
:値がnullの可能性がありますPart.ATTACHMENT.equalsIgnoreCase(getDisposition())
の場合は、getInputStream()
を呼び出して、添付ファイルの生のバイトを取得します。最後に、 公式Javadoc _com.Sun.mail
_パッケージ内のすべて(および場合によってはそれ以上)を除外することがわかりました。これらが必要な場合は、コードを直接読み取るか、 ソースをダウンロード で、プロジェクトのmail
プロジェクトモジュールで_mvn javadoc:javadoc
_を実行して、フィルタリングされていないJavadocを生成します。
これらのJavaMail FAQエントリを見つけましたか?
Kevinの役立つアドバイスのフォローアップとして、メールの内容を分析するJavaオブジェクトタイプの正規名(または単純な名前)も役立ちます。たとえば、私が持っている1つの受信トレイを見ると現在、486個のメッセージのうち399個が文字列で、87個がMimeMultipartです。これは、my一般的な電子メールの場合instanceofを使用して最初に文字列を剥がす戦略が最適であることを示しています。 。
文字列のうち、394はtext/plainで、5はtext/htmlです。これはほとんどの場合当てはまりません。これは、この特定の受信トレイへの私の電子メールフィードを反映しています。
しかし、待ってください-もっとあります!!! :-)それにもかかわらず、HTMLはそこに潜入しています。87のマルチパートのうち、70はマルチパート/代替です。保証はありませんが、ほとんど(これらすべてではないにしても)はTEXT + HTMLです。
他の17のマルチパートのうち、ちなみに、15はマルチパート/混合であり、2はマルチパート/署名されています。
この受信トレイ(および他の1つ)の私のユースケースは、主に既知のメーリングリストのコンテンツを集約して分析することです。メッセージを無視することはできませんが、この種の分析は、処理をより効率的にするのに役立ちます。