Python：生の電子メールに「Body」タグなどがない場合、生の電子メールから本文を解析する方法

Question

簡単に入手できるようです

From To Subject

など

import email b = email.message_from_string(a) bbb = b['from'] ccc = b['to']

"a"がこのようなものである生の電子メール文字列であると仮定します。

a = """From root@a1.local.tld Thu Jul 25 19:28:59 2013 Received: from a1.local.tld (localhost [127.0.0.1]) by a1.local.tld (8.14.4/8.14.4) with ESMTP id r6Q2SxeQ003866 for <ooo@a1.local.tld>; Thu, 25 Jul 2013 19:28:59 -0700 Received: (from root@localhost) by a1.local.tld (8.14.4/8.14.4/Submit) id r6Q2Sxbh003865; Thu, 25 Jul 2013 19:28:59 -0700 From: root@a1.local.tld Subject: oooooooooooooooo To: ooo@a1.local.tld Cc: X-Originating-IP: 192.168.15.127 X-Mailer: Webmin 1.420 Message-Id: <1374805739.3861@a1> Date: Thu, 25 Jul 2013 19:28:59 -0700 (PDT) MIME-Version: 1.0 Content-Type: multipart/mixed; boundary="bound1374805739" This is a multi-part message in MIME format. --bound1374805739 Content-Type: text/plain Content-Transfer-Encoding: 7bit ooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooo --bound1374805739--"""

質問

python経由でこのメールのBodyを取得するにはどうすればよいですか？

これまでのところ、これは私が知っている唯一のコードですが、まだテストしていません。

if email.is_multipart(): for part in email.get_payload(): print part.get_payload() else: print email.get_payload()

これは正しい方法ですか？

または、次のような単純なものがあるかもしれません...

import email b = email.message_from_string(a) bbb = b['body']

？

falsetru · Accepted Answer

Message.get_payload を使用します

b = email.message_from_string(a) if b.is_multipart(): for payload in b.get_payload(): # if payload.is_multipart(): ... print payload.get_payload() else: print b.get_payload()

Todor Minakov · Answer

積極的になるには、実際の電子メール本文で作業します（ただし、まだ正しい部分を解析していない可能性があります）。処理。

前述の添付ファイルはtext/plainまたはtext/htmlパーツである場合が多く、非常に多くの場合、この防弾でないサンプルはcontent-dispositionヘッダーをチェックすることでそれらをスキップします。

b = email.message_from_string(a) body = "" if b.is_multipart(): for part in b.walk(): ctype = part.get_content_type() cdispo = str(part.get('Content-Disposition')) # skip any text/plain (txt) attachments if ctype == 'text/plain' and 'attachment' not in cdispo: body = part.get_payload(decode=True) # decode break # not multipart - i.e. plain text, no attachments, keeping fingers crossed else: body = b.get_payload(decode=True)

ところで、walk()はmimeパーツを素晴らしく反復し、get_payload(decode=True)はbase64などのデコードで汚い作業を行います。

いくつかの背景-私が暗示したように、MIME電子メールの素晴らしい世界は、メッセージ本文を「間違って」見つけるという多くの落とし穴を提示します。最も単純な場合、それは唯一の「text/plain」部分にあり、get_payload（）は非常に魅力的ですが、私たちは単純な世界に住んでいません。ウィキペディアはそれをしっかりと説明しています- MIME 、しかし、以下のこれらすべてのケースが有効であり、一般的であることを考慮すると、周りのセーフティネットを考慮する必要があります：

非常に一般的-添付ファイル付きのフォーマットされたテキストを送信する通常のエディター（Gmail、Outlook）で得られるもののほとんど：

multipart/mixed | +- multipart/related | | | +- multipart/alternative | | | | | +- text/plain | | +- text/html | | | +- image/png | +-- application/msexcel

比較的シンプル-単なる代替表現：

multipart/alternative | +- text/plain +- text/html

良くも悪くも、この構造は有効です。

multipart/alternative | +- text/plain +- multipart/related | +- text/html +- image/jpeg

これが少し役立つことを願っています。

追伸私のポイントは、電子メールに軽く近づかないことです-少なくとも予想しないときに噛みつきます:)

Jimmy Lin · Answer

Pythonにはb['body']はありません。 get_payloadを使用する必要があります。

if isinstance(mailEntity.get_payload(), list): for eachPayload in mailEntity.get_payload(): ...do things you want... ...real mail body is in eachPayload.get_payload()... else: ...means there is only text/plain part.... ...use mailEntity.get_payload() to get the body...

幸運を。

Amit Sharma · Answer

適切なドキュメントで電子メールの内容を解析するのに非常に優れた package が利用可能です。

import mailparser mail = mailparser.parse_from_file(f) mail = mailparser.parse_from_file_obj(fp) mail = mailparser.parse_from_string(raw_mail) mail = mailparser.parse_from_bytes(byte_mail)

使い方：

mail.attachments: list of all attachments mail.body mail.to

Ajay Ohri · Answer

Emailsがpandasデータフレームで、emails.messageがメールテキストの列の場合

## Helper functions def get_text_from_email(msg): '''To get the content from email objects''' parts = [] for part in msg.walk(): if part.get_content_type() == 'text/plain': parts.append( part.get_payload() ) return ''.join(parts) def split_email_addresses(line): '''To separate multiple email addresses''' if line: addrs = line.split(',') addrs = frozenset(map(lambda x: x.strip(), addrs)) else: addrs = None return addrs import email # Parse the emails into a list email objects messages = list(map(email.message_from_string, emails['message'])) emails.drop('message', axis=1, inplace=True) # Get fields from parsed email objects keys = messages[0].keys() for key in keys: emails[key] = [doc[key] for doc in messages] # Parse content from emails emails['content'] = list(map(get_text_from_email, messages)) # Split multiple email addresses emails['From'] = emails['From'].map(split_email_addresses) emails['To'] = emails['To'].map(split_email_addresses) # Extract the root of 'file' as 'user' emails['user'] = emails['file'].map(lambda x:x.split('/')[0]) del messages emails.head()