Amazon s3バケットを全文検索するにはどうすればよいですか？

Question

S3にバケットがあり、そこに大量のテキストファイルがあります。

テキストファイル内のテキストを検索したい。生データのみが含まれます。また、各テキストファイルには異なる名前が付いています。

この例では、バケット名があります。

abc/myfolder/abac.txt

xyx/myfolder1/axc.txt

＆上記のテキストファイルで「I am human」のようなテキストを検索したい。

これを達成する方法は？それも可能ですか？

user1832464 · Accepted Answer

これを行う唯一の方法は、ソースとしてS3を使用できる CloudSearch を使用することです。高速検索を使用して機能し、インデックスを構築します。これは非常にうまく機能しますが、価格モデルを徹底的にチェックして、コストがかかりすぎないことを確認してください。

代替案はジャックが言ったとおりです-そうでなければ、ファイルをS3からEC2に転送し、そこで検索アプリケーションを構築する必要があります。

Fr&#233;d&#233;ric Henri · Answer

これはラムダ関数と連携して、S3バケットに送信される新しいデータがこのラムダへのイベント通知をトリガーし、ESインデックスを更新することを確認します。

高レベルでは、Amazon ESにデータをストリーミングするように設定するには、次の手順が必要です。

Sachin Sukumaran · Answer

EMRがある場合は、sparkアプリケーションを作成して検索を実行します。これを実行しました。これは分散検索として機能します

Mickael Kerjean · Answer