私はaws athenaサービスと新しくリリースされたs3 select(まだプレビュー中)の違いを理解しようとしています。そして、これら両方のユースケースはどのように異なりますか?どちらもs3から部分的なデータを選択するのに役立つようです。
AWS S3 Selectは、コスト効率の高いストレージの最適化と考えることができます。これにより、S3の述語と一致するデータを取得できます。
AWS Athenaは完全に管理された分析サービスであり、任意のANSI SQL準拠のクエリ(グループ化、保持、ウィンドウおよびジオ機能、SQL DDLおよびDML)を実行できます。
Athenaは(私が使用したことはほとんどありませんが)S3に裏打ちされたビジネスレポートまたは分析ツールとしてより意図されています。
S3 selectは同じ種類のテクノロジーを使用しているように見えますが、アプリケーションがデータセットをフィルタリングまたはシャーディングするためにアプリケーションで直接使用することをより目的としていると思います。
S3 Selectを使用すると、単純なSQL式を使用して、オブジェクトのコンテンツから特定のデータを簡単に取得できます。オブジェクト全体を取得する必要はありません。これをLambdaで使用してサーバーレスアプリを構築し、Apache SparkおよびPrestoのようなビッグデータフレームワークと結び付けることができます。パフォーマンスを最大400%向上できます。
Amazon Athenaは、インタラクティブなクエリサービスです。サーバーレスです。 Athenaにデータをロードする必要はありません。 Presto上に構築され、標準SQLを実行します。主にビッグデータの分析に使用されます。
私の理解に従って概要を説明するには:
Amazon Athenaは、標準SQLを使用してAmazon S3のデータを簡単に分析できるインタラクティブなクエリサービスです。 Athenaはサーバーレスであるため、管理するインフラストラクチャはなく、実行するクエリに対してのみ料金がかかります。
現在のところ、これの主な利点は次のとおりです。
Athenaは、AWS Glue Data Catalogとすぐに統合できます。また、Glueの完全に管理されたETL機能を使用して、データを変換したり、列形式に変換してコストを最適化し、パフォーマンスを向上させることもできます。
これで、S3 Selectが次のようになりました。
現在、プレビュー中にS3 Selectを使用しても料金は発生せず、価格の定義もありません。ただし、 参照 で申請する必要があります
プレビュー中、S3 SelectはCSV、JSON、およびParquetファイルをGZIP圧縮ありまたはなしでサポートします。保管中に暗号化されるプレビューオブジェクトの間はサポートされません。
S3 Selectはまだプレビュー中のため、AWSには、サービスがどのように使用されているかを確認するための内部ケースがありません。しかし、私は a blog からの参照を見つけることができます。
私の意見では、あなたは このTwitchビデオ を見ることができます。