web-dev-qa-db-ja.com

emr

JSONデータからHiveテーブルを作成するにはどうすればよいですか？

Scala SDKまたはAWSのインターフェース？

AWS EMRクラスターをどのように削除しますか？

EMRのYarnがすべてのノードを実行中のSparkジョブに割り当てないのはなぜですか？

Spark + Amazonの "maximizeResourceAllocation"設定を使用したEMRは、すべてのコア/ vcoresを使用するわけではありません

ブースティングspark.yarn.executor.memoryOverhead

「メモリー制限を超えたためにYARNによってコンテナーが強制終了されました。10.4GBの10.4 GBの物理メモリーが使用されています」75 GBのメモリーを持つEMRクラスターで

EMRクラスターでのGCの最適化

Pyspark-ロードファイル：パスが存在しません

設定を変更した後、EMRでSparkサービスを再起動する方法は？

pyspark / EMRの大きなDataFrameでのcollect（）またはtoPandas（）

Sparkジョブが大きなデータでハングする

S3からAmazon EMR HDFSにファイルをコピーするにはどうすればよいですか？

HiveテーブルをS3バケットにエクスポートする

HiveにはDUALと同等のものはありますか？

Amazon EC2とAmazon EMRの比較

hdfsのファイルパス

EMR / Hiveを使用してS3からDynamoDBにデータをインポートするときに、引用符（CSV）で囲まれたフィールドを処理する方法

S3でファイルを圧縮する

EMRマスターノードはそのクラスターIDを知っていますか？

botoを使用してEMRクラスターを起動および構成する方法

Pyspark --py-filesが機能しません

ワイルド文字を使用してaws s3からファイルを選択する方法

Spark-AWS EMRクラスターにはどのインスタンスタイプが推奨されますか？

Spark EMRのログはどこにありますか？

Spark Amazon EMRに完全に割り当てられていないリソース

AmazonEMRでsparkマスターURLを見つける方法

application_のアプリケーションレポート（状態：ACCEPTED）は、Spark Submit（with Spark 1.2.0 on YARN））で終わることはありません

Spark AWS EMRのUI

方法bootstrap= Python Amazon EMRのモジュールのインストール？

AWSCLI-JSONオブジェクトをデコードできませんでした

AWS EMRでyarnを再起動する方法

boto3（またはその他）を使用してemrでpysparkジョブを自動化するにはどうすればよいですか？

Spark糸モードの場合、「終了ステータス：-100。診断：*失われた*ノードでリリースされたコンテナ」で終了します "

ツェッペリンに瓶を追加する方法は？

Spark： "プールからの接続を待機するタイムアウト"

Spark 2.0は 'DirectParquetOutputCommitter'を非推奨にします、それなしで生きる方法は？

Apache Hive：文字列をタイムスタンプに変換する方法は？

s3とのEMRFSファイルの同期が機能しない

EMRの実行Spark複数のS3アカウントで

Sparkで大きなgzip圧縮ファイルを処理する

Apacheで寄木細工スキーマの変更を処理する方法Spark

ZeppelinをEMRクラスターで完全に再起動するにはどうすればよいですか？

Spark / scalaサイズのSQLクエリがInteger.MAX_VALUEを超えています

EMRでカスタム環境変数を設定してsparkアプリケーションで使用できるようにする方法

EMR / Sparkからの非常に遅いS3書き込み時間

EMR Spark-TransportClient：RPCの送信に失敗しました

Lambda関数からAmazon EMRでspark submitを実行する方法は？

Spark EMRでのS3スローダウンエラー

Spark 2.2.0 FileOutputCommitter

EMRでジョブを調整する方法spark S3で巨大なデータをすばやく書き込む方法

boto EMR追加ステップと自動終了

奇妙なspark AWS EMRのエラー

Spark 2.2.0-DynamoDBへのDataFrameの書き込み/読み取り方法

AWS GlueをEMRの代替品と見なすことはできますか？

AWS EMRに対するAWS Glueの料金

データフレームからの新しいファイルの書き込み中にファイルが既に存在します

構造化ストリーミングは/_spark_metadata/9.compactが存在しないことを引用してファイルシンクにDFを書き込みません

データフレームをローカルファイルシステムに保存すると、結果が空になります

Python pip install pyarrowエラー、「cmake」を実行できません

新しいAWS EMRクラスターでSparkContextを取得できません

2 EMRを実行する方法Sparkステップを同時に実行しますか？

SparkContextを初期化するとき、pysparkエラーはjvmエラーに存在しません

SparkジョブをAirflowからEMRクラスターに送信する方法は？

EMRクラスターブートストラップにlivy.server.session.timeoutを設定する方法

EMRノートブックは追加のライブラリをインストールします

AWS EMR Jupyterノートブックでmatplotlibを機能させるにはどうすればよいですか？

AWS Athenaの同時実行制限：送信されたクエリの数と実行中のクエリの数

aws：EMRクラスターは、ジョブの送信時に「エラーUserData：ユーザーデータの取得中にエラーが発生しました」に失敗しますsparkジョブ

AWS EMRクラスターでセッションがアクティブでないPyspark

ステップ関数の入力値をEMRステップ引数に取得する方法はありますか

Emr 5.29.0でscala 2.12を実行しています