elasticsearch kubernetesポッドのコンテナーの再起動に失敗したバックオフの理由は何ですか？

Question

Kubernetesデプロイメントを通じてelasticsearchコンテナーを実行しようとすると、しばらくするとelasticsearchポッドが失敗しますが、docker-composeまたはDockerfileを使用してdockerコンテナーとして直接実行すると、完全に正常に実行されます。これがkubectl get podsの結果として得られるものです

NAME READY STATUS RESTARTS AGE es-764bd45bb6-w4ckn 0/1 Error 4 3m

以下はkubectl describe podの結果です

Name: es-764bd45bb6-w4ckn Namespace: default Node: administrator-thinkpad-l480/<node_ip> Start Time: Thu, 30 Aug 2018 16:38:08 +0530 Labels: io.kompose.service=es pod-template-hash=3206801662 Annotations: <none> Status: Running IP: 10.32.0.8 Controlled By: ReplicaSet/es-764bd45bb6 Containers: es: Container ID: docker://9be2f7d6eb5d7793908852423716152b8cefa22ee2bb06fbbe69faee6f6aa3c3 Image: docker.elastic.co/elasticsearch/elasticsearch:6.2.4 Image ID: docker-pullable://docker.elastic.co/elasticsearch/elasticsearch@sha256:9ae20c753f18e27d1dd167b8675ba95de20b1f1ae5999aae5077fa2daf38919e Port: 9200/TCP State: Waiting Reason: CrashLoopBackOff Last State: Terminated Reason: Error Exit Code: 78 Started: Thu, 30 Aug 2018 16:42:56 +0530 Finished: Thu, 30 Aug 2018 16:43:07 +0530 Ready: False Restart Count: 5 Environment: ELASTICSEARCH_ADVERTISED_Host_NAME: es ES_Java_OPTS: -Xms2g -Xmx2g ES_HEAP_SIZE: 2GB Mounts: /var/run/secrets/kubernetes.io/serviceaccount from default-token-nhb9z (ro) Conditions: Type Status Initialized True Ready False ContainersReady False PodScheduled True Volumes: default-token-nhb9z: Type: Secret (a volume populated by a Secret) SecretName: default-token-nhb9z Optional: false QoS Class: BestEffort Node-Selectors: <none> Tolerations: node.kubernetes.io/not-ready:NoExecute for 300s node.kubernetes.io/unreachable:NoExecute for 300s Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal Scheduled 6m default-scheduler Successfully assigned default/es-764bd45bb6-w4ckn to administrator-thinkpad-l480 Normal Pulled 3m (x5 over 6m) kubelet, administrator-thinkpad-l480 Container image "docker.elastic.co/elasticsearch/elasticsearch:6.2.4" already present on machine Normal Created 3m (x5 over 6m) kubelet, administrator-thinkpad-l480 Created container Normal Started 3m (x5 over 6m) kubelet, administrator-thinkpad-l480 Started container Warning BackOff 1m (x15 over 5m) kubelet, administrator-thinkpad-l480 Back-off restarting failed container

ここに私のelasticsearc-deployment.yamlがあります：

apiVersion: extensions/v1beta1 kind: Deployment metadata: annotations: kompose.cmd: kompose convert kompose.version: 1.1.0 (36652f6) creationTimestamp: null labels: io.kompose.service: es name: es spec: replicas: 1 strategy: {} template: metadata: creationTimestamp: null labels: io.kompose.service: es spec: containers: - env: - name: ELASTICSEARCH_ADVERTISED_Host_NAME value: es - name: ES_Java_OPTS value: -Xms2g -Xmx2g - name: ES_HEAP_SIZE value: 2GB image: docker.elastic.co/elasticsearch/elasticsearch:6.2.4 name: es ports: - containerPort: 9200 resources: {} restartPolicy: Always status: {}

kubectl logs -f es-764bd45bb6-w4cknを使用してログを取得しようとすると、

Error from server: Get https://<slave node ip>:10250/containerLogs/default/es-764bd45bb6-w4ckn/es?previous=true: dial tcp <slave node ip>:10250: i/o timeout

この問題の理由と解決策は何ですか？

Lakshya Garg · Accepted Answer

Esコンテナにdocker logsを使用しているログを見つけましたが、vm.max_map_countが非常に低い値に設定されているため、esが開始されていないことがわかりました。 vm.max_map_countをsysctl -w vm.max_map_count=262144を使用して目的の値に変更し、その後ポッドが開始されました。

Pradeep · Answer

私も同じ問題を抱えていましたが、この問題にはいくつかの理由が考えられます。私の場合、jarファイルがありませんでした。 @Lakshyaはすでにこの問題に回答しています。トラブルシューティングに使用できる手順を追加したいと思います。

ポッドのステータスを取得します。コマンド-kubectl get pods
ポッドを詳細に説明する-kubectl describe pod "pod-name"出力の最後の数行は、イベントと展開が失敗した場所を示します
詳細を確認するには、ログを取得します-kubectl logs "pod-name"
コンテナーログの取得-kubectl logs "pod-name" -c "container-name" describe podコマンドの出力からコンテナー名を取得します

コンテナが起動している場合は、kubectl exec -itコマンドを使用してコンテナをさらに分析できます

コミュニティのメンバーが将来の問題に役立つことを願っています。