DCGM GPU utilization

# GKE(Goole Kubernetes Engin) k8s 에서 Nvidia GPU utilization 메트릭(prometheus용)을 수집하기 위해

# Data Center GPU Manager(DCGM) exporter(https://github.com/NVIDIA/gpu-monitoring-tools) 를 사용한다.

# prometheus 에서 DCGM_FI_DEV_GPU_UTIL 메트릭으로 조회가 가능한데

# 다음과 같이 pod 값에 실제 gpu 를 사용하는 pod 가 아닌 dcgm-exporter-xxx 로만 수집된다.

DCGM_FI_DEV_GPU_UTIL{Hostname="dcgm-exporter-xxx",UUID="GPU-xxx",device="nvidia1",endpoint="metrics",gpu="1",instance="my-app1",job="dcgm-exporter",modelName="Tesla P40",namespace="monitoring",pod="dcgm-exporter-xxx",service="dcgm-exporter"}

# 참고로 k8s v1.13 부터 /var/lib/kubelet/pod-resources 소켓파일로 pod 이름등의 정보를 제공한다.

# https://developer.nvidia.com/blog/monitoring-gpus-in-kubernetes-with-dcgm

# 관련한 이슈가 있었고 dcgm-exporter daemonset 에 아래와 같은 환경변수를 적용하면 된다고 한다.

# https://github.com/NVIDIA/dcgm-exporter/issues/27#issuecomment-1122518138

env:

- name: "DCGM_EXPORTER_KUBERNETES"

value: "true"

- name: "DCGM_EXPORTER_KUBERNETES_GPU_ID_TYPE"

value: "device-name"

# daemonset 적용 후 dcgm-exporter container 에 하나에 접속해 환경변수를 확인해 보자

root@dcgm-exporter-xxxx:/# printenv | grep DCGM_EXPORTER

DCGM_EXPORTER_KUBERNETES=true

DCGM_EXPORTER_KUBERNETES_GPU_ID_TYPE=device-name

DCGM GPU utilization

comments:

댓글 쓰기