sentimental programmer: stresstest

Sentimental Programmer | ysoftman

레이블이 stresstest인 게시물을 표시합니다. 모든 게시물 표시

linux namespace

# 2002년 리눅스 커널에 포함된 namespace(mnt, pid, net, ipc, cgroup...타입) 로 isolation 구현

# 모든 프로세스들은 특정 네임스페이스에 속하고 unshare 로 새로운 네임스페이스에서 프로세스를 실행할 수 있다. 네임스페이스는 exit 로 빠져나올 수 있다.

# unshare 시 프로세스를 명시하지 않으면 ${SHELL}값(/bin/sh 또는 /bin/bash등)이 디폴트로 실행된다.

#####

# mnt namespace

# 부모(호스트)로 부터 격리된 mount타입(-m, --mount)의 네임스페이스로 /bin/bash 프로그램 실행

unshare --mount /bin/sh

# mount_ns 에 마운트하면 현재 네임스페이스에서만 마운트된것을 알 수 있다.

# tmpfs : 가상 메모리 파일시스템

# ushare 된 마운트 스페이스(격리됨)에서 생성한 마운트는 호스트에서 보이지 않는다.

mkdir /tmp/mount_ns

mount -n -t tmpfs tmpfs /tmp/mount_ns

mount | grep mount_ns

# 터미널을 하나 더 띄워 호스트 네임스페이스에서 보면 값이 다른것을 알 수 있다.

readlink /proc/$$/ns/mnt

# 호스트에서 tmpfs 마운트 정보가 안보이는것을 확인

mount | grep mount_ns

# 테스트 결과

#####

# pid namespace

# 새로운 pid(-p, --pid), -f(--fork) 네임스페이스으로 실행

# --mount-proc Just before running the program, mount the proc filesystem at mountpoint (default is /proc)

# --mount-prod 옵션을 사용하면 pid 네임스페이스가 /proc/{pid} 로 마운트되어 쉽게 pid 네임스페이스 접근할 수 있도록 해준다.(mount namspace 도 생긴다.)

unshare -fp --mount-proc /bin/sh

# 호스트 네임스페이스와 현재 pid 네임스페이스에 다른 pid 로 보인다.

# 현재 pid 네임스페이스에서 프로세스를 확인해보면 1번이다.

echo $$

ps -ef

# pid 네임스페이스에서의 pid namespace 정보를 보면

# 아래 호스트의 unshare mount namespace 와 다른것을 알 수 있다.

# unshare(mt ns id:4026532202) ---> pid-namespace /bin/sh (pid ns id:4026532203)

lsns -t pid -p 1

# 호스트에서 unshare 프로세스 pid 찾기

ps -ef | grep unshare

# ushare 프로세스의 namespace 정보

# ls -ahl /proc/{pid}/ns 로도 알 수 있다.

lsns -p {pid}

# mnt 네임스페이스ID 로 확인

lsns {namespace id}

# 테스트 결과 화면

#####

# cgroup namespace

# cgroup 는 controlgroup으로 프로세스의 리소스 제어하는 파일시스템이다.(sys/fs/cgroup)

# sleep 백그라운드 프로세스를 freezer(cgroup 작업 중지,재개를 위한 subsystem)의 sub2로 등록

mkdir -p /sys/fs/cgroup/freezer/sub2

sleep 100000 &

[1] 2932

# 테스트를 위해 sleep pid 환경변수로 설정

export sleep_pid=2932

# sleep pid 를 sub2 cgroup 으로 등록

echo ${sleep_pid} > /sys/fs/cgroup/freezer/sub2/cgroup.procs

# 현재 프로세스도 freezer sub1 로 등록하자.

mkdir -p /sys/fs/cgroup/freezer/sub1

# 현재프로세스 확인, 테스트를 위해 현재 pid 환경변수로 설정

echo $$

2178

export parent_pid=$(echo $$)

# 현재 프로세스 pid 를 sub1 cgroup 으로 등록

echo ${parent_pid} > /sys/fs/cgroup/freezer/sub1/cgroup.procs

# freezer (init process, PID 1), parent, sleep pid 확인

cat /proc/1/cgroup | grep freezer

cat /proc/${parent_pid}/cgroup | grep freezer

cat /proc/${sleep_pid}/cgroup | grep freezer

# freezer 파일 확인

tree -L 1 /sys/fs/cgroup/freezer/

/sys/fs/cgroup/freezer/

├── cgroup.clone_children

├── cgroup.procs

├── cgroup.sane_behavior

├── docker

├── notify_on_release

├── release_agent

├── sub1

├── sub2

└── tasks

# 새로운 cgroup(-C, --cgroup) 네임스페이스로 실행

unshare -Cm /bin/sh

# freezer (init process, PID 1), parent, sleep pid 확인해보면

# sub1 --> / 가 루트가 되고

# sub2 --> ../sub2 로 변경되었지만 호스트 cgroup 은 그대로 보인다.

cat /proc/1/cgroup | grep freezer

cat /proc/2178/cgroup | grep freezer

cat /proc/2932/cgroup | grep freezer

# 테스트 결과

#####

# stress 툴로 시스템 부하(cpu)를 테스트해보자.

# new_root 에 bash 준비하기

mkdir -p new_root/{bin,usr,lib,lib64} new_root/lib/x86_64-linux-gnu/ new_root/usr/lib/x86_64-linux-gnu

cp /bin/bash new_root/bin

cp /bin/mount new_root/bin

cp /lib/x86_64-linux-gnu/{libtinfo.so.5,libdl.so.2,libc.so.6} new_root/lib

cp /lib64/ld-linux-x86-64.so.2 new_root/lib64

# mount 명령등 준비하기

cp -rv /bin/{ls,cat,mount,umount,mkdir,rmdir,rm,cp,grep,ps} new_root/bin

cp -rv /usr/lib/x86_64-linux-gnu/* new_root/usr/lib/x86_64-linux-gnu

cp -rv /lib/x86_64-linux-gnu/* new_root/lib/x86_64-linux-gnu

cp -rv /lib64/* new_root/lib64

# stress, cgroup 툴 설치

apt-get install -y stress cgroup-tools

# chroot 후 필요한 파일들 복사

mkdir -p new_root/usr/bin/bin

cp /usr/bin/{top,stress,cgcreate,cgset,cgexec} new_root/usr/bin/

# top 실행시 필요한 파일들 복사

mkdir -p new_root/usr/share/terminfo

cp -r /usr/share/terminfo/ new_root/usr/share/terminfo

# cgcreate 시 root uid 파악에 필요

mkdir -p new_root/etc

cp /etc/group new_root/etc/group

cp /etc/passwd new_root/etc/passwd

# cgroup 관련 마운트 확인

mount | grep -E "cgroup*.cpu"

# chroot 후 mount 하기

chroot new_root

mkdir -p /sys/fs/cgroup

mkdir -p /sys/fs/cgroup/{cpuset,"cpu,cpuacct"}

mount -t cgroup -o cpuset cgroup /sys/fs/cgroup/cpuset

mount -t cgroup -o cpu,cpuacct cgroup /sys/fs/cgroup/cpu,cpuacct

# /proc 마운트

mkdir -p /proc

mount -t proc proc /proc

# mycgroup 생성 및 확인

cgcreate -a root -g cpu:mycgroup

ls -al /sys/fs/cgroup/cpu,cpuacct/ | grep mycgroup

# CPU 사용률(%) = (cpu.cfs_quota_us / cpu.cfs_period_us) * 100

# cpu.cfs_period_us 를 확인해 보면 100000(us, 100ms) 이다.

# cat /sys/fs/cgroup/cpu,cpuacct/cpu.cfs_period_us

# 따라서 cpu.cfs_quota_us=30000 을 주면 30% cpu 사용률로 제한한다.

cgset -r cpu.cfs_quota_us=30000 mycgroup

# mycgroup 에 strecc -c(--cpu) 1로 부하 테스트 백그라운드로 실행

cgexec -g cpu:mycgroup stress -c 1 &

# top 으로 stress 프로세스 30% 사용 확인

export TERM="xterm-256color"

top

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

3129 root 20 0 8248 96 0 R 30.0 0.0 0:03.50 stress

# 테스트 결과

#####

# net namespace

# 새로운 network(-n, --net) 네임스페이스으로 실행

unshare --net /bin/sh

# 호스트 네임스페이스와 정보가 다른것을 알 수 있다.

ip a

# 테스트 결과

# ip 로 net namespace 생성해보기

ip netns add mynet

# net namespace 확인

ip netns list

# 또는

ls /var/run/netns

# nsenter 로 net네임스페이스(--net)에 들어가기

# 별도 프로그램 명시하지 않으면 디폴트로 $SHELL -> /bin/bash 를 실행한다.

nsenter --net=/var/run/netns/mynet

ip a

# net 네임스페이스에서 현재 프로세스의 pid,user,ipc,mnt등의 네임스페이스 정보 확인

lsns -p $$

# 호스트에서 net 네임스페이스 id 확인

# readlink /proc/$$/ns/net 대신 lsns 명령어로도 네임스페이스 정보를 확일 수 있다.

# lsns -t 타입 -p pid

lsns -t net -p $$

# 테스트 결과

#####

# user namespace 생성

# 새로운 user(-U, --user) 네임스페이스으로 실행

unshare --user /bin/sh

# 새로운 user 네임스페이스에서의 사용자 정보 확인

whoami

# 네임스페이스 확인해보기

ls -al /proc/$$/ns

lsns -p $$

# 테스트 결과 화면

# container 와 호스트 root 가 같은것인지 확인해보기

# docker 로 busybox 컨테이너 띄우기

docker container run -it --name busybox --rm busybox

# ps 로 보면 root 로 실행됐고, uid=0 으로 되어 있다

ps -ef

# 현재 프로세스의 user 네임스페이스 확인

readlink /proc/$$/ns/user

# 호스트에서도 확인해보면 root 이름이고 uid=0 이다.

ps -ef | grep root | head -3

# 호스트에서 현재 프로세스의 user 네임스페이스 확인해보면 위 container user namespace id 와 같은것을 알 수 있다.

# 결국 container 의 root 도 호스트 user 네임스페이스를 공유하기 때문에 호스트 root 와 같은것이다.

readlink /proc/$$/ns/user

# 테스트 결과 화면

# 참고로 docker v1.10 이상 부터는 별도의 user namespace 를 지원하지만

기본적으로 docker 로 컨테이너를 실행하면 root 로 프로세스를 실행한다.(user namespace 를 별도로 만들지 않고 호스트를 user namespace 를 사용한다.)

# 이 때문에 container root 계정이 악용될 수 있음을 인지해야 한다.

# docker remap 설정으로 uid 를 다르게할 수 있다. 아래 별도 포스트로 정리

https://yoonbh2714.blogspot.com/search?q=docker%20remap

#####

# uts(unix time sharing system) namespace

# 새로운 uts(-u, --uts) 네임스페이스으로 실행

unshare --uts /bin/sh

# 호스트명 변경하고 확인

hostname ysoftman

hostname

# 터미널을 하나 더 띄워 호스트를 확인해 보면 영향을 주지 않는것을 알 수 있다.

# 테스트 화면

#####

# ipc(interprocess communication) namespace

# shared memory, queue, semaphore 등의 리소스에서 사용되며 같은 ipc 네임스페이스안 프로세스들은 ipc 통신할 수 있다.

# ipc (shared memory, pipe) 상태 정보 보기

# -m Write information about active shared memory segments.

ipcs -m

# ipc shared memeory 리소스 1000byte 생성

# -m Create a shared memory segment of size bytes.

ipcmk -M 1000

# 1000 byte shared memory segemnt 가 생성된것을 확인할 수 있다.

ipcs -m

# 새로운 ipc(-i, --ipc) 네임스페이스 생성

unshare --ipc /bin/sh

# 새로운 ipc 네임스페이스에서는 호스트에서 만든 1000bytes 리소스가 보이지 않는다.

ipcs -m

# 호스트로 나오기

exit

# ipc 리소스 삭제

# -M Remove the shared memory segment created with shmkey after the last detach is performed.

ipcrm -M {shared memory segment key}

# 삭제된 리소스 확인

ipcs -m

# 위 과정을 테스트한 결과

golang chi 사용시 높은 CPU 사용율

# golang chi 웹프레임워크 기반 웹서버 성능 테스트를 했다.

# 참고로 jplot 까지 보려면 iterm2(tmux 사용하지 않고)에서 실행해야 한다.

echo 'GET https://localhost/version' | \

vegeta attack -rate=2000/1s -workers=100 -duration 60s --insecure | vegeta encode | \

jaggr @count=rps \

hist\[100,200,300,400,500\]:code \

p25,p50,p95:latency \

sum:bytes_in \

sum:bytes_out | \

jplot rps+code.hist.100+code.hist.200+code.hist.300+code.hist.400+code.hist.500 \

latency.p95+latency.p50+latency.p25 \

bytes_in.sum+bytes_out.sum

# 아주 간단한 정보 요청에 대해 너무 많은 CPU 가 사용되고 있었다.

# 특이한 점은 content-type: application/json 헤더를 설정한 api에서 발생한다.

# 스트레스 테스트 돌리는 중에 30초동안 프로파일링 덤프 받고

curl -k 'https://localhost/debug/pprof/profile?seconds=30' -o z.out

# 로컬 브라우저로 띄워 보기

go tool pprof -http=:9999 z.out

# view -> top 을 보면 compress 부분이 보인다.

# 코드에 보니 다음과 같이 chi middleware compress 를 사용한다.

import "github.com/go-chi/chi/middleware"

... 생략 ...

r := chi.NewRouter()

r.Use(middleware.DefaultCompress)

# middleware.DefaultCompress 를 활성화하면 json 과 같은 몇몇 디폴트 content-type 에 대해 압축을 시도하게 되고 이때 많은 CPU 를 사용한다.

# 참고https://github.com/sclu1034/chi/blob/b19304df2d136041607607e9666e43723746dbb2/middleware/compress.go#L24-L42

w.Header().Set("Content-Type", application/json; charset=UTF-8)

# middleware.DefaultCompress 제거후 cpu 사용률이 1/4 이상 줄었다.

k8s pod goroutine

# k8s 환경에서 golang 서버를 pod 로 만들어 stress test(부하 테스트)를 했다.

# 부하 테스트 툴은 vegeta 를 사용

https://github.com/tsenart/vegeta

# 1개의 pod 를 운영하고 1000/1s 로 부하를 주면

echo "GET http://ysofman.test.com:9999/test" | vegeta attack -duration=10s -rate=1000/1s -timeout=500ms | tee results.bin | vegeta report

# 다음과 같이 17% 성공한다.

# 1000*0.17 = 170tps

Requests [total, rate] 10000, 1000.05

Duration [total, attack, wait] 10.151548026s, 9.999496s, 152.052026ms

Latencies [mean, 50, 95, 99, max] 51.131863ms, 0s, 379.564354ms, 480.801383ms, 561.313466ms

Bytes In [total, mean] 20482436, 2048.24

Bytes Out [total, mean] 0, 0.00

Success [ratio] 17.42%

Status Codes [code:count] 0:8258 200:1742

# 부하 테스트 중 해당 pod pprof 를 refresh 하면서 확인해 보면

# goroutine 수가 최대 50개 정도로 부하에 비해 많이 늘어 나지 않는다.

http://ysofman.test.com:9999/debug/pprof

# 그냥 로컬 환경으로 서버를 띄워 부하 테스트 하면 100%성공으로 1000tps 가 나온다.

# pprof 를 확인하면 goroutine 이 200 개 이상으로 늘어났다 줄어든다.

# 원인은 k9s deployment 설정에서 container resource 부분에

# pod가 있는 실제 node 의 리소스가 충분하면 pod 의 컨테이너가 사용할 수 있는

# cpu 리소스가 100m 0.1core 이상 사용할 수 있도록 허용하고 (requests)

# 최대 cpu 리소스가 250m 0.25core 까지만 사용하도록 제한돼 있었다.(limits)

# 참고로

# requests 를 사용할 수 있는 node 에 스케줄링 된다.

# limits 를 넘어가면 OOM(Out Of Memory)에러와 함께 종료시킨다.

# https://kubernetes.io/docs/concepts/configuration/manage-resources-containers

# m은 milli 단위로 1000m = 1 = 1core 를 사용할 수 있다.

resources:

limits:

cpu: 250m

requests:

cpu: 100m

# goroutine 을 core 개수만큼 goroutine 을 동시에서 처리할 수 있는데

# runtime.NumCPU() 가 8 이고,

# runtime.GOMAXPROCS(8) 로 8개 코어(프로세서)를 사용할 수 있도록 설정해도

# k8s 차원에서 pod core 를 1/4core 로 제한해서

# 부하처리를 위한 goroutine 들이 pending 되어 대다수 응답이 타임아웃된다.

# cpu limits 를 8 로 늘리면 1000tps (100%성공률) 성능이 나온다.