data:image/s3,"s3://crabby-images/0628f/0628f8905ebc89cf5a0f81823904cc36b1981363" alt="見出し画像"
locustによる負荷試験とアラーム
今はautoscaleの事は考えない。メンテナンス用のEC2を1つ用意しておく、ってか用意してあるか既に。このEC2を使って負荷試験するといいんじゃないかな?
前提条件
ECSでロードバランサ(ALB)経由にてtaskが1つだけ動いている。先述の通り、オートスケールはしない。このタスクは
arm64
vcpu: 0.25
mem: 0.5
というほとんど最小構成みたいな感じで動いている。こいつの性能でどこまで行けるか確認してみよう。なお、ファイルはefsに置いてあり、またrdsにデーターを保存し、セッションもそこに入っている。rdsはdb.t4g.microとかだったとおも。
locust用のセキュリティーグループを作る
locustってのはport8089を使ってwebインタフェースを提供するので、これを開放する。
data:image/s3,"s3://crabby-images/6e585/6e585fbe69427886e1fd4bf4e96446149e857322" alt=""
で、このホストにsshする
$ sudo apt update
Get:1 file:/etc/apt/mirrors/debian.list Mirrorlist [38 B]
Get:4 file:/etc/apt/mirrors/debian-security.list Mirrorlist [47 B]
Hit:2 https://cdn-aws.deb.debian.org/debian bookworm InRelease
Get:3 https://cdn-aws.deb.debian.org/debian bookworm-updates InRelease [52.1 kB]
Get:5 https://cdn-aws.deb.debian.org/debian bookworm-backports InRelease [56.5 kB]
Get:6 https://cdn-aws.deb.debian.org/debian-security bookworm-security InRelease [48.0 kB]
Get:7 https://cdn-aws.deb.debian.org/debian bookworm-backports/main Sources.diff/Index [63.3 kB]
Get:8 https://cdn-aws.deb.debian.org/debian bookworm-backports/main arm64 Packages.diff/Index [63.3 kB]
Get:9 https://cdn-aws.deb.debian.org/debian bookworm-backports/main Translation-en.diff/Index [57.7 kB]
Get:13 https://cdn-aws.deb.debian.org/debian bookworm-backports/main Sources T-2024-02-06-1417.20-F-2024-02-05-0834.18.pdiff [8417 B]
Get:13 https://cdn-aws.deb.debian.org/debian bookworm-backports/main Sources T-2024-02-06-1417.20-F-2024-02-05-0834.18.pdiff [8417 B]
Get:14 https://cdn-aws.deb.debian.org/debian bookworm-backports/main arm64 Packages T-2024-02-06-1417.20-F-2024-02-05-1410.56.pdiff [25.5 kB]
Get:15 https://cdn-aws.deb.debian.org/debian bookworm-backports/main Translation-en T-2024-02-06-1417.20-F-2024-02-06-1417.20.pdiff [4429 B]
Get:14 https://cdn-aws.deb.debian.org/debian bookworm-backports/main arm64 Packages T-2024-02-06-1417.20-F-2024-02-05-1410.56.pdiff [25.5 kB]
Get:15 https://cdn-aws.deb.debian.org/debian bookworm-backports/main Translation-en T-2024-02-06-1417.20-F-2024-02-06-1417.20.pdiff [4429 B]
Get:10 https://cdn-aws.deb.debian.org/debian-security bookworm-security/main Sources [79.4 kB]
Get:11 https://cdn-aws.deb.debian.org/debian-security bookworm-security/main arm64 Packages [134 kB]
Get:12 https://cdn-aws.deb.debian.org/debian-security bookworm-security/main Translation-en [81.4 kB]
Fetched 674 kB in 2s (388 kB/s)
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
All packages are up to date.
bookwormなdebianでした。
locustを入れる
このバージョンのdebianにはパッケージとして付いてきてるのでそれを使うのがいいだろう。そうでなければpipとか使うのかな?よくわかんえわ、pythonの作法は
$ sudo apt install python3-locust
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
fonts-font-awesome fonts-lato javascript-common libc-ares2 libev4 libjs-jquery libjs-sphinxdoc
libjs-underscore libnorm1 libpgm-5.3-0 libzmq5 python3-asgiref python3-brotli python3-click
python3-configargparse python3-dotenv python3-flask python3-flask-basicauth python3-flask-cors
python3-gevent python3-geventhttpclient python3-greenlet python3-itsdangerous python3-msgpack
python3-openssl python3-psutil python3-py python3-pyinotify python3-roundrobin
python3-simplejson python3-typing-extensions python3-werkzeug python3-zmq python3-zope.event
python3-zope.interface sphinx-rtd-theme-common
Suggested packages:
apache2 | lighttpd | httpd python-flask-doc python-gevent-doc python-greenlet-dev
python-greenlet-doc python-openssl-doc python3-openssl-dbg python-psutil-doc subversion
python3-pytest python-pyinotify-doc ipython3 python-werkzeug-doc python3-lxml python3-watchdog
The following NEW packages will be installed:
fonts-font-awesome fonts-lato javascript-common libc-ares2 libev4 libjs-jquery libjs-sphinxdoc
libjs-underscore libnorm1 libpgm-5.3-0 libzmq5 python3-asgiref python3-brotli python3-click
python3-configargparse python3-dotenv python3-flask python3-flask-basicauth python3-flask-cors
python3-gevent python3-geventhttpclient python3-greenlet python3-itsdangerous python3-locust
python3-msgpack python3-openssl python3-psutil python3-py python3-pyinotify python3-roundrobin
python3-simplejson python3-typing-extensions python3-werkzeug python3-zmq python3-zope.event
python3-zope.interface sphinx-rtd-theme-common
0 upgraded, 37 newly installed, 0 to remove and 0 not upgraded.
Need to get 8940 kB of archives.
After this operation, 33.3 MB of additional disk space will be used.
Do you want to continue? [Y/n]
って感じなので入れる
クリーンナップスクリプトを作る
DBだのファイルだのをバリバリとアップロードしていくので汚れちゃうでしょう。
sudo mount -t nfs4 fs-0d43cd7e72cc13d9b.efs.ap-northeast-1.amazonaws.com:/ /mnt
sudo rm -rf /mnt/data/*
sudo umount /mnt
echo "drop table uploaded_files" | mysql -uadmin -ppassword -huploader-demo.cmxstlofflyf.ap-northeast-1.rds.amazonaws.com uploader_demo
echo "drop table session_data" | mysql -uadmin -ppassword -huploader-demo.cmxstlofflyf.ap-northeast-1.rds.amazonaws.com uploader_demo
mysql -uadmin -ppassword -huploader-demo.cmxstlofflyf.ap-northeast-1.rds.amazonaws.com uploader_demo < /home/admin/old-style-php5-uploader/init/schema.sql
mysql -uadmin -ppassword -huploader-demo.cmxstlofflyf.ap-northeast-1.rds.amazonaws.com uploader_demo < /home/admin/session_data.sql
なんかやんちゃすぎる気もするけど、とにかく初期状態に戻せれば何でもいい。
テストを実行していく
locustfile.pyの記述
これは完全なpythonプログラムである
from locust import HttpUser, task
class WebsiteUser(HttpUser):
@task
def index(self):
self.client.get("/")
これは対象プログラムの / にアタック(負荷)をかけまくるという事になるな。
ただ、今回
index.phpを /GET
index.php?action=save にfileをアップロード
の2点をチェックしたい。とくにPOSTが重要なので、それも含めたシナリオを記載する
locustfile.py
from locust import HttpUser, task, between
class FileUploadUser(HttpUser):
wait_time = between(1, 5) # ユーザーのアクション間の待機時間を1〜5秒の間でランダムに設定
@task
def upload_flow(self):
# ステップ1: index.phpのフォームをGETリクエストで取得
self.client.get("/index.php")
# ステップ2: ファイルをアップロードするPOSTリクエストを送信
files = {'file': ('test.jpg', open('test.jpg', 'rb'))}
self.client.post("/index.php?action=save", files=files)
# ステップ3: リダイレクト後のページをGETリクエストで取得(必要に応じて)
# self.client.get("/path/to/redirect/page")
準備が整ったので起動しよう
$ locust -f locustfile.py
8089ポートにアクセスするとこのような感じになる。とりあえず上も下も1 1にし、hostを対象のhostにセットして実行してみよう
data:image/s3,"s3://crabby-images/21bb0/21bb0d2aa9d49cc32baf4e928a47ed082b42213e" alt=""
data:image/s3,"s3://crabby-images/5160e/5160e6b96e633b7a6f6b66dcd61b6de5b179f771" alt=""
data:image/s3,"s3://crabby-images/3007e/3007e3da79c1b09c097c5dc27151ef82f910eeac" alt=""
このようにガンガンファイルがアップロードされ続ける。適当なところでstopした
data:image/s3,"s3://crabby-images/d1331/d1331dc0e5818338bc980c9a63530ec20a3c0c15" alt=""
このように44ファイルアップロードされたのが結果として理解できる。ではその課程を読み解いていこう
data:image/s3,"s3://crabby-images/24d08/24d086122291050c0518fc74614ac4dd76020cd1" alt=""
最上段
なんかスクショが切れちゃったけどRPS0.6% FAILURES 0%と書いてある。
RPSとはRequests per secondsであるが、まあここでは失敗したリクエストが無い点に注意する。
data:image/s3,"s3://crabby-images/9bd2a/9bd2a67b26bd0d24c9ff37cc9aa869688eb1444f" alt=""
とくにリアルタイムで見ていくと最初の方は90%タイルも99%タイルも同じ秒数なんだが(そら当然ともいえるが)、段々パフォーマンスの劣化が出てくると99%タイルから落ちはじめていく。ただし変なところで詰まると99%タイルだけやたら秒数がかかるようになる事もあるから、いろいろベンチを取って経験値を積んでいくしかないだろう。
cloudwatchアラームを設定してみる
data:image/s3,"s3://crabby-images/3faee/3faee53ec1aad355fd64e10353c3ed42ae9232a8" alt=""
data:image/s3,"s3://crabby-images/57dcf/57dcf2b94d1bc43ab8f32bb9e2a945bc23e12712" alt=""
data:image/s3,"s3://crabby-images/0dd33/0dd3317a9fbeabfeae934a6b8eea244e338a496e" alt=""
data:image/s3,"s3://crabby-images/ba7e4/ba7e4badb0f175e093aabe7069d3098981444b2d" alt=""
こんな感じでテストした形跡がある
data:image/s3,"s3://crabby-images/a01fd/a01fde6466e11dcbd4a699780d3308b70eff24d1" alt=""
期間を5分にするとさすがに反応が遅いため1分にする。ただ30秒とかにすると金がかかるぞーって警告してくる
data:image/s3,"s3://crabby-images/c4233/c42339243cc5205446e2f1bc9a45fd7b9163a60f" alt=""
data:image/s3,"s3://crabby-images/09b64/09b64d1d40e35a1e4487daec15ee047409debe48" alt=""
data:image/s3,"s3://crabby-images/ac64f/ac64fd45210ba9b97f4aba06732aba7d8e744f98" alt=""
ここでは20%を閾値にしている。まあ、より大きいでも以上でも、ここはそんな変わらないだろう。異常検出はAIみたいなもんらしい、使ったことないがコストがかかるぞい。
data:image/s3,"s3://crabby-images/8f96d/8f96dd6859f93d54cb0b15e37c2c209dc2ef4536" alt=""
最後にいろいろアクションを設定できる。とりあえず何もしない。
data:image/s3,"s3://crabby-images/7035b/7035b245cffe14fda0c342cacd3a29d0428f50af" alt=""
さて、これでまた負荷テストと行ってみよう
負荷テストと監視
data:image/s3,"s3://crabby-images/d4b93/d4b93aa3ff9a01d03d59f652aaea567d37ae2d7b" alt=""
今回は通知を入れていないのでアラームをぼんやり見ておく
data:image/s3,"s3://crabby-images/1d36a/1d36a2acba59916988684625f44a37dbc8aee51c" alt=""
うん、これねえ、2回試行しても越えませんでしたw
じゃあ3にするかと
data:image/s3,"s3://crabby-images/2f1be/2f1bebf0c93364240a18bdee3c5b52ce324556d2" alt=""
data:image/s3,"s3://crabby-images/c3eab/c3eab97483ba795027d029e0578c9593046a15f9" alt=""
3ユーザーでついにアラームに到達し、警告が出ておりますね。とはいえ20%つのはまだ余裕がありそうでなさそうでみたいな感じですが。もうちょい回してみます
data:image/s3,"s3://crabby-images/1dc8c/1dc8cb9510a0469541b5c9916b998d9521a9a02e" alt=""
どうやら30%ちょいくらいのところで耐えはじめたみたいですね。ここで負荷試験を終える
data:image/s3,"s3://crabby-images/3e580/3e58096904037f6c58a930931fd44e0fcc83a8ba" alt=""
data:image/s3,"s3://crabby-images/2da42/2da426a42b7c1d52c210bb9bb4c3d1fc51c24b2d" alt=""
でまあstatsなんですが
data:image/s3,"s3://crabby-images/b3af5/b3af5fec5f638d41b0207b352d336d4d7ac936ae" alt=""
この変がいずれも1秒以内で処理できてるので「まあ何とかなってるよ」と判断できそうだ。試験を止めると
data:image/s3,"s3://crabby-images/89713/89713ddcfb0e90a4ad332c7c4defba3e3f2d86fc" alt=""
ちゃんとアラームが正常になる。
本当にダメな場合を見てみよう
たとえば20ユーザーとかが来ちゃった場合
data:image/s3,"s3://crabby-images/e35d3/e35d3342752821c0bf1c119609924214adff38f5" alt=""
data:image/s3,"s3://crabby-images/c1b93/c1b93ea86083572784b816b918334ad66ac4601e" alt=""
data:image/s3,"s3://crabby-images/2c87a/2c87a2832542c38580c0ec7b0b0653ee497c4a7f" alt=""
この辺でスパイクしているのがわかる。3〜4秒応答にかかるようになった。まあしかしおせえんだけどギリ何とかなるっちゃなんとかなるのかもだが、まあ遅いとは思いますな。こういう時はタスクの数をいくつか増やして対応する。大体、1タスクで5ユーザーくらい何とかなってた雰囲気があるから4タスク起動してみよう。
data:image/s3,"s3://crabby-images/84b5f/84b5f04086e90f638300fcd02716aa161a0a0f77" alt=""
data:image/s3,"s3://crabby-images/2cf27/2cf27b315646513122a30b5d57f38c6db4e4701a" alt=""
じゃまあ、やってみましょう。
4タスクで捌く
data:image/s3,"s3://crabby-images/d3787/d37879df74dd64e6fd52daec81291a9be6b30e3c" alt=""
まあアラーミーなんだけど、50%くらいで耐えているようだ。
data:image/s3,"s3://crabby-images/9c058/9c05854fda3f14752ffe9b3baf1f6bae27bf7e82" alt=""
data:image/s3,"s3://crabby-images/c24b8/c24b8bbe43532689a7f467e6e92398ec2934ab8e" alt=""
run#4とrun#5の違いはrun#4は1タスク、#5は4タスクでの分散ですから、これはもう一目瞭然っすね