システム安定稼働に必要なこと
SREエンジニアとして、システム安定稼働のために日々行っていることを列記します。
タスクベース
・サービスの正常性を担保するための監視設計・運用設計
・障害発生時に迅速に復旧するための、障害対応手順の作成と維持
・システム構成の可視化
・軽微な障害(alert)検知から復旧までの自動化
・24時間365日の監視・運用体制の維持
・運用業務の問題点の分析と、改善手法の検討・実装(自動化)
・定型業務の自動化(サーバ・アプリの起動、停止、再起動、データバックアップ、定時に実施する定型作業など)
・新人エンジニア育成、運用ノウハウの継承
作業ベース
・サーバの起動や停止
・定型化されたオペレーション(日次や月次のデータを入力など)
・システムの稼働状態の監視(トラブルや不具合、死活監視など)
・急激なアクセス増加などの、リソースやキャパシティ管理
・メモリやディスクなどの性能監視
・システムに関するインシデントへの対応
・操作に関する問い合わせへの対応
・データベースのチューニング
・バグや不具合の原因究明
・障害からの復旧作業
よいと思ってもらえたら、「スキ」をお願いします。
「スキ」は、継続の源泉です。
いいなと思ったら応援しよう!
いつもサポートありがとうございます。
あなたの100円がモチベーションアップの起爆剤です。
毎日更新頑張ります
Twitterはこちら
https://twitter.com/7010Rei