見出し画像

サービス提供5周年で累計依頼数180万件超!急成長のミツモアが考えるSREとは

カメラマンや税理士といった様々な領域のプロが見つかる、見積もりプラットフォーム「ミツモア」。サービス提供を開始した2017年から丸5年を経て、累計依頼数は180万件を超えました。日々成長を続けるミツモアは現在、SRE(Site Realibity Engineering)部門の拡大を進めています。ヤフオク!の運用担当を経て、創業間もないミツモアに入社後、「ミツモア」の開発を支えてきたテックリードの白柳に、「ミツモア」のSREのこれまでとこれからについて聞きました。

白柳 広樹 Hiroki Shirayanagi プロダクト部 開発2チーム 
ヤフーにてヤフオク!の運用・基盤開発などを経て、フロントエンドのプラットフォーム刷新のPMとして主導。慶應義塾大学大学院 理工学研究科卒

これまでのミツモアのSRE

ーまず、白柳さんのご経歴を教えていただけますでしょうか?

前職はYahoo! JAPANでヤフオク!の運用担当をしており、多大なトラフィック数をどのようにさばくか、いかにダウンしないシステムを作るか、ということに注力していました。あとは新しいプラットフォームの導入も担当し、新システムへの移行を進めながら、いかに安心・安全性の高いシステムにできるか、ということをやっていました。ヤフオク!には合計5年半在籍しており、その後ミツモアにジョインし、現在で3年半ほど経ちました。

ミツモアに来てからはSRE含むインフラ面を見つつも、プロダクト開発をメインでやっています。主軸はプロダクト開発におきながら、スケールしていくミツモアに対応すべく日々SREの業務にも取り組んでいるようなカタチです。

ーそもそもSREとはどういう概念なのでしょうか?

SREは”Site Realibity Engineering”の略で、Googleが提唱し始めた概念です。エンジニアリングによって、サイト自体の安全性・信頼性を上げていくための取り組み全体を指します。なのでSREの指し示す範囲はかなり広いですね。サーバーなどのインフラ周りもそうですし、サービスをいかにダウンせずにユーザーに提供し続けられるか、どれくらいのスピードで反応速度を返せるか、といった点がSREのポイントになります。

エラーメッセージを見ながら、もしエラーが出過ぎているようであれば「根本的に実装がおかしいのでは?」と原因を見ていきます。サイト自体の処理速度なども見ており、幅広くサイトの改善に関わってくる領域です。

ーミツモアにおけるSREの考え方を教えてください

Googleが定義しているSREの考え方に関しての書籍(『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』)があり、その本に則ってSREの取り組みを行っています。ただ、ミツモアのサービスはGoogleとも異なるため、書籍の中でもミツモアにとって特に重要だと感じるポイントを定義し、重点的に対策しています。今特に取り組んでいるのは、サーバーの応答時間と表示速度の改善と、サービスのダウン時間の最小限化ですね。

またサービス監視もSREの範疇となるため、ローテーションを組んで対応しています。SREに直接関わるメンバーは3名なのですが、サービス監視のシフトにはプロダクト開発のエンジニアも入っています。

規模拡大とプロダクト成長に伴い専任となったミツモアSREチーム

ーミツモアSREチームの成り立ちについて教えていただけますか?

実は、ミツモア創業時からSREの専任チームを立ち上げたわけではなく、プロダクト開発を進めながら、インフラまわりの信頼性向上にも全員で取り組む、というような体制で進めてきました。先ほどもお話したように、サービス監視のオンコールシフトも含めて、フロント・バックエンド問わずに全エンジニアで取り組んできました。

SREの専任チームの話が出てきたのは、規模拡大後ですね。プロダクトが成長すると、どうしても初期と同じようなスピードでは開発が進められなくなります。サービス開発に携わる人が増えた時のアカウント管理はどうしよう、など様々なトピックで課題が出てくるようになりました。対応すべき課題も多く、努力目標のようになっていましたが、2022年の3月ごろからはOKRでの管理を開始しました。

ー過去で取り組んでいる課題があれば教えてください。

これまで以下のような課題解決を実施しました。

  • 障害に対しての素早く検知・対応できる仕組みの整備

  • サーバーがダウン状態の時間の短さ

  • アカウント権限の切り分け。乗っ取り対策の強化

  • 応答時間の改善。一部の反応速度の改善

中でも、特に強い課題感があるのは、障害発生時のフローの整備ですね。ミツモアの規模が拡大し、開発メンバーも増えてきたため「複数人で複数プロダクトに対応する」ための仕組み作りに注力しています。以前のミツモアであれば、エンジニア組織も少人数だったため、適切な連携ができていたのですが、現在はチームがかなり細分化されている状況です。そのため、アラートが出たとして、その機能に紐づくチームを特定し、障害に対応するまでにラグタイムが生まれてしまっている状況です。

これからのミツモアSRE

ー今後はどのようなことに取り組んでいく予定ですか?

今後は対応スピードを高めるべく、組織人数に合わせてスケールさせた仕組み作りをやっていく必要があります。組織の規模拡大に伴い、エンジニアの人数も増えてきました。チームも細分化され、複数チームができていますが、プロダクトやインフラがそれに追いついていません。今後は対応スピードを高めるべく、組織人数に合わせてスケールさせた仕組み作りをやっていく必要があります。現在プロダクト開発のチームと密接に連携し、取り組みを進めている最中です。

ーこれまではスピード重視の開発と信頼性を高める開発は両立できるものなのでしょうか?

「ミツモア」は、サービスの急立ち上げの時期を経て、PMF(プロダクトマーケットフィット)が上がってきたことで、さらにプロダクトにおける信頼性の担保が必要なフェーズになってきました。

こうした状況において、SREはプロダクト開発のスピードを緩めてしまうものではなく、むしろスピーディなプロダクト開発のために必要な要素です。例えば、開発プロセスにおいて、本番環境にビルドする際の所要時間を改善する。トータルで考えた時に、スムーズな開発をすすめるために必要なことです。無駄なく、効率よく開発できることは開発に関わる全てのエンジニアにとって必要な環境です。

求められるのは自ら課題を発見し改善に取り組む姿勢

ーミツモアSREチームとして、一緒に働きたい方の人物像はありますか?

プロダクトに向き合い、信頼性の高いサービスを作っていきたい人。現状まだ人的リソースが豊富ではないので、自ら最適な改善案を考えて、それを実行して行きたい人、といった人物像でしょうか。ミツモアはスケールしはじめており、サービスに合わせて柔軟に体制を検討できる余地があるため、ある程度裁量権を持ってSREに取り組みたい、という人と一緒に働ければうれしいです。

スキル面では、クラウドサービスを用いた中規模プロダクトのインフラ周りの整備をしてきた経験のある方がフィットしそうです。年数としては2-3年以上の経験値がある方をイメージしています。

ミツモアは、今までモノリシックにプロダクトを作っていましたが、組織拡大に伴い、機能ごとに分割していくようなプロダクトの作り直しを進めており、また、オンラインでの見積もり比較・受発注サービス「ミツモア」をメインとしつつ、さらに領域を広げるような新プロダクトも開発しているため、インフラの変更も必要になってきます。今後も新しい挑戦が必要になってくると思います。

ー今後のSREに関する構想があれば教えてください

「ミツモア」のプロダクト全体における話でもあるのですが、これまで拡大してきたサービス領域、リードジェネレーション領域、さらに、サービス成長・組織拡大に合わせてプロダクトの数が増えていっています。そのため、現在あるシステムを分割、さらに細かな管理体制に変更していくことで、プロダクト作りをしやすい環境を実現していきたいです。

(インタビュー・編集・ライティング:伊賀あゆみ)

======================================

ミツモアでは、現在事業拡大を進めており、エンジニア・デザイナー・PdMをはじめ多くの職種で積極採用中です。

Wantedlyにて募集しているので、カジュアルに面談に来てみませんか?

デザイングループも所属するプロダクト部の詳しいご紹介は「ミツモア エンジニア向け会社説明資料 / about meetsmore for engineers」を公開しております。





この記事が気に入ったらサポートをしてみませんか?