見出し画像

KNOWLEDGE WORK Dev Talk #10「SREとして挑戦するエンタープライズSaaSの信頼性」mado

ナレッジワークで働くエンジニアたちのパーソナリティに迫るインタビューシリーズ、「KNOWLEDGE WORK Dev Talk」。これまでのキャリアの歩みや価値観、現在取り組んでいるプロジェクトなどについて質問していくコーナーです。ナレッジワークのVPoE(VP of Engineering)である木村 秀夫(hidek)と一緒に、ナレッジワークのエンジニアのイネーブルメントの源泉に切り込んでいきます。

第10回目となる今回は、ナレッジワークのSREとして活躍する樋口 直人(mado) に話を聞きました。

※過去のインタビュー記事はマガジンからご覧ください。


樋口 直人(mado) / Platform & SRE Group  SRE

2011年、新潟大学工学部卒業。2015年、株式会社ユニバーサルエンターテインメント入社。2018年、株式会社ビズリーチ入社。2021年、スタンバイプロダクト開発で月間最優秀エンジニア賞を3度受賞。2022年、株式会社ナレッジワーク入社。Google Cloud Certified Professional全9冠取得。



エンジニアとしてエンタメの道へ。数々の職場で磨いてきたスキル

――まずは自己紹介をお願いします。

mado: 現在、ナレッジワークでSRE(Site Reliability Engineer)を担当しているmadoです。入社してから2年あまりが経ちました。前職ではビズリーチに在籍し、スクラム開発を通じてフロントエンド、バックエンド、インフラと幅広い領域を経験しました。

プライベートでは、ウルトラマラソンやスパルタンレースといったハードな競技に挑戦するのが趣味です。また、エンターテインメント系も大好きで、仕事も趣味も全力で取り組むことを大切にしています。よろしくお願いします。

――現在madoさんが所属しているチームや役割について教えていただけますか?

mado: ナレッジワークでは「Platform & SRE」グループに所属しており、3名体制で活動しています。このグループでは、SRE(Site Reliability Engineering)だけでなく、プラットフォームエンジニアリングも担当しています。専任のSREは2名おり、日々システムの信頼性向上に向けた取り組みを進めています。

ナレッジワークでは、エンタープライズ向けのサービスを提供していることから、お客様に安心してご利用いただけるよう、開発および運用の仕組みを整備し、安定したシステム運用を支えています。

――エンジニアを目指したきっかけや経緯について教えていただけますか?

mado: 学生時代、まだガラケーの時代だったのですが、エンターテインメント系のアプリケーションを利用していた際に、遊技データを管理し活用する機能に触れる機会がありました。遊技データを活用して称号がもらえたり、他のユーザーと全国ランキングで競えたりと当時としてはとても画期的でした。それがきっかけで、データ管理システムに対する興味が芽生え、技術の持つ可能性に強く惹かれるようになりました。この経験から、システムを「使う側」ではなく「作る側」として関わりたいと考えるようになり、エンジニアを目指すことを決意しました。

しかし、すぐにエンジニアとしての道に進むのは難しいと感じ、まずは情報工学の基礎をしっかりと学ぶために大学進学を選びました。新潟大学工学部でコンピューターサイエンスを専攻し、プログラミングの基礎を習得しました。大学卒業後はすぐにエンターテインメント系の会社に行くか迷ったのですが、まずは幅広くエンジニアとしての技術を身につけるために独立系の小さなSIerに入社し、本格的にエンジニアとしてのキャリアをスタートさせました。

――好きな技術やプログラミング言語は何でしたか?

mado: 中学生の頃からパソコンが大好きで、中学校のコンピューター室でずっとパソコンを触っていて、その時はBASICという行番号やGoto文を駆使する古い言語を使っていました。ゲームを作るのが好きで、テトリスやアクションゲームを作って友人に遊んでもらっていたりしました。大学ではC言語とJavaを学びました。

――新卒で入社したSIerではどんなことをされていたのですか?

mado: そこでは受託開発を行っていて、小規模なプロジェクトが多かったため、様々な経験ができました。要件定義から上流工程、下流工程まで一通り担当しました。一人でフロントエンドからバックエンド、インフラ運用、モバイル開発まで幅広く経験できました。プロジェクトによって使用技術もバラバラだったので、結果として多くのプログラミング言語に触れることができ、オンプレ・クラウドを問わないインフラ設計力も身につきました。

そこでエンジニアとして技術にかなり自信が持てるようになってきたので、やりたかったエンターテインメント関連の企業に転職してエンジニアとして働きました。その会社では組み込みエンジニアは優秀な方が多かったのですが、ウェブ関連の技術に強い人は少なかったので、僕はウェブ分野で存在感を発揮することができました。そしてついに念願が叶って、僕も愛用していたモバイルアプリの開発リーダーを任されたのですが、僕が就任した当初はユーザーにとって使い辛い点が多かったです。そこで、大幅にリニューアルしてユーザビリティを向上させることで、ダウンロード数やDAUやレビュー評価を大幅に伸ばすことができました。

――その後、ビズリーチに転職されて、本格的にウェブエンジニアリングの分野に進まれましたが、どのような動機だったのでしょうか?

mado: 最先端のモダンな開発に携わりたいという思いです。組み込みが技術の中心にある会社だったのでどうしても制約が多く、モダンなウェブ開発を推進することが困難な環境でした。なので、このままではウェブ系のエンジニアとして時代に取り残されてしまうのではないかという危機感を抱いていました。そこで、最新の開発スタイルを採用しているメガベンチャーで自分のスキルを磨きたいと考え、転職を決めました。

――ビズリーチではテックリードやスクラムマスターだったとお聞きしましたが、どのような業務に関わっていましたか?

mado: いくつかのプロダクトに携わる中で、特に長く関わったのが求人検索エンジンサービス「スタンバイ」の開発です。このプロダクトは、求人情報を直接掲載するメディアサービスとは異なり、世の中の求人情報を収集・整理して提供するアグリゲーションサービスです。国内に存在するすべての求人情報を集約することを目的としていて、検索エンジンがプロダクトの中核でした。

僕はその中でも、求人情報を収集し、検索エンジンに取り込むドメインの開発を主に担当しました。具体的には、求人情報をウェブ上からクローリングで自動取得し、検索しやすいように整形して検索エンジンにインデックスしていました。良い検索エンジンサービスの指標としてRelevancy(関連性)・Comprehensively(網羅性)・Freshness(鮮度)・Presentation(表現力)・Trustiness(信頼性)・Speed(速度)の6つの軸があるのですが、その中で​Comprehensively(網羅性)・Freshness(鮮度)・Trustiness(信頼性)の向上に僕は責任を負って開発していました。

スクラム導入で最大化される価値。成功の鍵はチームの文化

hidek: ビズリーチでスクラム開発をどのように進めていたのか具体的に教えてもらえますか?

mado: ビズリーチでは、厳密にはスクラムマスターの役割を担当していたわけではありませんが、丁度プロダクト開発にスクラム手法を導入するタイミングで入社したため、そのプロセスを通じてスクラムの考え方を多く学ぶことができました。

Certified Scrum Developerの研修を受けて認定資格を取ったり、複数の優秀なスクラムコーチを迎え入れて実際の開発の中で指導を受けたりする中で、スクラムの実践的な知識を深めることができました。

hidek: スクラムの導入がうまくいかないケースもよく耳にしますが、成功した要因は何だと思いますか?

mado: スクラムの導入で失敗したケースはよく聞きますが、僕がいたプロダクトで成功した理由は、チームメンバーのスタイルにあると考えています。特に、HRT(注)の精神を大事にするメンバーが多かったことが、スクラム導入の成功に大きく貢献したのではと思います。

(注)HRT:Humility(謙虚)、Respect(尊敬)、Trust(信頼)の頭文字を取ったもの。Googleが提唱するチーム開発のための人間関係の原則。

hidek: なるほど。カルチャーとして受け入れる土壌があったということですね。実際にスクラムに触れてみて、どの部分に共感を覚えましたか?

mado: スクラムは、価値を最大化することを目的としたフレームワークであり、他の手法にはない独自の特徴を備えています。スクラムの定義は非常にシンプルかつ最小限に抑えられており、その基本的なルールさえ守れば、事業やチームの特性に応じて柔軟にカスタマイズすることが可能です。この柔軟性を持ちながらも、高い効果を発揮できる点がスクラムの大きな魅力です。

また、一度スクラムを習得すれば、他のプロジェクトにもその知識を応用できるのも利点です。スクラムを理解している人同士であれば、共通の言語としてスムーズにコミュニケーションを取ることができ、チーム間の連携も円滑になります。

hidek: 標準化されたフレームワークを導入することによって余計なことを考えずに本質に集中できるのは重要ですよね。一方でトップダウンで進めると反発が生まれやすいので、導入が難しいとも感じます。ナレッジワークではナレッジワークらしいスクラムを進めていきたいと考えているので、madoさんにも協力していただきたいですね。

mado: いいですね!ぜひ推進していきたいです。

スタートアップは「人」。経営者の二人に感じた無限の可能性

――そしてナレッジワークに転職されたわけですが、会社を知ったきっかけや応募の動機について教えてください。

mado: ビズリーチでは、小さなプロダクトを自分の手で成長させていく過程がとても楽しかったのですが、会社の規模が大きくなるにつれて、自分の存在が全体に与える影響が薄れていくのを感じるようになりました。少し物足りなさを感じるようになり、自分の力で小さなプロダクトを大きく育てたいと思うようになり、思い切ってスタートアップの世界に飛び込んでみようと決意しました。

その思いから、約20社のスタートアップ企業の方とカジュアル面談した中で、最も魅力を感じたのがナレッジワークでした。プロダクトや組織のビジョンに強く共感し、最終的に入社を決意しました。

ーー面接はどのような感じで進みましたか?

mado: 最初のカジュアル面談では、CTOのmayahさん(川中真耶)とお話しする機会がありました。プロダクトの説明を受けたのですが、内容が少し難しくて正直あまり印象には残りませんでした。ただ、Google出身という華やかなキャリアを持つエンジニアと話すのは初めてで、そのときに感じた天才的な印象が強く記憶に残りました。

そこで、CEOのKJ(麻野耕司)についても調べてみたところ、「NEW SALES」や「THE TEAM」といった書籍を執筆されていることを知り読みました。さらに、彼が出演しているYouTube動画を視聴するうちに、組織を徹底的に分解し、緻密に設計している姿勢に強く惹かれました。

最終的に感じたのは、「やっぱりスタートアップは人だ」ということです。スタートアップは順風満帆に行くことはなく、何度も困難に直面することになり、そんな時に大切なのはトップ層の求心力や判断力だと思います。ビズリーチでも、CEOやCTOの圧倒的な存在感に魅力を感じていましたが、ナレッジワークでも同じように、KJとmayahさんという個性の異なる二人のリーダーと話す中で、計り知れない可能性を感じ、入社を決意しました。

――それまで多様な領域でエンジニアリングを経験されてきた中で、なぜナレッジワークではSREというキャリアを選んだのでしょうか?

mado: ビズリーチではスクラム開発の中で、フロントエンド、バックエンド、インフラと幅広い領域を経験しましたが、その中でも次第にインフラ領域に強い興味を持つようになりました。特に、システムの監視やパフォーマンス改善といった業務にやりがいを感じ、さらに専門性を高めたいと考えるようになったんです。

その結果、自分の次のキャリアとして最も適しているのはSRE(Site Reliability Engineering)だと確信しました。こうした思いから、ナレッジワークへの応募ではSREポジション一本に絞り、挑戦することを決めました。
―面接はスムーズに進みましたか?

mado: はい、スムーズに進みました。ビズリーチでテックリードとしての経験があったこともあり、自信を持って面接に臨むことができました。面接官とライブで行うコーディングや設計の試験はとても面白かったですね。他にもいくつかの企業から内定をいただいていましたが、迷うことなく第一志望だったナレッジワークへの入社を決めました。

信頼性向上の最大の課題。デプロイ頻度向上を目指す挑戦

――ナレッジワークでSREとして挑戦する中で、困難だったことはありますか?

mado: 一人目のSREとして入社したのですが、スタートアップは初めてだったのでまず何から手を着ければ良いのかが難しかったですね。まずは目の前の課題に取り組みながら、スタートアップとして未整備な部分を一つずつ改善していきました。最初にに取り組んだこととしては、当時はサービスが動作する環境が少なく、QAを行う環境がなかったため、まずは新たにQA用の環境を整備して信頼性向上を目指しました。

hidek: 現在、SREの人数も増えていますが、ナレッジワークのSREにおける課題は何だと考えていますか?

mado: 先日開催されたSRE Kaigi 2025でも発表しましたが(※資料参照)、現在直面している最大の課題はデプロイ頻度の低さです。現状では2週間に1回のデプロイとなっており、変更のリードタイムも約1ヶ月かかっています。このようなビッグバン型のデプロイでは変更が一度に大量に盛り込まれることになり、QAの負担が増大しバグが発生しやすくなるだけでなく、不具合発生時の原因特定が難しくなり復旧時間も長引く傾向にあります。

これらは結果的にプロダクトの品質低下を招く要因となっています。また、変更のリードタイムが長くなることでお客様の声を企画に反映するまでの期間も長くなり、機能開発のフィードバックループが遅くなることでビジネス競争力を弱める原因にもなります。こうした課題を解決するため、デプロイ頻度の向上に取り組み、より迅速で安定したリリースサイクルの実現を目指しています。

hidek: デプロイの頻度が2週間に1回では十分ではないということですか?

mado: そうですね、全く足りていないと感じています。Four Keys(注)という指標では、オンデマンドで1日に複数回デプロイできる状態が理想とされていますが、現状ではその基準からかなり遠い状態です。もちろんプロダクトの特性にもよりますが、まずはオンデマンドデプロイの実現を目標としています。

具体的には、デプロイ時に各プロダクトが独立して個別にデプロイできる環境を整えることを目指しています。また、プロダクト間で共通して使用されるミドルウェアに関しては、デイリーデプロイの実現を視野に入れています。

(注)Four Keys:DORA(DevOps Research and Assessment)が提唱するソフトウェア開発チームのパフォーマンスを測るための4つの指標。デプロイ頻度、変更リードタイム、変更障害率、 サービス復旧時間。継続的に計測することで、開発チームの速度や安定性を可視化し、生産性を向上させることができる。

hidek: その実現を阻んでいる主な要因は何でしょうか?

mado: プロダクトが初期の頃に作られた大規模なモノリスに依存している部分が多く、そのデプロイに引きずられる形になっています。そのため、モノリスを解体して自律分散型のアーキテクチャへの移行を進めています。

hidek: なるほど。現在モノリスの解体プロジェクトが進行中であるため、結果としてシステムの粒度が細かくなるので、現在デプロイの頻度を上げる取り組みをしているということですね。

mado: まさにその通りです。

BtoB SaaSの信頼性を支える。インシデント管理への取り組み

hidek: ナレッジワークではマルチプロダクト戦略を採用しており、新しいプロダクトを次々とリリースし、多くのお客様にご利用いただくことを目指しています。デプロイ頻度の向上は、この戦略を推進するうえで非常に重要な要素です。

一方で、僕たちはBtoB SaaSという業態上、エンタープライズのお客様も多く、高いプロダクト品質が求められます。そのため、品質を「機能品質」「セキュリティ」「リライアビリティ(信頼性)」の三つに分けて管理しており、特にリライアビリティの担保についてはSREにお願いしています。この観点から、madoさんが特に重視しているポイントがあれば教えてください。

mado: BtoB SaaSのビジネスでは解約率を低く抑えることが重要で、信頼性が下がると解約率の向上に繋がります。そのため、お客様と直接やり取りをするCS(カスタマーサービス)はインシデントの発生に敏感です。SREのプラクティスの一つにSLO(サービスレベル目標)の設定がありますが、お客様やCSが不満を感じる状況というのは、サービスレベルが適切に管理・維持されていない状態です。

そのため、まずはSLOを明確に定義し、それに基づいて日々の運用を徹底することが重要だと考えています。SLOをしっかり運用することで、社内外のステークホルダー全員が納得できる基準を共有できるようになります。また、万が一品質が低下した場合は、開発スケジュールを一時停止してでも品質改善を最優先する、といった柔軟なコントロールも必要です。リライアビリティを維持するためには、こうしたバランス感覚が欠かせないと考えています。

hidek: ありがとうございます。madoさんには前四半期には、インシデントのクローズを積極的に進めていただきました。潜在的なインシデントやバグ、品質の劣化に対処するのは非常に難しいことですが、顕在化した問題は確実にクローズするという方針のもと、バグ・インシデントクローズ率100%を目指しています。この取り組みにおいて、何か工夫された点があれば教えてください。

mado: 以前は単一のプロダクトだけを扱っていたため、インシデントが発生した際には僕がSREとして直接対応すれば問題ありませんでした。しかし、プロダクトの数が増えるにつれて、すべてのインシデントに一人で対応するのは難しくなりました。

そこで、ハンドブックやダッシュボードなどインシデント対応の仕組みを標準化し、各チームに展開しました。それによって、僕が直接対応しなくても、各プロダクトチームが自律的にインシデント対応を行える体制が整いました。この仕組みを浸透させるための啓蒙活動にも力を入れ、全チームが同じ基準でインシデント管理を実施できるようになりました。

hidek: 素晴らしい取り組みですね。インシデントクローズ、つまり再発防止まで含めたインシデント管理が可視化され、大きく進展したのはmadoさんの貢献が大きいと感じています。

mado: ありがとうございます。

hidek: それと、SREの観点で気になっているのですが、SLOやエラーバジェットの概念を導入した際に、大変だったことはありますか?

mado: 一番大変だったのは、エンジニア側にはSLOに対する知見があり、積極的に導入を推進したいという意識が強かった一方で、当時のプロダクトマネージャーやプロダクトオフィスにはSLOの重要性がなかなかうまく伝わらなかったことですね。そのメリットや必要性を理解してもらうために、説明や説得に時間を要しました。でも、こうしたギャップはどの企業でも共通する課題かもしれません。

hidek: なるほど。SLOの導入によって何か変化はありましたか?

mado: 例えばレイテンシーが悪化した際、単に「悪化しています」と報告するだけではアクションを取るべきなのかどうか判断が難しかったのですが、SLOを共通認識とすることで「このまま改善しないとSLOが毀損されます」や「開発リソースをここに割きます」など納得してもらいやすくなりました。

hidek: みんなが同じ目標を共有することで、コミュニケーションが円滑になったということですね。

mado: その通りです。

ハイスキル×HRT=最強のチーム

――ナレッジワークで働く中で、イネーブルメントを感じた経験はありますか?

mado: 同じグループで一緒に働くshogoさん(※インタビュー記事)とtapihさんが凄腕のエンジニアで、とても刺激を受け自身のイネーブルメントに繋がっていると感じます。2人ともプラットフォームエンジニアリングやSREに関して知識や技術が深く、人間性も素晴らしく尊敬できる方々です。我々のグループでは積極的にモブプロを行っているため、考え方をシェアする機会が多く、学びに繋がっています。

例えば、ナレッジワークはマルチプロダクト展開を効率的に行うためにプラットフォームを整備する開発戦略を取っているので、プラットフォームを作る側のエンジニアとして、「どうやったらプロダクト側の開発者が信頼性の高いプロダクトを効率的に開発できるか」という視点で設計・開発できるようになってきた実感があります。

――ナレッジワークにおけるmadoさんが好きなポイントは何ですか?

mado: 4P(注)の観点で言えば、やはりPhilosophy(目的・方針)ですね。ナレッジワークは、「労働は苦役なり」という従来の働き方から脱却し、「遊・学・働の融合」を目指してプロダクトを開発しており、そこに最も強い魅力を感じています。僕自身はこれまでのキャリアを通じて常に楽しく働くことを意識して実践してきましたが、世の中には必ずしもそうではない人がたくさんいると感じます。そうした人たちが楽しく働ける世界を実現するために、ミッションドリブンで仕事に取り組めるのが、ナレッジワークで働く最大の魅力です。

(注)4P:ナレッジワークが定義する、エンゲージメントを構成する4要素。Philosophy(目的・方針)、Profession(仕事・成長)、People(人材・風土)、Privilege(待遇・給与)。

また、セールスイネーブルメントプラットフォームという新しい市場を切り開いていく過程に関われることも、大きなやりがいです。未知の分野で挑戦を続けることは、エンジニアとして非常に刺激的です。

さらに、People(人材・風土)の面も大きな魅力です。ナレッジワークのメンバーは皆人柄が素晴らしく、高いスキルを持つエンジニアが揃っているだけでなく、HRT(謙虚さ、尊敬、信頼)の精神がしっかり根付いています。これはナレッジワークが大事にするAct for People、Be True、Craftmanshipの3つのスタイルに強く共感した人が集まっているおかげだと思います。どんなに優秀な人が集まっても、HRTが欠けているとチームとして大きな成果を出すのが難しいです。その点、ナレッジワークでは人間関係に悩むことが一切なく、価値を最大化することに集中して働ける環境が整っているのが大きな魅力です。

――そんなナレッジワークにこれからジョインしてもらう人にはどういったことを期待しますか?

mado: 僕は一緒に働いてて面白くてワクワクできる人が好きですね。また、これからナレッジワークでは新しいプロダクトが次々と増えていくことが予想されます。その中で、少人数でも高い信頼性を担保できるプラットフォームを一緒に作り上げていける方と働きたいと考えています。

SREとして信頼性と真摯に向き合いながら、プロダクトの根幹を支える基盤作りに積極的に関わってくれる方と一緒に、より良いサービスを提供していきたいですね。

―― ありがとうございました!

(取材・編集:三木鉄平 / 撮影場所: WeWork 神谷町 共用部)


【採用情報】 ナレッジワークでは、一緒に働くエンジニアを募集しています

採用ページ(求人一覧・エンジニア向け採用情報)

技術ブログ(Zenn / Note)

技術勉強会・採用イベント(Connpass)