Opt Technologies Magazine

オプトテクノロジーズ 公式Webマガジン

社内SRE本輪読会を完走しました

f:id:opttechnologies2015:20190708135449p:plain

社内で毎週開催していた書籍『SRE サイトリライアビリティエンジニアリング』の輪読会が、無事完走しました。 今回の記事ではその取り組みと振り返りをご紹介します!

あいさつ

はじめまして。こんにちは。ADPLAN で SRE をしている @tokkiyaa と申します。 SRE チーム立ち上げと同時に開始した『SRE サイトリライアビリティエンジニアリング』の輪読会が、約一年かけてようやく完走しました。 今回の記事ではその取り組みと、完走した所感をご紹介します。

SRE とは

ざっくり表現すると、ソフトウェアエンジニアのスキル・考え方を用いて上手に運用を行う手法です。 従来の運用(+インフラ)に対して、対象とする領域(What)はそのままに、考え方・アプローチ(How)を変えると、SRE になるイメージです。

ADPLAN の SRE チームについて

ADPLAN の SRE チームでは、以下のような領域を守備範囲としています。ソフトウェアエンジニアの価値観とスキルをベースに、最適解を追求しています!

  • アプリケーション変更/インフラ変更などの運用業務
  • SLO の策定・モニタリング
  • 緊急対応
  • システムアーキテクチャの設計/管理
  • インフラコストの最適化

※ なぜ SRE チームを立ち上げたかについてはこちらの記事をご参照ください!

『SRE サイトリライアビリティエンジニアリング』 のご紹介

通称 SRE 本 です。(この記事でもこれ以降 SRE 本と表記します) SRE 本ではオペレーションや分散システムにまつわる様々な問題を解決するための考え方や、プラクティスが紹介されています。 たくさんのアイデア・ヒントが詰め込まれた本であり、個人的には SRE と呼ばれる人のみならず、システムの運用に携わっているすべての人が読むべき本だと思います。

ページ数が多く持ち運びには向かないので、オライリー・ジャパンからpdfを購入するのがオススメです。

英語版は無料で読めます。

輪読会を開催した理由

ADPLAN で SRE チームが立ち上がった直後、リーダー以外のメンバーは、SRE についてほとんど何も知らない状態でした。 SRE 本 を読んだことはなく、今まで(インフラチーム時代)と何をどう変えるべきかわからない状態でした。 ということでまずは「 SRE チームのメンバー全員が SRE 本 の内容をしっかり吸収しないといけない」という意識がありました。それを確実に達成するため、輪読会という形式で学んでいくことにしました。

進め方

事前に担当者を決めておき、資料を用意してくる形式で進めました。 具体的な進め方は以下の通りです。

日時
  • 毎週火曜日 18 時~
  • 人数が 3 人以上集まらないときはスキップ
進め方
  • その日取り扱う章についてあらかじめ担当者を決めておく
  • 担当者は担当する章を読み込み、事前にスライドを作成しておく(他の参加者はその章を読んで来なくても良い)
  • 当日は担当者が作ったスライドを発表、それを元に議論
各回の流れ
  • 章内の節ごとに発表・議論(発表 20 分・議論 20 分程度)
  • 章全体についての感想などを話したり(5 分程度)
  • 次回の予定・担当者を決める(5 分程度)

ふりかえり

上記の進め方で、全 32 章の輪読を行いました。 休暇やメンバー不足で 4 回に 1 回程度はスキップしていましたが、約 1 年かけて、無事完走できました。 ふりかえりは以下の通りです。

輪読会が ADPLAN の SRE チームにもたらした効果

良いプラクティスをたくさん導入できた

SRE 本で紹介されていたプラクティスが実際のプロダクト運営に導入され、運用の安定感、納得感が増しました。 導入された代表的なプラクティスは以下の通りです。

  • SLO を用いた信頼性のコントロール
  • 時間の管理(エンジニアリング 50%ルールなど)
  • ポストモーテム

どのようなプラクティスが良かったかについては、こちらの記事 をご参照ください!

「SRE の始め方」について、ある程度レールに乗れた

SRE チームを始める際、 28 章: SRE の成長を加速する方法:新人からオンコール担当、そしてその先へ が参考になりました。特に、SRE の教育方法に関するアンチパターンは、SRE チームを始めるなら必読だと思います。インフラ・運用の経験がゼロだった私が、突然 SRE をやることになって、それから順調にオンコールシフトに入れたのは、この章を読んでいたおかげだと思っています。

コミュニケーションが楽になった

SRE 本に書いてあった内容のほとんどについて「SRE 本に書いてあったアレ」という感じで済ますことができるようになったため、認識合わせがやりやすくなりました。

うまく行った点

とりあえず完走できた

大事です。完走するのと完走できずに自然消滅するのでは、わかった感・達成感・満足感が違います。

一人で読むよりも理解を深められた

一人で精読するのと同程度の時間で、より良質な理解を得ることができました。 節ごとに議論していたので、気になったことについてすぐに議論できたのも良かったと思います。(担当者側の時は時間配分に苦労しましたが)

SRE の考え方を、組織内に少しだけ広げることができた

日頃運用とは関係のない業務をしているエンジニアが参加してくれた回もありました。 将来的に組織を横断した SRE 組織を作っていく上での下地を少しだけ育てることができたと思います。

もう少しうまくやれたかもしれない点

もっと SRE を広められたかも...

もう少し参加者を増やすための努力をしても良かった気もします。 特定の章について、その章で扱っているテーマに対して詳しい人・温度感が高い人を個別にお誘いしていけば、もう少し参加者を増やすことができたかもしれません。

資料を用意するコストが高かった

担当者の資料作成が負担になっていた感はありました。資料作成に平均して 3,4 時間かけていました。 SRE 本は、章と章の間の依存関係があまり強くなく、「前章を完全に理解できないとこの章の内容は絶対に理解できない」ということはほとんどないため、「担当者を決めず、参加者全員でその場で読み進めながら議論する」形式にしても十分な理解度を得られたかもしれません。

「SRE 本 を持っていない人も参加しやすいようにしたい」という意図もあったのですが、これによって参加者が増えた感じはしませんし、その意図であれば会社のお金で 3,4 冊買っておくべきでした。

いくつかの章については、消化不良感があった

第 Ⅲ 部の 20 章・23 章・24 章については、担当者が頑張って準備した割に消化不良に終わってしまった感がありました。 難易度が高い割に、参加者全体として温度感が低いテーマを扱っている章については、輪読会の対象にしない選択肢もあったかもしれません。

議論の時間があまり取れなかった会があった

ページ数が多い章、扱っている内容がなかなか要約しにくい章の回はどうしても発表時間が長くなってしまい、議論の時間が圧迫されがちでした。 ページ数が多すぎる場合はある程度回を分けるようにしていましたが、もう少し余裕を持って回を分けても良かったかもしれません。

総括

振り返ると進め方にたくさん改善の余地がありましたが、かけた時間に見合うだけのリターンがあり、やって良かったと思います。

今後は、SRE 本のプロダクションミーティングなどを参考に SRE チームの外とのコミュニケーションを見直したり、SRE のプロダクト横断化をさらに進めたり、SRE チーム 外に SRE の各種概念を浸透させていく活動をしていきたいです。

輪読会で議論するのは非常に楽しいので、また近いうちに他の本の輪読もはじめたいですね。

最後に

株式会社オプトは、様々な領域のエンジニアを絶賛大募集中です。 SRE を実践してみたい方・社内で楽しく輪読会をしたい方、ぜひ応募をご検討ください!

オプトテクノロジーズの詳細はこちら

エントリーはこちら

※カジュアル面談ご希望の方は、補足欄に「カジュアル面談希望」とご記載ください。