(動画)SREのはじめ方 NTTドコモ サービスデザイン部"RAFTEL"が実践するサービスレベルの計測と可視化

Video

 

※このセッション動画はCloud Operator Days Tokyo 2021でオンデマンド公開したものです。

資料はこちら

今、多くの企業でサービスの信頼性を担うSite Reliability Engineering(SRE)の組織やエンジニアロールが立ち上げられ始めています。しかし元々はインフラやその運用エンジニアとして活動していたチームが、どのように SRE を担うエンジニアへと変革を遂げて行けばいいでしょうか?そこでまずは SRE の基本を振り返りながら、SREのミッション、SLI/SLO/SLAの基本を解説します。

またセッションの後半では、NTT ドコモのサービスデザイン部 宮川様にご登壇をいただきます。NTT ドコモは動画、音楽、電子書籍や決済サービスなど50種類以上のデジタルサービスを7,800万人に提供しており、それらサービスの中核となる新たな統合 API 基盤の実運用を開始しています。その運用を担う SRE チームでは、月に数十億のトランザクションを捌くだけでなく今後さらに数十倍に拡大するシステムを見越しつつも、運用負荷を高めることなくサービスレベルを向上させる取り組みを行っています。サービスデザイン部がいかにして多数のサービスとトランザクションを効率的に捌くためのサービスレベル管理を実践しているのか、その実例をお話いただきます。