利用用途
サービスの信頼性向上が急務となる中、プロダクト開発チームがSLI/SLOを導入し、適切に運用していくためのツールとして「New Relic」を活用
New Relicの導入目的と成果
- プロダクトチームが設定したSLOの計測結果をもとに、信頼性の維持・向上に向けたSREを実践するための環境を整備
- 4名体制の少人数のSRE専任チームが15のプロダクトチームによるSLO運用をサポート
- 各プロダクトチームへの「SREイネーブリング」により、開発スピードと信頼性のバランスを適切に保つ仕組みが浸透
- プロダクトの信頼性を能動的に高めるチーム意識が向上
- プロダクトが内包する問題をとらえ、障害へのプロアクティブな対応を実現
- 15のプロダクトチーム/約80名の開発エンジニアが毎週1回の頻度でSLOの達成レベルを確認し、SLOの見直しや問題解決に活用
- New Relic のCCUライセンスを活用し、エンジニア全員にオブザーバビリティとSLOを解放
利用製品
- New Relic APM
- New Relic Infrastructure
- New Relic Synthetics
- New Relic Alerts
- New Relic Dashboard
- New Relic Browser
SmartHRは、2015年に人事・労務担当部門のデジタル化にフォーカスしたSaaSプロダクト「SmartHR」をリリースして以来、急速な成長と発展を遂げてきた。近年では、「SmartHR労務管理」と「SmartHRタレントマネジメント」を主力としながら、プロダクトのカバー範囲を勤怠管理や給与計算、従業員ポータル、従業員データベース、ID管理、ユーザー認証(IdP)などへと拡大し、2025年にARR(年間経常収益)200億円を突破。さらに2030年には1,000億円企業への成長を目指している。
同社における事業の現状について、SmartHR 技術統括本部 テクノロジーマネジメント本部 本部長の菅原 正宜氏は「当社に関しては、労務管理やタレントマネジメントのSaaSプロバイダーというイメージが強いと思いますが、提供するプロダクトはすでに20種以上に及び、約200名の開発エンジニアを擁しています。それらのプロダクトや開発力を通じて、大小さまざまな規模のお客様企業の人的資本経営を包括的に支援していくことを目標にしています」と説明する。
株式会社SmartHR 技術統括本部 テクノロジーマネジメント本部 本部長 菅原 正宜氏
大規模障害を経験し、全プロダクトへのSRE活動とSLOの展開が急務に
菅原氏が率いるテクノロジーマネジメント本部は、2024年に創設された組織だ。同本部のミッションについて菅原氏は「我々の仕事は、プロダクト開発の生産性や品質、安全性の維持・向上に向けて、開発に使用する技術・環境の整備・標準化を行うことです。従来、プロダクト開発を担当する当社のチーム(以下、プロダクトチーム)は、各チームが使う環境を個別に整えてきました。我々が開発に関する土台を整備することで、社内のプロダクトチームが、プロダクトの開発やユーザー価値といった業務に安心して集中できる状態を目指しています」と説明する。
また、テクノロジーマネジメント本部内には、開発の生産性向上を専門とするチームやセキュリティの強化を担うチームなど、いくつかのチームがあり、チームのひとつにSRE専門の「SREユニット」がある。同ユニットを立ち上げた経緯について、ユニット長の佐藤 沢彦氏は「プロダクト開発における当社のスタイルは、どちらかといえば信頼性よりも開発スピードを重視する傾向が強かったといえます。ただ、プロダクトの拡充によって、お客様の数が増え、かつ、お客様の部門・部署、さらには規模が大きくなるにつれて、プロダクトの開発スピードを追求するだけでなく、信頼性、あるいはサービスレベルを高い水準で維持することの重要性が増しました。それがSREユニットの立ち上げにつながっています」
株式会社SmartHR 技術統括本部 テクノロジーマネジメント本部 SREユニット ユニット長 佐藤 沢彦氏
SREユニットを立ち上げてプロダクトの信頼性向上に着手した佐藤氏は、2024年9月に衝撃的な事態に直面する。それは同社のプロダクトで起きた大規模なシステム障害だ。これにより、SREユニットではプロダクトの信頼性を高める取り組みがより急務になった。当時を、佐藤氏はこう振り返る。
「当時は、プロダクトの機能の強化や拡充を急ピッチで進めていたときで、信頼性への配慮や投資が十分ではなく、それが大規模なシステム障害を引き起こした一因でした。そこに対する反省から、社内ではプロダクトの信頼性を向上させようという機運が大きく高まりました。ただ、SREユニットは2025年11月時点で4人という少人数の組織です。そのため、我々だけで20以上あるプロダクトのSREをすべて担うことには無理があり、工夫や仕組み化して活動する必要がありました」
佐藤氏のいう「工夫・仕組み化」とは「SLO(サービスレベル目標)」をすべてのプロダクトチームに導入することだ。
佐藤氏は「各プロダクトチームがSLOを導入し、SLOの達成レベルを定常的に計測・可視化することで、信頼性の状態を把握して必要な改善の施策を速やかに打てるようになります。SLOの導入を通じて、各プロダクトチームは自らSREプラクティスを実践し、開発のスピードと信頼性とのバランスを適切に保てるようになります。我々は、この取り組みをイネーブリングと呼んでいますが、これによってSREユニットが少人数であっても、多数のプロダクトの信頼性を担保することが可能になると考えました」と説明を加える。
SREユニットでは現在、イネーブリングをSRE専任チームの重要な目標と定め、実現に力を注いでいる。そして、イネーブリングの中心を成す取り組みを支えるツールとして活用されているのが「New Relic」だ。
柔軟な料金体系とサービスレベルの設定・運用のしやすさでNew Relicの活用を選択
New Relicは業界を代表するオブザーバビリティプラットフォームであり、国内では48%のトップシェアを獲得している。デジタルサービスにおけるあらゆる重要指標の「観測」を可能にし、アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化する。
佐藤氏は「SaaSアプリケーションである当社のプロダクトのSLOを設定し、目標の到達度を計測していくうえでは、APMなどを通じてデジタルサービスの重要指標を収集し、可視化できるオブザーバビリティ製品を使用するのが最も有効な方法です。つまり、New Relicは我々の目的に合致した製品だったということです」
もっとも、New Relicの採用には紆余曲折があったという。
この点に関して、SREユニットの樋口 貴志氏は「New Relicは2022年からAPMの機能を中心に使用していましたが、プロダクトチームでの活用はそれほど活発ではありませんでした。理由は、ユーザー数ベースの料金体系のもとでNew Relicを使用していたために、当社のように多数の開発エンジニアを抱える環境で使わせようとすると、コストが膨らんでしまうため『コストパフォーマンスに難のあるAPM製品』と見られていたからです。そのため、他社製品への切り替えも検討されていました」と明かす。
株式会社SmartHR 技術統括本部 テクノロジーマネジメント本部 SREユニット 樋口 貴志氏
それでも、SREユニットがNew Relicの活用に踏み切った大きな理由は、New Relicから「Compute Capacity Unit(CCU)ライセンス」への切り替えを提案されたためだ。
樋口氏は「CCUライセンスは、処理したアクション量に対して課金する料金体系です。これなら当社の全プロダクトチームにSLOを導入し、New Relicを使うユーザーが当社の開発エンジニア全員になったとしても、コストを柔軟に調整して費用対効果を適正化することができると判断しました」と振り返る。
加えて、SLOの設定・運用がしやすい点も、New Relicの活用に踏み切る一因になった。
樋口氏は「プロダクトチームへのSLOの導入に際しては、各チームに適したSLOを定義する必要がありました。SLOの定義(設定)を一からすべて行おうとすると相当の手間がかかりますが、New Relicの場合、『Terraform *1』を使ってSLO設定をモジュール化でき、それをひな形として各チームに提供して、それぞれのチームに設定を担ってもらうことができます。その点も我々にとって魅力的でした」(樋口氏)
*1 Terraform:HashiCorpが開発したオープンソースソフトウェアで、IaC(Infrastructure as Code)を実現するツール。New Relicでは、Terraformを使ってダッシュボードを作成し、管理を効率化・自動化できる。
さらに、菅原氏と佐藤氏はともにNew Relicのサポート品質の高さを評価する。
佐藤氏は「New Relicのサポート品質は高く、なかでもオンボーディングのサポートは非常に充実しています。実際、SREユニットがSLOをプロダクトチームに展開する際も、SLO、SLIをどう定義すればプロダクトの価値向上につながるかを提示しながら、我々の活動の基礎を築いてくれました」と振り返り、こうも述べる。
「New Relicの機能面での充実度やサポート品質の高さを併せて考えると、他の製品に切り替えないで本当に正解だったと思います」
15のプロダクトチームがSLOを導入し、週次で信頼性の適正化を図る
プロダクトチームへのSLOの導入は順調に進み、2025年11月時点で15チームがSLOを導入。各チーム合計で約80名の開発エンジニアがNew Relicを活用し、担当プロダクトの状況(SLOの達成度など)を定常的に確認している。
また、15のプロダクトチームでは、毎週1度の開発スプリントの振り返りにおいて、SLOの状況確認を行い、プロダクトの改善に生かしたり、SLOのしきい値に調整をかけたりしている。樋口氏によれば、振り返りの場には、SREユニットのメンバーも参加しているという。
同氏は「プロダクトチームでは、まだSLO導入初期の段階で我々(SREユニット)とともにSLOのダッシュボードを完成させていくフェーズにあります。また、チームごとにSLO やNew Relicに対する理解度にバラつきもあります。そこで、SLOの振り返りの場には、SREユニットのメンバーが参加し、SLOやその運用の適正化に向けたアドバイスや技術的な支援を提供しています」と説明する。
SLOに関してはSREユニットが定めたルールもある。
佐藤氏は「当社のお客様の企業規模は大小さまざまですが、大手企業では扱うデータ量が大きくなり、プロダクトにおけるAPIのレスポンスが悪くなりがちです。そこで、各プロダクトにおけるSLOのしきい値設定を、大量のデータを扱うことを前提にしたレベルに統一し、どのような規模のお客様でも満足して使っていただけるようにする方針を掲げています」と語る。
チームごとのSLO習熟度評価で信頼性の向上を推進
SREユニットでは、プロダクトの信頼性レベルを向上させる目的で、プロダクトチームごとの「SLO習熟度」を評価し、ランクづけする施策も展開している。
佐藤氏は「SLO習熟度は、プロダクトチームごとのSREの遂行レベルを意味していて、我々はそれを測るためのツールとして『SLO 星取表』を活用しています」とし、こう説明を続ける。
「SLO星取表は、SLOを適切に運用できているかどうかのチェックリストのようなものです。項目ごとに『できている』『できていない』のチェックをかけ、できている項目の数に応じて『ステップ1』『ステップ2』『ステップ3』の3段階で習熟度をランク分けします。ステップ1は最低限のSLO運用ができていることを表します」
佐藤氏によれば、2025年11月時点で15のプロダクトチーム中7チームがステップ1の項目を100%クリアできているという。
SLO星取表の内容
信頼性重視の意識が強まり、障害を未然に防ぐ文化が定着
New Relicを使ったSLOの展開は、プロダクトチームに明らかな効果をもたらしている。
効果のひとつとして、佐藤氏は「プロダクトチームが、自分たちの手がけるプロダクトの信頼性のレベルを一目でとらえられるようになったことで、サービス品質を自発的に高めようとする意識が強まったと見ています。以前は、お客様などからシステムトラブルの報告を受けてから、開発担当のエンジニアが対応に当たるのが通常でしたが、SLOを導入したチームでは、トラブルが起きる前に品質を改善しようとする文化が醸成されつつあります」と指摘する。
樋口氏によれば、信頼性への意識の高まりによってシステム上のトラブルを未然に防げたという事例も出始めているという。この効果に関して樋口氏は次のように説明する。
「例えば、ユーザー数やリクエストの増加によって、パフォーマンスが低下するプロダクトがありますが、New Relic のダッシュボードとSLOの計測を通じて、性能劣化の兆候をとらえて障害を未然に防げたという事例がすでにあります。また、New Relicのクエリ言語(NRQL)を活用し、プロダクトに対するリクエストの問題を洗い出してアーキテクチャの見直しにつなげたという事例もあります」
加えて、樋口氏はNew Relicを使ったSLOの展開は、SREユニットに対する社内的な評価の向上にもつながっていると指摘する。
「New Relicを使ったSLOの導入によって、システムにおける状態の変化に気づきやすくなり、信頼性の低下についてもより早く検知できるようになりました。これは、SREユニットによるイネーブリングの成果として社内からも一定の評価を受けています」
もうひとつ、佐藤氏は、SLO導入の効果として、データドリブンで信頼性問題への対処の方向性が決定されるようなった点を挙げ、次のような説明を加える。
「従来は、プロダクトの信頼性問題に対処する方向性が、プロダクトチームで大きな影響力を持つ人の肌感覚で決められることが多くありました。SLOの導入後は、プロダクトの問題点が定量的にとらえられるようなり、データというファクトに基づいて信頼性問題にどう対処するかが決定されるようになりました。この変化はかなりの進歩だと思います」
New RelicによるSLOの社内普及と実践を、さらなる売上拡大の土台に
SREユニットでは現在、SLOの対象を拡大する計画を進めている。
この計画について樋口氏は「我々が設定しているSLOは、Webでのレスポンス性能やエラーレートに閉じています。それをバックグラウンドジョブのレイテンシーなどへと押し広げ、性能問題をより包括的にとらえられるようにしたいと考えています。また、ユーザー目線でプロダクトの信頼性を把握することも重要ですので、New Relicの外形監視機能をより積極的に活用していく予定です。同機能の強化にも期待をかけています」とする。
一方、佐藤氏は「プロダクトチームにSLOを導入したのは、信頼性への投資に関して『いつ』『何に対して投資を行うか』の判断を、すべてのチームが下せるようすることが大きな目的でした。その実現には、当社のすべてのプロダクト開発にかかわる全員にSLOの計測結果を見せるようにすることが大切で、そのためのツールとして、これからもNew Relic を積極的に活用していきます。また、SLOの社内への浸透を推し進めるうえで、New Relic活用のコスト管理・調整が柔軟に行えるCCUライセンスは有効に機能してくれると見ています」と述べる。
さらに、菅原氏はNew Relicを使ったSLOの展開について、次のように今後を展望する。
「今回、SLOを導入したプロダクトチームは、自分たちのプロダクトのコアを把握し、何をどうすればお客様を満足させられるかが見えるようになりました。これは、プロダクト開発のレベルが一段アップしたことを意味します。今後も各プロダクトチームへSLOの導入を推し進めて、プロダクトに対するお客様の信頼感・満足度を引き上げ、1,000億円企業の実現に貢献したいと願っています」