利用用途
世界1,500万ユーザー*が使う「家族アルバム みてね」のアプリケーションを可視化し、Kubernetes環境におけるトラブルシューティングの迅速化、マルチリージョン戦略の推進にNew Relicを活用
* 2022年8月現在
New Relicの選定理由と成果
- アプリケーション視点から遅延やエラーなどの問題を検知し、原因の特定と問題解決を迅速化
- New Relic Mobileで世界中のユーザーのサービス体験を計測・評価し、AWSマルチリージョン化を推進
- 継続的なプロダクトの品質向上に取り組むためのSLI/SLOの制定に着手
利用機能
- New Relic APM
- New Relic Mobile
- New Relic Browser
豊かなコミュニケーションを広げ、世界を幸せな驚きで包む。―― 株式会社MIXIが掲げるパーパスは、エモーションを大切にした良質なコミュニケーションサービスの提供を通じて、感情豊かで幸せな驚きに包まれた世界を生み出していく強い意思を示したものだ。SNS「mixi」やスマホゲーム「モンスターストライク」などで知られる同社は、デジタルエンターテインメントとスポーツ、ライフスタイルの領域でビジネスを拡大し、成長戦略を加速させている。Vantageスタジオ みてね事業部 SREグループ マネージャーの清水勲氏は次のように話す。
「MIXIは、友人や家族など親しい人と一緒に楽しめる『心もつなぐ』場と機会を創造し続けてきました。2022年に利用者数1,500万人を達成した『家族アルバム みてね』は、まさに『心もつなぐ』体験が世界中のユーザーから支持されたものと考えています。日本国内では、ママ・パパの47.1%*が利用する人気サービスに成長しました」
*2022年8月現在、国内出生数に占める割合
「家族アルバム みてね」(以下みてね)は、スマートフォンで撮影した写真や動画を無料・容量無制限でアップロードでき、夫婦間や家族間など、見せたい相手に限定して安心して共有・コミュニケーションできるサービスだ。日々の成長をリアルタイムに伝えたり、自動整理された写真や動画で思い出を振り返りながら家族で会話を楽しむことができる。ダイジェスト動画が定期的に配信される「1秒動画」も好評だ。
「2021年に『みてね』のサービス基盤を、Amazon EC2からマネージドKubernetesサービスであるAmazon EKSに完全移行させました。目的は、迅速なスケーリング、自己修復機能の活用、GitOpsによるデプロイの高速化、スポットインスタンスの採用によるコスト削減です。目覚ましいスピードで進化するKubernetesの恩恵をいち早く享受する狙いがありました」(清水氏)
「みてね」は、2021年からわずか1年半で利用者数を1.5倍にまで拡大させた。これに大きく寄与したのが海外ユーザーの急増だ。
「海外のお客様の利用体験をより良いものにするために、2022年春より『みてね』のサービス基盤のマルチリージョン化を進めています。新たに北米・東海岸のリージョンを採用し、主に米国と欧州のユーザーの動画再生や画像表示などの快適さを大幅に改善しました」(清水氏)
MIXIでは「みてね」サービス開始を見据えて2014年にNew Relicを導入し、APM(Application Performance Monitoring)を中心に活用してきた。さらに、Amazon EKSへの移行、マルチリージョン化においても大きな役割を果たしている。
Kubernetes環境への移行のメリットを最大化
清水氏が率いる「みてね」のSREチームでは、「世界中の家族が快適かつ安心に使えるサービスを提供する」「組織が自律的に問題解決できるようにプラットフォームを提供する」「事業の成長を阻害しないようにインフラコストを最適化する」というミッションを掲げている。
「SREチームは、世界1,500万ユーザーが使う『みてね』というサービスの信頼性に責任を持ち、ユーザビリティの向上、運用・開発の効率化、コスト最適化に日々取り組んでいます。EC2からEKSへの移行プロジェクトでも中心的な役割を果たしました。New Relic APMは、EKS環境への移行と運用において、アプリケーション視点での可視化と問題解決に大きな威力を発揮しています」(清水氏)
New Relicは業界を代表するオブザーバビリティプラットフォームであり、デジタルサービスにおけるあらゆる重要指標の「観測」を可能にする。アプリケーション、インフラ、ユーザー体験の観測を通して、障害やサービスレベルの低下、潜在的な問題・ボトルネックを可視化する機能は業界随一との評価を得ている。
「『みてね』の基本機能は、スマホで撮影した写真や動画の保存と共有です。EKSベースの新しいサービス基盤では、オブジェクトストレージであるS3にアップロードされた写真・動画に対して、利用者からのリクエストに応じてKubernetes上のPodとして展開されているアプリケーションが検索や配信など様々な処理を実行します。本環境では、負荷状況に応じたオートスケーリングやPodが異常終了したときの再スケジューリングなど、Kubernetesの機能を活用することで運用を効率化しています」(清水氏)
自己修復機能を利用できる一方で、Podが異常終了と再起動を繰り返すような問題が発生した場合には、いち早く原因を特定して不具合を解消しなければならない。だが、Kubernetes環境は動的かつ複雑で、監視しなければならない対象が多くログやメトリクスは膨大な量になる。SREグループの杉本浩平氏は次のように話す。
「アプリケーションの視点から、エラーやパフォーマンス悪化が発生していないか、ユーザー体験を損なうような影響が出ていないかを、New Relic APMで即座に把握できることが私たちにとって非常に重要です。APMではスタックトレースを詳細に見ることができ、ユーザー体験に影響するコードやコード間の依存関係の特定も容易です。スロークエリのような原因の特定が難しい問題の解決にも大きな威力を発揮します」
SREチームでは、Prometheus integrationを利用してNew RelicとPrometheusを統合している。
「Prometheusで収集したKubernetesの重要なメトリクスをNew Relicに集約し、閾値を超えた場合にPagerDutyやSlack経由でアラートを通知する仕組みを整えています。この信頼性の高い仕組みを利用しながら、アラート発報から、情報共有、問題解決までのフローを迅速化しています。Kubernetes環境であることを意識する必要はほとんどありません」(杉本氏)
「みてね」サービス基盤のマルチリージョン化
現在7言語に対応し、175の国と地域に展開する「みてね」は、海外での新規登録者数が国内を上回るまでに急伸している。海外ユーザーの更なる拡大は、「みてね」のビジネス成長を加速させる上で最重要のテーマのひとつだ。SREグループの本間匡晃氏は次のように話す。
「海外では、動画再生や画像一覧の表示が遅い、動作が重く感じられる、といった課題が報告されていました。こうした『遅さ』という体感が海外と日本でどれだけ差があるのか、クライアント側からメトリクスを収集できるNew Relic Mobileで計測したところ、主要なAPIの速度や画像ダウンロード/アップロードに、米国は日本のおよそ2倍、欧州は3倍の時間を要していることが明らかになりました」
EKS、Aurora、S3など、「みてね」の主要サービスはすべてAWSの東京リージョンから提供されてきた。問題は東京から海外ユーザーまでのネットワーク上の距離だ。海外ユーザーの利用体験をより良いものにするには、この距離を短縮できる「マルチリージョン化」が有効なことは明らかだった。
「コストと運用負荷を抑えながら、マルチリージョン化で最大の効果を発揮させるためにいかなる戦略で臨むか――ここでNew Relicが威力を発揮しました。私たちが注目したのはAPIの呼び出し頻度です。これをNew Relicで可視化し、マルチリージョン化するAPIの優先順位を設定していきました」(本間氏)
本間氏らは、アプリケーションサーバー(EKS)を東京-バージニア北部リージョンでマルチクラスター化。メインのデータベース(Aurora)を東京リージョンに置きながら、Aurora Global Databaseで北米へ低遅延でレプリケーションする仕組みを整えた。
「New Relic Mobileでユーザー体験を計測して効果を確認しながら、APIを段階的に北米で稼働させていきました。ネットワークの情報から緯度・経度を取得して、指定したエリアのAPIリクエストを北米リージョンで受け付けるよう工夫しています。サービスに影響するような大きなトラブルを起こすことなく移行できたのは、API単位のメトリクスではなく、New Relic APMを利用してマルチリージョン対応後も問題ないことを慎重に確認していた結果だと思います。すでに15本の主要なAPIのマルチリージョン化を完了しており、米国・欧州のユーザー体験の改善という目標は達成されつつあります」(本間氏)
東京-北米でのマルチリージョン化により監視や保守するべきサービスとしてEKSとAuroraの数が2倍になったものの、SREチームの負荷は大きく変わらないという。杉本氏は次のように話す。
「New Relicをはじめ、Grafana、Prometheus、Amazon CloudWatchなどを適材適所で組み合わせたオブザーバビリティ環境を整備しており、共通のオペレーションで効率的にマルチリージョンを管理しています。今後リージョンが増えたとしても、SREチームは現状の体制のままで十分対応できるでしょう」
清水氏は、「マルチリージョン化という戦略投資の効果を、New Relicにより数値で示すことができ、直感的に共有できることも大きいですね。経営層も海外のユーザー体験の改善効果を評価しており、それがエンジニアの評価にもつながっていると思います」と話す。
SLI/SLOを制定し継続的な品質向上に取り組む
「家族アルバム みてね」は、MIXIの取締役ファウンダー 上級執行役員である笠原健治氏の発案で始まった。「自分たちで、ベストな写真・動画の共有、整理、保存できるサービスを作りたい」「おじいちゃん・おばあちゃん世代も含めて、簡単に使えるものを作りたい」「美しいUI・UXで自分たち自身も誇りに思えるものを作りたい」という共通の思いを持つメンバーが、プロダクトとユーザー体験を日々磨き上げている。
「SREチームが担当するシステムの規模は拡大し、環境も複雑化しています。ユーザー体験を継続的に改善していくために、サービスレベル指標(SLI)とサービスレベル目標(SLO)の制定を進め、プロダクトチームとより緊密に連携できるようにしていきたいと考えています。ここにはNew RelicのService Level Management(SLM)を活用できます」と本間氏は話す。
より多くの世界中の家族に「こころのインフラ」として利用されることを願って、「みてね」の進化は続く。清水氏は次のように結んだ。
「Kubernetes環境への移行、マルチリージョン化の推進は、『みてね』の更なる成長を支えていくための戦略的なインフラ整備であり、これらを成功させることができて安堵しています。アプリケーションの視点を重視し、お客様のより良い体験を追求するために、New Relicで観測した様々なデータを活用できたことが大きな成功要因だと考えています。New Relicの初導入から10年目となり、適用範囲や利用目的は変わり続けていますが、New Relicが提供する価値はSREチームとプロダクトチームにとっては替え難く、不変のものです。これからも私たちのビジネス成長を支え続けてほしいと願っています」