誇大広告を解読する：GPT-4oは本当にエンタープライズAIソリューションに適しているのか？

AI を取り巻く環境は絶えず進化しており、アップデートのたびに効率性の向上、パフォーマンスの改善、コストの削減が期待されています。OpenAI の最新製品である GPT-4o は、特に複合 AI システムを活用する企業にとって、変革をもたらす飛躍的進歩と位置付けられています。GPT-4o は、レスポンスタイムの短縮、運用コストの削減、自然言語処理や多言語サポートなどの分野での強化された機能を提供すると言われています。ただし、新しいモデルへの移行は、慎重な検討を必要とする複雑な決定です。

New Relic では現在、当社の生成 AI アシスタントである New Relic AI について、GPT-4 Turbo から GPT-4o への切り替えの可能性を評価しています。当社はこれまでに GPT-4 から GPT-4 Turbo への移行を経験しており、新しいテクノロジーを導入した結果が当初の期待とは異なることが多いことも理解しています。

このブログでは、GPT-4o への移行に関して、実務担当者の視点をお伝えします。予備テストと経験に基づいて、パフォーマンス評価、インテグレーションの課題、容量に関する検討事項、コスト効率など、このような移行によって生じる影響を検討します。私たちの目標は、潜在的なメリットと課題の両方に対応したバランスの取れた見解を提供し、他の企業が GPT-4o が自社のAIシステムにとって適切な選択であるかどうかについて、充分な情報に基づいた決定を下せるようにサポートすることです。

GPT-4o モデルを理解する

GPT-4o を効果的に評価するには、その主な機能と期待されるメリットを理解することが重要です。このセクションでは、GPT-4o が提供する機能について簡単に説明します。

分析機能

GPT-4o は、自然言語処理タスクを強化し、複雑なクエリの精度と理解が向上するように設計されています。多言語環境でのパフォーマンスが向上し、より関連性の高い応答が提供されると期待されています。

リソース効率

GPT-4o の主なセールスポイントの 1 つはリソース効率です。より少ない計算リソースで高いパフォーマンスを実現することで、運用コストの削減につながる可能性があります。これは、インフラストラクチャコストを大幅に増やすことなく AI 運用を拡大したいと考えている企業にとって特に重要です。

使いやすさとインテグレーション

GPT-4o は、既存のワークフローやツールとシームレスに統合できるとしています。この改良は、開発者がモデルをアプリケーションに組み込むのを容易にし、インテグレーションに必要な時間と労力を削減することを目的としています。ただし、パフォーマンス評価からも分かるように、実際の結果にはばらつきがある場合があります。

アクセシビリティと価格

GPT-4o の大きな強みはコスト効率です。価格はこれまでのモデルの約半分なので、運用コストの削減を目指す企業にとって魅力的な選択肢となります。この価格設定により、高度な AI 機能への参入障壁が大幅に下がり、より多くの企業が業務で GPT-4o のパワーを活用できるようになります。

誇大宣伝を評価する

GPT-4o が売り込んでいるメリットは魅力的ですが、実際のテストを通じてこれらを批判的に評価することが重要です。私たちが最初に GPT-4o を使用した結果はさまざまであったため、個別の側面についてさらに深く掘り下げる必要がありました。

GPT-4o を総合的に評価するために、パフォーマンスとインテグレーションのさまざまな側面に焦点を当て、以下のような実験を実施しました。

レイテンシとスループットのテスト： ピーク時とオフピーク時の応答速度と処理能力を測定しました。
出力の品質：さまざまなタスクにわたる応答の精度と関連性を評価しました。
ワークフローインテグレーション：GPT-4o が既存のツールやワークフローとどの程度うまく統合されるかを評価しました。
トークン効率：コストへの影響を把握するために、GPT-4 Turbo と GPT-4o のプロンプトあたりのトークン使用量を比較しました。
拡張性テスト：拡張性を評価するために、負荷を増加させながらパフォーマンスをモニターしました。
コスト分析：トークン使用量と運用効率に基づいてコストの影響を分析しました。

パフォーマンス評価

GPT-4o の評価では、Azure OpenAI を通じてアクセスした GPT-4 Turbo と GPT-4 Turbo PTU という他の 2 つのモデルとパフォーマンスを比較しました。New Relic では、主にプロビジョニングされたスループットユニット（PTU）オプションを介して GPT-4 Turbo を使用しています。これは、専用のリソースと従量課金モデルと比較して低いレイテンシを提供します。この比較は、さまざまな条件下において、GPT-4o がスループットと出力品質に関してどのような結果を出すかを明確に示すことを目的としています。

スループット分析

スループットは 1 秒あたりのトークン数で測定され、大量のデータを効率的に処理するモデルの能力を示します。また、スループットが高いほどレイテンシが低くなる傾向があるため、レイテンシの指標も示されます。

5月24日の最初のテストでは、3 つのモデル間の明確なパフォーマンス特性が明らかになりました。

GPT-4 Turbo PTU：約 35 トークン/秒のスループットを示しました。高いスループットは、PTU によって提供される専用リソースのメリットを示しており、一貫したパフォーマンスが重要な大量のデータ処理タスクに適していると言えるでしょう。
GPT-4 Turbo：従量課金モデルで動作する GPT-4 Turbo は、約 15～20 トークン/秒のピークスループットを示しました。効率的ではあるものの、PTU モデルと比較すると、共有リソースモデルの変動性に起因すると思われる制限がいくつかありました。
GPT-4o：約 50 トークン/秒のスループットが実証されました。これは、GPT-4o は GPT-4 Turbo に比べて 2 倍高速であるという OpenAI の主張に沿った結果です。GPT-4o は大規模なデータを処理する潜在能力を示した一方で、ばらつきも大きく、負荷条件に応じてパフォーマンスが変動する可能性があることを示唆しました。

私たちは、これらのモデルがさまざまな負荷にどのように対処するのかを理解するために、これらのモデルのパフォーマンスを経時的にモニターし続けました。6月11日に実施された追加テストにより、これらのモデルのパフォーマンスの進化に関する知見をさらに得ることができました。

GPT-4 Turbo PTU：ピーク時で約 35 トークン/秒と、かなり一貫したパフォーマンスを示しました。この一貫性は、信頼性のある高速処理を必要とするアプリケーションにおける PTU のメリットを再確認するものです。
GPT-4 Turbo：約 15〜20 トークン/秒のピークスループットを維持しましたが、変動性の増加により、レイテンシの予測可能性が低下したことを示すピーク密度のわずかな低下が見られました。
GPT-4o：スループットが大幅に低下し、ピーク時には約 20 トークン/秒になりました。これらの結果に基づいて GPT-4 から GPT-4 Turbo への移行に関して考えると、GPT-4o はエンドポイント（従量課金モデルでアクセス）の需要が高まるとさらに効率が低下する可能性があります。これは、一貫した高スループットと低レイテンシを必要とするアプリケーションへの適合性に影響する可能性があると考えるのが妥当です。

出力の品質

スループットに加えて、さまざまなタスクにわたって正確で関連性のある応答を生成する能力に重点を置いて、各モデルからの出力の品質を評価しました。この評価には、自然言語処理、多言語サポート、全体的な一貫性、既存のワークフローとのインテグレーションが含まれます。

自然言語処理と多言語サポート

GPT-4 Turbo： GPT-4 Turbo の 2 つのプロビジョニングオプションは、さまざまなタスクにわたって一貫して高品質の応答を生成し、自然言語処理アプリケーションにおいて総じて優れたパフォーマンスを発揮します。
GPT-4o： 自然言語の理解と生成に優れているため、会話型 AI タスクに非常に効果的です。o200k_base トークナイザーはさまざまな言語に最適化されているため、多言語コンテキストでのパフォーマンスが強化され、トークン使用量が削減されます。ただし、GPT-4o は応答が長くなる傾向があり、またより頻繁にハルシネーションを起こす可能性があるため、簡潔な回答を必要とするアプリケーションでは懸念事項となる可能性があります。

正確性と一貫性

GPT-4 Turbo： 高精度が求められるタスクにおいて、GPT-4 Turbo はまずまずパフォーマンスを発揮し、複雑なデータ抽出タスクでデータの 60～80% を正しく識別します。ただし、同じタスクを繰り返した場合の応答精度と動作の一貫性は、ユースケースや設定によって異なる場合があります。
GPT-4o： GPT-4 Turbo と同等のパフォーマンスを示します。一部の分野では、GPT-4o は GPT-4 Turbo よりも精度がわずかに優れていますが、これは個別のタスクによって異なります。例えば、複雑なデータ抽出タスクにおいて GPT-4o が正しく識別できたのはデータの 60～80% だけで、パフォーマンスだけを評価すれば、GPT-4 Turbo と同等の結果を示しています。ただし、GPT-4o は、特に同じタスクを複数回繰り返すように求められた場合、応答の一貫性に大きなばらつきを示す点に留意が必要です。

インテグレーションとワークフローの効率性

GPT- 4 Turbo： 総じて既存のツールやワークフローとうまく統合され、スムーズな操作と一貫したパフォーマンスを確保します。インテグレーションを活用して包括的かつ状況に応じた適切な回答を提供するため、多くのアプリケーションにとって信頼できるオプションとなると考えます。ただし、このモデルはまだ精度が足りません。
GPT-4o： GPT-4 Turbo と GPT 4o の両モデルは同等のパフォーマンスを示しますが、GPT-4o はインテグレーションで統合されたツールを活用せずに、質問に直接答えようとしてしまうことがあります。このことは、コンテキストに関連した応答をツールのインテグレーションや機能に依存しているシステムでは、ワークフローの効率性を低下させる可能性があります。

以下の混同行列は、New Relic AI における関数の説明とユーザークエリの解釈を反映して、GPT-4 Turbo と GPT-4o が関数呼び出しをどのように異なって処理するかについてさらに詳しい洞察を提供します。

2つのモデルは、tool_4 で 87% の一致を示すなど、特定のツールで高い一致率を示しており、この機能に関して一貫した解釈をすることを示しています。ただし、tool_3 の場合、一致率は 57% に低下し、この特定のツールの処理ではばらつきがあることがわかります。どちらのモデルも誤分類の類似したパターンを示しており、関数呼び出し動作の微妙な違いが強調されています。

これは、理論上は GPT-4o がより高速で、より優れており、より安価であるにもかかわらず、GPT-4 Turbo を GPT-4o に置き換えた場合、必ずしも同一の動作が得られるわけではないことを示唆しています。常に微妙な違いが存在し、2 つのモデルは予期しない結果の違いをもたらす可能性があります。

トークナイザーの効率性

トークナイザーの効率性は、特に多言語のコンテキストにおいて、全体的なパフォーマンスとコスト効率に重要な役割を果たします。

モデル	トークナイザー	効率性
モデルGPT-4 Turbo	トークナイザー`cl100k_base`	効率性複数の言語やタスクにわたる一般的な使用に最適化されています。約 100,000 トークンの基本語彙を使用します。幅広いアプリケーションに効率的なトークン化を提供し、さまざまな言語やスクリプトにわたって良好なパフォーマンスと適度なトークン使用量を確保します。特定の言語に特化してはいませんが、英語やその他のいくつかの言語を効果的に処理し、さまざまなタスクに汎用的に使用できます。標準的なトークン効率で十分であるが、特化型トークナイザーと比較して複雑なスクリプト向けにより多くのトークンが必要になる可能性のあるタスクに適しています。
モデルGPT-4o	トークナイザー`o200k_base`	効率性複数の言語のより効率的な処理に特化して設計されています。約 200,000 トークンの基本語彙を使用します。語彙が豊富なため、より正確で簡潔なトークン化が可能で、多言語コンテキストで優れたパフォーマンスを発揮します。特に、日本語、中国語、その他の非ラテン文字などの複雑なスクリプトのトークナイゼーションを効率的に行うことができます。複雑なスクリプトに必要なトークンが最大 4.4分の1 になるため、多言語アプリケーションでの処理時間が短縮され、コストが削減されます。

コスト効率

OpenAI が主張する GPT-4o によるコスト削減は大きなセールスポイントです。GPT-4o の価格はこれまでのモデルの約半分で、入力トークンは 100 万トークンあたり 5 ドル、出力トークンは 100 万トークンあたり 15 ドルです。さらに、GPT-4o は GPT-4 Turbo と比較して 5 倍の頻度でアクセスできるため、継続的なデータ処理やリアルタイム分析を必要とするアプリケーションでは非常に役立ちます。

機能	GPT-4 Turbo	GPT-4o
機能入力トークン	GPT-4 Turbo100 万トークンあたり 10 ドル	GPT-4o100 万トークンあたり 5 ドル
機能出力トークン	GPT-4 Turbo100 万トークンあたり 30 ドル	GPT-4o100 万トークンあたり 15 ドル
機能レート制限	GPT-4 Turbo標準的な OpenAI の API ポリシーに準ずる	GPT-4o5 倍の頻度でアクセス可能

しかし、私たちが以前 GPT-4 から GPT-4 Turbo に移行した際の経験で浮き彫りになった重要な教訓があります。1,000 トークンあたりのコストが削減されると宣伝されていたにもかかわらず、期待したほど削減されなかったケースがありました。

この相違は主に、出力形式が指定されておらず、モデルが適切と判断した量のテキストを自由に生成するユースケースで見られました。例えば、検索拡張生成（RAG）タスクでは、モデルがより "おしゃべり" になる傾向があり、また新しいバージョンのモデルは応答ごとにより多くのトークンを生成するためです。例えば、「Python アプリケーションを計装するにはどうすればよいですか」という New Relic AI への同じ質問に対して、新しいバージョンは 360 トークンの回答を生成できますが、古いバージョンが生成した回答は 300 トークンでした。このような場合、宣伝されている　50% のコスト削減は達成されません。

同様に、GPT-4o はトークンあたりのコストが低くなりますが、このモデルの動作によりプロンプトあたりのトークン使用量の合計が増加する場合があり（このモデルは GPT-4o と比較してより "おしゃべり" になる傾向があります）、プロンプトが効果的に最適化されていない場合は、コスト削減の一部が相殺される可能性があります。

さらに、GPT-4o に必要なインテグレーションとワークフローの調整には、追加の開発コストと運用コストが必要になる場合があります。前述のインテグレーションの課題を考慮すると、企業はワークフローを最適化し、既存のツールとのシームレスなインテグレーションを確保するための追加の投資が必要になるかもしれません。これらの調整により、追加コストが発生する可能性があるため、このコストを全体的なコスト効率分析に組み入れる必要があります。

情報に基づいた意思決定

GPT-4 Turbo と GPT-4o の詳細なパフォーマンスとコストのメトリクスを理解したうえで、個別のニーズと目的に合わせて情報に基づいた決定を下すことが重要です。これには、ビジネス要件、コストの影響、パフォーマンス要件の総合的な評価が含まれます。考慮すべき重要な要素は次のとおりです：

スループットとレイテンシのニーズ： アプリケーションで高いスループットと低いレイテンシが求められる場合、レスポンスタイムが短く、レート上限が高い GPT-4o が役に立つ可能性があります。これは、チャットボットやバーチャルアシスタントなどのリアルタイムアプリケーションにとって特に重要です。ただし、GPT-4o のパフォーマンスをモニターすることが重要です。私たちのテストでは、使用量が増えるにつれて GPT-4o のパフォーマンスが低下する傾向が見られ、長期プロジェクトの信頼性に影響を与えるおそれがあることが示されています。一貫したパフォーマンスを実現するために、企業は最終的に、より安定した信頼性の高いパフォーマンスを提供できる GPT-4o PTU への移行を検討する必要があるかもしれません。
出力の品質： どちらのモデルの出力も高品質ですが、応答の一貫性を考慮する必要があります。GPT-4 Turbo は、均一な品質が不可欠なアプリケーションにとって重要な、より予測可能なパフォーマンスを提供します。
ツールとのインテグレーション： ワークフローが統合されたツールとコンテキストが豊富な応答に大きく依存している場合は、各モデルがこれらのインテグレーションをどのように処理するかを評価します。GPT-4 Turbo は既存のツールをより活用できるため、GPT-4o と比較してスムーズで効率的なワークフローを提供できる可能性が高いです。
コスト： 入力と出力の両方について、100 万トークンあたりのコストを比較します。GPT-4o は安価ですが、プロンプトごとのトークン使用量の増加によってこれらの節約が相殺されないようにする必要があります。さらに、インテグレーションやワークフローの調整に関連する追加コストにも注意してください。GPT-4o への移行には既存のプロセスの変更が必要になることがあり、その場合、開発および運用コストが発生する可能性があります。
トークン効率： コンテンツの複雑さと言語の多様性を考慮します。GPT-4o の o200k_base トークナイザーは多言語タスクをより効率的にこなし、英語以外のコンテンツの全体的なトークン使用量とコストを削減できる可能性があります。
レート制限と使用量： GPT-4o のほうがレートの上限が高く、より頻繁なインタラクションに対応できるため、インタラクション量が多いアプリケーションに適しています。このため、需要が高い場合でもスムーズなパフォーマンスを確保できます。
拡張性： アプリケーションの長期的な拡張性を考慮します。GPT-4o のコスト効率とパフォーマンスの向上により、拡張性が向上する可能性がありますが、これらのメリットが成長予測やリソースの可用性とどのように一致するかを評価します。

結論

GPT-4 Turbo と GPT-4o のどちらを選択するかを決めるには、個別のニーズと目標を慎重に評価する必要があります。GPT-4o は、多言語コンテキストでコスト上のメリットと優れた効率性を提供しますが、トークン使用量が増加したり、インテグレーションの課題が生じる可能性があります。パフォーマンスが低下する可能性があるため、経時的なパフォーマンスの監視は非常に重要です。安定性と一貫性のあるパフォーマンス望むのであれば、信頼できる選択肢は依然として GPT-4 Turbo であると考えています。これらの要素を評価することで、運用ニーズに最も合致し、最適なパフォーマンスとコスト効率の両方を確保するモデルを選択できます。