Azure OpenAI Serviceでリアルタイムな会話を実現するためのアーキテクチャ

課題

ここ最近言語生成AIが盛り上がっており、様々なアプリケーションの登場が期待されます。しかし、Azure OpenAI Serviceをはじめとしたサービスはインターネット上で処理が実行され、特に長文を生成する場合にはレスポンスが返ってくるまでに何秒かかかることも多く、リアルタイムコミュニケーションが難しいように感じられます。

それに対して、REST APIや各種SDKではストリーミング処理でレスポンスを受け取るための機能が備わっており、チャンクに分割された回答を少しずつ受け取ることができます。これは本家ChatGPTやAzure OpenAI Serviceのプレイグラウンドで質問をした際に少しずつ回答が生成されるのと同じ仕組みだと思われますが、原理的に可能であることは分かります。

ここで、一つの課題として、直接それらのサービス(以降、今回実装に使用したAzure OpenAI Serviceとします)を叩くのではなく、バックエンド経由で叩く場合にフロントエンドにそのレスポンスを表示するのに手間がかかることがあります。特にセキュリティの都合やプロンプトエンジニアリングをユーザーから秘匿したい場合などにフロントエンドに直接処理を記載せずバックエンドを挟むことが考えられます。バックエンドでレスポンスをストリーミングで受け取った際に、それをフロントエンドに返す際にリレーするような形になってしまい、実装上大きな制約となり場合によってはクラス設計やアーキテクチャが歪む可能性もあります。また、長時間の接続となり途中で接続が切れる懸念もあります。