OpenAIが公開したChatGPTとWhisperのAPIをUnityでサクッと触れるようにした

こんにちは、エンジニアリングマネージャーの渡辺（@mochi_neko_7）です。

つい先日の2023/03/01、OpenAIがChatGPTとWhisperの新しいAPIを公開して話題になりましたね。

利用料金も1/10程度になり、気軽に利用しやすくなりました。

これらはWeb APIとして公開されているものなので、Unity/C#からも適切にHTTP通信をすれば利用することができます。

そこで実際に、UnityからChatGPT APIとWhisper APIを利用するためのライブラリを趣味で開発しました。

github.com

API自体の解説をしている方は既にいらっしゃいますのであまり詳しくは触れませんが、自分がドキュメントを全て英語で書いているのもあり、記事で簡単に紹介ができればと思います。

OpenAI API Keyの発行に関して
ChatGPT API
Whisper API
実装する上で注意したこと
今後の使い道など
おわりに

OpenAI API Keyの発行に関して

本記事で紹介するChatGPT API、Whisper APIはどちらも利用料が発生するもので、事前にアカウント登録や支払情報の登録、API Keyの発行が必要になります。

詳しい手順等は調べれば出てくると思いますのでここでは省略します。

本記事で紹介する内容を自分で触ってみたい方は、事前にAPI Keyを発行してください。

platform.openai.com

念の為注意事項として、API Keyは他人や外部に漏れると勝手に使用されてしまい課金が発生する恐れがあるため、GitHub等に載らないよう .gitignore で指定したり、環境変数を利用したり、自前のサーバーを介すなど適切に取り扱ってください。

ChatGPT API

ChatGPT APIは、ChatGPTの gpt-3.5-turbo（最新版） or gpt-3.5-turbo-0301（2023/03/01時点で固定されたモデル）のモデルを使用してChat Completion（会話の補完、対話）ができるAPIです。

概要はこちらにまとられています。

note.com

これをUnityで利用できるようにしているのがこちらのRepositoryです。

github.com

これを利用したい方は、このソースコードを配置する必要はなく、UPM（Unity Package Manager）によるパッケージのインポート機能だけで利用することが可能です。

セットアップ手順

利用したいUnityのプロジェクトの /Packages/manifest.json を開いて、"dependencies": の配列に次の2行を追加してください。

{
  "dependencies": {
    "com.mochineko.chatgpt-api": "https://github.com/mochi-neko/ChatGPT-API-unity.git?path=/Assets/Mochineko/ChatGPT_API#0.1.1",
    "com.unity.nuget.newtonsoft-json": "3.0.2",
    ...
  }
}

#0.1.1 の部分はTagのバージョンなので適宜最新版を利用するなどしてください。

もし既にNewtonsoft.Jsonを利用されている場合は、2行目の依存関係は不要です。

これだけでライブラリの準備は完了です。

仕様

公式のガイド記事はこちらです。

platform.openai.com

WebAPIの使用はこちらに記載されています。

platform.openai.com

大まかな仕様としては、3つのRole

system：状況設定（いわゆるPrompt）
user：ユーザーの会話の入力
assistant：ChatGPTの会話の出力

のメッセージのリストを渡して、その後に続く適切なassistantメッセージを返す（Chat Completion）といったものです。

ただしメッセージの長さ（厳密にはToken数）は生成後のメッセージと合わせて4096までという制約があることに注意が必要です。

実装側としては過去のメッセージのやり取りを保存しておき、新しいRequestを投げる際に一緒にパラメータに含める形になります。

メッセージのリストは記憶や文脈に相当する情報で、現在は最も簡易な形でしか実装していませんが、LangChainのMemoryのように渡し方を工夫してあげるともっと面白いことになると思います。

Unityでの使用方法

サンプルのComponent実装を用意しているので、最低限の設定項目や使用方法はこちらを参考にしてみてください。

github.com

Requestのパラメータを詳細に設定できるインターフェースも用意してあるため、使いたいシチュエーションに合わせて設定をしてください。

github.com

ちなみにメッセージのリストを自分で管理したい場合は都度Connectionのインスタンスを作って使用してもらって大丈夫です。

HttpClientのインスタンスは内部でSingletonにしてあるのでそこまでオーバーヘッドはないはずです。

Whisper API

Whisper APIは、Whisperの whisper-1 というモデルを使用してTranscription（音声をテキストに変換、文字起こし）とTranslation（音声の内容を英語に翻訳してテキストに変換）ができるAPIです。

概要はこちらにまとられています。

note.com

これをUnityで利用できるようにしているのがこちらのRepositoryです。

github.com

これを利用したい方はChatGPT APIと同様、このソースコードを配置する必要はなく、UPM（Unity Package Manager）によるパッケージのインポート機能だけで利用することが可能です。

セットアップ手順

利用したいUnityのプロジェクトの /Packages/manifest.json を開いて、"dependencies": の配列に次の2行を追加してください。

{
  "dependencies": {
    "com.mochineko.whisper-api": "https://github.com/mochi-neko/Whisper-API-unity.git?path=/Assets/Mochineko/Whisper_API#0.1.0",
    "com.unity.nuget.newtonsoft-json": "3.0.2",
    ...
  }
}

#0.1.0 の部分はTagのバージョンなので適宜最新版を利用するなどしてください。

もし既にNewtonsoft.Jsonを利用されている場合は、2行目の依存関係は不要です。

これだけでライブラリの準備は完了です。

仕様

公式のガイド記事はこちらです。

platform.openai.com

WebAPIの使用はこちらに記載されています。

platform.openai.com

Whisperの仕様はシンプルで、音声データをRequestのパラメータと一緒に渡すとテキストが返ってくるというものです。

Responseのテキストの形式はデフォルトではJSONですが、パラメータで変更が可能なため、適宜stringを変換して利用します。

言語やPromptを指定すると精度が上がるようです。

Unityでの使用方法

サンプルのComponent実装を用意しているので、最低限の設定項目や使用方法はこちらを参考にしてみてください。

github.com

Requestのパラメータを詳細に設定できるインターフェースも用意してあるため、使いたいシチュエーションに合わせて設定をしてください。

github.com

都度Requestのパラメータを調整したい場合はその都度インスタンスを生成して使用してください。

実装する上で注意したこと

実装自体はソースコードを見ていただければ分かる通りそれほど難しくありません。

HTTP通信でのWebAPIの叩き方やJSONの取り扱いがあればご自身でも実装できると思います。

ちょっとハードルが高いとという方はUPMで利用してみてください。

API Referenceには記述が見当たらなかったのですが、エラーのResponseはこのようなJSONで共通のようです。

github.com

どうでも良い個人的なこだわりとしては、意図的にUnity標準のUnityWebRequestとJsonUtilityを使用せず、それぞれHttpClientとNewtonsoft.Jsonで代替しています。

自分が使い慣れているというのもありますが、これらを除外できるとUnityのコードに全く依存しなくなるため（実際にAssemblyDefinitionを見ていただくと No Endine Reference = true になっているのがわかると思います）、Unityのバージョンの影響をほとんど受けなかったり（ただ nullable を使ってしまっているのでC#のバージョンの制約がありますが）、やらないと思いますがPure C#に切り出せるというメリットもあります。

あとはModelの指定をenumでできるようにしているのも扱いやすさの観点での個人的嗜好です。