ローカル環境で手軽に大規模言語モデル(LLM)を試せる「LM Studio」。その中でも、OpenAI互換のAPIサーバーを起動できる機能は、とても便利で面白い強力なツールです。しかし、このAPIを利用して長い文章や複雑な対話をさせようとすると、突然こんなエラーメッセージに遭遇したことはありませんか?
{ error : Reached context length of 4096 tokens with model (arch: gpt-oss) that does not currently support mid-generation context overflow. Try reloading with a large r context length or shortening the prompt/chat. }” indicates that an API request to a Large Language Model (LLM) failed because the input prompt or chat history exceeded the maximum allowed context length for the specific model being used.
これは、モデルが一度に処理できるテキストの量(トークン数)の上限に達してしまったことを示すエラーです。デフォルト設定のままだと、この上限は4096トークンと比較的短く設定されていることが多く、少し長い会話履歴やプロンプトを入力するとすぐに上限に達してしまいます。
コンテキスト長とは、LLMが対話の文脈を理解するために一度に保持できる情報の量のことです。
LM Studioは、多くのモデルでコンテキスト長のデフォルト値を「4096」に設定しています。そのため、API経由でそれを超える長さのテキストを処理させようとすると、エラーが発生してしまいます。
【3ステップで解決】コンテキスト長の設定変更方法
解決策は非常にシンプルです。サーバー設定から、このコンテキスト長の上限を引き上げてあげましょう。
Step 1: サーバーオプション(歯車マーク)を開く
LM Studioを起動し、使用したいモデルを選択してロードします。モデルがロードされた状態で、画面の左側にある歯車マーク(Server Options)を探してクリックしてください。
Step 2: 「Context Length」のつまみを右に動かす!
歯車マークをクリックすると、サーバーに関する様々な設定項目が表示されます。その中から「Context Length (n_ctx)」という項目を見つけてください。

ここにあるスライダー(つまみ)が、コンテキスト長の上限を設定する部分です。このつまみを右にスライドさせて、数値を大きくしましょう。モデルが対応している範囲で、8192や16384、あるいはそれ以上に設定できます。
設定したら下に表示される「Reload to apply changes」を押して反映します。

なおMAXにすると下記のようにメモリーに関する警告が表示されます。不要な場合は「Don’t show this message again」にチェックを入れれば、次回以降は効いて今夏うなります。

これで新しい設定が反映され、より長い文章を扱えるようになります。
注意点:メモリ使用量とのバランスを
少しだけ注意が必要です。コンテキスト長を大きくすると、その分PCのメモリ(RAM)使用量も増加します。PCスペック、特に搭載しているメモリの容量を考慮しながら、最適な値に調整しましょう。もし動作が不安定になった場合は、コンテキスト長の値を少し下げてみてください。