Claude Codeが128K出力トークンに対応。NanoClawの薄いアーキテクチャに最大の恩恵。

2026年3月18日、AnthropicはClaude Codeの出力トークン上限を128Kに引き上げた。従来の上限は16K〜32K（モデルによって異なる）であり、4〜8倍の引き上げだ。

この変更の影響は見た目以上に大きい。出力トークン上限は、AIエージェントが一度に生成できるコンテンツの量を直接制限する。16Kトークンは英語で約12,000語、日本語で約8,000文字に相当する。短いメッセージやコードスニペットには十分だが、長文レポート、大規模なコードファイル、包括的な分析には足りなかった。

128Kトークンは英語で約96,000語、日本語で約64,000文字に相当する。これは書籍一冊分に匹敵する。一度のレスポンスで、長文レポート、完全なコードベース、詳細な分析を生成できる。

NanoClawユーザーにとって、この変更は即座に利用可能だ。設定変更も環境変数の更新も不要だ。

128K出力が変えるもの

出力トークン上限の引き上げが実用的に何を変えるかを具体的に見てみよう。

長文レポート生成——これまで、AIエージェントに「包括的な市場分析レポートを書いて」と指示しても、出力上限のために途中で切れるか、要約的な短いレポートしか生成されなかった。128K出力なら、詳細な市場データ、競合分析、トレンド予測、推奨アクションを含む完全なレポートを一度に生成できる。

大規模コード生成——ファイル全体やモジュール全体のコードを一度に生成できる。従来は「まずここまで書いて、次にここを書いて」と複数回のやり取りが必要だった。128K出力なら、完全なモジュールを一回のリクエストで生成できる。

包括的分析——「このコードベースのセキュリティ監査を行って」と指示した場合、128K出力なら全てのファイルの分析結果、脆弱性の詳細、修正提案を一度に出力できる。

翻訳——長文ドキュメントの翻訳が一回のリクエストで完了する。従来はドキュメントを分割して複数回の翻訳リクエストが必要だったが、128Kならほとんどのドキュメントを一度に翻訳できる。

NanoClawへの影響

NanoClawが128K出力の恩恵を受ける仕組みは、前述のモデルアップグレードと同じパターンだ。NanoClawのコードはClaudeの出力トークン上限に関する仮定を含んでいない。

NanoClawのオーケストレーション層は「メッセージを受け取る→コンテナを起動する→Claude Code SDKを呼ぶ→レスポンスを返す」というシンプルなフローだ。レスポンスのサイズに関する制限はNanoClawのコードには存在しない。Claude Codeが128Kトークンを出力すれば、NanoClawはそれをそのままWhatsAppに返す（WhatsAppのメッセージ長制限に応じて分割する処理はあるが、これは既存の機能だ）。

他のフレームワークでは、出力トークン上限の変更が問題を引き起こす場合がある。出力バッファサイズがハードコードされている場合、128Kの出力でバッファオーバーフローが発生する可能性がある。レスポンス解析がストリーミングに対応していない場合、大きなレスポンスの処理でメモリ問題が生じる可能性がある。

NanoClawではこれらの問題が存在しない。レスポンスの処理はClaude Agent SDKとNode.jsのストリーム処理に委ねられており、NanoClawのコードはレスポンスサイズに依存しない。

WhatsAppでの長文配信

128K出力の実用上の課題の一つは、WhatsAppのメッセージ長制限だ。WhatsAppの1メッセージの上限は約65,000文字だ。128Kトークン（日本語で約64,000文字）は概ね1メッセージに収まるが、英語の場合は複数メッセージへの分割が必要になる。

NanoClawはこの問題を既に処理している。長いレスポンスは自動的に複数のWhatsAppメッセージに分割される。分割ポイントは段落の境界を尊重し、コードブロックの途中で切れないよう配慮されている。

128K出力の増加に伴い、分割メッセージの数が増える可能性があるが、既存のロジックがそのまま機能する。新しいコードは不要だ。

コスト効率の観点

128K出力はコスト面での考慮も必要だ。

出力トークンは入力トークンよりも高価だ（Opus 4.6で出力75ドル/百万トークン、入力15ドル/百万トークン）。128Kの出力トークンを使い切ると、1リクエストあたり約9.6ドルのコストになる。

しかし、これは最大値だ。実際にはほとんどのリクエストで128Kを使い切ることはない。エージェントは必要な分だけ出力する。短い質問には短い回答を返し、長文レポートの依頼にだけ長い出力を生成する。128K上限は天井を上げたのであり、床を上げたのではない。

NanoClawのアーキテクチャは、この柔軟性を自然に活用する。NanoClawは出力トークン数を制限しない（Claude Agent SDKのデフォルト設定を使用する）ため、エージェントは各タスクに最適な出力量を自律的に決定する。

長い出力と薄いアーキテクチャ

128K出力の恩恵は、「薄いアーキテクチャ」のプロジェクトほど大きい。

「厚い」フレームワークでは、Claudeの出力はフレームワークのパイプラインを通過する。テンプレートエンジン、出力フォーマッター、バリデーター、ポストプロセッサー——各ステージがオーバーヘッドを追加する。出力が長くなれば、各ステージの処理時間とメモリ消費も増加する。

NanoClawの場合、Claudeの出力はほぼそのままユーザーに到達する。中間処理はWhatsAppメッセージの分割だけだ。128Kの出力であっても、追加のオーバーヘッドは最小限だ。

これは「パイプの太さ」の問題だ。太いパイプ（薄いアーキテクチャ）は大量のデータを効率的に通す。細いパイプ（厚いフレームワーク）は各ステージがボトルネックになる。128K出力は、パイプの太さの差がユーザー体験の差として顕在化するケースだ。

AIエージェントの進化方向

128K出力の拡大は、AIエージェントの進化方向を示唆している。

入力コンテキストウィンドウの拡大（100K→200K→1M）は「AIが理解できる情報量」を増やした。出力トークンの拡大（4K→16K→128K）は「AIが一度に生成できるコンテンツ量」を増やしている。

この二つのトレンドが組み合わさると、AIエージェントは「大量の情報を入力として受け取り、大量のコンテンツを一度に生成する」能力を持つようになる。書籍全体の分析、大規模コードベースの監査、網羅的なリサーチレポート——これまで人間が数日かけていたタスクが、一回のエージェント実行で完了する。

NanoClawのアーキテクチャは、このトレンドに自然に対応する。入力が増えてもNanoClawのコードは変わらない。出力が増えてもNanoClawのコードは変わらない。NanoClawはパイプだ。パイプは流れるものの量に関係なく、同じパイプであり続ける。

128Kは通過点だ。AnthropicがさらにOutput上限を引き上げた場合——256K、512K、あるいはそれ以上——NanoClawは今日と同じコードでその恩恵を受ける。薄いアーキテクチャの配当は、AIの能力が向上するたびに複利的に増大する。