やってみた

ChatGPTのGPT5.5がリリース！一体何が変わったのか？調べてみた。

2026年4月24日 5 min read

GPT-5.5、出てた。気づいたのはClaude Codeとの会話中。

2026年4月23日。OpenAIがGPT-5.5をリリース。コードネーム「Spud」。じゃがいも。かわいい。

でも私、ChatGPT使ってない。原稿生成の相棒はClaude Sonnet 4.6。だからリリースノートを追うのもめんどくさい。

とりあえずClaude Codeに聞いてみた。「GPT-5.5って何が変わったの？蒼井詠プロジェクトに影響ある？」

帰ってきた答え、予想より深かった。この記事、Claude Codeが整理してくれた内容のまとめ。書きながら自分の理解も整理した。

結論。GPT-5.5で変わったこと、3つ。

Claude Codeに聞いた。「3行でまとめて」。返ってきた答え。

ひとつ、タスクを自律的にこなせるようになった。ふたつ、トークン消費が減って速くなった。みっつ、コーディングベンチで過去最高スコア。

具体的に言うと、「今月のアナリティクスをまとめて、CSVで出して、要点をまとめて」みたいな多段タスクを、ひとつのプロンプトで完走できる。

前は「①まずこれ、②次これ、③最後これ」って手順を全部書いていた。今はざっくり投げるだけで、GPT-5.5が計画→ツール使用→検算まで勝手にやる。

OpenAIが「スーパーアプリ化」って言ってるのは、こういうこと。ChatGPT・Codex・ブラウザ操作・ファイル作成、ぜんぶひとつのアプリで完結させる方向。

ベンチマーク。5.4から何点伸びた？

具体的な数字、出てる。

Terminal-Bench 2.0で82.7%。これ、複雑なコマンドライン作業（計画→ツール使用→検算）を評価するテスト。現時点で最高スコア。

SWE-Bench Proで58.6%。これ、GitHubの実際のissueを自分で修正できるかのテスト。GPT-5.4は57.7%。プラス0.9ポイント。劇的な伸びではない。

でも重要なのは、トークン消費が減ってこのスコアということ。「効率はそのままで質を上げる」より「効率を上げながら質も維持する」方が、地味に効く。

Expert-SWEっていう「人間が20時間かかるタスク」の社内ベンチでも5.4を上回った。長期タスクへの耐久性、上がってる。

下のグラフで数字を見てほしい。

GPT-5.4 → GPT-5.5 進化ポイント

2026年4月23日リリース。少ないトークンでスコアUP。

GPT-5.4 GPT-5.5（Spud）

Terminal-Bench 2.0複雑なコマンドライン作業の自律遂行（100点満点）

GPT-5.477.3%

GPT-5.582.7%

SWE-Bench Pro実在のGitHub issueを解決する精度（100点満点）

GPT-5.457.7%

GPT-5.558.6%

⚡

自律マルチステップ

ざっくり投げるだけで計画→実行→検算まで自走

🪙

トークン効率UP

5.4より少ないトークンで同等以上の回答

🛡️

安全性レッドチーム済

サイバー／バイオリスクを第三者が事前検証

誰が使えて、いくら？

使えるのは、ChatGPTの有料プラン全部。Plus（月額$20）・Pro・Business・Enterprise。あとCodex（OpenAIのコーディングエージェント）。

無料プラン？使えない。Spudはポテトだけどタダ芋じゃない。

API経由は「近日中」。サイバーセキュリティ対策の追加実装のあと。つまり、自動化ワークフローに組み込むのは少し待ち。

コンテキストウィンドウはプラン別で、Plus/Teamは32K、Pro/Enterpriseが最大128K。長文処理なら上位プラン一択。

蒼井詠プロジェクトで使う？Claudeとの使い分け。

結論。しばらく併用。切り替えはしない。

理由は口調。GPT系は過去にGPT-4o-miniで試した。結果、「〜ですね」「みなさん」が混じって蒼井詠のキャラが崩れた。だから原稿生成はClaude Sonnet 4.6に切り替えた。1記事15〜20円で蒼井詠口調が安定する相棒。変える理由がない。

でも、GPT-5.5が刺さりそうな領域もある。データ分析・リサーチ・スプレッドシート作成。Instagram分析のCSV処理、ハッシュタグ戦略の裏側計算、競合アカウントのリーチ推定。こういう「数字と自律性」が必要な作業は、GPT-5.5が向いてる可能性。

つまり使い分け。執筆＝Claude、裏側の計算＝GPT-5.5。AIを1個に絞る時代、もう終わった。

まとめ。AI選びは、目的から逆算。

GPT-5.5は確かに進化してる。でも「最新だから全部これ」はない。

非効率は罪。でも、使い分けなしに1ツール縛りも罪。

知らないことは罪じゃない。知ろうとしないことが罪。Claude Codeに聞けば5分で整理できた。自分で公式ドキュメント読もうとして1時間溶かすところだった。

で、あなたは？最新モデルのリリースノート、全部自力で読んでる？それとも、AIに聞いてる？

─

蒼井詠（あおいえい）／Instagram @aoi___ei をフォローしてAI自動化のネタをチェック。