最近、ChatGPT Plus と Claude Pro という2つのAIサービスの有料版を契約して、いろいろ比較しています。Geminiも無料版ですが、使っています。2025年3月時点での各社AI使用感比較各社のAIサービスを自分なりに使ってみた感想や比較検討したことの覚え書き・備忘録を書いておきます。
使用モデルは主に、ChatGPT-4 o1やo3-mini-high、Chat GPT-4.5、Claude 3.7 Sonnet、Gemini 2.0 Flash です。
UIやインターフェースの使いやすさ
私はAPI利用ではなく普通にチャット・インターフェースでの利用のみです。主にパソコンのブラウザからの利用で、たまにAndroidアプリ版も使います。
で、このチャット・インターフェースは今のところChatGPTの圧勝です。日本語設定でもUI・デザインがすごく見やすく使いやすい。
Claudeは基本的に英語での利用しか想定されていない感じです。日本語設定にしてもフォントも微妙だし、チャット履歴もChatGPTは日本語で適切なタイトル(会話内容に合ったもの)が自動的に付加されるのに対し、Claudeでは勝手に英語になってしまうことがほとんどです(あとで手動で修正することは出来る)。
GeminiはUIなど見た目については見やすく使いやすいです。
性能
性能については、私がよく利用するプログラミング、Webサイトデザイン、調べもの、文章作成について比較します。
プログラミング
これはClaude 3.7 Sonnetの圧勝です。AndroidアプリやWindowsアプリ、PHP・MySQLによるWebアプリの開発などに利用してみましたが、どれをやってみてもChatGPTよりもClaudeのほうが、エラーも少なく実用的なコードが即座に生成されます。
ChatGPTでAndroidアプリを書いてもらった時には、Hello World的な超簡単なアプリですら、最初からエラー連発でそもそもビルドが通りませんでした。エラーメッセージを渡してあげると解決策を示してくれますが、それを実施してもまたエラー地獄。使い物になりません。o1でもo3-mini-highでもイマイチでした。
それがClaudeでは最初からエラーもなく実行できるソースコードが示されたのには感動しましたね。簡単なゲームアプリも、だいぶ抽象的な日本語で指示しただけで即座に作ってくれました。まったく知識のないWindowsアプリ開発でも、要件定義などの指示をきちんとすれば、それなりに動くものを出してくれそうです。
Webアプリ開発においても、「こんな感じの仕様でコード書いて」と投げると、Claudeが最も期待した通りのものを書いてくれます。なんならこちらの意図を汲みとって、依頼してないのに「たしかにそれも必要だ!」という機能まで勝手に作って提示してくれます。Webシステム全体のインストール方法までご丁寧に作成してくれます。プロジェクト全体の構造もいい感じ。まるで人間のエンジニア。いや、それ以上かも。
Gemini(2.0Flash)はこちらの指示通りに従わないし、ちょっと話にならないかな、という感じです。
ChatGPTは4.5も含めて、どのモデルを選んだとしてもClaudeが生成するソースコードの有用性には劣る印象を受けました。
Webサイトデザイン
これについてもやはりコード生成という意味では同じなのか、Claudeが最も「期待した通りの出力してくれる」と感じています。
なんていうかな、こちらの意図を汲んでコードとして実現してくれる度合い、その能力が最も高いのがClaudeという感じです。
調べもの
これについてはChatGPTが最も優れているという印象があります。
特に「検索」や「Deep Research」を使えるようになってからは格段に精度が上がりました。堂々と嘘をつくハルシネーションの心配や、情報が古いままで最新とは異なる、という問題も以前と比べればだいぶ減りました。Deep Researchでレポート生成を頼むと時間がかかりますが、深く調べて圧巻の仕上がりを見せてくれます。今まで自分でちまちまとググっては少しずつ情報を集めていくというあの労力と時間から解放されます。
Claudeはこの点では劣っており、いまだにネット検索できないなど問題が多数あります。URLを示してあげても、そのサイトの内容を読み取ることが出来ません。つまり最新情報にアクセスできません。
Gemini(2.0Flash)はGoogleのサービスなのだからさぞかし検索も絡めて有用だろう…と思っていたのですが、やはりここでも最下位。調べ物を頼んでも、通り一遍の浅いまとめばかり出してきます。しかし、「2.0 Flash Thinking(experimental)モデル」を選んでなおかつ「Deep Research」をONにするとかなりいい感じにレポート作成してくれました。この点に関してはChatGPTと遜色ないようにも感じます。無料で使えるので、その点はGeminiが一番優れているかも。
税務や法律関係はハルシネーション連発なので要注意
法人関連の税務や社会保険料などの質問をしたところ、各社AIで微妙に「もっともらしい嘘」、いわゆるハルシネーションを起こしまくっていました。引用URL付きで堂々と間違った情報を回答してきます。正確を期すためには結局自分で調べねばなりません。この調査ではClaudeが最もダメで、GeminiのDeepResearchがそこそこ。「ChatGPT4.5でDeepResearchをON」が最も正確で深く詳細なレポートを提示してくれましたが、それでも完璧に間違っていないわけではありませんでした。
ChatGPTでDeepResearchではなく通常の「検索」のみONにした状態ではかなり間違った情報や数字(保険料率など)が散見されました。2025年3月時点ではまだまだ税理士が不要になるとまでは言えなさそうです。
ただし、日進月歩のAIですから、現状でこの感じだと、今後1年以内には税理士や行政書士などに相談するよりもAIに相談したほうが正確かつ迅速でしかも格安で済む、という状況が到来しそうに思えました。
文章作成
たとえばある特定のテーマを指示しての記事生成など。これも調べものに近い部分があって、ChatGPTは優れています。
しかしClaudeも推論能力が高く、調べものを依頼した時よりはだいぶクオリティが高いです。プログラミングでもそうですが、全体的に「こちらの意図を汲む能力」が非常に高いと感じます。Claudeは行間を読めるというか。プロンプト・ハックだの何だのを気にせずとも、普通に優秀な人間と対話して「これこれこういう感じのもの、お願いね」と頼めば「あいよ!」と理解していい感じに仕上げてくれる。そういうイメージです。
Gemini(2.0Flash)はやっぱり(略。
トークン制限
これに関してはClaudeが最下位。
ちょっと長めのプログラム書いたり、文章を作成してもらったりすると、すぐに制限に引っかかります。手動で「続ける(continue)」と指示しなければいけなかったり、チャット自体を新規に作ってそちらに移動しなければいけなかったり。長い会話をするとどんどん遅くなっていきます。
しかも、あるチャットから他のチャット(過去履歴)の内容を参照することもできないので、情報を引き継ぐ作業が面倒臭くて大変です。一応、プロジェクトという機能もありますが、これもなんだかUI含めて荒削りで分かりづらく、使いづらい。ソースコードが長くなるものとか、関連するファイル数が多くなるものなど、大規模なプロダクトを開発するには、いろいろと工夫が必要。
ソースコードのごく一部を修正してもらいたいだけの時でも、該当箇所だけ直せばいいのに、いちいち最初から1行ずつ全部書き直している様子。そりゃすぐにトークン使い果たしちゃうよね…っていう。前のバージョンのコードをそのままコピペして一行直せばいいだけなのに、なぜ普通にコピペしてくれないんでしょう?
ChatGPTではClaudeと比べれば、長い作業でも息切れせずにやってくれる印象。
Gemini(2.0Flash)はトークン制限が緩いとのことで、たしかに制限に引っかかったことはありませんが、やっぱり微妙。
全体的な印象
個人的に最も役に立つと感じているのがClaude。バージョンが3.5の時でもすでに驚愕のプログラミング性能でしたが、3.7になってさらに進化したと感じます。「自分よりはるかに優秀な技術パートナー」として使えます。ただしWeb検索ができないので最新情報などは得られず、そこが弱点。すでに持っている知識(学習済みのデータ)を駆使するだけで済む作業(コーディングなど)は最強の印象があります。
次点でChatGPT。プログラミングに関してはClaudeに劣りますが、ネット検索を含めた文章生成や知識の問答などはこちらが勝っています。「教授」や「先生」として使えます。ただ、進化の驚きはo1以降からペースが鈍化しており、o3-mini-highやGPT4.5などが登場しても劇的な変化・進化をあまり感じません。
Geminiに関しては正直言ってちょっと現時点では何の用途でも使えないと感じています。1.5から2.0になっても有用になったとは感じない。私は無料版しか使っていないので正当な比較ではないかもしれませんが、しかしChatGPTやClaudeは無料版でも凄まじい性能だと感じたから有料版を契約したわけで。Geminiは有料版を契約してみようという気持ちになれません。私の指示(プロンプト)が悪い可能性もありますが、とりあえず今のところはChatGPTとClaudeで満足いく結果が出ているので、Geminiではあまり試行錯誤していません。
以上、あくまでも2025年3月時点での、各社AI使用感比較をした個人的な感想、備忘録でした。
コメント