何日もかけてOpenAI Codexをテストした


たとえGPT-5.4 xhigh(最高推論レベル)をオンにしても、メインモデルを使うとやはり多くの間違いを犯す。
例えば、一度は指示を誤解して不要なものを直接削除してしまった。もう一つはもっとひどいもので:自分が書き込みに成功したと思い込んでいたが、実際には全くできていなかった。
同じことを三回繰り返し、その都度Opusの後のレビューでやっと気づいた。
今のところの結論は、Codexはツールとして非常に適している。明確なコードのタスクを与えれば、速くて良い仕事をしてくれる。
しかし、複雑な多段階の指示を理解したり、動くべきかどうか判断したりするメインモデルとしては、まだ一歩及ばない。
今もやはりOpusを主力としている。😎
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし