対話Chance AI創設者:世界のもう一つの道を見つけ、大規模モデルの同質化の壁を打ち破る

現在規模における前例のないAI競争の中で、「大規模モデル(大模型)」はすべての企業のデフォルトの答えになっている。各社は計算能力をアップグレードし、ランキングで競い、さまざまな入口をめぐって奪い合っている。だが業界のストーリーがますます収束していく一方で、ほぼすべての主流のやり方を否定したスタートアップが現れた――Chance AI。

創業者の曾熙は、ホームページから入力ボックスを削除し、あなたが質問する必要のないAIアプリを作った。手を挙げて一度タップするだけで、見たものを文字で解釈してくれるのだ。これは直感により合っている。

現場で曾熙は、Air Jordan 1のスニーカーのペアの画像を撮って見せた。Chance AIはそれが30万米ドルの価値があると私たちに教えた。なぜか。それはジョーダンが当時の決勝で履いていたあの一足だからだ。さらに、彼女のコーデの見抜きにも役立つ。外出前に自撮りを1枚撮れば、アプリは彼女に、このコーデは色の違うスカーフに替えるか、あるいは別の色のバッグを加えると、マッチ度がより高くなることを教えてくれる。

すぐに、北米の大学生たちに熱狂的に支持されると、チームは次に、若い世代の声に向けて、OOTD(毎日の装い)、手相、肌質の見立て、毒舌での寸評など、一連の機能を開発していった。

解釈するだけでは終わらない。ユーザーはワンクリックで、Chance AIが備え付けたコミュニティに共有することもできる。「所見」がユーザー自身の雑談の種になり、18〜25歳の若者たちもそれによって集まってきた。

CTOの呉曉凡は『ウォール・ストリート・チョンウェン(華尔街见闻)』に対し、Chance AIはすでに世界で約25万人のユーザーを集めていると明かした。

ここから、Google Lens+小紅書、Instagramの形が徐々に成ってきた。Chance AIも、まずはバズ要素を初歩的にそろえた。そして若い人ほど使えば使うほど、彼らの本当のニーズをよりよく捉えられる。曾熙は「20数万ユーザーのうち、北米の女性は平均して毎日2.8回コーデを撮影している。このデータ量のすごさはどれほど恐ろしいことか」と語った。

大手企業やECが夢見る“金鉱”を手にしているにもかかわらず、曾熙とチームは急いでマネタイズしようとはしなかった。いま大火のAIハードウェアの流行を盲目的に追うつもりもない。さらには当面、より大規模な宣伝すらできないともしている。インフラが一時的に「降ってわくような大きな富」を支えきれないのではないかと恐れているからだ。

彼らは、引き続き自社のビジュアル・エージェントを磨き、この「視覚の頭脳」をさらに強力に開発し、それによってより豊富なデータを蓄積して、視覚コミュニティを形成し、「雪球(スノーボール)」が転がり出すのを加速させるつもりだ。

AIプロダクトが徐々に同質化していく中で、曾熙は主流の語りから逃れた少数派になった。しかし掘り当てたのは、人間の直感にある共通認識だった。もし人間の脳の70%の帯域が視覚の処理に使われるのなら、AIの未来の入口はこれからも入力ボックス1つに独占されるべきではない。

Chance AIの選択はもしかすると大胆だが、日増しに過密競争になっているこの競争の場では、むしろ希少性がある分だけ、観察する価値がより高いのかもしれない。

視覚の本能へと交互作用を引き戻す

業界がすでに「人が質問し、AIが回答する」ことでプロダクトの境界を定義することに慣れてしまっているとき、Chance AIの創業者・曾熙は『ウォール・ストリート・チョンウェン(華尔街见闻)』に次の問いを投げかけた。「なぜ目はお尻についていないのか?」

人類の進化の論理の中では、視覚こそが第一原理であり、言語はそのずっと後に登場した符号化システムにすぎないからだ。

曾熙は進化の観点から、人間の脳内では約70%の情報処理が視覚に関連していると述べた。言語が生まれる前、人間はすでに視覚に頼って環境を識別し、危険や機会を判断していた。

過去10年、すべての主流のインタラクション方式は入力ボックスによって標準化されてきた。ユーザーはあらかじめ質問が何であるかを理解しておく必要がある。ニーズを言語に翻訳し、その言語をモデルへ渡さなければならない。

ほとんどの人にとって、このやり方は自然ではない。街で奇妙な建物を見たり、見知らぬアートを見たり、ぼやけた記号を見たりしたとき、最初の反応は「惹かれる」ことであり、問題は注意の後に生まれる。

曾熙はこう言う。「プロンプトは怠惰なAIのために用意されたものだ。」

彼が言いたいのは、promptエコシステムを攻撃することではない。大半のときpromptは人間がモデルの仕事を手伝い、モデルに欠ける推論のつながりを補っているだけだ、ということだ。もしAIが本当に賢いなら、人間が「どう質問するか」を教えることに頼るべきではない。視覚の手がかりを通じて、ユーザーが何に注目しているかを能動的に理解すべきだ。

曾熙は『ウォール・ストリート・チョンウェン(華尔街见闻)』でひとつの話をした。自分はアート愛好家で、2年前に展覧会のためのAIスキャンによる解説小プログラムを作ったことがあった。しかし撤収後に、なんと1500人以上がその小プログラムを使い続けていることが分かった。調査したところ、ユーザーはすでに身体に染みついた記憶のような形でそれを使い、さまざまな花や草、映画、服飾などをスキャンして、そのままAIと話し続けていたという。

実際、曾熙にはデザイナーとしての強い責任感がある。「私たちの使命は、テクノロジーと人との間の隔たりを取り除くことだ。AIは多くの人にとって少し“高冷”に見えるかもしれないが、私の目標はそれを、より自然にし、より人間の本能的なニーズに寄せること――視覚によって世界を理解し、探求できるようにすることだ。」

この判断が、そのままプロダクトの形を決めた。Chance AIは初日から、入力ボックスをコア画面から外した。

「見る」がデフォルトの動作になり、「質問する」は選択式になった。ユーザーは言葉を組み立てる必要がなく、事前に質問を構築する必要もなく、手間をかけて「AIがいちばん好む質問の仕方」を探す必要もない。業界のほぼ全員が言語インタラクションを強化しているこの状況で、この決定は非常に逆張りに見える。

だがだからこそ、それは多くのモデルが同じ土俵に押し寄せる競争の場を避けた。入力ボックスが示すのは目的志向であり、視覚が示すのは本能だ。入力ボックスは問題解決を強調し、視覚は好奇心を引き起こすことを強調する。Chance AIのインタラクションは、ツールのようというより、認知筋のトレーニングのようでもある。

しかし先行者にはリスクもある。現状、業界は言語インタラクション上で完全なユーザーパスを構築してきた。検索からEC、そしてアシスタントモードまで。ユーザーもまた、「質問する」ことへの依存がますます強くなるように訓練されている。

視覚が本当に新しい入口になれるかどうかは確定していない。ハードウェアの形も成熟していない。ただ、きわめて統一された競争の場の中で、Chance AIは少なくとも、問題を再び開かれたものにしようとしている。みんなと同じように、インタラクションをただ一つのボックスに押し込め続けるのではなく。

認識から意味の推論へ

Chance AIの本当の非コンセンサスは、カメラを使っていることにあるのではない。「意味を説明すること」をAIの中核能力だと位置づけた点にある。

曾熙は、Chance AIを創業したインスピレーションは子どものころに『モナ・リザ』を一度観賞した経験にさかのぼると言った。「自分が、尺幅のイメージよりずっと小さい彼女の目の前に立ち、期待で胸がいっぱいだったのに、その中の意味がまったく分からなかったんだ。“こんなに小さい絵で、何がすごいっていうの”。とにかくちらっと見て、すぐ立ち去った」。

「人間は視覚の動物であり、物語の動物でもある。私たちは生まれつき目の前の光景に引きつけられる。でも私たちを本当に動かすのは、その背後にある物語だ」。

その後、曾熙がレオナルド・ダ・ヴィンチと、この絵の背後にある物語をさらに深く知る機会を得て、ついにそれがなぜ人類文明の宝として呼ばれるのかを理解した。

曾熙は、Chance AIの使命はテクノロジーによって人々がこれらの隠れた物語を見つけられるようにし、人と世界との間の隔たりをなくすことだと述べた。なお「Chance」という名前は、「機会(opportunity)」を表すだけでなく、「偶然性(contingency)」も意味している。

彼の見方では、生物の進化の過程は偶然性に依存し、人間の知識や創意の誕生もまた、そうした偶然の衝突から生まれることが多い。Chance AIは、視覚と物語をつなぐことで、これらの知の交わりを加速させ、あらゆる視覚体験をより深く、より意義あるものにしたいのだ。

振り返ると、過去1年で業界全体がマルチモーダルの方向へ大きく進んだ。主流モデルは画像の認識、アノテーション、説明の精度がますます高まっている。だが曾熙の考えでは、これらの能力にはほぼ共通の上限がある。つまり「これは何か」を言語化することはできても、「なぜ重要なのか」まで説明するのは難しいということだ。

人間の世界理解は、事実のレベルにとどまったことがない。映画の解説、球場の解説、旅行案内、あるいはアート解説など、人がこうした役割を必要とするのは、それが事実を意味へ変換し、情報を解凍して物語にし、見たものをより大きな文化体系と結びつけてくれるからだ。そういう意味では、視覚は一種の推論のやり方でもある。

Chance AIのプロダクトはここで明確な選択をした。客観的な説明を出すことに満足するのではなく、ある物体の知識の背景、文化的な文脈、社会的合意までを動員しようとするのだ。

曾熙は『ウォール・ストリート・チョンウェン(华尔街见闻)』で例を挙げた。ある石は、もはや「コンクリートの上に置かれた巨大な岩」ではない。ロサンゼルスのLACMAにあるLevitatedMassであり、1300万ドルをかけて運ばれた公共アートであり、アメリカの都市の階層構造に関する隠喩でもある。あるビルは、「未来的な超高層ビル」ではなく、ザハ・ハディドの遺作の一つであり、紫荊花がつぼみを開こうとしている象徴だ。

こうした説明は、モデルが自動生成するものではなく、能動的な意味推論だ。その前提は、モデルが介入し、説明し、一定の主観的リスクを負うことを厭わないということにある。これはまさに主流モデルが最もやりたがらないことだ。

業界の見方では、大手のモデルの戦略は非常に保守的で、安全で標準化された、争いのない情報を提供する傾向がある。だが説明そのものは主観性を含み、さらに論争も意味する。それは大規模な商用プロダクトにとってリスクを拡大させる。

だから「意味推論」はずっと業界のグレーゾーンだった。大企業がやらないからといって、できないわけではない。むしろやるとコストがかかる可能性があるだけだ。Chance AIのポジショニングにより、そうした「不確かな説明」を引き受ける能力があり、また「視覚理解」という道で他よりもさらに深く踏み込める。

とはいえ、この方式の限界も明らかだ。文化的な文脈にはズレが起きうるし、意味の語りが新しい「AI占い」になってしまう可能性もある。モデルが「説明」に進むほど、深さと正確性の間でバランスを取る必要がある。大手企業にとってそれは冒せないリスクであり、Chanceにとってそれは引き受けるべき境界だ。

しかしまさにそれゆえに、Chanceは巨頭たちが最も踏み込みたくない領域に立っている分、まれな時間的ウィンドウを持っている。Chanceが答えようとしているのは「AIは人の理解力を高められるのか」だ。そして確かに、それは一部の人々の本当のニーズを突いている。情報があふれる世界では、答えよりも判断が希少で、理解がスピードより重要になるからだ。

Chance AIの課題は、そのルートが忍耐を要し、エコシステムを要し、ハードウェアを要し、文化的な習慣の移行を要することだ。その強みは、他よりも早く気づいた点にある。AIの次の入口の変化は、もしかすると視覚で起こるかもしれない、ということだ。

すべての企業が言語モデルに賭けている時代において、この判断は孤独に見える。だからこそ記録される価値がある。

リスク提示および免責条項

        市場にはリスクがあるため、投資には慎重さが必要です。この記事は個人の投資助言を構成するものではなく、個別ユーザーの特別な投資目標、財務状況、またはニーズは考慮されていません。ユーザーは、この記事に含まれるいかなる意見、見解、または結論が、自身の特定の状況に適合するかどうかを検討すべきです。以上に基づいて投資する場合、責任は自己に帰属します。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン