Zain ShahによるFlipbookは、HTML/CSSを使わずに各画面を画像ページとしてレンダリングするAIを利用しています；クリックによって新しいビジュアルが生成され、WebSocket経由で1080pのストリーミングを行い、将来的な状態を持つUIやプログラミング用途を示唆しています。Zain Shah、元OpenAI研究者である彼と彼のチームが、ユーザーインターフェースをHTML/CSSではなくAI生成のピクセルとして直接レンダリングする実験的プロトタイプ、Flipbookをリリースしたと報告を打ち破っています。各ユーザービューは生成された画像であり、インタラクションによって新しいビジュアルが生まれます；インターフェースはピクセルベースで、テキストは画像のピクセルとして描かれ、固定されたリンクやボタンはありません。ビデオモードは、LightricksのオープンソースDiffusion TransformerモデルLTX Studioに依存し、WebSocketを通じて24fpsの1080pを配信し、Modal LabsのサーバーレスGPUによって支えられています。Shahは、現状の機能は限定的であり、視覚的な説明を目的としていると述べていますが、この作業は、より進化し続ける状態を持つモデルによって構造化されたUIやプログラミング志向のインターフェースを可能にする広範な方向性を示唆しており、Humane、Slack、Appleの元エンジニアからなるチームの協力を得ています。

AirdropBlackHole

2026-05-01 04:24:32

概要作成中

ベーティングの監視によると、元OpenAI研究者のザイン・シャーと彼のチームは、従来のHTMLやCSSのようなウェブ技術に代わる、AIモデルを直接使用して画面のピクセルを生成する実験的プロトタイプ「Flipbook」をリリースしました。ユーザーが閲覧する各「ページ」はAI生成の画像であり、画像の任意の部分をクリックすると、新しい画像が生成されてさらなる探索が可能です。インターフェース全体はHTMLコードや固定リンク、事前定義されたボタンを一切使用せず、テキストも画像内のピクセルとして表現されています。ビデオモードは、イスラエルの企業LightricksのオープンソースのDiT（Diffusion Transformer）ビデオ生成モデルLTX Studioを基にしており、WebSocketを通じて1080p、24fpsでユーザーの画面にストリーミングされるよう最適化されており、バックエンドはModal LabsのサーバーレスGPUによって支えられています。シャーは、現時点でのFlipbookの機能は限定的であり、チームは視覚的な説明を中心に設計していると述べましたが、これはより大きな方向性を示しています。モデルがより正確で状態を持つようになるにつれて、プログラミングシナリオを含む構造化されたUIに拡大していく可能性があります。シャーは以前、OpenAIでAIとロボティクスの研究に従事し、その後サムスンのクリエイティブテクノロジーの専門家を務め、またYC S13の卒業生でもあります。チームメンバーには、HumaneやSlackの元エンジニア、エディ・ジャオ、Appleの元エンジニアのドリュー・オキャーも含まれています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。