Warum ist modulare Multimodalität eine Illusion von Web3 AI?

星球日报

2025-06-18 12:46:59

Originalautor: @BlazingKevin_, der Forscher bei Movemaker

Die Evolution multimodaler Modelle hat kein Chaos gebracht, sondern die technischen Barrieren der Web2-KI vertieft – von der semantischen Ausrichtung bis zum visuellen Verständnis, von der hochdimensionalen Einbettung bis zur Merkmalsfusion integrieren komplexe Modelle verschiedene modale Ausdrücke in einer noch nie dagewesenen Geschwindigkeit, um ein zunehmend geschlossenes KI-Hochland aufzubauen. Auch der US-Aktienmarkt stimmte mit den Füßen ab, egal ob es sich um Währungsaktien oder KI-Aktien handelte, sie kamen aus einer Welle des Bullenmarktes. Und diese Hitzewelle hat nichts mit Krypto zu tun. Die Web3-KI-Versuche, die wir gesehen haben, insbesondere die Entwicklung der Richtung des Agenten in den letzten Monaten, sind fast völlig falsch: Das Wunschdenken, eine dezentrale Struktur zu verwenden, um ein multimodales modulares System im Web2-Stil zusammenzustellen, ist in Wirklichkeit eine doppelte Fehlausrichtung von Technologie und Denken. Bei den heutigen hochgradig gekoppelten Modulen, der höchst instabilen Funktionsverteilung und dem zunehmend konzentrierten Bedarf an Rechenleistung kann die multimodale Modularisierung im Web3 einfach keinen Bestand haben. Lassen Sie uns darauf hinweisen: In der Zukunft der Web3-KI geht es nicht um Nachahmung, sondern um strategische Umwege. Von der semantischen Ausrichtung hochdimensionaler Räume, über den Informationsengpass im Aufmerksamkeitsmechanismus, bis hin zur Merkmalsausrichtung unter heterogener Rechenleistung werde ich sie nacheinander erweitern, um zu erklären, warum Web3-KI die Landschaft nutzen sollte, um die Stadt als taktisches Programm zu umgeben.

Web3 AI basiert auf einem flachen multimodalen Modell, wobei die Semantik nicht ausgerichtet ist, was zu einer schlechten Leistung führt

In modernen Web2-AI-Multimodal-Systemen bezieht sich “semantische Ausrichtung” darauf, Informationen aus verschiedenen Modalitäten (wie Bildern, Texten, Audios, Videos usw.) in denselben oder in einander umwandelbaren semantischen Raum zu überführen, sodass das Modell in der Lage ist, die inneren Bedeutungen dieser ursprünglich unterschiedlichen Signale zu verstehen und zu vergleichen. Zum Beispiel muss ein Bild einer Katze und der Satz “a cute cat” im hochdimensionalen Einbettungsraum so projiziert werden, dass sie sich näherkommen, damit es bei der Suche, der Generierung oder dem Schließen möglich ist, “Bilder sprechen zu lassen” und “Töne mit Bildern assoziieren zu können”.

Nur unter der Voraussetzung, dass ein hochdimensionaler Einbettungsraum realisiert wird, hat es Sinn, den Arbeitsablauf in verschiedene Module zu unterteilen, um Kosten zu senken und die Effizienz zu steigern. Im Web3 Agent-Protokoll kann jedoch kein hochdimensionales Einbetten erreicht werden, da Modularität eine Illusion von Web3 AI ist.

Wie versteht man den hochdimensionalen eingebetteten Raum? Stellen Sie sich den “hochdimensionalen eingebetteten Raum” als ein Koordinatensystem vor – wie bei XY-Koordinaten auf einer Ebene können Sie einen Punkt mit einem Zahlenpaar lokalisieren. Es ist nur so, dass in unserer üblichen zweidimensionalen Ebene ein Punkt vollständig durch zwei Zahlen (x, y) bestimmt ist; Im “hochdimensionalen” Raum wird jeder Punkt durch mehrere Zahlen beschrieben, die 128, 512 oder sogar Tausende von Zahlen sein können.

Schritt für Schritt, in drei Phasen zu verstehen:

Zweidimensionales Beispiel:

Denke daran, dass du die Koordinaten mehrerer Städte auf der Karte markiert hast, zum Beispiel Peking (116.4, 39.9), Shanghai (121.5, 31.2) und Guangzhou (113.3, 23.1). Jede Stadt entspricht hier einem “zweidimensionalen Einbettungsvektor” (embedding vector): Die zweidimensionalen Koordinaten kodieren geografische Standortinformationen in Zahlen.

Wenn Sie die “Ähnlichkeit” zwischen Städten messen möchten - nahe beieinander liegende Städte auf der Karte befinden sich oft in derselben Wirtschafts- oder Klimazone - können Sie einfach die euklidische Distanz ihrer Koordinaten vergleichen. 2. In mehrere Dimensionen erweitern:

Angenommen, Sie möchten nicht nur die Position im “geografischen Raum” beschreiben, sondern auch einige “Klimaeigenschaften” (Durchschnittstemperatur, Niederschlagsmenge), “Bevölkerungsmerkmale” (Bevölkerungsdichte, BIP) usw. Dann können Sie jeder Stadt einen Vektor zuweisen, der 5, 10 oder sogar mehr Dimensionen enthält.

Die 5-dimensionalen Vektoren in Guangzhou können z. B. [ 113,3, 23,1, 24,5, 1700, 14,5 ] sein, die jeweils den Längengrad, den Breitengrad, die Durchschnittstemperatur, die jährliche Niederschlagsmenge (mm) und den Wirtschaftsindex darstellen. Dieser “mehrdimensionale Raum” ermöglicht es Ihnen, Städte nach mehreren Dimensionen wie Geographie, Klima, Wirtschaft usw. gleichzeitig zu vergleichen: Wenn die Vektoren zweier Städte nahe beieinander liegen, bedeutet dies, dass sie sich in all diesen Attributen sehr ähnlich sind. 3. Wechsel zu Semantik – Warum „Einbetten“: In der natürlichen Sprachverarbeitung (NLP) oder der Computer Vision möchten wir auch “Wörter”, “Sätze” oder “Bilder” in einen solchen mehrdimensionalen Vektor abbilden, sodass “ähnlich bedeutende” Wörter oder Bilder im Raum näher beieinander liegen. Dieser Abbildungsprozess wird “Embedding” genannt. Nehmen wir zum Beispiel an, ein Modell so zu trainieren, dass es “Katze” auf einen 300-dimensionalen Vektor v₁, “Hund” auf einen anderen Vektor v₂ und “irrelevante” Wörter wie “Wirtschaft” auf v₃ abbildet. In diesem 300-dimensionalen Raum ist dann der Abstand zwischen v₁ und v₂ klein (da es sich bei beiden um Tiere handelt und oft an ähnlichen Orten auftritt), und der Abstand v₁ ist groß.
Wenn das Modell auf einer großen Menge an Texten oder Bild-Text-Paaren trainiert wird, entsprechen die gelernten Dimensionen nicht direkt erklärbaren Eigenschaften wie „Längengrad“ oder „Breitengrad“, sondern stellen eine Art „implizite semantische Merkmale“ dar. Einige Dimensionen könnten die grobe Unterscheidung „Tier vs. Nicht-Tier“ erfassen, andere könnten zwischen „Haustier vs. Wildtier“ unterscheiden, und wieder andere könnten mit dem Gefühl „niedlich vs. mächtig“ korrespondieren… Kurz gesagt, Hunderte oder Tausende von Dimensionen arbeiten gemeinsam, um die verschiedenen komplexen und verwobenen semantischen Ebenen zu kodieren.

Was ist der Unterschied zwischen hohen und niedrigen Dimensionen? Nur eine ausreichende Anzahl von Dimensionen kann eine Vielzahl miteinander verflochtener semantischer Merkmale aufnehmen, und nur hohe Dimensionen können dafür sorgen, dass sie eine klarere Position in ihren jeweiligen semantischen Breitengraden einnehmen. Wenn die Semantik nicht unterschieden werden kann, d.h. die Semantik nicht ausgerichtet werden kann, “quetschen” sich verschiedene Signale im niedrigdimensionalen Raum gegenseitig, was zu häufigen Verwirrungen beim Abrufen oder Klassifizieren des Modells führt, und die Genauigkeit wird stark reduziert. Zweitens ist es schwierig, subtile Unterschiede in der Phase der Strategieerstellung zu erfassen, und es ist leicht, wichtige Handelssignale zu übersehen oder die Risikoschwelle falsch einzuschätzen, was die Performance der Renditen direkt nach unten zieht. Darüber hinaus wird eine modulübergreifende Zusammenarbeit unmöglich, jeder Agent arbeitet unabhängig, das Phänomen der Informationsinseln ist gravierend, die allgemeine Reaktionsverzögerung nimmt zu und die Robustheit wird schlecht. Schließlich hat die niedrigdimensionale Struktur angesichts komplexer Marktszenarien fast keine Kapazität, Daten aus mehreren Quellen zu übertragen, und die Stabilität und Skalierbarkeit des Systems sind schwer zu garantieren, und der langfristige Betrieb wird zwangsläufig in Leistungsengpässe und Wartungsschwierigkeiten geraten, was zu einer großen Lücke zwischen der Leistung des Produkts nach der Landung und der ursprünglichen Erwartung führt.

Können Web3-KI oder Agent-Protokolle also einen hochdimensionalen Einbettungsraum erreichen? Um die Frage zu beantworten, wie ein hochdimensionaler Raum erreicht werden kann, erfordert der traditionelle Sinn von “hochdimensional”, dass jedes Subsystem, wie z. B. Marktintelligenz, Strategieerstellung, -ausführung und -implementierung sowie Risikokontrolle, aufeinander abgestimmt ist und sich in der Datenrepräsentation und im Entscheidungsprozess ergänzt. Die meisten Web3-Agenten kapseln jedoch nur vorgefertigte APIs (CoinGecko, DEX-Schnittstellen usw.) in unabhängige “Agenten” ein, denen ein einheitlicher zentraler Einbettungsraum und ein modulübergreifender Aufmerksamkeitsmechanismus fehlen, was zu Informationen führt, die nicht aus mehreren Blickwinkeln und Ebenen zwischen Modulen interagieren können und nur einer linearen Pipeline folgen können, die eine einzige Funktion zeigt und keine allgemeine Closed-Loop-Optimierung bilden kann.

Viele Agenten rufen direkt externe Schnittstellen auf, ohne die zurückgegebenen Daten ausreichend anzupassen oder Merkmalsengineering durchzuführen. Zum Beispiel nimmt der Marktanalyse-Agent einfach nur den Preis und das Handelsvolumen, der Handelsausführungs-Agent gibt nur basierend auf den Schnittstellenparametern Aufträge auf, und der Risikokontroll-Agent schlägt nur basierend auf einigen Schwellenwerten Alarm. Sie erfüllen ihre jeweiligen Aufgaben, mangeln jedoch an multimodaler Fusion und tiefem semantischen Verständnis derselben Risikoereignisse oder Marktsignale, was dazu führt, dass das System bei extremen Marktentwicklungen oder grenzüberschreitenden Chancen nicht in der Lage ist, schnell umfassende und vielschichtige Strategien zu entwickeln.

Daher ist die Forderung an die Web3-KI, einen hochdimensionalen Raum zu erreichen, gleichbedeutend mit der Anforderung, dass das Agent-Protokoll alle beteiligten API-Schnittstellen entwickelt, was seiner ursprünglichen Absicht der Modularisierung zuwiderläuft, und das modulare multimodale System, das von kleinen und mittleren Unternehmen in Web3-KI beschrieben wird, kann einer Überprüfung nicht standhalten. Die hochdimensionale Architektur erfordert ein einheitliches End-to-End-Training oder eine kollaborative Optimierung: Von der Signalerfassung über die Strategieberechnung bis hin zur Ausführung und Risikokontrolle teilen sich alle Verknüpfungen die gleichen Repräsentations- und Verlustfunktionen. Die “Modul-als-Plug-in”-Idee des Web3-Agenten hat die Fragmentierung verschärft – jedes Agent-Upgrade, jede Bereitstellung und jedes Parameter-Tuning wird in einem eigenen Silo abgeschlossen, das nur schwer synchron zu iterieren ist, und es gibt keinen effektiven zentralisierten Überwachungs- und Feedback-Mechanismus, was zu steigenden Wartungskosten und eingeschränkter Gesamtleistung führt.

Um ein vollwertiges intelligentes System mit branchenspezifischen Barrieren zu realisieren, sind End-to-End-Kooperationsmodellierung, modulübergreifende einheitliche Einbettung sowie systematisches Engineering für kooperatives Training und Deployment erforderlich, um Durchbrüche zu erzielen. Allerdings gibt es derzeit auf dem Markt keinen solchen Schmerzpunkt, folglich auch keine Marktnachfrage.

In einem niederdimensionalen Raum kann der Aufmerksamkeitsmechanismus nicht präzise entworfen werden

Multimodale Modelle auf hohem Niveau müssen ausgeklügelte Aufmerksamkeitsmechanismen entwickeln. Der “Aufmerksamkeitsmechanismus” ist im Wesentlichen eine Möglichkeit der dynamischen Zuweisung von Rechenressourcen, die es dem Modell ermöglicht, sich bei der Verarbeitung einer modalen Eingabe selektiv auf die relevantesten Teile zu “konzentrieren”. Die gebräuchlichsten sind die Mechanismen der Selbstaufmerksamkeit und der Kreuzaufmerksamkeit im Transformer: Die Selbstaufmerksamkeit ermöglicht es dem Modell, die Abhängigkeiten zwischen Elementen in einer Sequenz zu messen, z. B. die Bedeutung jedes Wortes im Text gegenüber anderen Wörtern; Transattention ermöglicht es Informationen aus einer Modalität (z. B. Text), zu entscheiden, welche Bildmerkmale beim Dekodieren oder Generieren einer anderen Modalität (z. B. der Merkmalssequenz eines Bildes) “gesehen” werden sollen. Mit der Multi-Head-Aufmerksamkeit kann das Modell mehrere Ausrichtungen gleichzeitig in verschiedenen Unterräumen lernen, um komplexere und feinkörnigere Assoziationen zu erfassen.

Die Prämisse des Aufmerksamkeitsmechanismus ist, dass Multimodalität hohe Dimensionen hat, und im hochdimensionalen Raum kann der ausgeklügelte Aufmerksamkeitsmechanismus in kürzester Zeit den Kernteil aus dem massiven hochdimensionalen Raum finden. Bevor wir erklären, warum der Aufmerksamkeitsmechanismus in einem hochdimensionalen Raum platziert werden muss, um eine Rolle zu spielen, verstehen wir zunächst den Prozess der Web2-KI, der durch den Transformer-Decoder bei der Gestaltung des Aufmerksamkeitsmechanismus dargestellt wird. Die Kernidee besteht darin, dass das Modell bei der Verarbeitung von Sequenzen (Text, Bildfelder, Audioframes) jedem Element dynamisch “Aufmerksamkeitsgewichte” zuweist, sodass es sich auf die relevantesten Informationen konzentrieren kann, anstatt sie blind gleich zu behandeln.

Um es einfach auszudrücken: Wenn man den Aufmerksamkeitsmechanismus mit einem Auto vergleicht, ist das Entwerfen von Query-Key-Value das Entwerfen des Motors. Q-K-V ist der Mechanismus, der uns hilft, die Schlüsselinformationen zu bestimmen, Abfrage bezieht sich auf die Abfrage ( “wonach suche ich” ), Schlüssel bezieht sich auf den Index ( “welches Label habe ich” ), Wert bezieht sich auf den Inhalt (" Was gibt es hier?", ). Bei einem multimodalen Modell kann es sich bei der Eingabe in das Modell um einen Satz, ein Bild oder eine Audiodatei handeln. Um den benötigten Inhalt im dimensionalen Raum abzurufen, werden diese Eingaben in die kleinsten Einheiten geschnitten, z. B. in ein Zeichen, einen kleinen Block mit einer bestimmten Pixelgröße oder ein Stück Audioframe, und das multimodale Modell generiert Abfrage, Schlüssel und Wert für diese minimalen Einheiten für die Aufmerksamkeitsberechnung. Wenn das Modell einen bestimmten Ort verarbeitet, verwendet es die Abfrage dieser Position, um die Schlüssel aller Positionen zu vergleichen, zu bestimmen, welche Tags am besten zu den aktuellen Anforderungen passen, und dann den Wert aus der entsprechenden Position entsprechend dem Grad der Übereinstimmung zu extrahieren und die Kombination nach Wichtigkeit zu gewichten, und schließlich eine neue Darstellung zu erhalten, die nicht nur ihre eigenen Informationen enthält, sondern auch den relevanten Inhalt der ganzen Welt integriert. Auf diese Weise kann jeder Output je nach Kontext dynamisch “questioned-retrieved-integrated” werden, um eine effiziente und genaue Informationsfokussierung zu erreichen.

Auf der Grundlage dieser Engine werden verschiedene Teile hinzugefügt und “globale Interaktion” und “kontrollierbare Komplexität” geschickt kombiniert: Das skalierte Punktprodukt sorgt für numerische Stabilität, der parallele reichhaltige Ausdruck mehrerer Köpfe, die Positionscodierung bewahrt die Sequenzreihenfolge, spärliche Varianten berücksichtigen die Effizienz, Residuen und Normalisierung helfen bei stabilem Training und Cross-Attention eröffnet die Multimodalität. Diese modularen, schichtweisen Designs ermöglichen es Web2-KI, über starke Lernfähigkeiten zu verfügen und effizient in einem erschwinglichen Bereich von Rechenleistung zu arbeiten, wenn eine Vielzahl von sequentiellen und multimodalen Aufgaben bewältigt wird.

Warum kann modulare Web3-KI keine einheitliche Aufmerksamkeitsplanung erreichen? Erstens beruht der Aufmerksamkeitsmechanismus auf einem einheitlichen Abfrage-Schlüssel-Wert-Raum, und alle Eingabe-Features müssen demselben hochdimensionalen Vektorraum zugeordnet werden, um die dynamischen Gewichtungen aus dem Punktprodukt zu berechnen. Unabhängige APIs geben jedoch unterschiedliche Formate und unterschiedliche Verteilungen von Daten zurück - Preis, Bestellstatus, Schwellenwertalarme - ohne eine einheitliche Einbettungsschicht und können keinen Satz interaktiver Q/K/V bilden. Zweitens ermöglicht die Multi-Head-Aufmerksamkeit, dass verschiedene Informationsquellen parallel auf der gleichen Ebene zur gleichen Zeit beachtet werden, und dann werden die Ergebnisse aggregiert. Unabhängige APIs rufen jedoch oft “zuerst A auf, dann B und dann C auf”, und die Ausgabe jedes Schritts ist nur die Eingabe des nächsten Moduls, dem die Fähigkeit zur parallelen und mehrkanaligen dynamischen Gewichtung fehlt und das natürlich nicht die Feinplanung der Bewertung und Synthese aller Positionen oder Modalitäten gleichzeitig im Aufmerksamkeitsmechanismus simulieren kann. Schließlich weist ein echter Aufmerksamkeitsmechanismus jedem Element dynamisch Gewichtungen zu, die auf dem Gesamtkontext basieren. Im API-Modus können Module nur den “unabhängigen” Kontext sehen, wenn sie aufgerufen werden, und es gibt keinen zentralen Kontext, der in Echtzeit miteinander geteilt wird, so dass es unmöglich ist, eine globale Korrelation und Fokussierung über Module hinweg zu erreichen.

Daher ist es unmöglich, eine “einheitliche Aufmerksamkeitsplanung”-Fähigkeit wie bei einem Transformer zu entwickeln, wenn man nur verschiedene Funktionen in diskrete APIs verpackt - ohne gemeinsame Vektorrepräsentation, ohne paralleles Gewicht und Aggregation. Es ist wie ein Auto mit einem leistungsschwachen Motor, das sich durch Umbauten nur schwer verbessern lässt.

Die modulare Zusammenstellung der diskreten Typen führt dazu, dass die Merkmalsfusion auf einer oberflächlichen statischen Zusammenfügung bleibt.

“Feature Fusion” bezieht sich auf die weitere Kombination der nach der Verarbeitung verschiedener Modalitäten erhaltenen Merkmalsvektoren auf Basis von Alignment und Attention, um sie direkt für nachgelagerte Aufgaben (Klassifikation, Abruf, Generierung usw.) zu verwenden. Die Fusionsmethoden können einfach sein, wie z.B. Verkettung oder gewichtete Summierung, oder komplexer, wie bilineare Pooling, Tensorzerlegung oder sogar dynamische Routing-Techniken. Höhere Methoden beinhalten das abwechselnde Durchführen von Alignment, Attention und Fusion in mehrschichtigen Netzwerken oder den Aufbau flexiblerer Nachrichtenübertragungspfade zwischen intermodalen Merkmalen durch Graph-Neuronale Netzwerke (GNN), um eine tiefere Interaktion von Informationen zu ermöglichen.

Es versteht sich von selbst, dass Web3 AI sich natürlich in der einfachsten Phase des Zusammensetzens befindet, da die Fusion dynamischer Merkmale die Voraussetzung für hochdimensionale Räume und präzise Aufmerksamkeitsmechanismen ist. Wenn diese Voraussetzungen nicht gegeben sind, kann die letztendliche Phase der Merkmalsfusion auch keine herausragende Leistung erbringen.

Web2-KI neigt zu einem gemeinsamen Ende-zu-Ende-Training: Alle modalen Merkmale wie Bilder, Text und Audio werden gleichzeitig im selben hochdimensionalen Raum verarbeitet, und das Modell lernt automatisch die optimalen Fusionsgewichte und Interaktionsmodi in Vorwärts- und Rückwärtspropagation durch Co-Optimierung mit der nachgelagerten Aufgabenschicht durch die Aufmerksamkeitsschicht und die Fusionsschicht. Web3-KI hingegen verwendet ein diskreteres Modul-Spleißen, indem verschiedene APIs wie Bilderkennung, Markterfassung und Risikobewertung in unabhängigen Agenten gekapselt werden und dann einfach die Labels, Werte oder Schwellenwertalarme, die sie ausgeben, zusammengefügt und umfassende Entscheidungen per Mainline-Logik oder manuell getroffen werden, was kein einheitliches Trainingsziel und keinen Gradientenfluss zwischen den Modulen erfordert.

Bei der Web2-KI verlässt sich das System auf den Aufmerksamkeitsmechanismus, um die Wichtigkeitswerte verschiedener Merkmale in Echtzeit entsprechend dem Kontext zu berechnen und die Fusionsstrategie dynamisch anzupassen. Multi-Head-Attention kann auch mehrere verschiedene Merkmalsinteraktionsmuster parallel auf derselben Ebene erfassen, wobei lokale Details und globale Semantik berücksichtigt werden. Auf der anderen Seite legt die Web3-KI oft die Gewichtung von “Bild × 0,5 + Text × 0,3 + Preis × 0,2” im Voraus fest oder verwendet einfache if/else-Regeln, um zu bestimmen, ob eine Fusion durchgeführt werden soll oder gar nicht, und stellt nur die Ausgabe jedes Moduls zusammen dar, was an Flexibilität mangelt.

Web2-KI ordnet alle modalen Merkmale einem hochdimensionalen Raum von mehreren tausend Dimensionen zu, und der Fusionsprozess besteht nicht nur aus Vektor-Stitching, sondern auch aus einer Vielzahl von Wechselwirkungen höherer Ordnung wie Addition und bilinearem Pooling – jede Dimension hat das Potenzial, einer latenten Semantik zu entsprechen, die es dem Modell ermöglicht, tiefe, komplexe cross-modale Assoziationen zu erfassen. Im Gegensatz dazu enthält die Agentenausgabe der Web3-KI oft nur wenige Schlüsselfelder oder Metriken, und die Merkmalsdimensionen sind extrem gering, was es fast unmöglich macht, subtile Informationen wie “warum der Inhalt des Bildes mit der Bedeutung des Textes übereinstimmt” oder “die subtile Korrelation zwischen Preisschwankungen und Stimmungsbewegungen” zu vermitteln.

In der Web2-KI wird der Verlust von nachgelagerten Aufgaben kontinuierlich durch die Aufmerksamkeitsschicht und die Fusionsschicht auf alle Teile des Modells zurückübertragen, wodurch automatisch angepasst wird, welche Merkmale verstärkt oder gehemmt werden sollen, was eine Closed-Loop-Optimierung bildet. Auf der anderen Seite verlässt sich die Web3-KI auf manuelle oder externe Prozesse, um Parameter zu bewerten und abzustimmen, nachdem die Ergebnisse der API-Aufrufe gemeldet wurden, und es fehlt an automatisiertem End-to-End-Feedback, was es schwierig macht, die Konvergenzstrategie online zu iterieren und zu optimieren.

Die Barrieren in der KI-Branche vertiefen sich, aber die Schmerzpunkte sind noch nicht aufgetaucht

Aufgrund der Notwendigkeit, crossmodales Alignment, ausgefeiltes Attention Computing und hochdimensionale Merkmalsfusion im End-to-End-Training zu berücksichtigen, ist das multimodale System der Web2-KI oft ein extrem großes Engineering-Projekt. Es erfordert nicht nur massive, vielfältige und gut kommentierte modalübergreifende Datensätze, sondern auch Wochen oder sogar Monate des Trainings auf Tausenden von GPUs. In Bezug auf die Modellarchitektur integriert es verschiedene neueste Netzwerkdesignkonzepte und Optimierungstechnologien. Im Hinblick auf die Projektumsetzung ist es auch notwendig, eine skalierbare verteilte Schulungsplattform, ein Überwachungssystem, eine Modellversionsverwaltung und eine Bereitstellungspipeline aufzubauen. Bei der Erforschung und Entwicklung von Algorithmen ist es notwendig, weiterhin effizientere Aufmerksamkeitsvarianten, robustere Ausrichtungsverluste und leichtere Fusionsstrategien zu untersuchen. Eine solche systematische Full-Link- und Full-Stack-Arbeit stellt extrem hohe Anforderungen an Kapital, Daten, Rechenleistung, Talente und sogar organisatorische Zusammenarbeit, stellt also eine starke Branchenbarriere dar und hat auch die Kernwettbewerbsfähigkeit geschaffen, die bisher von einigen wenigen Führungsteams gemeistert wurde.

Als ich im April chinesische KI-Anwendungen überprüfte und WEB3-KI verglich, erwähnte ich einen Standpunkt: In Branchen mit starken Barrieren kann Crypto Durchbrüche erzielen, was bedeutet, dass einige Branchen in traditionellen Märkten sehr ausgereift waren, aber es gibt große Schmerzpunkte, hohe Reife bedeutet, dass es genügend Benutzer gibt, die mit ähnlichen Geschäftsmodellen vertraut sind, und große Schmerzpunkte bedeuten, dass Benutzer bereit sind, neue Lösungen auszuprobieren, dh eine starke Bereitschaft, Krypto zu akzeptieren, beides ist unverzichtbar, das heißt, im Gegenteil. Wenn es sich nicht um eine Branche handelt, die auf dem traditionellen Markt bereits sehr ausgereift ist, aber es gibt große Schmerzpunkte, wird Krypto nicht in der Lage sein, darin Fuß zu fassen, es wird keinen Raum zum Überleben geben, und die Bereitschaft der Nutzer, sie vollständig zu verstehen, ist sehr gering, und sie verstehen ihre potenzielle Obergrenze nicht.

WEB3 AI oder jedes Kryptoprodukt unter dem Banner von PMF muss mit der Taktik entwickelt werden, die Stadt auf dem Land zu umgeben, und das Wasser sollte in kleinem Maßstab in der marginalen Position getestet werden, um sicherzustellen, dass das Fundament solide ist, und dann auf das Aufkommen des Kernszenarios, d.h. der Zielstadt, warten. Der Kern der Web3-KI liegt in der Dezentralisierung, und ihr Evolutionspfad spiegelt sich in der Kompatibilität von hoher Parallelität, geringer Kopplung und heterogener Rechenleistung wider. Dies macht Web3-KI in Szenarien wie Edge Computing vorteilhafter und eignet sich für Aufgaben mit leichtgewichtigen Strukturen, einfacher Parallelität und Anreizen, wie z. B. LoRA-Feinabstimmung, verhaltensorientierte Aufgaben nach dem Training, Crowdsourcing-Datentraining und -annotation, Training kleiner Basismodelle und kollaboratives Training von Edge-Geräten. Die Produktarchitektur dieser Szenarien ist schlank, und die Roadmap kann flexibel iteriert werden. Aber das soll nicht heißen, dass die Chance jetzt da ist, denn die Barrieren von WEB2 AI haben gerade erst begonnen, sich zu bilden, das Aufkommen von Deepseek hat den Fortschritt der multimodalen komplexen Aufgaben-KI stimuliert, die der Wettbewerb führender Unternehmen ist, und es ist das frühe Stadium der Entstehung von WEB2 AI Dividenden, ich denke, dass erst wenn die Dividenden von WEB2 AI verschwinden, die Schmerzpunkte, die sie hinterlassen, die Möglichkeiten sind, in die WEB3 AI einzudringen, genau wie die ursprüngliche Geburt von DeFi, und bevor die Zeit kommt, WEB3 AI Wir müssen das Abkommen, das “ländliche Gebiete um Städte umgibt”, sorgfältig identifizieren, sei es, dass wir uns von der Kante abschneiden, zuerst auf dem Land (oder auf dem kleinen Markt, in der kleinen Szene) Fuß fassen, wo die Macht schwach ist und der Markt nur wenige verwurzelte Szenen hat, und allmählich Ressourcen und Erfahrungen anhäufen; Wenn dies nicht möglich ist, dann ist es schwierig, sich darauf zu verlassen, dass PMF auf dieser Grundlage einen Marktwert von 1 Milliarde US-Dollar erreicht, und solche Projekte werden nicht auf der Beobachtungsliste stehen; WIR MÜSSEN DARAUF ACHTEN, OB DAS WEB3-KI-PROTOKOLL VOLLSTÄNDIG FLEXIBEL SEIN MUSS, FLEXIBEL FÜR VERSCHIEDENE SZENARIEN, SCHNELL ZWISCHEN LÄNDLICHEN GEBIETEN WECHSELN UND SICH MIT DER SCHNELLSTEN GESCHWINDIGKEIT DER ZIELSTADT NÄHERN KANN.

Über Movemaker

Movemaker ist die erste offizielle Gemeinschaftsorganisation, die von der Aptos-Stiftung autorisiert und von Ankaa sowie BlockBooster gemeinsam ins Leben gerufen wurde, um den Aufbau und die Entwicklung des Aptos-Ökosystems in der chinesischsprachigen Region voranzutreiben. Als offizieller Vertreter von Aptos in der chinesischsprachigen Region setzt sich Movemaker dafür ein, ein vielfältiges, offenes und florierendes Aptos-Ökosystem zu schaffen, indem Entwickler, Nutzer, Kapital und zahlreiche Ökosystempartner verbunden werden.

Verzichtserklärung:

Dieser Artikel/Blog dient nur zu Informationszwecken und stellt die persönlichen Ansichten des Autors dar und stellt nicht unbedingt die Position von Movemaker dar. Dieser Artikel soll nicht Folgendes enthalten: (i) Anlageberatung oder Anlageempfehlungen; (ii) ein Angebot oder eine Aufforderung zum Kauf, Verkauf oder Halten digitaler Vermögenswerte; oder (iii) Finanz-, Buchhaltungs-, Rechts- oder Steuerberatung. Das Halten von digitalen Vermögenswerten, einschließlich Stablecoins und NFTs, ist extrem riskant, sehr volatil im Preis und kann sogar wertlos werden. Sie sollten sorgfältig abwägen, ob der Handel oder das Halten von digitalen Vermögenswerten für Sie angesichts Ihrer eigenen finanziellen Situation geeignet ist. Bitte wenden Sie sich an Ihren Rechts-, Steuer- oder Anlageberater, wenn Sie Fragen zu Ihrer spezifischen Situation haben. Die in diesem Artikel bereitgestellten Informationen, einschließlich Marktdaten und Statistiken, falls vorhanden, dienen nur zu allgemeinen Informationszwecken. Bei der Erstellung dieser Zahlen und Grafiken wurde mit angemessener Sorgfalt vorgegangen, aber es wird keine Haftung für sachliche Fehler oder Auslassungen übernommen, die in ihnen zum Ausdruck kommen.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare