Vollständige Überprüfung: Wie wurde Manus geboren?

Fortgeschrittene3/17/2025, 7:40:21 AM
Dieser Artikel bietet eine eingehende Analyse des Geburtsursprungs von Manus.im, der Produktkonzepte und seiner innovativen Praktiken auf dem Gebiet der KI.

Die unternehmerische Geschichte, die im letzten Jahr die meiste spirituelle Nahrung erhielt, stammt von Dify-Gründer Zhang Luyu.

Das erste Mal, dass ich ihn traf, war bei der Veranstaltung "Xixi Taoismus" im Jahr 2023. Unter den prominenten Namen vor Ort war Zhang Luyu unauffällig. Als wir uns 2024 wieder trafen, war Dify bereits eine andere Geschichte - ein Unternehmer ohne glamourösen Hintergrund, der eines der erfolgreichsten KI-Open-Source-Produkte der Welt entwickelte, obwohl alle Zweifel am Geschäftsmodell hatten.

Was ist mit diesem Unternehmen in einem Jahr passiert, wie zum Beispiel seine unerwartete Popularität auf dem japanischen Markt, die "konventionell und leicht zu verteidigen, aber schwer anzugreifen" ist, half mir, "Unternehmertum" weiter zu verstehen. Es ist größtenteils Zufall und erfordert auch Glück. Letztendlich benötigen Sie die Fähigkeit, einen Ausweg aus ständigen Veränderungen und Rückschlägen zu finden.

Nun, eine ähnliche Geschichte ereignete sich bei einem anderen prominenten Unternehmer—Manus.im Xiao Hong und seinem Team.

Vor vier Monaten erwähnte Xiao Hong eine Verwirrung: „Das Team ist gut darin, von 0 auf 1 zu gehen und hat eine starke Fähigkeit, Chancen zu ergreifen. Sobald es jedoch von 1 auf N übergeht, ist der Zustand nicht mehr so gut.“

In seiner bisherigen Erfahrung haben die meisten unternehmerischen Projekte relativ stabile und beträchtliche Einnahmen erzielt, und seine letzte Firma wurde auch erfolgreich übernommen. Im Jahr 2023 nutzte sein neues Unternehmen "Butterfly Effect" sogar ein Browser-Plug-in, Monica.im, um im KI-Erzählbereich von Hunderten von Modellen zu konkurrieren und zu einer der am schnellsten wachsenden KI-Anwendungen mit ausgezeichneter Produkt Erfahrung zu werden. Es scheint, dass er ein Unternehmer ist, der eine reibungslose Reise hinter sich hat. Er ist erst 32 Jahre alt, als er diese Dinge tun kann.

Aber in Wirklichkeit fühlte er sich nicht zu glücklich. Aus Xiaos Sicht sind die sogenannten „kontinuierlichen Ausstiege von Unternehmern“ und das sogenannte erfrischende Gefühl, ständig von 0 auf 1 zu gehen, wie eine Belagerung - die Fähigkeit, Chancen von 0 auf 1 zu ergreifen, ist sehr stark und sehr befriedigend, aber andererseits machst du dir auch Sorgen, ob du es wieder tun musst.

Im Jahr 2024 werden Brancheninsider glauben, dass KI-Assistenten mit Speicherfunktionen wie Monica.im Druck von starken Gegnern wie Doubao ausgesetzt sein werden, und es wird nicht so einfach sein wie im Jahr 2023. Monica.im hat einen guten 0-zu-1, aber nicht unbedingt einen 1-zu-N-Hit.

Und der Grund, warum er verwirrt ist, liegt darin, dass "das Team wirklich schwierigere Dinge und Dinge mit höheren Decken in Angriff nehmen wird und Dinge erkunden wird, die von 1 bis N reichen können."

Früher haben viele Stimmen, die sich auf Monica.im konzentrieren, angenommen, dass dieses „etwas Schwierigeres und mit höherer Decke“ auf den KI-Browser verweist, über den schon lange gemunkelt wurde, aber vom Team noch nicht veröffentlicht wurde. Wenn man es sich jetzt ansieht, stimmt es, dass ich falsch geraten habe.

Diese schwierigere Erkundung besteht tatsächlich darin, den KI-Browser aufzugeben, der den Freigabestatus erreicht hat, nach dem nächsten "ChatGPT-Moment" bei KI-Produkten zu suchen, das Ziel eines universellen Agenten zu finden und die neueste Version von Manus.im zu erstellen.

Inwieweit Manus innovativ ist und auf welchem Niveau es in Zukunft erreichen kann, ist derzeit ein heißes Thema. Aber was es wirklich wert ist zu beobachten, ist immer noch die Richtung, die in 'Dinge gehen gegen Erwartungen' gefunden wurde, und der Prozess, die Richtung zu finden. Manus.im kann diesem Team möglicherweise nicht ermöglichen, Dinge von 1 bis N zu erreichen oder sogar den Schwung von Monica.im zu replizieren, aber genau wie der Name dieses Unternehmens - 'Schmetterlingseffekt', haben viele kleine Handlungen und Entscheidungen unabsichtlich einen tiefgreifenden Einfluss auf die Zukunft, 'Die Punkte verbinden', der Weg von morgen wird in den heutigen Erfahrungen verborgen sein.

01 Manus' einzigartige Produkt erfahrung stammt aus den gelernten lektionen beim herstellen eines "AI browsers"

Seit Mitte bis Ende des letzten Jahres ist der AI-Browser des Teams des „Schmetterlingseffekts“ zu einem „halböffentlichen“ Geheimnis in der Branche geworden. Das Produkt, das offiziell der Öffentlichkeit vorgestellt wurde, war Manus, das unaufhaltsame Aufmerksamkeit erregte.

Wenn Sie Manus persönlich erlebt haben oder das Demonstrationsvideo gesehen haben, werden Sie feststellen, dass es im Vergleich zu Chatbots oder einigen agentenähnlichen Anwendungen einen signifikanten Unterschied aufweist: Manus kann Aufgaben asynchron und parallel ausführen.

Wenn Sie eine App wie Doubao, Kimi oder etwas wie Computer Use öffnen und ihr eine Frage stellen, müssen Sie auf ihre Antwort warten. Andernfalls, wenn Sie mit ihr sprechen, während sie antwortet oder eine Aufgabe erledigt, wird die vorherige Antwort/Aufgabe unterbrochen, und Sie können nur ein A-B-A-B-Relaisgespräch mit ihr führen.

Allerdings sieht es in Manus.im immer noch wie ein Chatbot-Produkt aus, bei dem Sie 20 Fragen stellen können, damit es Aufgaben gleichzeitig ausführt. Sie können alles andere auf dem Computer machen, Videos anschauen, Dokumente schreiben, Spiele spielen usw., ohne seine Arbeit zu verzögern. Manus kann Sie benachrichtigen, sobald diese Aufgaben abgeschlossen sind oder Probleme während der Ausführung auftreten. Wenn Sie Abweichungen in seinem Denken während der Ausführung einer Aufgabe feststellen, können Sie zu jeder Zeit Anweisungswörter in das Dialogfeld hinzufügen, und es wird weiterhin über den neuen Kontext nachdenken und die Aufgabe ausführen.

Die Erfahrung ist asynchron und kann parallelisiert werden, und es fühlt sich wirklich an, als hätte man ein Team echter Praktikanten, die Ihnen bei der Arbeit helfen können.

Tatsächlich stammt das Produktarchitekturdesign von Manus für das asynchrone Erlebnis aus einer Lektion, die das Team in seinem vorherigen unveröffentlichten Produkt, dem KI-Browser, gelernt hat. Gleichzeitig ist dies auch der Grund, warum das Team viel Energie investiert hat, aber beschlossen hat, im Oktober letzten Jahres die Arbeit am Browser einzustellen.

Das Browser-Unternehmen gab am 25. Oktober 2024 bekannt, dass es die Entwicklung neuer Funktionen für den Arc-Browser einstellen und Ressourcen auf einen neuen Browser namens Dia übertragen werde, um einen einfacheren und benutzerfreundlicheren KI-Browser zu schaffen. Quelle: Arc offizielle Website

Im KI-Browser unterbricht KI ständig den Benutzer. Da es sich um ein Szenario handelt, das für einen einzelnen Benutzer konzipiert ist, kann man es einmal verwendet, nicht mehr verwenden. Wenn die KI anfängt zu arbeiten, kann man nur zusehen, wie die KI arbeitet, was schwer zu starten ist. Wenn man sieht, wie KI die Maus und den Computer wegnimmt, traut man sich nicht, sie wegzunehmen, sondern hat auch Angst, dass ein versehentliches Berühren der Tastatur oder Maus den gesamten Prozess zusammenbrechen lässt und man von vorne anfangen muss.

Dies ermöglicht dem Team, zwei Urteile zu fällen:

  1. Die direkte Verwendung des Computers zur Computernutzung ist in kurzer Zeit nicht machbar.
  2. Künstliche Intelligenz sollte einen Browser verwenden, aber nicht in Ihrem Browser. Es sollte einen eigenen Browser haben, vorzugsweise in der Cloud, und schließlich die Ergebnisse an Sie zurückmelden.

In einem Interview mit Zhang Xiaojun von Tencent Technology erwähnte Xiao Hong, dass das Team bei der Zusammenfassung der Produktformen von Jasper über ChatGPT bis Monica über Cursor bis Devin feststellte, dass der „menschliche Programmierer“ Devin sehr gut für diese asynchrone Erlebnisarchitektur geeignet war.

Anders als bei der Verwendung von Windsurf wird manchmal gefragt, ob Ihr Computer diese Bibliothek installieren muss; oder es führt eine Befehlszeilenoperation aus und fordert Sie auf, mit ja oder nein zu antworten, weil es Ihren Computer wirklich beschädigen könnte, oder es gibt einen Konflikt mit etwas anderem - es fordert Sie auf, "ja" einzugeben, um zum nächsten Schritt zu gelangen, aber es muss die Schuld weitergeben.

Daher ist das Team von Manus der Ansicht, dass der „Chatbot einen Computer in der Cloud haben sollte und der von ihm geschriebene Code und die zu überprüfenden Dinge über den Browser auf diesem Computer ausgeführt werden. Weil es sich um einen virtuellen Server handelt, spielt es keine Rolle, wenn er ausfällt, man kann einfach einen anderen bekommen. Man kann den Server sogar nach Abschluss der aktuellen Aufgabe freigeben.

Es ist erwähnenswert, dass während Devin vertikale Felder und Hardcore-Ingenieure wählte, wählte das Manus-Team allgemeine, auf Verbraucherebene liegende KI-Assistenten, einschließlich Web und App. Es handelt sich um einen allgemeinen KI-Assistenten, der Werkzeuge aufrufen und gemäß Anweisungen verschiedene Aufgaben in Arbeit und Leben abschließen kann. In Zukunft wird er auch Aufgabenergebnisse zu einem erschwinglichen Preis für Verbraucher liefern.

02 Weniger Struktur, mehr Intelligenz

Mit einer klaren Idee und einem klaren Ziel ist der nächste Schritt, die Idee umzusetzen. Wie hat Manus das gemacht?

Laut seinem Produkt-Partner Zhang Tao erfordert dies, das große Modell mit einem Computer auszustatten, ihm Systemberechtigungen zu erteilen (Zugriff auf private APIs wie Code-Depots und professionelle Datenabfrage-Websites) und ihm bestimmtes Training zu bieten.

Auf diese Weise kann KI diesen Computer verwenden, um einen Browser zu öffnen, Aktionen zur Planung von Werkzeugen durchzuführen und dann die Auswirkungen seiner Aktionen auf die reale Welt auf der Grundlage des von den Werkzeugen generierten Feedbacks zu beobachten, dann über den nächsten Schritt nachdenken, erneut Maßnahmen ergreifen und dann beobachten... Dies ist der Prozess, bei dem KI Aufgaben in Erkundung und Forschung abschließt. In dieser Zeit wird Manus auch unter Ihrem "Training" Ihre Anforderungen immer besser verstehen. In Zukunft kann es auch dann noch die "heilige Bedeutung herausfinden", wenn Sie Ihre Anforderungen nicht klar definieren, basierend auf dem in jeder Aufgabe angesammelten Wissen.

Li Bojie, Huaweis junges Genie und Gründer von Logenic AI, glaubt, dass Manus eine einzigartige Eigenschaft hat, die es von anderen Produkten unterscheidet: Es löst Probleme auf die Art von Geek-Programmierern. |Bildquelle: WeChat-Screenshot

Das Konzept der Manus-Produkte wurde im Laufe der Produktpraxis seines Teams allmählich klarer: Weniger Struktur, mehr Intelligenz (Weniger Struktur, mehr Intelligenz).

Das war auch der Moment, in dem das Manus-Team dachte: "A-Ha, warte mal!" Zum Beispiel ist dies, was dem Team im Januar dieses Jahr passiert ist:

Als Manus gebeten wurde, eine Frage zum GAIA-Testset zu beantworten: „In einem YouTube-Video-Link im Stil von National Geographic kommen verschiedene Pinguine hin und her und erscheinen und verschwinden aus dem Bildschirm. Manus wird gebeten, die maximale Anzahl von Pinguinen zu zählen, die gleichzeitig auf einem Bildschirm erscheinen. Wie viele Arten gibt es?"

Dann geschah etwas Magisches.

Manus öffnete zuerst den Video-Link, und die erste Aktion, die er ausführte, war "Drücken Sie K". Dann machte er Bildschirmfotos, um aufzuzeichnen, in welchem Bild welcher Pinguin erschien. Schließlich kam er zu dem Schluss, dass das Bild mit den meisten 3 Arten von Pinguinen erschien. Manus wird als nächstes zurückgehen, und seine nächste Aktion ist "Drücken Sie 3"... Nach abschließender Überprüfung war die Antwort 3.

Als die Menschen hinter dem Bau von Gate, sollten wir die Grenzen seiner Fähigkeiten kennen, aber für das Team ist die Realität, dass es immer Überraschungen gibt. Überraschenderweise hat Manus nicht nur die Frage richtig beantwortet, sondern auch, dass menschliche Freunde, die seit vielen Jahren Computer und Youtube benutzen, möglicherweise nicht wissen, was die Tasten 'K' und '3' auf der Tastatur sind?

Als sie die etwas benommene Szene vor sich betrachteten, folgte das Team Manus und tat es erneut. Die Taste 'K' auf der Tastatur ist die Pause-Taste, die es Manus ermöglicht, nach dem Anhalten Bildschirmfotos aufzunehmen, um aufzuzeichnen, welcher Pinguin in welchem Bild erscheint; '3' ist auch eine Verknüpfungstaste, von 0 bis 9, die jeweils 0% bis 90% der Fortschrittsleiste darstellen. 3 sind 30% der Fortschrittsleiste. Es kann genau diesen Moment des Videos lokalisieren und dann den Menschen mitteilen, wie viele Arten von Pinguinen auf diesem Bild zu sehen sind.

"Dieser Prozess unterscheidet sich von dem traditionellen Chatbot. Erstens kann er sich YouTube-Bilder ansehen anstatt Untertitel. Zweitens haben wir sogar festgestellt, dass er YouTube-Verknüpfungstasten verwendet hat. Wir waren sehr schockiert, dass er diese Frage beantwortet hat." Xiao Hong erwähnte diese Szene auch in einem früheren Interview mit Tencent Technology.

Plötzlich entdeckte ich, dass Manus nicht nur besser im Programmieren war als Menschen, sondern Manus' Wissen über das Web und Apps, die Menschen täglich nutzen, weit die Vorstellungskraft übertraf. Als allwissende und allmächtige KI kann sie alle Wege und Mittel in jedem Werkzeug verstehen und dann die optimale Methode wählen.

Dies ermöglichte es dem Team erneut, sich "Weniger Struktur, mehr Intelligenz" zu fühlen - künstliche Beschränkungen für KI zu minimieren und KI durch ihre eigene Evolution funktionieren zu lassen, anstatt ihr beizubringen, was zu tun ist.

Ganz unten auf der offiziellen Website von Gate.io wird die wichtigste Entdeckung hinter Gate.io leise präsentiert: "Weniger Struktur, mehr Intelligenz". |Screenshot-Quelle: Gate.io

Dies ist die Erklärung und das erweiterte Denken von Peak, dem Mitbegründer und Chef-Wissenschaftler von “Butterfly Effect”, zum wichtigsten ersten Prinzip hinter dem Manus-Produkt - “Weniger Struktur, mehr Intelligenz” am Tag, an dem das Manus-Produkt gestartet wurde:

Wenn Ihre Daten von hoher Qualität sind, ist Ihr Modell klug genug, Ihre Architektur flexibel genug und Ihre Ingenieurleistung solide genug, so werden Konzepte wie Computer Use, Deep Research und Coding Agent von Produktmerkmalen zu natürlicherweise aufkommenden Fähigkeiten.

Die Rückkehr zu den ersten Prinzipien gibt uns auch eine neue Möglichkeit, über die Produktform nachzudenken:· Der KI-Browser fügt der Browser nicht KI hinzu, sondern macht einen Browser für KI;
· Die KI-Suche ruft nicht ab und fasst aus dem Index zusammen, sondern ermöglicht es der KI, Informationen mit Benutzerberechtigungen zu erhalten;
· Die Bedienung der GUI reißt nicht die Kontrolle über das Gerät des Benutzers an sich, sondern ermöglicht es der KI, ihre eigene virtuelle Maschine zu haben;
Das Schreiben von Code ist nicht das Endziel, sondern ein allgemeines Mittel zur Lösung verschiedener Probleme;
· Die Schwierigkeit bei der Erstellung einer Website liegt nicht darin, ein Framework zu erstellen, sondern den Inhalt sinnvoll zu gestalten;
· Aufmerksamkeit allein reicht nicht aus. Nur durch die Befreiung der Aufmerksamkeit der Nutzer kann DAU neu definiert werden;

Durch die Entdeckung und die Praxis von „Weniger Struktur, mehr Intelligenz“ hat Manus immer wieder Ergebnisse erzielt, die alle Erwartungen übertreffen, einschließlich des Passes@1Ergebnis im GAIA-Benchmark, das das Ergebnis von OpenAI Deep Research übertrifft unter Berücksichtigung@64; zur gleichen Zeit konnte Manus in internen Tests auch direkt 76% der Szenarien von speziellen Agenturprodukten im Y Combinator W25 abdecken.

03 "Agent könnte ein Problem der "Ausrichtung" sein, anstatt ein Problem der grundlegenden Modellfähigkeiten"

Nun wird der Wert dieser Erkenntnisse auf einer größeren Skala diskutiert:

Clement Delangue, Gründer und CEO von Hugging Face, schlug die Ergebnisse von Peak zu einigen Open-Source-Grundmodellen vor, die einfach darauf trainiert sind, 'alle Fragen in einer Runde unabhängig von der Komplexität der Fragen zu beantworten'. Dies ist jedoch eine Anforderung im Chatbot-Szenario. Bereits einige Nachschulungen auf dem Agentenpfad können sofort einen großen Unterschied machen. |Screenshot-Quelle: X

Manus führt MCP (Model Context Protocol) nicht ein, ermöglicht jedoch KI, ihren eigenen Code zu schreiben, um APIs aufzurufen, um verschiedene Long-Tail-Aufgaben zu handhaben. |Screenshot-Quelle: X

In Diskussionen über Manus in den letzten Tagen war eine der häufigsten Fragen, die ich gehört habe: Ist ein 'universaler KI-Agent' machbar? Wo ist die Grenze?

Aus Peaks Sicht ist die Interaktion zwischen Menschen und der Welt tatsächlich sehr standardisiert, mit Augen, Händen und Ohren. Wenn der Aktionsraum gut definiert ist, sollte es möglich sein, einen Agenten in einen Link zu integrieren, der ursprünglich von Menschen durchgeführt wird.

Da Menschen verschiedene Tools nutzen können, um tiefe Operationen in vertikalen Feldern abzuschließen, sollte ein Agent, der selbst über ausreichend Wissen verfügt, angemessen geschult wurde und eine gute Schnittstelle zur Interaktion mit der Welt hat, in der Lage sein, wie eine Person zu arbeiten und sogar den Agenten die Verwendung eines bestimmten SaaS-Produkts ermöglichen. Zum Beispiel beinhaltet ein auf der offiziellen Website von Manus.im präsentierter Fall von Wohnungssuche tatsächlich, dass KI mit einem speziell für den Immobilienbereich entwickelten SaaS-Produkt arbeitet.

Er glaubt, dass klar definiert werden sollte, wo die Grenze des Einsatzes von Tools durch den Agenten liegt, anstatt welche Gruppe von Menschen es bedient. Manus simuliert nicht eine Person, die spezifische Dinge tut, noch ist es ein Rollenagent, aufgeteilt in F&E, Produktmanager usw.; es simuliert eine Person, die Dinge tun kann, und simuliert, wie ein Praktikant arbeitet.

Manus's Multi-Agent-System bezieht sich auf die Trennung von Planung und Ausführung.

Für den Executor (Executor) hat Manus Claude adoptiert, der vorübergehend in der Programmierung, langfristiger Planung und schrittweisen Problemlösung führend ist, und auch eine Reihe von Qwen-Modellen für das Nachtraining verwendet.

Gestern erreichte auch Manus eine strategische Zusammenarbeit mit Alibaba Tongyi Qianwen, um alle Funktionen von Manus auf inländischen Modellen und Rechenleistungsplattformen zu realisieren. |Bildquelle: Manus

Im Planungsteil hat Manus viel Arbeit geleistet.

Da die Regal-APIs oder Modelle, die derzeit auf dem Markt sind, im Wesentlichen auf Chatbot-Szenarien ausgerichtet sind, ist das Ziel des Trainings, unabhängig davon, wie komplex der Benutzer die Frage stellt, die Frage des Benutzers klar in einer Antwort zu beantworten. Dies steht jedoch tatsächlich im vollständigen Gegensatz zu der Planung, die vom Agenten erforderlich ist.

Wenn ein vorhandenes Modell auf dem Markt direkt im Agentenszenario ohne „Ausrichtung“ verwendet wird, wird dieses Modell immer nach schnellem Erfolg streben und innerhalb einer Dialogrunde ein „verwirrtes“ Ergebnis liefern, genau wie viele Stichpunktzusammenfassungen.

"Die Ausrichtungsmethoden sollten unterschiedlich sein. Unser Team glaubt, dass unterschiedliche Daten benötigt werden, um eine spezielle Ausrichtung durchzuführen", sagte Xiao Hong.

Im Oktober letzten Jahres hat Peak auch auf Zhihu den Fortschritt und das Scheitern eines Versuchs zur Reproduktion des OpenAI o1 Interessensprojekts - des Steiner Open Source-Modells - festgehalten. Tatsächlich befasste sich dieses Projekt mit der Voruntersuchung des schrittweisen Planungsteils des Manus-Planers.

Im Allgemeinen simuliert Manus eine Person, die Dinge tut. Dies ist die Produktdefinition des Teams von Manus als Allzweck-KI-Assistent. Was die Überlegungen zu seinen Grenzen betrifft, dürfte das Team sie noch erkunden und mehr Benutzerfälle benötigen.

In einem Interview mit Tencent Technology, das vor der Veröffentlichung von Manus veröffentlicht wurde, erwähnte Xiao Hong tatsächlich seine ersten Gedanken zur Vielseitigkeit von Manus. 'Ein sehr zentrales Thema oder eine sehr wichtige Verantwortung von Produktmanagern ist es, die Erwartungen der Benutzer zu kontrollieren. Nehmen wir an, es kann alles auf der Welt tun, wie zum Beispiel: Wie verdiene ich 1 Million Dollar? Dies ist keine Aufgabe, die von einem Agenten ausgeführt werden sollte. Aber wenn wir konkretere Beispiele geben können, um die Erwartungen aller vernünftiger zu machen, wird es jeder reibungsloser nutzen.'

04 "Muscheln haben ihre eigenen Verwendungen", das Team, das Muscheln am besten versteht

Am frühen Morgen des 27. Februar vergossen der Produkt-Partner von Gate.io, Zhang Tao, und der Chef-Wissenschaftler Ji Yichao (Peak) Tränen, als sie die Ranglisten-Ergebnisse von Gate.io sahen. Die Leistung von Gate.io im GAIA Benchmark übertraf die von OpenAI's Deep Research und erreichte dieses unerwartete Ergebnis bei etwa 1/10 der Kosten (2 $/Aufgabe) des Benchmarks von OpenAI.


Bildquelle: Manus.im

Ein Team von Dutzenden von Personen wurde eines der ersten Teams, das ein universelles Agentenprodukt herstellte, als Agenten einen Konsens über den Wettbewerb in der gesamten Branche erzielten. Sie sind auch einzigartig in der Produktentwicklung und im interaktiven Front-End-Erlebnis.

Positives Feedback zu erledigten Dingen ist besser als alles andere. Es gibt keine bessere Motivation für ein Startup-Team als diese. Aber bevor das passierte, wie kam es zu Manus? Warum wurde dieses Team gebildet?

"Die heutigen Modellfähigkeiten sind in der Lage, einige komplexe, mehrstufige Aufgaben zu erledigen. Aber es gibt keine solchen Produkte, sodass es niemand spüren kann." Die Erkenntnisse, die Xiao Hong in früheren Interviews mit Tencent Technology erwähnt hat, können genutzt werden, um dieses Problem zu verstehen.

Zur gleichen Zeit haben nicht viele Teams die Möglichkeit, Agent-Produkte auszuprobieren. Denn es erfordert viele verschiedene Fähigkeiten. Er möchte an Chatbot, einigen KI-Programmierungen und Browser-bezogenen Arbeiten arbeiten, weil er den Browser aufrufen muss und er ein gutes Gespür für die Grenzen von LLM hat - auf welchem Stand es heute entwickelt ist und auf welchem Stand es sich als nächstes entwickeln wird. Zunächst einmal gibt es nicht viele Unternehmen, die diese Fähigkeiten gleichzeitig haben, und die Unternehmen, die diese Fähigkeiten haben, könnten ein sehr spezifisches Geschäft betreiben. Einige unserer Klassenkameraden hatten zufälligerweise Zeit, diese Dinge gemeinsam zu tun.

„genau“.

  • Es wird rechtzeitig festgestellt, dass die Modellfähigkeit das Niveau erreicht hat, dass es als Agent verwendet werden kann, ohne auf die Veröffentlichung eines End-to-End-Großmodells wie eines Operators warten zu müssen;
  • Ich stellte auch fest, dass das Problem eine Ausrichtung war;
  • Ich habe auch alle Funktionen erweitert, die von Chatbots und KI-Browsern durchgeführt wurden;
  • Gleichzeitig habe ich aufgrund meiner Arbeit an groß angelegten Modellanwendungsprodukten in der sogenannten „Shell“ ein ausgeprägtes Bewusstsein für LLM.

Das Team des „Butterfly Effect“ hat alle Elemente erreicht, um heute einen solchen universellen Agenten zu schaffen, sodass es jetzt einen universellen Agenten mit einem relativ hohen Grad an Vollständigkeit im Vergleich zur Branche gibt.

Als er gefragt wurde, was der entscheidende Moment war, als er Manus gründen wollte, gab Peak weitere Details preis. Er sagte: „In der Unternehmertätigkeit gibt es tatsächlich keinen 'sauberen' Wendepunkt.“ Alles ist stimmig und hat keine klaren Grenzen.

„Wenn ich ein Produkt herstelle, achte ich auch häufig auf die äußere Situation.“ Zu dieser Zeit gab es ein paar Dinge. Erstens, als ich einen Browser entwickelte, erstellte ich ein Client-seitiges Modell. Später stellte ich fest, dass der Browser eine sehr breite Palette von Szenarien erforderte und unterschiedliche Funktionen aufwies. Im Laufe des Prozesses entdeckte ich, dass das Grundmodell sich mit beschleunigtem Tempo verstärkte. Die Kluft zwischen ihm und dem Agenten könnte ein Ausrichtungsproblem sein. Obwohl die Außenwelt vielleicht den Eindruck hat, dass große Sprachmodelle allmählich konvergiert sind und an eine Grenze gestoßen sind.

Gleichzeitig veränderte sich auch die Außenwelt. Cursor startete Anfang letzten Jahres durch, gefolgt von Windsurf und Devin. Dies entspricht demselben Kontext. Agenten sind im Bereich der Programmierung beliebt, und der Weg zur Popularität ist progressiv. Cursor ist ein Copilot für Programmierer, der die Programmierungseffizienz verbessert. Angefangen bei Windsurf werden allmählich einige automatisierte Prozesse eingeführt, die es Ihnen ermöglichen, über stärkere Automatisierungsfähigkeiten auf Ihrem lokalen Rechner zu verfügen. Devin hat ein neues Niveau der Automatisierung erreicht.

Die Trends von VC sind ebenfalls konsistent. Zum Beispiel investierte YC letztes Jahr und das Jahr davor in zwei Arten von Unternehmen. Eine davon ist Cloud-Browser, wie Browser-Basis; die zweite Art sind leichte KI-Sandbox-Virtualmaschinen ähnlich wie e2b.

Dies zeigt, dass „die Infrastruktur des Modells sich schnell entwickelt, und auch die Infrastruktur von Infra entwickelt sich schnell. Darüber hinaus sehen wir, dass externe Produkte allmählich mehr Akzeptanz finden, und wir sind der Meinung, dass dies eine Richtung ist, die es wert ist, alles zu geben. Dies ist ein sehr allmählicher und reibungsloser Prozess. Darüber hinaus kann die während der Entwicklung von Browsern wie Chromium angesammelte Infrastruktur nahtlos übertragen werden, weshalb wir es wagen, Browser in der Cloud zu entwickeln.“

Zusammenfassend haben die scharfe Wahrnehmung und die Erfahrung im Bereich Anforderungen und Modelle in der sogenannten "Shell" gemeinsam Manus geschaffen. Viele von Monicas Szenarien erfordern eine Nachmodellierung. Gleichzeitig wurde die wichtigste Lektion "weniger Struktur, mehr Intelligenz" in der Praxis von KI-Browsern verstärkt. Sie stellte fest, dass die Fähigkeit des Modells das Niveau eines Agenten erreicht hat, aber das Problem liegt in der Ausrichtung. Es folgten drei Monate schneller Evolution für Manus.

Zuvor wurde das „Butterfly Effect“-Team einmal über den Wert des „Shellings“ befragt. Es hat Monica aufgebaut, indem es vorhandene große Modelle integriert hat, ohne selbst große Modelle zu entwickeln. Es integrierte Funktionen wie Chat, Suche, Lesen, Schreiben und Übersetzung. Es integrierte auch viele Aufgaben-Ausführungsszenarien nacheinander über APIs. Bis Ende des letzten Jahres erreichte die Anzahl der Benutzer Millionen.

Nun, wenn Doubao, Quark und Yuanbao alle energisch ihre Monica-Produkte bewerben und wenn ein kleines Team vorhandene Technologie nutzt, um den ersten allgemeinen Verbraucher-Agenten auf Verbraucherebene zu erstellen, ist es an der Zeit, die "Shell" neu zu verstehen.

Was genau sind „shells“ und „shells“?

Nach Xiao Hongs Ansicht werden alle Durchbrüche durch Modelle herbeigeführt, die im Grunde modellgesteuert und modellorientiert sind. Die Hülle dient dazu, die technischen Innovationen des Modells auf eine Weise darzustellen, die Benutzer wahrnehmen können, und die innovativen Fähigkeiten des Modells auf eine Weise zu verkapseln, die Benutzer am besten wahrnehmen können.

Ausgehend von dieser Definition ist die DeepSeek-App (einschließlich der Anzeige der Gedankenkette) eine Shell von DeepSeek-R1, Cursor ist eine Shell von Anthropic Sonnet 3.5, Perplexity ist eine Shell von GPT-4 und ChatGPT ist eine Shell von InstructGPT.

Da sich die Fähigkeiten des Modells schnell weiterentwickeln, muss auch „diese Hülle“ weiterentwickelt werden. Nachdem sich die Fähigkeiten jeder Generation von Modellen weiterentwickeln, handelt es sich nicht einmal unbedingt um den ursprünglichen Hersteller. Es handelt sich um einen Dritthersteller, der seinen vom Benutzer wahrgenommenen Wert präsentiert. Genauso wie Cursor dem Claude 3.5 Sonnet einen vom Benutzer wahrgenommenen Wert bringt.

Am 5. März, dem zweiten Jahrestag der Veröffentlichung von Monica.im, liegt die Antwort darauf, warum diese Dutzenden von Menschen eine Produkt­erfahrung erzielt haben, die die verschiedener Deep Research und OpenAI Operators übertrifft, im Verständnis und der praktischen Anwendung von Shells.

Wie erstellt man die beste Hülle für ein neues Modell, das als Agent verwendet werden kann?

Als der Erbauer von Manus glaubt Zhang Tao: „Betrachten wir die gesamte Architektur aus dem Hintergrund, sehen wir, dass an jedem Ort noch viel Arbeit zu leisten ist, und jeder dieser Orte ist der Schlüssel zum Erfolg, und sie sind alle Orte, die die Oberfläche des Produkts unterschiedlich machen.“

Aus der Perspektive des Teams ist der wichtigste Vorteil das Tempo der Innovation. Sowohl Anwendungen als auch Modelle haben jetzt einen Zustand relativer Sättigung erreicht. Die einzige wirklich Kernfähigkeit am Ende ist es, schnell zu laufen, obwohl das "Datenfliehkraft" und "Netzwerkeffekte" noch nicht verifiziert wurden.

"In einem brandneuen Bereich ist alles unsicher und unbekannt. Das Wichtigste ist die Geschwindigkeit der Innovation. Was wir anstreben, ist die Erforschung, das Ausprobieren in verschiedenen Richtungen und das schnelle Finden des richtigen Weges." Das Manus-Team ist flexibel in Bezug auf Managementphilosophie, Organisationsstruktur und industrielle Prozesse. Wenn sich neue Chancen ergeben, können Sie begrenzte Ressourcen nutzen, um alle Ressourcen des gesamten Unternehmens zu verknüpfen, Entscheidungen in sehr hoher Geschwindigkeit zu treffen und sich an Fehlerfeedback anzupassen.

Von links nach rechts sind „Butterfly Effect“-Chef-Wissenschaftler Peak, CEO Xiao Hong und Produkt-Partner Zhang Tao abgebildet | Bildquelle: Internet

In Bezug auf Manus' Erwartungen glaubt Xiao Hong, dass es sich lohnt, es zu versuchen, auch wenn es ein Zeitfenster gibt. In den letzten Jahren hat sich auch seine Denkweise drastisch verändert. Zum Beispiel glaubt er jetzt, dass man, wenn man feststellt, dass man im Zeitplan liegt, aggressiver und superaggressiver ist. Nach der heutigen Überprüfung finde ich, dass Monica im Jahr 2023 nicht aggressiv genug war. Wenn Sie wissen, dass Sie innovativ sind und führend sind, sollten Sie aggressiv sein.

Ich weiß nicht, ob Manus Xiao Hong und seinem Team die Erfahrung und den Sprung von 1 auf N bringen kann, aber dieses Team, das am meisten über die „Schale“ weiß, glaubt daran, mit Herz und Hand als Einheit zu erschaffen, und glaubt auch an den Schmetterlingseffekt, der durch die Schöpfung hervorgerufen wird. Manus stammt von einem Motto am MIT: Mens at manus, das die Einheit von Herz und Hand betont. Es kann nicht optisch sein, es muss getan werden, und es kann Auswirkungen auf die reale Welt haben, was echtes Wissen ist.

In Zukunft, wenn mehr der Einlagen hinter Manus open source sind, wird eine breitere Palette von Schmetterlingseffekten weiter freigesetzt werden.

Haftungsausschluss:

  1. Dieser Artikel stammt aus [GateGEEEKPARK], und das Urheberrecht gehört dem Originalautor [Wan Chen], wenn Sie Einwände gegen den Nachdruck haben, wenden Sie sich bitte an Gate LearnDas Team wird es so schnell wie möglich gemäß den relevanten Verfahren bearbeiten.

  2. Haftungsausschluss: Die Ansichten und Meinungen, die in diesem Artikel dargestellt werden, repräsentieren nur die persönlichen Ansichten des Autors und stellen keine Anlageberatung dar.

  3. Andere Sprachversionen des Artikels werden vom Gate Learn-Team übersetzt und werden nicht erwähnt inGate.io, der übersetzte Artikel darf nicht vervielfältigt, verbreitet oder plagiiert werden.

Vollständige Überprüfung: Wie wurde Manus geboren?

Fortgeschrittene3/17/2025, 7:40:21 AM
Dieser Artikel bietet eine eingehende Analyse des Geburtsursprungs von Manus.im, der Produktkonzepte und seiner innovativen Praktiken auf dem Gebiet der KI.

Die unternehmerische Geschichte, die im letzten Jahr die meiste spirituelle Nahrung erhielt, stammt von Dify-Gründer Zhang Luyu.

Das erste Mal, dass ich ihn traf, war bei der Veranstaltung "Xixi Taoismus" im Jahr 2023. Unter den prominenten Namen vor Ort war Zhang Luyu unauffällig. Als wir uns 2024 wieder trafen, war Dify bereits eine andere Geschichte - ein Unternehmer ohne glamourösen Hintergrund, der eines der erfolgreichsten KI-Open-Source-Produkte der Welt entwickelte, obwohl alle Zweifel am Geschäftsmodell hatten.

Was ist mit diesem Unternehmen in einem Jahr passiert, wie zum Beispiel seine unerwartete Popularität auf dem japanischen Markt, die "konventionell und leicht zu verteidigen, aber schwer anzugreifen" ist, half mir, "Unternehmertum" weiter zu verstehen. Es ist größtenteils Zufall und erfordert auch Glück. Letztendlich benötigen Sie die Fähigkeit, einen Ausweg aus ständigen Veränderungen und Rückschlägen zu finden.

Nun, eine ähnliche Geschichte ereignete sich bei einem anderen prominenten Unternehmer—Manus.im Xiao Hong und seinem Team.

Vor vier Monaten erwähnte Xiao Hong eine Verwirrung: „Das Team ist gut darin, von 0 auf 1 zu gehen und hat eine starke Fähigkeit, Chancen zu ergreifen. Sobald es jedoch von 1 auf N übergeht, ist der Zustand nicht mehr so gut.“

In seiner bisherigen Erfahrung haben die meisten unternehmerischen Projekte relativ stabile und beträchtliche Einnahmen erzielt, und seine letzte Firma wurde auch erfolgreich übernommen. Im Jahr 2023 nutzte sein neues Unternehmen "Butterfly Effect" sogar ein Browser-Plug-in, Monica.im, um im KI-Erzählbereich von Hunderten von Modellen zu konkurrieren und zu einer der am schnellsten wachsenden KI-Anwendungen mit ausgezeichneter Produkt Erfahrung zu werden. Es scheint, dass er ein Unternehmer ist, der eine reibungslose Reise hinter sich hat. Er ist erst 32 Jahre alt, als er diese Dinge tun kann.

Aber in Wirklichkeit fühlte er sich nicht zu glücklich. Aus Xiaos Sicht sind die sogenannten „kontinuierlichen Ausstiege von Unternehmern“ und das sogenannte erfrischende Gefühl, ständig von 0 auf 1 zu gehen, wie eine Belagerung - die Fähigkeit, Chancen von 0 auf 1 zu ergreifen, ist sehr stark und sehr befriedigend, aber andererseits machst du dir auch Sorgen, ob du es wieder tun musst.

Im Jahr 2024 werden Brancheninsider glauben, dass KI-Assistenten mit Speicherfunktionen wie Monica.im Druck von starken Gegnern wie Doubao ausgesetzt sein werden, und es wird nicht so einfach sein wie im Jahr 2023. Monica.im hat einen guten 0-zu-1, aber nicht unbedingt einen 1-zu-N-Hit.

Und der Grund, warum er verwirrt ist, liegt darin, dass "das Team wirklich schwierigere Dinge und Dinge mit höheren Decken in Angriff nehmen wird und Dinge erkunden wird, die von 1 bis N reichen können."

Früher haben viele Stimmen, die sich auf Monica.im konzentrieren, angenommen, dass dieses „etwas Schwierigeres und mit höherer Decke“ auf den KI-Browser verweist, über den schon lange gemunkelt wurde, aber vom Team noch nicht veröffentlicht wurde. Wenn man es sich jetzt ansieht, stimmt es, dass ich falsch geraten habe.

Diese schwierigere Erkundung besteht tatsächlich darin, den KI-Browser aufzugeben, der den Freigabestatus erreicht hat, nach dem nächsten "ChatGPT-Moment" bei KI-Produkten zu suchen, das Ziel eines universellen Agenten zu finden und die neueste Version von Manus.im zu erstellen.

Inwieweit Manus innovativ ist und auf welchem Niveau es in Zukunft erreichen kann, ist derzeit ein heißes Thema. Aber was es wirklich wert ist zu beobachten, ist immer noch die Richtung, die in 'Dinge gehen gegen Erwartungen' gefunden wurde, und der Prozess, die Richtung zu finden. Manus.im kann diesem Team möglicherweise nicht ermöglichen, Dinge von 1 bis N zu erreichen oder sogar den Schwung von Monica.im zu replizieren, aber genau wie der Name dieses Unternehmens - 'Schmetterlingseffekt', haben viele kleine Handlungen und Entscheidungen unabsichtlich einen tiefgreifenden Einfluss auf die Zukunft, 'Die Punkte verbinden', der Weg von morgen wird in den heutigen Erfahrungen verborgen sein.

01 Manus' einzigartige Produkt erfahrung stammt aus den gelernten lektionen beim herstellen eines "AI browsers"

Seit Mitte bis Ende des letzten Jahres ist der AI-Browser des Teams des „Schmetterlingseffekts“ zu einem „halböffentlichen“ Geheimnis in der Branche geworden. Das Produkt, das offiziell der Öffentlichkeit vorgestellt wurde, war Manus, das unaufhaltsame Aufmerksamkeit erregte.

Wenn Sie Manus persönlich erlebt haben oder das Demonstrationsvideo gesehen haben, werden Sie feststellen, dass es im Vergleich zu Chatbots oder einigen agentenähnlichen Anwendungen einen signifikanten Unterschied aufweist: Manus kann Aufgaben asynchron und parallel ausführen.

Wenn Sie eine App wie Doubao, Kimi oder etwas wie Computer Use öffnen und ihr eine Frage stellen, müssen Sie auf ihre Antwort warten. Andernfalls, wenn Sie mit ihr sprechen, während sie antwortet oder eine Aufgabe erledigt, wird die vorherige Antwort/Aufgabe unterbrochen, und Sie können nur ein A-B-A-B-Relaisgespräch mit ihr führen.

Allerdings sieht es in Manus.im immer noch wie ein Chatbot-Produkt aus, bei dem Sie 20 Fragen stellen können, damit es Aufgaben gleichzeitig ausführt. Sie können alles andere auf dem Computer machen, Videos anschauen, Dokumente schreiben, Spiele spielen usw., ohne seine Arbeit zu verzögern. Manus kann Sie benachrichtigen, sobald diese Aufgaben abgeschlossen sind oder Probleme während der Ausführung auftreten. Wenn Sie Abweichungen in seinem Denken während der Ausführung einer Aufgabe feststellen, können Sie zu jeder Zeit Anweisungswörter in das Dialogfeld hinzufügen, und es wird weiterhin über den neuen Kontext nachdenken und die Aufgabe ausführen.

Die Erfahrung ist asynchron und kann parallelisiert werden, und es fühlt sich wirklich an, als hätte man ein Team echter Praktikanten, die Ihnen bei der Arbeit helfen können.

Tatsächlich stammt das Produktarchitekturdesign von Manus für das asynchrone Erlebnis aus einer Lektion, die das Team in seinem vorherigen unveröffentlichten Produkt, dem KI-Browser, gelernt hat. Gleichzeitig ist dies auch der Grund, warum das Team viel Energie investiert hat, aber beschlossen hat, im Oktober letzten Jahres die Arbeit am Browser einzustellen.

Das Browser-Unternehmen gab am 25. Oktober 2024 bekannt, dass es die Entwicklung neuer Funktionen für den Arc-Browser einstellen und Ressourcen auf einen neuen Browser namens Dia übertragen werde, um einen einfacheren und benutzerfreundlicheren KI-Browser zu schaffen. Quelle: Arc offizielle Website

Im KI-Browser unterbricht KI ständig den Benutzer. Da es sich um ein Szenario handelt, das für einen einzelnen Benutzer konzipiert ist, kann man es einmal verwendet, nicht mehr verwenden. Wenn die KI anfängt zu arbeiten, kann man nur zusehen, wie die KI arbeitet, was schwer zu starten ist. Wenn man sieht, wie KI die Maus und den Computer wegnimmt, traut man sich nicht, sie wegzunehmen, sondern hat auch Angst, dass ein versehentliches Berühren der Tastatur oder Maus den gesamten Prozess zusammenbrechen lässt und man von vorne anfangen muss.

Dies ermöglicht dem Team, zwei Urteile zu fällen:

  1. Die direkte Verwendung des Computers zur Computernutzung ist in kurzer Zeit nicht machbar.
  2. Künstliche Intelligenz sollte einen Browser verwenden, aber nicht in Ihrem Browser. Es sollte einen eigenen Browser haben, vorzugsweise in der Cloud, und schließlich die Ergebnisse an Sie zurückmelden.

In einem Interview mit Zhang Xiaojun von Tencent Technology erwähnte Xiao Hong, dass das Team bei der Zusammenfassung der Produktformen von Jasper über ChatGPT bis Monica über Cursor bis Devin feststellte, dass der „menschliche Programmierer“ Devin sehr gut für diese asynchrone Erlebnisarchitektur geeignet war.

Anders als bei der Verwendung von Windsurf wird manchmal gefragt, ob Ihr Computer diese Bibliothek installieren muss; oder es führt eine Befehlszeilenoperation aus und fordert Sie auf, mit ja oder nein zu antworten, weil es Ihren Computer wirklich beschädigen könnte, oder es gibt einen Konflikt mit etwas anderem - es fordert Sie auf, "ja" einzugeben, um zum nächsten Schritt zu gelangen, aber es muss die Schuld weitergeben.

Daher ist das Team von Manus der Ansicht, dass der „Chatbot einen Computer in der Cloud haben sollte und der von ihm geschriebene Code und die zu überprüfenden Dinge über den Browser auf diesem Computer ausgeführt werden. Weil es sich um einen virtuellen Server handelt, spielt es keine Rolle, wenn er ausfällt, man kann einfach einen anderen bekommen. Man kann den Server sogar nach Abschluss der aktuellen Aufgabe freigeben.

Es ist erwähnenswert, dass während Devin vertikale Felder und Hardcore-Ingenieure wählte, wählte das Manus-Team allgemeine, auf Verbraucherebene liegende KI-Assistenten, einschließlich Web und App. Es handelt sich um einen allgemeinen KI-Assistenten, der Werkzeuge aufrufen und gemäß Anweisungen verschiedene Aufgaben in Arbeit und Leben abschließen kann. In Zukunft wird er auch Aufgabenergebnisse zu einem erschwinglichen Preis für Verbraucher liefern.

02 Weniger Struktur, mehr Intelligenz

Mit einer klaren Idee und einem klaren Ziel ist der nächste Schritt, die Idee umzusetzen. Wie hat Manus das gemacht?

Laut seinem Produkt-Partner Zhang Tao erfordert dies, das große Modell mit einem Computer auszustatten, ihm Systemberechtigungen zu erteilen (Zugriff auf private APIs wie Code-Depots und professionelle Datenabfrage-Websites) und ihm bestimmtes Training zu bieten.

Auf diese Weise kann KI diesen Computer verwenden, um einen Browser zu öffnen, Aktionen zur Planung von Werkzeugen durchzuführen und dann die Auswirkungen seiner Aktionen auf die reale Welt auf der Grundlage des von den Werkzeugen generierten Feedbacks zu beobachten, dann über den nächsten Schritt nachdenken, erneut Maßnahmen ergreifen und dann beobachten... Dies ist der Prozess, bei dem KI Aufgaben in Erkundung und Forschung abschließt. In dieser Zeit wird Manus auch unter Ihrem "Training" Ihre Anforderungen immer besser verstehen. In Zukunft kann es auch dann noch die "heilige Bedeutung herausfinden", wenn Sie Ihre Anforderungen nicht klar definieren, basierend auf dem in jeder Aufgabe angesammelten Wissen.

Li Bojie, Huaweis junges Genie und Gründer von Logenic AI, glaubt, dass Manus eine einzigartige Eigenschaft hat, die es von anderen Produkten unterscheidet: Es löst Probleme auf die Art von Geek-Programmierern. |Bildquelle: WeChat-Screenshot

Das Konzept der Manus-Produkte wurde im Laufe der Produktpraxis seines Teams allmählich klarer: Weniger Struktur, mehr Intelligenz (Weniger Struktur, mehr Intelligenz).

Das war auch der Moment, in dem das Manus-Team dachte: "A-Ha, warte mal!" Zum Beispiel ist dies, was dem Team im Januar dieses Jahr passiert ist:

Als Manus gebeten wurde, eine Frage zum GAIA-Testset zu beantworten: „In einem YouTube-Video-Link im Stil von National Geographic kommen verschiedene Pinguine hin und her und erscheinen und verschwinden aus dem Bildschirm. Manus wird gebeten, die maximale Anzahl von Pinguinen zu zählen, die gleichzeitig auf einem Bildschirm erscheinen. Wie viele Arten gibt es?"

Dann geschah etwas Magisches.

Manus öffnete zuerst den Video-Link, und die erste Aktion, die er ausführte, war "Drücken Sie K". Dann machte er Bildschirmfotos, um aufzuzeichnen, in welchem Bild welcher Pinguin erschien. Schließlich kam er zu dem Schluss, dass das Bild mit den meisten 3 Arten von Pinguinen erschien. Manus wird als nächstes zurückgehen, und seine nächste Aktion ist "Drücken Sie 3"... Nach abschließender Überprüfung war die Antwort 3.

Als die Menschen hinter dem Bau von Gate, sollten wir die Grenzen seiner Fähigkeiten kennen, aber für das Team ist die Realität, dass es immer Überraschungen gibt. Überraschenderweise hat Manus nicht nur die Frage richtig beantwortet, sondern auch, dass menschliche Freunde, die seit vielen Jahren Computer und Youtube benutzen, möglicherweise nicht wissen, was die Tasten 'K' und '3' auf der Tastatur sind?

Als sie die etwas benommene Szene vor sich betrachteten, folgte das Team Manus und tat es erneut. Die Taste 'K' auf der Tastatur ist die Pause-Taste, die es Manus ermöglicht, nach dem Anhalten Bildschirmfotos aufzunehmen, um aufzuzeichnen, welcher Pinguin in welchem Bild erscheint; '3' ist auch eine Verknüpfungstaste, von 0 bis 9, die jeweils 0% bis 90% der Fortschrittsleiste darstellen. 3 sind 30% der Fortschrittsleiste. Es kann genau diesen Moment des Videos lokalisieren und dann den Menschen mitteilen, wie viele Arten von Pinguinen auf diesem Bild zu sehen sind.

"Dieser Prozess unterscheidet sich von dem traditionellen Chatbot. Erstens kann er sich YouTube-Bilder ansehen anstatt Untertitel. Zweitens haben wir sogar festgestellt, dass er YouTube-Verknüpfungstasten verwendet hat. Wir waren sehr schockiert, dass er diese Frage beantwortet hat." Xiao Hong erwähnte diese Szene auch in einem früheren Interview mit Tencent Technology.

Plötzlich entdeckte ich, dass Manus nicht nur besser im Programmieren war als Menschen, sondern Manus' Wissen über das Web und Apps, die Menschen täglich nutzen, weit die Vorstellungskraft übertraf. Als allwissende und allmächtige KI kann sie alle Wege und Mittel in jedem Werkzeug verstehen und dann die optimale Methode wählen.

Dies ermöglichte es dem Team erneut, sich "Weniger Struktur, mehr Intelligenz" zu fühlen - künstliche Beschränkungen für KI zu minimieren und KI durch ihre eigene Evolution funktionieren zu lassen, anstatt ihr beizubringen, was zu tun ist.

Ganz unten auf der offiziellen Website von Gate.io wird die wichtigste Entdeckung hinter Gate.io leise präsentiert: "Weniger Struktur, mehr Intelligenz". |Screenshot-Quelle: Gate.io

Dies ist die Erklärung und das erweiterte Denken von Peak, dem Mitbegründer und Chef-Wissenschaftler von “Butterfly Effect”, zum wichtigsten ersten Prinzip hinter dem Manus-Produkt - “Weniger Struktur, mehr Intelligenz” am Tag, an dem das Manus-Produkt gestartet wurde:

Wenn Ihre Daten von hoher Qualität sind, ist Ihr Modell klug genug, Ihre Architektur flexibel genug und Ihre Ingenieurleistung solide genug, so werden Konzepte wie Computer Use, Deep Research und Coding Agent von Produktmerkmalen zu natürlicherweise aufkommenden Fähigkeiten.

Die Rückkehr zu den ersten Prinzipien gibt uns auch eine neue Möglichkeit, über die Produktform nachzudenken:· Der KI-Browser fügt der Browser nicht KI hinzu, sondern macht einen Browser für KI;
· Die KI-Suche ruft nicht ab und fasst aus dem Index zusammen, sondern ermöglicht es der KI, Informationen mit Benutzerberechtigungen zu erhalten;
· Die Bedienung der GUI reißt nicht die Kontrolle über das Gerät des Benutzers an sich, sondern ermöglicht es der KI, ihre eigene virtuelle Maschine zu haben;
Das Schreiben von Code ist nicht das Endziel, sondern ein allgemeines Mittel zur Lösung verschiedener Probleme;
· Die Schwierigkeit bei der Erstellung einer Website liegt nicht darin, ein Framework zu erstellen, sondern den Inhalt sinnvoll zu gestalten;
· Aufmerksamkeit allein reicht nicht aus. Nur durch die Befreiung der Aufmerksamkeit der Nutzer kann DAU neu definiert werden;

Durch die Entdeckung und die Praxis von „Weniger Struktur, mehr Intelligenz“ hat Manus immer wieder Ergebnisse erzielt, die alle Erwartungen übertreffen, einschließlich des Passes@1Ergebnis im GAIA-Benchmark, das das Ergebnis von OpenAI Deep Research übertrifft unter Berücksichtigung@64; zur gleichen Zeit konnte Manus in internen Tests auch direkt 76% der Szenarien von speziellen Agenturprodukten im Y Combinator W25 abdecken.

03 "Agent könnte ein Problem der "Ausrichtung" sein, anstatt ein Problem der grundlegenden Modellfähigkeiten"

Nun wird der Wert dieser Erkenntnisse auf einer größeren Skala diskutiert:

Clement Delangue, Gründer und CEO von Hugging Face, schlug die Ergebnisse von Peak zu einigen Open-Source-Grundmodellen vor, die einfach darauf trainiert sind, 'alle Fragen in einer Runde unabhängig von der Komplexität der Fragen zu beantworten'. Dies ist jedoch eine Anforderung im Chatbot-Szenario. Bereits einige Nachschulungen auf dem Agentenpfad können sofort einen großen Unterschied machen. |Screenshot-Quelle: X

Manus führt MCP (Model Context Protocol) nicht ein, ermöglicht jedoch KI, ihren eigenen Code zu schreiben, um APIs aufzurufen, um verschiedene Long-Tail-Aufgaben zu handhaben. |Screenshot-Quelle: X

In Diskussionen über Manus in den letzten Tagen war eine der häufigsten Fragen, die ich gehört habe: Ist ein 'universaler KI-Agent' machbar? Wo ist die Grenze?

Aus Peaks Sicht ist die Interaktion zwischen Menschen und der Welt tatsächlich sehr standardisiert, mit Augen, Händen und Ohren. Wenn der Aktionsraum gut definiert ist, sollte es möglich sein, einen Agenten in einen Link zu integrieren, der ursprünglich von Menschen durchgeführt wird.

Da Menschen verschiedene Tools nutzen können, um tiefe Operationen in vertikalen Feldern abzuschließen, sollte ein Agent, der selbst über ausreichend Wissen verfügt, angemessen geschult wurde und eine gute Schnittstelle zur Interaktion mit der Welt hat, in der Lage sein, wie eine Person zu arbeiten und sogar den Agenten die Verwendung eines bestimmten SaaS-Produkts ermöglichen. Zum Beispiel beinhaltet ein auf der offiziellen Website von Manus.im präsentierter Fall von Wohnungssuche tatsächlich, dass KI mit einem speziell für den Immobilienbereich entwickelten SaaS-Produkt arbeitet.

Er glaubt, dass klar definiert werden sollte, wo die Grenze des Einsatzes von Tools durch den Agenten liegt, anstatt welche Gruppe von Menschen es bedient. Manus simuliert nicht eine Person, die spezifische Dinge tut, noch ist es ein Rollenagent, aufgeteilt in F&E, Produktmanager usw.; es simuliert eine Person, die Dinge tun kann, und simuliert, wie ein Praktikant arbeitet.

Manus's Multi-Agent-System bezieht sich auf die Trennung von Planung und Ausführung.

Für den Executor (Executor) hat Manus Claude adoptiert, der vorübergehend in der Programmierung, langfristiger Planung und schrittweisen Problemlösung führend ist, und auch eine Reihe von Qwen-Modellen für das Nachtraining verwendet.

Gestern erreichte auch Manus eine strategische Zusammenarbeit mit Alibaba Tongyi Qianwen, um alle Funktionen von Manus auf inländischen Modellen und Rechenleistungsplattformen zu realisieren. |Bildquelle: Manus

Im Planungsteil hat Manus viel Arbeit geleistet.

Da die Regal-APIs oder Modelle, die derzeit auf dem Markt sind, im Wesentlichen auf Chatbot-Szenarien ausgerichtet sind, ist das Ziel des Trainings, unabhängig davon, wie komplex der Benutzer die Frage stellt, die Frage des Benutzers klar in einer Antwort zu beantworten. Dies steht jedoch tatsächlich im vollständigen Gegensatz zu der Planung, die vom Agenten erforderlich ist.

Wenn ein vorhandenes Modell auf dem Markt direkt im Agentenszenario ohne „Ausrichtung“ verwendet wird, wird dieses Modell immer nach schnellem Erfolg streben und innerhalb einer Dialogrunde ein „verwirrtes“ Ergebnis liefern, genau wie viele Stichpunktzusammenfassungen.

"Die Ausrichtungsmethoden sollten unterschiedlich sein. Unser Team glaubt, dass unterschiedliche Daten benötigt werden, um eine spezielle Ausrichtung durchzuführen", sagte Xiao Hong.

Im Oktober letzten Jahres hat Peak auch auf Zhihu den Fortschritt und das Scheitern eines Versuchs zur Reproduktion des OpenAI o1 Interessensprojekts - des Steiner Open Source-Modells - festgehalten. Tatsächlich befasste sich dieses Projekt mit der Voruntersuchung des schrittweisen Planungsteils des Manus-Planers.

Im Allgemeinen simuliert Manus eine Person, die Dinge tut. Dies ist die Produktdefinition des Teams von Manus als Allzweck-KI-Assistent. Was die Überlegungen zu seinen Grenzen betrifft, dürfte das Team sie noch erkunden und mehr Benutzerfälle benötigen.

In einem Interview mit Tencent Technology, das vor der Veröffentlichung von Manus veröffentlicht wurde, erwähnte Xiao Hong tatsächlich seine ersten Gedanken zur Vielseitigkeit von Manus. 'Ein sehr zentrales Thema oder eine sehr wichtige Verantwortung von Produktmanagern ist es, die Erwartungen der Benutzer zu kontrollieren. Nehmen wir an, es kann alles auf der Welt tun, wie zum Beispiel: Wie verdiene ich 1 Million Dollar? Dies ist keine Aufgabe, die von einem Agenten ausgeführt werden sollte. Aber wenn wir konkretere Beispiele geben können, um die Erwartungen aller vernünftiger zu machen, wird es jeder reibungsloser nutzen.'

04 "Muscheln haben ihre eigenen Verwendungen", das Team, das Muscheln am besten versteht

Am frühen Morgen des 27. Februar vergossen der Produkt-Partner von Gate.io, Zhang Tao, und der Chef-Wissenschaftler Ji Yichao (Peak) Tränen, als sie die Ranglisten-Ergebnisse von Gate.io sahen. Die Leistung von Gate.io im GAIA Benchmark übertraf die von OpenAI's Deep Research und erreichte dieses unerwartete Ergebnis bei etwa 1/10 der Kosten (2 $/Aufgabe) des Benchmarks von OpenAI.


Bildquelle: Manus.im

Ein Team von Dutzenden von Personen wurde eines der ersten Teams, das ein universelles Agentenprodukt herstellte, als Agenten einen Konsens über den Wettbewerb in der gesamten Branche erzielten. Sie sind auch einzigartig in der Produktentwicklung und im interaktiven Front-End-Erlebnis.

Positives Feedback zu erledigten Dingen ist besser als alles andere. Es gibt keine bessere Motivation für ein Startup-Team als diese. Aber bevor das passierte, wie kam es zu Manus? Warum wurde dieses Team gebildet?

"Die heutigen Modellfähigkeiten sind in der Lage, einige komplexe, mehrstufige Aufgaben zu erledigen. Aber es gibt keine solchen Produkte, sodass es niemand spüren kann." Die Erkenntnisse, die Xiao Hong in früheren Interviews mit Tencent Technology erwähnt hat, können genutzt werden, um dieses Problem zu verstehen.

Zur gleichen Zeit haben nicht viele Teams die Möglichkeit, Agent-Produkte auszuprobieren. Denn es erfordert viele verschiedene Fähigkeiten. Er möchte an Chatbot, einigen KI-Programmierungen und Browser-bezogenen Arbeiten arbeiten, weil er den Browser aufrufen muss und er ein gutes Gespür für die Grenzen von LLM hat - auf welchem Stand es heute entwickelt ist und auf welchem Stand es sich als nächstes entwickeln wird. Zunächst einmal gibt es nicht viele Unternehmen, die diese Fähigkeiten gleichzeitig haben, und die Unternehmen, die diese Fähigkeiten haben, könnten ein sehr spezifisches Geschäft betreiben. Einige unserer Klassenkameraden hatten zufälligerweise Zeit, diese Dinge gemeinsam zu tun.

„genau“.

  • Es wird rechtzeitig festgestellt, dass die Modellfähigkeit das Niveau erreicht hat, dass es als Agent verwendet werden kann, ohne auf die Veröffentlichung eines End-to-End-Großmodells wie eines Operators warten zu müssen;
  • Ich stellte auch fest, dass das Problem eine Ausrichtung war;
  • Ich habe auch alle Funktionen erweitert, die von Chatbots und KI-Browsern durchgeführt wurden;
  • Gleichzeitig habe ich aufgrund meiner Arbeit an groß angelegten Modellanwendungsprodukten in der sogenannten „Shell“ ein ausgeprägtes Bewusstsein für LLM.

Das Team des „Butterfly Effect“ hat alle Elemente erreicht, um heute einen solchen universellen Agenten zu schaffen, sodass es jetzt einen universellen Agenten mit einem relativ hohen Grad an Vollständigkeit im Vergleich zur Branche gibt.

Als er gefragt wurde, was der entscheidende Moment war, als er Manus gründen wollte, gab Peak weitere Details preis. Er sagte: „In der Unternehmertätigkeit gibt es tatsächlich keinen 'sauberen' Wendepunkt.“ Alles ist stimmig und hat keine klaren Grenzen.

„Wenn ich ein Produkt herstelle, achte ich auch häufig auf die äußere Situation.“ Zu dieser Zeit gab es ein paar Dinge. Erstens, als ich einen Browser entwickelte, erstellte ich ein Client-seitiges Modell. Später stellte ich fest, dass der Browser eine sehr breite Palette von Szenarien erforderte und unterschiedliche Funktionen aufwies. Im Laufe des Prozesses entdeckte ich, dass das Grundmodell sich mit beschleunigtem Tempo verstärkte. Die Kluft zwischen ihm und dem Agenten könnte ein Ausrichtungsproblem sein. Obwohl die Außenwelt vielleicht den Eindruck hat, dass große Sprachmodelle allmählich konvergiert sind und an eine Grenze gestoßen sind.

Gleichzeitig veränderte sich auch die Außenwelt. Cursor startete Anfang letzten Jahres durch, gefolgt von Windsurf und Devin. Dies entspricht demselben Kontext. Agenten sind im Bereich der Programmierung beliebt, und der Weg zur Popularität ist progressiv. Cursor ist ein Copilot für Programmierer, der die Programmierungseffizienz verbessert. Angefangen bei Windsurf werden allmählich einige automatisierte Prozesse eingeführt, die es Ihnen ermöglichen, über stärkere Automatisierungsfähigkeiten auf Ihrem lokalen Rechner zu verfügen. Devin hat ein neues Niveau der Automatisierung erreicht.

Die Trends von VC sind ebenfalls konsistent. Zum Beispiel investierte YC letztes Jahr und das Jahr davor in zwei Arten von Unternehmen. Eine davon ist Cloud-Browser, wie Browser-Basis; die zweite Art sind leichte KI-Sandbox-Virtualmaschinen ähnlich wie e2b.

Dies zeigt, dass „die Infrastruktur des Modells sich schnell entwickelt, und auch die Infrastruktur von Infra entwickelt sich schnell. Darüber hinaus sehen wir, dass externe Produkte allmählich mehr Akzeptanz finden, und wir sind der Meinung, dass dies eine Richtung ist, die es wert ist, alles zu geben. Dies ist ein sehr allmählicher und reibungsloser Prozess. Darüber hinaus kann die während der Entwicklung von Browsern wie Chromium angesammelte Infrastruktur nahtlos übertragen werden, weshalb wir es wagen, Browser in der Cloud zu entwickeln.“

Zusammenfassend haben die scharfe Wahrnehmung und die Erfahrung im Bereich Anforderungen und Modelle in der sogenannten "Shell" gemeinsam Manus geschaffen. Viele von Monicas Szenarien erfordern eine Nachmodellierung. Gleichzeitig wurde die wichtigste Lektion "weniger Struktur, mehr Intelligenz" in der Praxis von KI-Browsern verstärkt. Sie stellte fest, dass die Fähigkeit des Modells das Niveau eines Agenten erreicht hat, aber das Problem liegt in der Ausrichtung. Es folgten drei Monate schneller Evolution für Manus.

Zuvor wurde das „Butterfly Effect“-Team einmal über den Wert des „Shellings“ befragt. Es hat Monica aufgebaut, indem es vorhandene große Modelle integriert hat, ohne selbst große Modelle zu entwickeln. Es integrierte Funktionen wie Chat, Suche, Lesen, Schreiben und Übersetzung. Es integrierte auch viele Aufgaben-Ausführungsszenarien nacheinander über APIs. Bis Ende des letzten Jahres erreichte die Anzahl der Benutzer Millionen.

Nun, wenn Doubao, Quark und Yuanbao alle energisch ihre Monica-Produkte bewerben und wenn ein kleines Team vorhandene Technologie nutzt, um den ersten allgemeinen Verbraucher-Agenten auf Verbraucherebene zu erstellen, ist es an der Zeit, die "Shell" neu zu verstehen.

Was genau sind „shells“ und „shells“?

Nach Xiao Hongs Ansicht werden alle Durchbrüche durch Modelle herbeigeführt, die im Grunde modellgesteuert und modellorientiert sind. Die Hülle dient dazu, die technischen Innovationen des Modells auf eine Weise darzustellen, die Benutzer wahrnehmen können, und die innovativen Fähigkeiten des Modells auf eine Weise zu verkapseln, die Benutzer am besten wahrnehmen können.

Ausgehend von dieser Definition ist die DeepSeek-App (einschließlich der Anzeige der Gedankenkette) eine Shell von DeepSeek-R1, Cursor ist eine Shell von Anthropic Sonnet 3.5, Perplexity ist eine Shell von GPT-4 und ChatGPT ist eine Shell von InstructGPT.

Da sich die Fähigkeiten des Modells schnell weiterentwickeln, muss auch „diese Hülle“ weiterentwickelt werden. Nachdem sich die Fähigkeiten jeder Generation von Modellen weiterentwickeln, handelt es sich nicht einmal unbedingt um den ursprünglichen Hersteller. Es handelt sich um einen Dritthersteller, der seinen vom Benutzer wahrgenommenen Wert präsentiert. Genauso wie Cursor dem Claude 3.5 Sonnet einen vom Benutzer wahrgenommenen Wert bringt.

Am 5. März, dem zweiten Jahrestag der Veröffentlichung von Monica.im, liegt die Antwort darauf, warum diese Dutzenden von Menschen eine Produkt­erfahrung erzielt haben, die die verschiedener Deep Research und OpenAI Operators übertrifft, im Verständnis und der praktischen Anwendung von Shells.

Wie erstellt man die beste Hülle für ein neues Modell, das als Agent verwendet werden kann?

Als der Erbauer von Manus glaubt Zhang Tao: „Betrachten wir die gesamte Architektur aus dem Hintergrund, sehen wir, dass an jedem Ort noch viel Arbeit zu leisten ist, und jeder dieser Orte ist der Schlüssel zum Erfolg, und sie sind alle Orte, die die Oberfläche des Produkts unterschiedlich machen.“

Aus der Perspektive des Teams ist der wichtigste Vorteil das Tempo der Innovation. Sowohl Anwendungen als auch Modelle haben jetzt einen Zustand relativer Sättigung erreicht. Die einzige wirklich Kernfähigkeit am Ende ist es, schnell zu laufen, obwohl das "Datenfliehkraft" und "Netzwerkeffekte" noch nicht verifiziert wurden.

"In einem brandneuen Bereich ist alles unsicher und unbekannt. Das Wichtigste ist die Geschwindigkeit der Innovation. Was wir anstreben, ist die Erforschung, das Ausprobieren in verschiedenen Richtungen und das schnelle Finden des richtigen Weges." Das Manus-Team ist flexibel in Bezug auf Managementphilosophie, Organisationsstruktur und industrielle Prozesse. Wenn sich neue Chancen ergeben, können Sie begrenzte Ressourcen nutzen, um alle Ressourcen des gesamten Unternehmens zu verknüpfen, Entscheidungen in sehr hoher Geschwindigkeit zu treffen und sich an Fehlerfeedback anzupassen.

Von links nach rechts sind „Butterfly Effect“-Chef-Wissenschaftler Peak, CEO Xiao Hong und Produkt-Partner Zhang Tao abgebildet | Bildquelle: Internet

In Bezug auf Manus' Erwartungen glaubt Xiao Hong, dass es sich lohnt, es zu versuchen, auch wenn es ein Zeitfenster gibt. In den letzten Jahren hat sich auch seine Denkweise drastisch verändert. Zum Beispiel glaubt er jetzt, dass man, wenn man feststellt, dass man im Zeitplan liegt, aggressiver und superaggressiver ist. Nach der heutigen Überprüfung finde ich, dass Monica im Jahr 2023 nicht aggressiv genug war. Wenn Sie wissen, dass Sie innovativ sind und führend sind, sollten Sie aggressiv sein.

Ich weiß nicht, ob Manus Xiao Hong und seinem Team die Erfahrung und den Sprung von 1 auf N bringen kann, aber dieses Team, das am meisten über die „Schale“ weiß, glaubt daran, mit Herz und Hand als Einheit zu erschaffen, und glaubt auch an den Schmetterlingseffekt, der durch die Schöpfung hervorgerufen wird. Manus stammt von einem Motto am MIT: Mens at manus, das die Einheit von Herz und Hand betont. Es kann nicht optisch sein, es muss getan werden, und es kann Auswirkungen auf die reale Welt haben, was echtes Wissen ist.

In Zukunft, wenn mehr der Einlagen hinter Manus open source sind, wird eine breitere Palette von Schmetterlingseffekten weiter freigesetzt werden.

Haftungsausschluss:

  1. Dieser Artikel stammt aus [GateGEEEKPARK], und das Urheberrecht gehört dem Originalautor [Wan Chen], wenn Sie Einwände gegen den Nachdruck haben, wenden Sie sich bitte an Gate LearnDas Team wird es so schnell wie möglich gemäß den relevanten Verfahren bearbeiten.

  2. Haftungsausschluss: Die Ansichten und Meinungen, die in diesem Artikel dargestellt werden, repräsentieren nur die persönlichen Ansichten des Autors und stellen keine Anlageberatung dar.

  3. Andere Sprachversionen des Artikels werden vom Gate Learn-Team übersetzt und werden nicht erwähnt inGate.io, der übersetzte Artikel darf nicht vervielfältigt, verbreitet oder plagiiert werden.

Bắt đầu giao dịch
Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá
$100
$5500