大模型清流Cohere是如何被打造出來的？

Question

來源：適道![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8fc9c2c8b-dd1a6f-6d2ef1) 圖片來源：由無界AI生成**本期內容摘要：**> 1 20歲的少年參與了開創生成式AI時代的重要論文> 2 喜歡玩科技的華人創業家與天才少年共同創立Cohere> 3 AI會帶來哪些風險，它未來最大的機會是什麼？基礎大模型領域的全球競爭仍在進行，融資百億美元的OpenAI毫無疑問是領跑者之一，它的殺手級應用ChatGPT擁有數億活躍用戶，想要與它正面競爭無疑是困難的。而一家估值20億美元的AI獨角獸在基礎大模型的競爭中找到了一條差異化的路線，成為大模型創業混戰中的一股清流。這家獨角獸就是Cohere，它由《Attention is All You Need》這篇開創性論文最年輕的作者Aidan Gomez與他的兩位多倫多大學校友Ivan Zhang和Nick Frosst聯合創立。Cohere近期獲得了2.7億美元的C輪融資，累計融資額超過4.3億美元，估值超過21億美元。它的投資者名單包括Salesforce、NVIDIA、Oracle這樣的企業巨頭，Tiger Global和Index Ventures等頂級投資機構，以及Geoffrey Hinton（深度學習三巨頭，圖靈獎得主）、李飛飛等知名AI大牛。它的合作者還包括Amazon、麥肯錫等。為何說Cohere是大模型創業混戰中的一股清流？在產品上，它專注於服務企業級客戶，以強大的大模型Command為基礎，提供企業級的文字處理，知識問答等功能，並且模型可微調、可自訂。此外，它還推出了企業級的知識助手Coral。在安全性上，為了打消企業客戶的疑慮，它的產品可以多雲和本地部署，並且具有高度的資料隱私性。在融資策略上，它更傾向於拿與自己產業鏈相關的大企業的錢，借助巨頭的力量發展自己，但是卻不與巨頭綁定（參考OpenAI與微軟的關係）。身為知名AI獨角獸，Cohere的產品和企業競爭優勢已經被研究透徹，我們嘗試從創業者角度切入，以Cohere的兩位創始人Aidan Gomez與Ivan Zhang的多個訪談為材料，整理出Cohere從0到1的發展歷程，以及Aidan與Ivan兩位創業家對企業與AI的許多真知灼見。*註：本文資料源自Cohere的投資人、Madrona合夥人Jon Turow，Weights&Bias的創辦人Lukas Biewald，知名媒體人Steven Marsh與Cohere的兩位共同創辦人Aidan Gomez及Ivan Zhang的對談。 *## 20歲的青少年參與了開創生成式AI時代的重要論文Aidan Gomez是大語言模型領域開創性論文《Attention is All You Need》最年輕的作者。當時他從多倫多大學去Google Brain實習，還是大約19或20歲的本科生，這是他在美國科技界的第一次經歷。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7abf74ca64-dd1a6f-6d2ef1) Aidan Gomez在多倫多大學他在Google的實習導師是Lukasz Kaiser，也是《Attention is All You Need》的主要作者之一。當時他們一起打造了一個訓練大型神經網路的軟體平台Tensor，同時他們也在訓練一個AI模型。他們的想法是，訓練一個能從資料集中學會做許多事情的巨大AI模型，訓練它要用到多種模態的資料集，包括圖片、文字、甚至影片。當時Aidan和Noam Shazeer（也是Transformer的論文作者）是“同桌”，Noam也在研究大語言模型，只是他研究的演算法是RNN（循環神經網路）。 Noam的目標是找到比RNN更簡單、更精煉、更具可擴展性的新架構。於是Lukasz、Aidan與Noam一拍即合，打算一起做這項研究，這時他們又發現Google Brain的translate組的Niki Parmar, Jakob Uszkoreit, Ashish Vaswani與自己有相近的想法，兩個小組合併後，大家齊心協力地研究，最後那篇《Attention is All You Need》就誕生了。論文的投稿是在一個凌晨，當時辦公室只有Aidan和Ashish兩個人。稿子投出去後，他們就沉浸在了興奮中。 Ashish已經預見到這篇論文可能產生巨大的影響，而年輕的Aidan還是第一次投稿重要論文，還不知道這篇論文的重要性。就像他接受紐約客專欄作家Steven Marsh訪談時說的那樣：“我不認為任何人預見到了它在未來會變成什麼樣子。”而他真正對Transformer模式的實際影響感到震撼，是在實習結束回到多倫多大學以後。「當時，我在多倫多大學進行夏季研究，然後收到了Lukasz的郵件，主題是《看看這個》。郵件內容是一個關於日本朋克搖滾樂隊的故事，故事記載了他們怎麼組隊，怎麼發專輯，然後又遺憾解散的過程。在郵件的最後，Lukasz寫道：'我輸入的唯一的詞是transformer，模型自動生成了故事。'看了這篇機器生成的文本，我覺得這會掀起一場產品革命。因為這是第一次，一個非人類的系統以一種像我們人類一樣引人入勝的方式使用語言。 」 Aidan對Steven Marsh說。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-449ff78bb4-dd1a6f-6d2ef1) 大模型的演化樹當《Attention is All You Need》和Transformer誕生之後，這個創新的模型迅速被AI社群採納，成為了新的技術標準。它在AI研究者中間掀起了熱潮，不斷有基於Transformer的強大模型出現，例如BERT，例如GPT。而在2022年底，ChatGPT正式開啟了生成式AI的熱潮。## 喜歡玩科技的華人創業家與天才少年共同創立CohereCohere的共同創辦人Ivan Zhang是個非典型AI研究者，但卻是個典型的創業家。他與Aidan是多倫多大學的校友，後來輟學與Aidan一起創業。 「我是一個創造者，我不太喜歡坐在教室裡單純地吸收大量信息，我需要親自動手，邊'玩技術'邊學習，這是我最好的學習方式。」他這麼向Cohere的投資人Jon Turow介紹自己。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ca8db78d47-dd1a6f-6d2ef1) Cohere的共同創辦人Ivan Zhang### **從研究者到創業者，從ToC轉型ToB**2017年，從多倫多大學輟學後，Ivan在一家新創公司當後端工程師，他正是在這時認識了Aidan Gomez。當時Aidan想做一個獨立的AI研究小組，進行興趣主導的AI研究，驗證自己的創新想法，於是他們一起做了FOR.ai 。現在這個組織仍在運行，叫做Cohere For AI，由多位AI領域的研究科學家組成，主要做AI的基礎研究。2019年，Ivan向Aidan提議：“我們為什麼不一起做一些新東西？”，於是他們從FOR.ai獨立出來，開始進行更正式的創業。在這個階段，他們已經有了創業經驗，懂得一個組織正確的運作方式，也認識了不少AI領域的創辦人。在Cohere的創業初期，他們的第一個想法是打造一個AI基礎平台，讓開發者上傳AI模型，然後平台會壓縮模型的尺寸，讓模型更有效率。但在那個時間點，生成式AI的熱潮並沒有到來，這個市場還太小。作為論文作者的Aidan觀察到Transformer模型在AI社群內的蓬勃發展，看到它解決了各種和文字處理相關的問題，看到了開發者們對這個架構的改進。正好那時OpenAI的GPT-2發布，Transformer模型的參數突破10億，這也讓Aidan進一步意識到了模型規模的重要性，以及這個模型架構真正的潛力。於是，幾位創辦人將Cohere的方向從一個模型壓縮平台，朝向基礎大模型及服務轉型。「當體驗了GPT-2後，我們發現它很酷，但是我們還不確定可以用GPT這類的AI基礎模型搭建什麼服務。我們先嘗試做了Cohere的第一個項目，它是一個文本自動完成工具，形式是Chrome瀏覽器的擴充。使用者只要在文字方塊中輸入一段文字，它可以自動續寫完成。我們最初打算利用廣告來賺錢。（註：這是一個ToC的商業模式）。但是我們顯然低估了打造消費者產品的難度，這個產品的體驗並不好，也沒有獲得很多用戶，我們明白自己在這個方向上沒有競爭優勢。於是我們決定拆除前端的介面，只提供後端的模型的能力，從ToC轉向ToB，做企業級的API服務。當時，99%的NLP用例需要單字嵌入，也需要對模型進行微調，所以我們在幾個月內，打造了一個帶有AI生成能力，並且可以對模型進行嵌入和微調的API平台。 」 Ivan向Jon Turow分享Cohere轉型背後的思考。對於Cohere為什麼轉向ToB，以及公司使命的內核，Aidan Gomez進行了清晰的表述：「我們就是想讓AI大模型被更多人使用。當時，開發者和企業想要利用AI大模型的能力，無論是技術還是算力上都面臨很多阻礙。我們存在的意義就是消除人們使用AI大模型的障礙，讓不熟悉AI的開發者，以及普通的企業，都能方便地使用AI的能力。因為生成式AI特有的對話式互動對於終端使用者來說是最好的體驗。以我自己為例，當我想開一個銀行帳戶時，如果一家銀行能有一個24小時與我對話互動、並且高效解決問題的行動App，那會對我吸引力大增。Cohere就是要做到這一點，幫助所有類型的企業和組織用上生成式AI的力量，增強他們的競爭優勢。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-89e46b6e94-dd1a6f-6d2ef1) Cohere讓企業客戶用自己的資料微調模型企業在採用AI能力時，也會對兩個問題產生疑問，就是模型的託管和資料的隱私。我們是支援多雲託管的，企業可以選擇適合自己的雲端服務，也可以在本地的伺服器中部署。我們也十分重視資料隱私，當企業用自己的資料進行模型微調時，無論是部署在雲端中，還是部署在本地伺服器，我們都不會看到他們的數據，這是我們的一個核心功能。 」### **不拘一格的人才策略，塑造了Cohere的高創造力**Cohere能夠在早期迅速轉向，找到自己正確的位置，離不開Ivan和Aidan從FOR.ai 開始積累的人才觀和創業哲學。 Ivan在與Jon Turow對談時分享了他們的人才招募哲學和創業文化：「我們的招募方式與眾不同。在FOR.ai創業的時候，我們就確立了一個原則：我們尋找的是來自不同背景，但是對AI非常感興趣並希望產生巨大影響的人。你不需要具有在Meta AI，DeepMind或Google工作過的完美背景，但是一定要對自己專注的領域有非常高的興趣和熱情。而且你不光會寫論文，還要有實際動手的能力。我們把這種招募方式帶到了Cohere，建構了一個非常強大的早期團隊。在公司文化上，我們喜歡在技術方面進行很多探索，'玩技術'，然後獲得突破。雖然我們都會寫論文，但不是'書呆子'，我們對自己應該要做什麼非常清楚，而且會花很多的時間在工程實踐而不僅是算法探索上，這讓我們打造的產品能夠真正為人們帶來價值。 」現在OpenAI佔據了生成式AI的C位，那麼已經擁有數億活躍用戶的ChatGPT，會不會幫助OpenAI進行壟斷，其他的公司是否還有機會？ Aidan Gomez有自己的看法：「我絕不認為大模型領域會形成壟斷。我認為每個公司都有自己的風格、方向和自己的優勢，在市場上都會找到自己的位置。消費者和企業客戶會選擇他們認為最好的夥伴，最值得信任的公司，以及最能幫他們成功的平台。對於Cohere這樣的基礎模型公司，我們面對的最終狀態，很可能不是贏家通吃，而是一個多元化的市場格局。我們會有憑藉自己的優勢去贏得自己比賽的勝利。我們會用各種方法幫助客戶，讓他們用最好的AI能力。我們的焦點是讓AI模型通過提示，微調在內的各種方法，幫助特定客戶，獲得最大的價值。 」## AI會帶來哪些風險，它未來最大的機會是什麼？生成式AI的爆發，在受到歡迎的同時，也引發了許多擔憂。在公眾層面，人們擔憂AI是否會發展太快，能力太強，從而「搶奪」人類的工作機會；在現實的使用層面，則有不少人擔憂AI模型的安全性和可控性。對此話題，Aidan Gomez和Ivan Zhang也發表了自己的看法。### **AI可能「污染」社群媒體**Aidan Gomez的觀點更偏向社會性，他表示，AI生成的內容對社群媒體的「污染」值得擔憂：「與其擔憂非人類智慧取代人類這類可能還有很多年才會發生的事，我們更應該關注當前的現實風險。例如，非常有可能有AI產生數百萬個機器人，無縫地進入我們的社群媒體和公共對話，然後推動某一個觀點（無論這個觀點是有益的，還是有害的）。這可能會在一些能對社會產生重大影響的公共議題上產生無法預料的影響。所以我們必須權衡這個事情的風險，最好有具體的政策來減輕這種風險。例如，人們有權利知道，我們正在閱讀的媒體內容或行銷內容，到底是人類創作的還是機器合成的。 」而Ivan Zhang的觀點則相對現實，他認為AI面臨兩大挑戰：「對於AI面臨的挑戰，我們從客戶中獲取的資訊首先是如何評估生成式AI模型的能力。要準確地比較兩個AI模型的能力並不容易，而且在文本生成方面，這種比較很可能是主觀的。這對生成式AI在商業方面的採用會產生一定的阻礙。另一個挑戰就是資料隱私問題，在使用開源或閉源的大模型進行商用時，你有時會使用一些敏感的數據，這又會產生合規的問題。例如用AI輔助你寫一封敏感的電子郵件時，你是不是會擔心自己輸進模型的敏感資料被濫用？當然，這種擔心成為了我們的機會，我們正在與Oracle合作解決這個問題。 」### **具身智能未來是AI的大機會**Aidan Gomez和Ivan Zhang既是AI專家，也是企業家，對於AI在未來有哪些新的方向和機會，他們的觀點也值得關注。首先，他們在不同的場合都提到了同一個技術，那就是具身智能，也就是將生成式AI的能力注入到有形的機器中。Aidan這麼對Lukas Biewald表述：「我認為將生成式AI用到機器人技術和實體化方面真的太酷了，而且這個方向有非常強烈的需求。我們都想像過機器人具有高智能和靈活的身體會怎麼樣——它一定會產生巨大的變革。但是這個方向確實還有很長的路要走，我也希望自己在這個方向產生影響，並試著去做一些相關的事情。”Ivan也認為具身智能絕對是AI下一階段的大機會：“我認為最大的機會是能影響實體的'行動模型'，將AI與工程及實體的產品結合起來，將會非常令人興奮，也一定會有不少企業對它們感興趣。但是，這項技術要走向實體化，模型的準確性還需要進一步的提高。”此外，Aidan也對AI的智能發展和未來應用做了更長遠的想像：「現在AI模型的建構依賴人類，為了讓AI更智能，我們會用人類的各種高階知識來訓練它。打個比方，就像讓一個非常聰明的人，去教一個還不那麼聰明的AI。那麼未來如果AI模型變得非常聰明，人類的知識已經被他全部學會了，就會面臨一個臨界點——人類已經沒什麼教給AI了。我最感興趣的是，如果AI突破了這個臨界點，會發生什麼事？如果一群已經學完了人類已有知識的AI在一起交談、探索、學習，會不會產生新的知識？也許當這個時候來臨，我們人類會向AI學習新知識，AI會帶著人類一起在新的知識海洋裡遨遊。 」