Trận chiến 100 mô hình, một trong những người chơi được mong đợi nhất, cuối cùng đã ra mắt chính thức!
Đây là mô hình mã nguồn mở đầu tiên từ công ty AI 2.0 được thành lập bởi Tiến sĩ Kai-Fu Lee - Yi ** loạt các mô hình lớn:
Yi-34B和Yi-6B。
Mặc dù loạt mẫu lớn Yi ra mắt tương đối muộn, nhưng về mặt hiệu quả, nó chắc chắn có thể được gọi là người đến sau.
Ngay sau khi được bắn, nó đã giành được một số giải nhất toàn cầu **:
Hugging Face đứng đầu trong danh sách thử nghiệm tiếng Anh, đè bẹp một số mẫu xe quy mô lớn như Llama-2 70B và Falcon-180B với kích thước 34B;
Người mẫu quy mô lớn trong nước duy nhất đã thành công lọt vào top HuggingFace;
Khả năng C-Chinese xếp hạng đầu tiên, vượt qua tất cả các mô hình mã nguồn mở trên thế giới;
MMLU, BBH và tám khả năng toàn diện khác đều giành được hiệu suất;
Giành được ngai vàng của cửa sổ ngữ cảnh dài nhất thế giới, đạt 200K, có thể xử lý trực tiếp 400.000 ký tự Trung Quốc để nhập văn bản cực dài.
......
Điều đáng chú ý là Zero One Thousand Things và mô hình lớn của nó không đạt được trong một sớm một chiều, mà đã được ủ trong hơn nửa năm.
Điều này chắc chắn đặt ra nhiều câu hỏi:
Ví dụ, tại sao bạn muốn giữ lại nửa năm và chọn chụp gần cuối năm?
Một ví dụ khác là làm thế nào để đạt được rất nhiều lần đầu tiên ngay lần đầu tiên?
Với những câu hỏi này, chúng tôi đã liên lạc độc quyền với Zero One Everything và bây giờ chúng tôi sẽ tiết lộ từng bí mật một.
** Đánh bại 100 tỷ mô hình lớn tham số **
Cụ thể, có hai điểm nổi bật chính của dòng mẫu lớn Yi mới ra mắt và mã nguồn mở:
"Thắng lớn với nhỏ" để đánh bại 100 tỷ mô hình tham số
Cửa sổ ngữ cảnh dài nhất thế giới hỗ trợ 400.000 từ
Trong bảng xếp hạng các mẫu mã nguồn mở được đào tạo sẵn của Hugging Face, Yi-34B đứng đầu thế giới với số điểm 70,72, vượt qua LLaMA-70B và Falcon-180B.
Bạn phải biết rằng số lượng thông số của Yi-34B chỉ là 1/2, 1/5 của hai thông số sau. Nó không chỉ giành chiến thắng trong danh sách với "nhỏ và lớn", mà còn đạt được thứ tự vượt chéo về độ lớn, đánh bại mô hình lớn cấp 100 tỷ với quy mô 10 tỷ.
Trong số đó, Yi-34B vượt trội hơn rất nhiều so với các model lớn khác ở hai chỉ số MMLU (Massive Multi-task Language Understanding) và TruthfulQA (Authenticity Benchmark).
** **###### △Ôm mặt Bảng xếp hạng LLM mở (được đào tạo trước) Bảng xếp hạng mô hình lớn, Yi-34B đứng đầu danh sách (Tháng Mười Một 5, 2023)
Tập trung vào trình độ tiếng Trung, Yi-34B vượt trội hơn tất cả các mô hình nguồn mở trong bảng xếp hạng trình độ C-Trung Quốc.
Tương tự, Yi-6B mã nguồn mở vượt qua tất cả các mô hình nguồn mở có cùng quy mô.
** **###### △C- Bảng xếp hạng: Mẫu có thể truy cập công khai, Yi-34B số 1 thế giới (ngày 5 tháng 11 năm 2023)
Trong ba chỉ số chính của Trung Quốc là CMMLU, E-, và Gaokao, ** vượt xa GPT-4 **, thể hiện lợi thế mạnh mẽ của tiếng Trung và chúng ta biết nhiều hơn về nguồn gốc
。
Về BooIQ và OBQA, nó ở cùng cấp độ với GPT-4.
Ngoài ra, trong bộ đánh giá phản ánh khả năng toàn diện của mô hình, chẳng hạn như MMLU (Hiểu ngôn ngữ đa nhiệm lớn) và BBH, các chỉ số đánh giá quan trọng nhất của các mô hình lớn, Yi-34B vượt trội trong việc đánh giá khả năng chung, lý luận kiến thức, đọc hiểu và các chỉ số khác, rất phù hợp với đánh giá Ôm mặt.
###### △Điểm của mỗi bộ đánh giá: Mô hình Yi so với các mô hình mã nguồn mở khác
Tuy nhiên, trong bản phát hành, 010000 cũng nói rằng các mô hình dòng Yi không hoạt động tốt như các mô hình GPT trong các đánh giá toán học và mã của GSM8k và MBPP.
Điều này là do nhóm muốn bảo tồn càng nhiều khả năng chung của mô hình càng tốt trong giai đoạn tiền đào tạo, vì vậy họ không bao gồm quá nhiều dữ liệu toán học và mã trong dữ liệu đào tạo.
Hiện tại, nhóm nghiên cứu đang tiến hành nghiên cứu theo hướng toán học và đề xuất một mô hình MammoTH lớn có thể giải quyết các vấn đề toán học chung, sử dụng CoT và PoT để giải quyết các vấn đề toán học và vượt trội so với mô hình SOTA trong tất cả các phiên bản quy mô và các bộ thử nghiệm bên trong và bên ngoài. Trong số đó, MammoTH-34B có tỷ lệ chính xác 44% trên MATH, vượt quá kết quả CoT của GPT-4.
** Dòng Yi tiếp theo cũng sẽ ra mắt một mô hình đào tạo liên tục chuyên về mã và toán học **.
Ngoài kết quả rực rỡ, Yi-34B cũng đã làm mới chiều dài của cửa sổ ngữ cảnh mô hình lớn lên 200K, có thể xử lý đầu vào văn bản cực dài khoảng 400.000 ký tự Trung Quốc.
Điều này tương đương với việc có thể xử lý hai cuốn tiểu thuyết "Vấn đề ba cơ thể 1" ** cùng một lúc **, hiểu ** tài liệu PDF hơn 1000 trang và thậm chí thay thế nhiều kịch bản dựa trên cơ sở dữ liệu vector để xây dựng cơ sở kiến thức bên ngoài.
Cửa sổ ngữ cảnh siêu dài là một kích thước quan trọng để phản ánh sức mạnh của mô hình lớn và có cửa sổ ngữ cảnh dài hơn có thể xử lý thông tin cơ sở kiến thức phong phú hơn, tạo ra văn bản mạch lạc và chính xác hơn và hỗ trợ mô hình lớn xử lý tốt hơn các tác vụ như tóm tắt tài liệu / Hỏi &Đáp.
Điều quan trọng cần biết là trong nhiều ứng dụng công nghiệp dọc của các mô hình lớn (như tài chính, luật, tài chính, v.v.), khả năng xử lý tài liệu chỉ cần thiết.
Ví dụ: GPT-4 có thể hỗ trợ 32K, khoảng 25.000 ký tự và Claude 2 có thể hỗ trợ 100K, khoảng 200.000 ký tự.
Zero One Everything không chỉ làm mới kỷ lục ngành mà còn trở thành công ty mô hình quy mô lớn đầu tiên mở ra một cửa sổ ngữ cảnh cực dài trong cộng đồng nguồn mở.
Vậy, loạt phim Yi được thực hiện như thế nào?
** Nền tảng đào tạo tự phát triển Super Infra+**
Zero One Ten Thousand Things nói rằng bí mật của bộ truyện Yi đến từ hai khía cạnh:
Tự phát triển nền tảng thử nghiệm đào tạo quy mô lớn
Đội Super Infra
Sự kết hợp của hai điều trên có thể làm cho quá trình đào tạo mô hình lớn hiệu quả, chính xác và tự động hơn. Trong cận chiến đa chế độ hiện nay, tiết kiệm thời gian quý báu, tính toán và chi phí lao động.
Chúng là một trong những lý do khiến dòng mẫu lớn Yi "chậm", nhưng cũng chính vì chúng, "chậm là nhanh".
Đầu tiên, chúng ta hãy nhìn vào phần đào tạo mô hình.
Đây là phần đặt nền móng cho khả năng của các mô hình lớn, và chất lượng dữ liệu và phương pháp đào tạo có liên quan trực tiếp đến hiệu quả cuối cùng của mô hình.
Do đó, 010000 đã xây dựng đường ống xử lý dữ liệu thông minh của riêng mình và nền tảng thử nghiệm đào tạo quy mô lớn.
Quy trình xử lý dữ liệu thông minh hiệu quả, tự động, có thể đánh giá và có thể mở rộng và nhóm được dẫn dắt bởi các cựu chuyên gia đồ thị tri thức và dữ liệu lớn của Google.
"Nền tảng thử nghiệm đào tạo quy mô lớn" có thể hướng dẫn thiết kế và tối ưu hóa các mô hình, nâng cao hiệu quả đào tạo mô hình và giảm lãng phí tài nguyên máy tính.
Dựa trên nền tảng này, lỗi dự đoán của mỗi nút của Yi-34B được kiểm soát trong vòng 0,5%, chẳng hạn như khớp dữ liệu, tìm kiếm siêu tham số và thử nghiệm cấu trúc mô hình.
Kết quả là, so với khóa đào tạo "giả kim thuật mở rộng" trước đây, việc đào tạo loạt mô hình lớn Yi đã tiến tới "** khoa học đào tạo mô hình **": nó đã trở nên chi tiết và khoa học hơn, kết quả thí nghiệm có thể ổn định hơn và quy mô của mô hình có thể được mở rộng nhanh hơn nữa trong tương lai.
** Hãy nhìn vào phần Infra **.
AI Infra đề cập đến công nghệ khung cơ bản của trí tuệ nhân tạo, bao gồm các cơ sở kỹ thuật cơ bản khác nhau trong việc đào tạo và triển khai các mô hình lớn, bao gồm bộ xử lý, hệ điều hành, hệ thống lưu trữ, cơ sở hạ tầng mạng, nền tảng điện toán đám mây, v.v.
Nếu quá trình đào tạo là đặt nền tảng cho chất lượng của mô hình, thì AI Infra cung cấp sự đảm bảo cho liên kết này, làm cho nền tảng vững chắc hơn và nó cũng liên quan trực tiếp đến lớp dưới cùng của mô hình lớn.
Nhóm Zero One Everything đã sử dụng một phép ẩn dụ sống động hơn để giải thích:
Nếu đào tạo mô hình lớn là leo núi, khả năng của Infra xác định ranh giới khả năng giữa thuật toán đào tạo mô hình lớn và mô hình, nghĩa là trần của "chiều cao leo núi".
Đặc biệt trong tình trạng thiếu hụt tài nguyên tính toán trong ngành như hiện nay, làm thế nào để thúc đẩy nghiên cứu và phát triển các mô hình lớn nhanh hơn và ổn định hơn là rất quan trọng.
Đó là lý do tại sao Zero One rất coi trọng phần Infra.
Kai-Fu Lee cũng nói rằng những người đã thực hiện Infra mô hình quy mô lớn khan hiếm hơn tài năng thuật toán.
Đội ngũ Infra đã tham gia hỗ trợ đào tạo quy mô lớn hàng trăm tỷ mô hình lớn.
Với sự hỗ trợ của họ, chi phí đào tạo của mô hình Yi-34B đã giảm 40% và chi phí đào tạo quy mô mô phỏng 100 tỷ nhân dân tệ có thể giảm tới 50%. Việc đào tạo thực tế hoàn thành thời gian dự đoán của miền thời gian tiêu chuẩn ** lỗi dưới 1 giờ ** - bạn biết đấy, nói chung ngành sẽ dành một vài ngày làm lỗi.
Theo nhóm nghiên cứu, tính đến nay, tỷ lệ chính xác dự đoán lỗi của khả năng 010000 Infra đã vượt quá 90%, tỷ lệ phát hiện sớm lỗi đã đạt 99,9% và tỷ lệ tự khắc phục lỗi mà không cần tham gia thủ công đã vượt quá 95%, có thể đảm bảo hiệu quả tiến độ đào tạo mô hình suôn sẻ.
Kai-Fu Lee tiết lộ rằng trong khi hoàn thành việc huấn luyện trước Yi-34B, việc đào tạo mô hình thông số cấp 100 tỷ đã chính thức được khởi động.
Và nó gợi ý rằng các mô hình lớn hơn có khả năng có sẵn nhanh hơn mọi người mong đợi:
đường ống xử lý dữ liệu, nghiên cứu thuật toán, nền tảng thử nghiệm, tài nguyên GPU và AI Infra của Zero-One đều đã sẵn sàng và chúng tôi sẽ di chuyển ngày càng nhanh hơn.
** Ưu tiên không một điều**
Cuối cùng, hãy trả lời các câu hỏi mà chúng tôi đã đề cập ở phần đầu.
Lý do khiến Zero One Everything chọn "chuyến tàu muộn" cuối năm thực sự liên quan mật thiết đến mục tiêu riêng của mình.
Như Kai-Fu Lee đã nói trong bản phát hành này:
Zero One Everything đã vững vàng bước vào mục tiêu tiếng vang đầu tiên trên thế giới, từ người đầu tiên được tuyển dụng, dòng mã đầu tiên được viết và mô hình đầu tiên được thiết kế, nó luôn giữ ý định và quyết tâm ban đầu để trở thành "Số 1 thế giới".
Và để trở thành người đầu tiên, bạn cần có khả năng chịu đựng khí chất và tập trung trau dồi nền tảng vững chắc để đạt được một bom tấn khi ra mắt.
Không chỉ vậy, tại thời điểm thành lập Zero One Things, điểm khởi đầu của nó về cơ bản khác với các nhà sản xuất mô hình quy mô lớn khác.
Không ai đại diện cho toàn bộ thế giới kỹ thuật số, từ số không đến một, và thậm chí tất cả mọi thứ trong vũ trụ, cái gọi là Đạo sinh ra một... Sinh ra tất cả mọi thứ có nghĩa là tham vọng "không một trí thông minh, tất cả mọi thứ được trao quyền".
Điều này cũng phù hợp với suy nghĩ và đánh giá của Kai-Fu Lee về AI2.0, sau khi ChatGPT thúc đẩy sự bùng nổ của các mô hình lớn, ông đã từng công khai tuyên bố:
Kỷ nguyên AI 2.0, với sự đột phá của mô hình bệ đỡ, sẽ mở ra một cuộc cách mạng ở nhiều cấp độ từ công nghệ, nền tảng đến ứng dụng. Giống như Windows đã thúc đẩy sự phổ biến của PC, Android đã khai sinh ra hệ sinh thái của Internet di động, AI2.0 sẽ sinh ra các cơ hội nền tảng lớn hơn mười lần so với Internet di động, sẽ viết lại phần mềm, giao diện người dùng và ứng dụng hiện có, cũng sẽ sinh ra một loạt các ứng dụng AI đầu tiên và sinh ra các mô hình kinh doanh do AI dẫn đầu.
** Khái niệm là AI-đầu tiên, động lực là tầm nhìn kỹ thuật **, được hỗ trợ bởi di sản kỹ thuật xuất sắc của Trung Quốc, điểm đột phá là mô hình bệ, bao gồm nhiều cấp độ công nghệ, nền tảng và ứng dụng.
Để đạt được điều này, con đường khởi nghiệp được Zero One lựa chọn kể từ khi thành lập là một mô hình tự phát triển.
Mặc dù nó được phát hành muộn, nhưng nó chắc chắn không chậm về tốc độ.
Ví dụ, trong ba tháng đầu năm, 010000000000 đã đạt được thử nghiệm nội bộ mô hình với thang điểm 10 tỷ thông số; Sau ba tháng nữa, bạn có thể mở khóa lần đầu tiên trên thế giới với thang đo thông số là 34B.
Tốc độ và mục tiêu cao như vậy chắc hẳn không thể tách rời sức mạnh đồng đội mạnh mẽ đằng sau 01000000000.
Zero One Everything ** được đích thân dẫn dắt bởi Tiến sĩ Kai-Fu Lee và là Giám đốc điều hành **.
Trong giai đoạn đầu, Zero One đã tập hợp đội ngũ hàng chục thành viên nòng cốt, tập trung vào công nghệ mô hình lớn, thuật toán trí tuệ nhân tạo, xử lý ngôn ngữ tự nhiên, kiến trúc hệ thống, kiến trúc máy tính, bảo mật dữ liệu, nghiên cứu và phát triển sản phẩm và các lĩnh vực khác.
Trong số đó, các thành viên của nhóm chung đã tham gia bao gồm cựu phó chủ tịch của Alibaba, cựu phó chủ tịch của Baidu, cựu giám đốc điều hành của Google Trung Quốc và cựu phó chủ tịch của Microsoft / SAP / Cisco, và nền tảng của các nhóm thuật toán và sản phẩm đều đến từ các nhà sản xuất lớn trong và ngoài nước.
Lấy các thành viên của nhóm thuật toán và mô hình làm ví dụ, có những bậc thầy thuật toán có bài báo được trích dẫn bởi GPT-4, các nhà nghiên cứu xuất sắc đã giành được giải thưởng nghiên cứu nội bộ của Microsoft và siêu kỹ sư đã giành được Giải thưởng đặc biệt của Giám đốc điều hành Alibaba. Tổng cộng, ông đã xuất bản hơn 100 bài báo học thuật liên quan đến các mô hình lớn trong các hội nghị học thuật nổi tiếng như ICLR, NeurIPS, CVPR và ICCV **.
Hơn nữa, khi mới thành lập, 010000 đã bắt đầu xây dựng một nền tảng thử nghiệm, xây dựng một cụm hàng nghìn GPU để đào tạo, điều chỉnh và suy luận. Về mặt dữ liệu, trọng tâm chính là cải thiện số lượng tham số hợp lệ và mật độ dữ liệu chất lượng cao được sử dụng.
Từ đó, không khó để thấy sự tự tin của mẫu Yi series về số 0 là dám đánh lùi ở đâu.
Điều này được hiểu rằng dựa trên loạt mô hình lớn Yi, nó sẽ nhanh chóng lặp lại và mã nguồn mở nhiều phiên bản định lượng, mô hình đối thoại, mô hình toán học, mô hình mã và mô hình đa phương thức.
Nhìn chung, với sự gia nhập của chú ngựa ô 010.000 thứ, cuộc chiến của 100 mô hình đã trở nên căng thẳng và sống động hơn.
Thật đáng để mong đợi bao nhiêu "lần đầu tiên toàn cầu" mà mô hình lớn dòng Yi sẽ lật đổ trong tương lai.
Một điều nữa
Tại sao lại có tên "Yi"? **
Tên này xuất phát từ bính âm của "一", và "Y" trong "Yi" bị lộn ngược, khéo léo giống với ký tự Trung Quốc "con người", kết hợp với i trong AI, đại diện cho Con người + AI.
Chúng tôi tin rằng trao quyền cho AI sẽ thúc đẩy xã hội loài người tiến lên và AI sẽ tạo ra giá trị lớn cho con người trên tinh thần đặt con người lên hàng đầu.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Mô hình mã nguồn mở mạnh nhất đổi chủ? Kai-Fu Lee đã dẫn dắt nhóm đứng đầu nhiều danh sách toàn cầu và 400.000 xử lý văn bản đã phá vỡ kỷ lục
Nguồn gốc: qubits
Trận chiến 100 mô hình, một trong những người chơi được mong đợi nhất, cuối cùng đã ra mắt chính thức!
Đây là mô hình mã nguồn mở đầu tiên từ công ty AI 2.0 được thành lập bởi Tiến sĩ Kai-Fu Lee - Yi ** loạt các mô hình lớn:
Yi-34B和Yi-6B。
Ngay sau khi được bắn, nó đã giành được một số giải nhất toàn cầu **:
Điều này chắc chắn đặt ra nhiều câu hỏi:
Ví dụ, tại sao bạn muốn giữ lại nửa năm và chọn chụp gần cuối năm?
Một ví dụ khác là làm thế nào để đạt được rất nhiều lần đầu tiên ngay lần đầu tiên?
Với những câu hỏi này, chúng tôi đã liên lạc độc quyền với Zero One Everything và bây giờ chúng tôi sẽ tiết lộ từng bí mật một.
** Đánh bại 100 tỷ mô hình lớn tham số **
Cụ thể, có hai điểm nổi bật chính của dòng mẫu lớn Yi mới ra mắt và mã nguồn mở:
Trong bảng xếp hạng các mẫu mã nguồn mở được đào tạo sẵn của Hugging Face, Yi-34B đứng đầu thế giới với số điểm 70,72, vượt qua LLaMA-70B và Falcon-180B.
Bạn phải biết rằng số lượng thông số của Yi-34B chỉ là 1/2, 1/5 của hai thông số sau. Nó không chỉ giành chiến thắng trong danh sách với "nhỏ và lớn", mà còn đạt được thứ tự vượt chéo về độ lớn, đánh bại mô hình lớn cấp 100 tỷ với quy mô 10 tỷ.
Trong số đó, Yi-34B vượt trội hơn rất nhiều so với các model lớn khác ở hai chỉ số MMLU (Massive Multi-task Language Understanding) và TruthfulQA (Authenticity Benchmark).
**
**###### △Ôm mặt Bảng xếp hạng LLM mở (được đào tạo trước) Bảng xếp hạng mô hình lớn, Yi-34B đứng đầu danh sách (Tháng Mười Một 5, 2023)
Tập trung vào trình độ tiếng Trung, Yi-34B vượt trội hơn tất cả các mô hình nguồn mở trong bảng xếp hạng trình độ C-Trung Quốc.
Tương tự, Yi-6B mã nguồn mở vượt qua tất cả các mô hình nguồn mở có cùng quy mô.
**
**###### △C- Bảng xếp hạng: Mẫu có thể truy cập công khai, Yi-34B số 1 thế giới (ngày 5 tháng 11 năm 2023)
Trong ba chỉ số chính của Trung Quốc là CMMLU, E-, và Gaokao, ** vượt xa GPT-4 **, thể hiện lợi thế mạnh mẽ của tiếng Trung và chúng ta biết nhiều hơn về nguồn gốc
Về BooIQ và OBQA, nó ở cùng cấp độ với GPT-4.
Tuy nhiên, trong bản phát hành, 010000 cũng nói rằng các mô hình dòng Yi không hoạt động tốt như các mô hình GPT trong các đánh giá toán học và mã của GSM8k và MBPP.
Điều này là do nhóm muốn bảo tồn càng nhiều khả năng chung của mô hình càng tốt trong giai đoạn tiền đào tạo, vì vậy họ không bao gồm quá nhiều dữ liệu toán học và mã trong dữ liệu đào tạo.
Hiện tại, nhóm nghiên cứu đang tiến hành nghiên cứu theo hướng toán học và đề xuất một mô hình MammoTH lớn có thể giải quyết các vấn đề toán học chung, sử dụng CoT và PoT để giải quyết các vấn đề toán học và vượt trội so với mô hình SOTA trong tất cả các phiên bản quy mô và các bộ thử nghiệm bên trong và bên ngoài. Trong số đó, MammoTH-34B có tỷ lệ chính xác 44% trên MATH, vượt quá kết quả CoT của GPT-4.
** Dòng Yi tiếp theo cũng sẽ ra mắt một mô hình đào tạo liên tục chuyên về mã và toán học **.
Điều này tương đương với việc có thể xử lý hai cuốn tiểu thuyết "Vấn đề ba cơ thể 1" ** cùng một lúc **, hiểu ** tài liệu PDF hơn 1000 trang và thậm chí thay thế nhiều kịch bản dựa trên cơ sở dữ liệu vector để xây dựng cơ sở kiến thức bên ngoài.
Điều quan trọng cần biết là trong nhiều ứng dụng công nghiệp dọc của các mô hình lớn (như tài chính, luật, tài chính, v.v.), khả năng xử lý tài liệu chỉ cần thiết.
Ví dụ: GPT-4 có thể hỗ trợ 32K, khoảng 25.000 ký tự và Claude 2 có thể hỗ trợ 100K, khoảng 200.000 ký tự.
Zero One Everything không chỉ làm mới kỷ lục ngành mà còn trở thành công ty mô hình quy mô lớn đầu tiên mở ra một cửa sổ ngữ cảnh cực dài trong cộng đồng nguồn mở.
Vậy, loạt phim Yi được thực hiện như thế nào?
** Nền tảng đào tạo tự phát triển Super Infra+**
Zero One Ten Thousand Things nói rằng bí mật của bộ truyện Yi đến từ hai khía cạnh:
Sự kết hợp của hai điều trên có thể làm cho quá trình đào tạo mô hình lớn hiệu quả, chính xác và tự động hơn. Trong cận chiến đa chế độ hiện nay, tiết kiệm thời gian quý báu, tính toán và chi phí lao động.
Chúng là một trong những lý do khiến dòng mẫu lớn Yi "chậm", nhưng cũng chính vì chúng, "chậm là nhanh".
Đầu tiên, chúng ta hãy nhìn vào phần đào tạo mô hình.
Đây là phần đặt nền móng cho khả năng của các mô hình lớn, và chất lượng dữ liệu và phương pháp đào tạo có liên quan trực tiếp đến hiệu quả cuối cùng của mô hình.
Do đó, 010000 đã xây dựng đường ống xử lý dữ liệu thông minh của riêng mình và nền tảng thử nghiệm đào tạo quy mô lớn.
Quy trình xử lý dữ liệu thông minh hiệu quả, tự động, có thể đánh giá và có thể mở rộng và nhóm được dẫn dắt bởi các cựu chuyên gia đồ thị tri thức và dữ liệu lớn của Google.
"Nền tảng thử nghiệm đào tạo quy mô lớn" có thể hướng dẫn thiết kế và tối ưu hóa các mô hình, nâng cao hiệu quả đào tạo mô hình và giảm lãng phí tài nguyên máy tính.
Dựa trên nền tảng này, lỗi dự đoán của mỗi nút của Yi-34B được kiểm soát trong vòng 0,5%, chẳng hạn như khớp dữ liệu, tìm kiếm siêu tham số và thử nghiệm cấu trúc mô hình.
Kết quả là, so với khóa đào tạo "giả kim thuật mở rộng" trước đây, việc đào tạo loạt mô hình lớn Yi đã tiến tới "** khoa học đào tạo mô hình **": nó đã trở nên chi tiết và khoa học hơn, kết quả thí nghiệm có thể ổn định hơn và quy mô của mô hình có thể được mở rộng nhanh hơn nữa trong tương lai.
AI Infra đề cập đến công nghệ khung cơ bản của trí tuệ nhân tạo, bao gồm các cơ sở kỹ thuật cơ bản khác nhau trong việc đào tạo và triển khai các mô hình lớn, bao gồm bộ xử lý, hệ điều hành, hệ thống lưu trữ, cơ sở hạ tầng mạng, nền tảng điện toán đám mây, v.v.
Nếu quá trình đào tạo là đặt nền tảng cho chất lượng của mô hình, thì AI Infra cung cấp sự đảm bảo cho liên kết này, làm cho nền tảng vững chắc hơn và nó cũng liên quan trực tiếp đến lớp dưới cùng của mô hình lớn.
Nhóm Zero One Everything đã sử dụng một phép ẩn dụ sống động hơn để giải thích:
Đặc biệt trong tình trạng thiếu hụt tài nguyên tính toán trong ngành như hiện nay, làm thế nào để thúc đẩy nghiên cứu và phát triển các mô hình lớn nhanh hơn và ổn định hơn là rất quan trọng.
Đó là lý do tại sao Zero One rất coi trọng phần Infra.
Kai-Fu Lee cũng nói rằng những người đã thực hiện Infra mô hình quy mô lớn khan hiếm hơn tài năng thuật toán.
Đội ngũ Infra đã tham gia hỗ trợ đào tạo quy mô lớn hàng trăm tỷ mô hình lớn.
Với sự hỗ trợ của họ, chi phí đào tạo của mô hình Yi-34B đã giảm 40% và chi phí đào tạo quy mô mô phỏng 100 tỷ nhân dân tệ có thể giảm tới 50%. Việc đào tạo thực tế hoàn thành thời gian dự đoán của miền thời gian tiêu chuẩn ** lỗi dưới 1 giờ ** - bạn biết đấy, nói chung ngành sẽ dành một vài ngày làm lỗi.
Theo nhóm nghiên cứu, tính đến nay, tỷ lệ chính xác dự đoán lỗi của khả năng 010000 Infra đã vượt quá 90%, tỷ lệ phát hiện sớm lỗi đã đạt 99,9% và tỷ lệ tự khắc phục lỗi mà không cần tham gia thủ công đã vượt quá 95%, có thể đảm bảo hiệu quả tiến độ đào tạo mô hình suôn sẻ.
Kai-Fu Lee tiết lộ rằng trong khi hoàn thành việc huấn luyện trước Yi-34B, việc đào tạo mô hình thông số cấp 100 tỷ đã chính thức được khởi động.
Và nó gợi ý rằng các mô hình lớn hơn có khả năng có sẵn nhanh hơn mọi người mong đợi:
** Ưu tiên không một điều**
Cuối cùng, hãy trả lời các câu hỏi mà chúng tôi đã đề cập ở phần đầu.
Lý do khiến Zero One Everything chọn "chuyến tàu muộn" cuối năm thực sự liên quan mật thiết đến mục tiêu riêng của mình.
Như Kai-Fu Lee đã nói trong bản phát hành này:
Và để trở thành người đầu tiên, bạn cần có khả năng chịu đựng khí chất và tập trung trau dồi nền tảng vững chắc để đạt được một bom tấn khi ra mắt.
Không chỉ vậy, tại thời điểm thành lập Zero One Things, điểm khởi đầu của nó về cơ bản khác với các nhà sản xuất mô hình quy mô lớn khác.
Không ai đại diện cho toàn bộ thế giới kỹ thuật số, từ số không đến một, và thậm chí tất cả mọi thứ trong vũ trụ, cái gọi là Đạo sinh ra một... Sinh ra tất cả mọi thứ có nghĩa là tham vọng "không một trí thông minh, tất cả mọi thứ được trao quyền".
** Khái niệm là AI-đầu tiên, động lực là tầm nhìn kỹ thuật **, được hỗ trợ bởi di sản kỹ thuật xuất sắc của Trung Quốc, điểm đột phá là mô hình bệ, bao gồm nhiều cấp độ công nghệ, nền tảng và ứng dụng.
Để đạt được điều này, con đường khởi nghiệp được Zero One lựa chọn kể từ khi thành lập là một mô hình tự phát triển.
Mặc dù nó được phát hành muộn, nhưng nó chắc chắn không chậm về tốc độ.
Ví dụ, trong ba tháng đầu năm, 010000000000 đã đạt được thử nghiệm nội bộ mô hình với thang điểm 10 tỷ thông số; Sau ba tháng nữa, bạn có thể mở khóa lần đầu tiên trên thế giới với thang đo thông số là 34B.
Tốc độ và mục tiêu cao như vậy chắc hẳn không thể tách rời sức mạnh đồng đội mạnh mẽ đằng sau 01000000000.
Zero One Everything ** được đích thân dẫn dắt bởi Tiến sĩ Kai-Fu Lee và là Giám đốc điều hành **.
Trong số đó, các thành viên của nhóm chung đã tham gia bao gồm cựu phó chủ tịch của Alibaba, cựu phó chủ tịch của Baidu, cựu giám đốc điều hành của Google Trung Quốc và cựu phó chủ tịch của Microsoft / SAP / Cisco, và nền tảng của các nhóm thuật toán và sản phẩm đều đến từ các nhà sản xuất lớn trong và ngoài nước.
Lấy các thành viên của nhóm thuật toán và mô hình làm ví dụ, có những bậc thầy thuật toán có bài báo được trích dẫn bởi GPT-4, các nhà nghiên cứu xuất sắc đã giành được giải thưởng nghiên cứu nội bộ của Microsoft và siêu kỹ sư đã giành được Giải thưởng đặc biệt của Giám đốc điều hành Alibaba. Tổng cộng, ông đã xuất bản hơn 100 bài báo học thuật liên quan đến các mô hình lớn trong các hội nghị học thuật nổi tiếng như ICLR, NeurIPS, CVPR và ICCV **.
Hơn nữa, khi mới thành lập, 010000 đã bắt đầu xây dựng một nền tảng thử nghiệm, xây dựng một cụm hàng nghìn GPU để đào tạo, điều chỉnh và suy luận. Về mặt dữ liệu, trọng tâm chính là cải thiện số lượng tham số hợp lệ và mật độ dữ liệu chất lượng cao được sử dụng.
Từ đó, không khó để thấy sự tự tin của mẫu Yi series về số 0 là dám đánh lùi ở đâu.
Điều này được hiểu rằng dựa trên loạt mô hình lớn Yi, nó sẽ nhanh chóng lặp lại và mã nguồn mở nhiều phiên bản định lượng, mô hình đối thoại, mô hình toán học, mô hình mã và mô hình đa phương thức.
Nhìn chung, với sự gia nhập của chú ngựa ô 010.000 thứ, cuộc chiến của 100 mô hình đã trở nên căng thẳng và sống động hơn.
Thật đáng để mong đợi bao nhiêu "lần đầu tiên toàn cầu" mà mô hình lớn dòng Yi sẽ lật đổ trong tương lai.
Một điều nữa
Tại sao lại có tên "Yi"? **
Tên này xuất phát từ bính âm của "一", và "Y" trong "Yi" bị lộn ngược, khéo léo giống với ký tự Trung Quốc "con người", kết hợp với i trong AI, đại diện cho Con người + AI.
Chúng tôi tin rằng trao quyền cho AI sẽ thúc đẩy xã hội loài người tiến lên và AI sẽ tạo ra giá trị lớn cho con người trên tinh thần đặt con người lên hàng đầu.