Pertarungan 100 model, salah satu pemain yang paling dinanti, akhirnya melakukan debut resminya!
Ini adalah model open-source pertama dari perusahaan AI 2.0 yang didirikan oleh Dr. Kai-Fu Lee--Yi ** seri model besar:
Yi-34B和Yi-6B。
Meskipun seri Yi model besar memulai debutnya relatif terlambat, dalam hal efek, itu pasti bisa disebut terlambat.
Segera setelah ditembak, ia memenangkan sejumlah pengalaman pertama global **:
Hugging Face menduduki peringkat pertama dalam daftar tes bahasa Inggris, menghancurkan sejumlah model skala besar seperti Llama-2 70B dan Falcon-180B dengan ukuran 34B;
Satu-satunya model skala besar domestik yang telah berhasil mencapai puncak HuggingFace;
Kemampuan C-Cina peringkat pertama, melampaui semua model open source di dunia;
MMLU, BBH dan delapan kemampuan komprehensif lainnya semuanya memenangkan kinerja;
Memenangkan tahta jendela konteks terpanjang di dunia, mencapai 200K, yang dapat langsung menangani 400.000 karakter Cina untuk input teks ultra-panjang.
......
Perlu dicatat bahwa Zero One Thousand Things dan model besarnya tidak tercapai dalam semalam, tetapi diseduh selama lebih dari setengah tahun.
Ini pasti menimbulkan banyak pertanyaan:
Misalnya, mengapa Anda ingin menahan diri selama setengah tahun dan memilih untuk memotret menjelang akhir tahun?
Contoh lain adalah bagaimana mencapai begitu banyak pengalaman pertama pada saat pertama?
Dengan pertanyaan-pertanyaan ini, kami telah melakukan komunikasi eksklusif dengan Zero One Everything, dan sekarang kami akan mengungkapkan rahasianya satu per satu.
** Kalahkan 100 miliar parameter model besar **
Secara khusus, ada dua sorotan utama dari seri Yi model besar yang baru dirilis dan open-source:
"Menang besar dengan kecil" untuk mengalahkan 100 miliar model parameter
Jendela konteks terpanjang di dunia mendukung 400.000 kata
Dalam peringkat model open-source terlatih Hugging Face, Yi-34B menempati peringkat pertama di dunia dengan skor 70,72, melampaui LLaMA-70B dan Falcon-180B.
Anda harus tahu bahwa jumlah parameter Yi-34B hanya 1/2, 1/5 dari dua yang terakhir. Tidak hanya memenangkan daftar dengan "kecil dan besar", tetapi juga mencapai urutan silang besarnya menyalip, mengalahkan model besar level 100 miliar dengan skala 10 miliar.
Di antara mereka, Yi-34B sangat mengungguli model besar lainnya dalam dua indikator MMLU (Massive Multi-task Language Understanding) dan TruthfulQA (Authenticity Benchmark).
** **###### △Papan Peringkat Hugging Face Open LLM (terlatih) Papan Peringkat Model Besar, Yi-34B berada di puncak daftar (5 November 2023)
Berfokus pada kecakapan bahasa Mandarin, Yi-34B mengungguli semua model open source dalam peringkat kecakapan C-Cina.
Demikian pula, Yi-6B open-source melampaui semua model open-source dengan skala yang sama.
** **###### △C- Papan peringkat: Model yang dapat diakses publik, Yi-34B No. 1 di dunia (5 November 2023)
Dalam tiga indikator utama Cina CMMLU, E-, dan Gaokao, ** secara signifikan di depan GPT-4 **, menunjukkan keunggulan kuat Cina, dan kita tahu lebih banyak tentang akarnya
。
Dalam hal BooIQ dan OBQA, ini berada pada level yang sama dengan GPT-4.
Selain itu, dalam set evaluasi yang mencerminkan kemampuan komprehensif model, seperti MMLU (Massive Multitask Language Understanding) dan BBH, indikator evaluasi paling kritis dari model besar, Yi-34B melampaui dalam evaluasi kemampuan umum, penalaran pengetahuan, pemahaman bacaan dan indikator lainnya, yang sangat konsisten dengan evaluasi Hugging Face.
###### △Skor setiap set evaluasi: Model Yi v.s. Model sumber terbuka lainnya
Namun, dalam rilisnya, 010000 juga mengatakan bahwa model seri Yi tidak berkinerja sebaik model GPT dalam evaluasi matematika dan kode GSM8k dan MBPP.
Ini karena tim ingin mempertahankan sebanyak mungkin kemampuan generik model selama fase pra-pelatihan, sehingga mereka tidak memasukkan terlalu banyak data matematika dan kode dalam data pelatihan.
Saat ini, tim sedang melakukan penelitian ke arah matematika, dan mengusulkan model besar MammoTH yang dapat memecahkan masalah matematika umum, menggunakan CoT dan PoT untuk memecahkan masalah matematika, dan lebih unggul dari model SOTA di semua versi skala dan set tes internal dan eksternal. Diantaranya, MammoTH-34B memiliki tingkat akurasi 44% pada MATH, yang melebihi hasil CoT GPT-4.
Seri Yi lanjutan juga akan meluncurkan model pelatihan berkelanjutan yang mengkhususkan diri dalam kode dan matematika.
Selain hasil yang mempesona, Yi-34B juga telah menyegarkan panjang jendela konteks model besar menjadi 200K, yang dapat menangani input teks ultra-panjang sekitar 400.000 karakter Cina.
Ini setara dengan mampu memproses dua novel "Masalah Tiga Tubuh 1" ** sekaligus **, memahami ** dokumen PDF lebih dari 1000 halaman, dan bahkan mengganti banyak skenario yang mengandalkan database vektor untuk membangun basis pengetahuan eksternal.
Jendela konteks ultra-panjang adalah dimensi penting untuk mencerminkan kekuatan model besar, dan memiliki jendela konteks yang lebih panjang dapat memproses informasi basis pengetahuan yang lebih kaya, menghasilkan teks yang lebih koheren dan akurat, dan mendukung model besar untuk menangani tugas dengan lebih baik seperti ringkasan dokumen/Tanya Jawab.
Penting untuk diketahui bahwa dalam banyak aplikasi industri vertikal model besar (seperti keuangan, hukum, keuangan, dll.), Kemampuan pemrosesan dokumen hanya diperlukan.
Misalnya, GPT-4 dapat mendukung 32K, sekitar 25.000 karakter, dan Claude 2 dapat mendukung 100K, sekitar 200.000 karakter.
Zero One Everything tidak hanya menyegarkan catatan industri, tetapi juga menjadi perusahaan model berskala besar pertama yang membuka jendela konteks ultra-panjang di komunitas open source.
Lantas, bagaimana seri Yi dibuat?
Platform pelatihan yang dikembangkan sendiri oleh Super Infra+
Zero One Ten Thousand Things mengatakan bahwa rahasia seri Yi berasal dari dua aspek:
Platform eksperimental pelatihan skala besar yang dikembangkan sendiri
Tim Super Infra
Kombinasi keduanya di atas dapat membuat proses pelatihan model besar lebih efisien, akurat, dan otomatis. Dalam huru-hara multi-mode saat ini, hemat waktu, perhitungan, dan biaya tenaga kerja yang berharga.
Mereka adalah salah satu alasan mengapa seri Yi model besar "lambat", tetapi juga karena mereka, "lambat itu cepat".
Pertama, mari kita lihat bagian pelatihan model.
Ini adalah bagian dari meletakkan dasar untuk kemampuan model besar, dan kualitas data dan metode pelatihan secara langsung berkaitan dengan efek akhir model.
Oleh karena itu, 010000 telah membangun pipa pemrosesan data cerdasnya sendiri dan platform eksperimental pelatihan skala besar.
Pipeline pemrosesan data cerdas efisien, otomatis, terevaluasi, dan dapat diskalakan, dan timnya dipimpin oleh mantan pakar data besar dan grafik pengetahuan Google.
"Platform Eksperimen Pelatihan Skala Besar" dapat memandu desain dan optimalisasi model, meningkatkan efisiensi pelatihan model, dan mengurangi pemborosan sumber daya komputasi.
Berdasarkan platform ini, kesalahan prediksi setiap node Yi-34B dikendalikan dalam 0,5%, seperti pencocokan data, pencarian hyperparameter, dan eksperimen struktur model.
Akibatnya, dibandingkan dengan pelatihan "alkimia ekstensif" sebelumnya, pelatihan seri Yi model besar telah maju ke "** ilmu pelatihan model **": menjadi lebih rinci dan ilmiah, hasil eksperimen bisa lebih stabil, dan skala model dapat diperluas lebih cepat di masa depan.
Mari kita lihat bagian Infra.
AI Infra mengacu pada teknologi kerangka dasar kecerdasan buatan, yang mencakup berbagai fasilitas teknis yang mendasari dalam pelatihan dan penyebaran model besar, termasuk prosesor, sistem operasi, sistem penyimpanan, infrastruktur jaringan, platform komputasi awan, dll.
Jika proses pelatihan adalah meletakkan dasar untuk kualitas model, maka AI Infra memberikan jaminan untuk tautan ini, membuat fondasi lebih kokoh, dan juga terkait langsung dengan lapisan bawah model besar.
Tim Zero One Everything menggunakan metafora yang lebih jelas untuk menjelaskan:
Jika pelatihan model besar adalah pendakian gunung, kemampuan Infra menentukan batas kemampuan antara algoritma pelatihan model besar dan model, yaitu langit-langit "ketinggian pendakian gunung".
Terutama dalam kekurangan sumber daya komputasi saat ini di industri, bagaimana mempromosikan penelitian dan pengembangan model besar lebih cepat dan lebih mantap sangat penting.
Itu sebabnya Zero One mengambil bagian Infra dengan sangat serius.
Kai-Fu Lee juga mengatakan bahwa orang yang telah melakukan model skala besar Infra lebih langka daripada bakat algoritmik.
Tim Infra telah berpartisipasi dalam mendukung pelatihan skala besar dari ratusan miliar model besar.
Dengan dukungan mereka, biaya pelatihan model Yi-34B telah berkurang sebesar 40%, dan biaya pelatihan skala simulasi 100 miliar yuan dapat dikurangi sebanyak 50%. Pelatihan yang sebenarnya menyelesaikan waktu prediksi domain waktu standar ** kesalahan kurang dari 1 jam ** - Anda tahu, umumnya industri akan menyisihkan beberapa hari sebagai kesalahan.
Menurut tim, hingga saat ini, tingkat akurasi prediksi kesalahan kemampuan Infra 010000 telah melebihi 90%, tingkat deteksi dini kesalahan telah mencapai 99,9%, dan tingkat penyembuhan diri kesalahan tanpa partisipasi manual telah melebihi 95%, yang secara efektif dapat memastikan kelancaran kemajuan pelatihan model.
Kai-Fu Lee mengungkapkan bahwa saat menyelesaikan pra-pelatihan Yi-34B, pelatihan model parameter tingkat 100 miliar telah diluncurkan secara resmi.
Dan itu mengisyaratkan bahwa model yang lebih besar kemungkinan akan tersedia lebih cepat dari yang diharapkan semua orang:
pipa pemrosesan data Zero-One, penelitian algoritma, platform eksperimen, sumber daya GPU, dan AI Infra semuanya siap, dan kami akan bergerak lebih cepat dan lebih cepat.
Preemptive Zero Satu Hal
Akhirnya, mari kita jawab pertanyaan yang kami sebutkan di awal.
Alasan mengapa Zero One Everything memilih untuk naik "kereta terlambat" di akhir tahun sebenarnya terkait erat dengan tujuannya sendiri.
Seperti yang dinyatakan Kai-Fu Lee dalam rilis ini:
Zero One Semuanya telah dengan kuat memasuki tujuan eselon pertama di dunia, dari orang pertama yang direkrut, baris kode pertama yang ditulis, dan model pertama yang dirancang, selalu memegang niat dan tekad asli untuk menjadi "No.1 Dunia".
Dan untuk menjadi yang pertama, Anda harus mampu menahan temperamen dan berkonsentrasi pada pengembangan fondasi yang kuat untuk mencapai blockbuster saat Anda debut.
Tidak hanya itu, pada saat berdirinya Zero One Things, titik awalnya secara fundamental berbeda dari produsen model skala besar lainnya.
Nol satu mewakili seluruh dunia digital, dari nol menjadi satu, dan bahkan semua hal di alam semesta, yang disebut Tao melahirkan satu ... Melahirkan segala sesuatu berarti ambisi "nol satu kecerdasan, semua hal diberdayakan".
Ini juga konsisten dengan pemikiran dan penilaian Kai-Fu Lee tentang AI2.0, setelah ChatGPT mendorong booming dalam model besar, dia pernah secara terbuka menyatakan:
Era AI 2.0, dengan terobosan model alas, akan memicu revolusi di berbagai tingkatan mulai dari teknologi, platform hingga aplikasi. Sama seperti Windows telah mendorong mempopulerkan PC, Android telah melahirkan ekologi Internet seluler, AI2.0 akan melahirkan peluang platform sepuluh kali lebih besar daripada Internet seluler, akan menulis ulang perangkat lunak, antarmuka pengguna, dan aplikasi yang ada, juga akan melahirkan batch baru aplikasi AI-first, dan melahirkan model bisnis yang dipimpin AI.
** Konsepnya adalah AI-first, kekuatan pendorong adalah visi teknis **, didukung oleh warisan teknik Cina yang sangat baik, titik terobosan adalah model alas, yang mencakup berbagai tingkat teknologi, platform dan aplikasi.
Untuk tujuan ini, rute kewirausahaan yang dipilih oleh Zero One sejak didirikan adalah model yang dikembangkan sendiri.
Meskipun dirilis terlambat, itu pasti tidak lambat dalam hal kecepatan.
Misalnya, dalam tiga bulan pertama, 0100000000000 telah mencapai pengujian internal model dengan skala 10 miliar parameter; Setelah tiga bulan, Anda dapat membuka kunci yang pertama di dunia dengan skala parameter 34B.
Kecepatan dan tujuan setinggi itu harus tidak terlepas dari kekuatan tim yang kuat di belakang 01000000000.
Zero One Everything ** secara pribadi dipimpin oleh Dr. Kai-Fu Lee dan menjabat sebagai CEO **.
Pada tahap awal, Zero One telah mengumpulkan tim yang terdiri dari puluhan anggota inti, dengan fokus pada teknologi model besar, algoritma kecerdasan buatan, pemrosesan bahasa alami, arsitektur sistem, arsitektur komputasi, keamanan data, penelitian dan pengembangan produk, dan bidang lainnya.
Di antara mereka, anggota tim gabungan yang telah bergabung termasuk mantan wakil presiden Alibaba, mantan wakil presiden Baidu, mantan eksekutif Google China, dan mantan wakil presiden Microsoft/SAP/Cisco, dan latar belakang algoritma dan tim produk semuanya dari produsen besar dalam dan luar negeri.
Mengambil anggota tim algoritma dan model sebagai contoh, ada master algoritma yang makalahnya telah dikutip oleh GPT-4, peneliti luar biasa yang telah memenangkan penghargaan penelitian internal Microsoft, dan insinyur super yang telah memenangkan Penghargaan Khusus CEO Alibaba. Secara total, ia telah menerbitkan lebih dari 100 makalah akademis yang terkait dengan model besar dalam konferensi akademik terkenal seperti ICLR, NeurIPS, CVPR, dan ICCV.
Selain itu, pada awal pendiriannya, 010000 telah mulai membangun platform eksperimental, membangun sekelompok ribuan GPU untuk pelatihan, penyetelan, dan inferensi. Dalam hal data, fokus utamanya adalah meningkatkan jumlah parameter yang valid dan kepadatan data berkualitas tinggi yang digunakan.
Dari sini, tidak sulit untuk melihat di mana kepercayaan model seri Yi dari nol satu hal adalah berani menyerang mundur.
Dapat dipahami bahwa berdasarkan seri Yi model besar, ia akan dengan cepat mengulangi dan membuka sumber versi yang lebih kuantitatif, model dialog, model matematika, model kode dan model multimodal.
Secara keseluruhan, dengan masuknya kuda hitam 010.000 hal, pertempuran 100 model menjadi lebih intens dan hidup.
Layak untuk menantikan berapa banyak "global firsts" model besar seri Yi akan ditumbangkan di masa depan.
Satu Hal Lagi
Mengapa nama "Yi"? **
Nama ini berasal dari pinyin "一", dan "Y" dalam "Yi" terbalik, dengan cerdik menyerupai karakter Cina "manusia", dikombinasikan dengan i dalam AI, yang mewakili Manusia + AI.
Kami percaya bahwa pemberdayaan AI akan mendorong masyarakat manusia maju, dan AI harus menciptakan nilai besar bagi manusia dalam semangat mengutamakan orang.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model open-source paling kuat berpindah tangan? Kai-Fu Lee memimpin tim ke banyak daftar global, dan 400.000 pemrosesan teks memecahkan rekor
Sumber asli: qubits
Pertarungan 100 model, salah satu pemain yang paling dinanti, akhirnya melakukan debut resminya!
Ini adalah model open-source pertama dari perusahaan AI 2.0 yang didirikan oleh Dr. Kai-Fu Lee--Yi ** seri model besar:
Yi-34B和Yi-6B。
Segera setelah ditembak, ia memenangkan sejumlah pengalaman pertama global **:
Ini pasti menimbulkan banyak pertanyaan:
Misalnya, mengapa Anda ingin menahan diri selama setengah tahun dan memilih untuk memotret menjelang akhir tahun?
Contoh lain adalah bagaimana mencapai begitu banyak pengalaman pertama pada saat pertama?
Dengan pertanyaan-pertanyaan ini, kami telah melakukan komunikasi eksklusif dengan Zero One Everything, dan sekarang kami akan mengungkapkan rahasianya satu per satu.
** Kalahkan 100 miliar parameter model besar **
Secara khusus, ada dua sorotan utama dari seri Yi model besar yang baru dirilis dan open-source:
Dalam peringkat model open-source terlatih Hugging Face, Yi-34B menempati peringkat pertama di dunia dengan skor 70,72, melampaui LLaMA-70B dan Falcon-180B.
Anda harus tahu bahwa jumlah parameter Yi-34B hanya 1/2, 1/5 dari dua yang terakhir. Tidak hanya memenangkan daftar dengan "kecil dan besar", tetapi juga mencapai urutan silang besarnya menyalip, mengalahkan model besar level 100 miliar dengan skala 10 miliar.
Di antara mereka, Yi-34B sangat mengungguli model besar lainnya dalam dua indikator MMLU (Massive Multi-task Language Understanding) dan TruthfulQA (Authenticity Benchmark).
**
**###### △Papan Peringkat Hugging Face Open LLM (terlatih) Papan Peringkat Model Besar, Yi-34B berada di puncak daftar (5 November 2023)
Berfokus pada kecakapan bahasa Mandarin, Yi-34B mengungguli semua model open source dalam peringkat kecakapan C-Cina.
Demikian pula, Yi-6B open-source melampaui semua model open-source dengan skala yang sama.
**
**###### △C- Papan peringkat: Model yang dapat diakses publik, Yi-34B No. 1 di dunia (5 November 2023)
Dalam tiga indikator utama Cina CMMLU, E-, dan Gaokao, ** secara signifikan di depan GPT-4 **, menunjukkan keunggulan kuat Cina, dan kita tahu lebih banyak tentang akarnya
Dalam hal BooIQ dan OBQA, ini berada pada level yang sama dengan GPT-4.
Namun, dalam rilisnya, 010000 juga mengatakan bahwa model seri Yi tidak berkinerja sebaik model GPT dalam evaluasi matematika dan kode GSM8k dan MBPP.
Ini karena tim ingin mempertahankan sebanyak mungkin kemampuan generik model selama fase pra-pelatihan, sehingga mereka tidak memasukkan terlalu banyak data matematika dan kode dalam data pelatihan.
Saat ini, tim sedang melakukan penelitian ke arah matematika, dan mengusulkan model besar MammoTH yang dapat memecahkan masalah matematika umum, menggunakan CoT dan PoT untuk memecahkan masalah matematika, dan lebih unggul dari model SOTA di semua versi skala dan set tes internal dan eksternal. Diantaranya, MammoTH-34B memiliki tingkat akurasi 44% pada MATH, yang melebihi hasil CoT GPT-4.
Seri Yi lanjutan juga akan meluncurkan model pelatihan berkelanjutan yang mengkhususkan diri dalam kode dan matematika.
Ini setara dengan mampu memproses dua novel "Masalah Tiga Tubuh 1" ** sekaligus **, memahami ** dokumen PDF lebih dari 1000 halaman, dan bahkan mengganti banyak skenario yang mengandalkan database vektor untuk membangun basis pengetahuan eksternal.
Penting untuk diketahui bahwa dalam banyak aplikasi industri vertikal model besar (seperti keuangan, hukum, keuangan, dll.), Kemampuan pemrosesan dokumen hanya diperlukan.
Misalnya, GPT-4 dapat mendukung 32K, sekitar 25.000 karakter, dan Claude 2 dapat mendukung 100K, sekitar 200.000 karakter.
Zero One Everything tidak hanya menyegarkan catatan industri, tetapi juga menjadi perusahaan model berskala besar pertama yang membuka jendela konteks ultra-panjang di komunitas open source.
Lantas, bagaimana seri Yi dibuat?
Platform pelatihan yang dikembangkan sendiri oleh Super Infra+
Zero One Ten Thousand Things mengatakan bahwa rahasia seri Yi berasal dari dua aspek:
Kombinasi keduanya di atas dapat membuat proses pelatihan model besar lebih efisien, akurat, dan otomatis. Dalam huru-hara multi-mode saat ini, hemat waktu, perhitungan, dan biaya tenaga kerja yang berharga.
Mereka adalah salah satu alasan mengapa seri Yi model besar "lambat", tetapi juga karena mereka, "lambat itu cepat".
Pertama, mari kita lihat bagian pelatihan model.
Ini adalah bagian dari meletakkan dasar untuk kemampuan model besar, dan kualitas data dan metode pelatihan secara langsung berkaitan dengan efek akhir model.
Oleh karena itu, 010000 telah membangun pipa pemrosesan data cerdasnya sendiri dan platform eksperimental pelatihan skala besar.
Pipeline pemrosesan data cerdas efisien, otomatis, terevaluasi, dan dapat diskalakan, dan timnya dipimpin oleh mantan pakar data besar dan grafik pengetahuan Google.
"Platform Eksperimen Pelatihan Skala Besar" dapat memandu desain dan optimalisasi model, meningkatkan efisiensi pelatihan model, dan mengurangi pemborosan sumber daya komputasi.
Berdasarkan platform ini, kesalahan prediksi setiap node Yi-34B dikendalikan dalam 0,5%, seperti pencocokan data, pencarian hyperparameter, dan eksperimen struktur model.
Akibatnya, dibandingkan dengan pelatihan "alkimia ekstensif" sebelumnya, pelatihan seri Yi model besar telah maju ke "** ilmu pelatihan model **": menjadi lebih rinci dan ilmiah, hasil eksperimen bisa lebih stabil, dan skala model dapat diperluas lebih cepat di masa depan.
AI Infra mengacu pada teknologi kerangka dasar kecerdasan buatan, yang mencakup berbagai fasilitas teknis yang mendasari dalam pelatihan dan penyebaran model besar, termasuk prosesor, sistem operasi, sistem penyimpanan, infrastruktur jaringan, platform komputasi awan, dll.
Jika proses pelatihan adalah meletakkan dasar untuk kualitas model, maka AI Infra memberikan jaminan untuk tautan ini, membuat fondasi lebih kokoh, dan juga terkait langsung dengan lapisan bawah model besar.
Tim Zero One Everything menggunakan metafora yang lebih jelas untuk menjelaskan:
Terutama dalam kekurangan sumber daya komputasi saat ini di industri, bagaimana mempromosikan penelitian dan pengembangan model besar lebih cepat dan lebih mantap sangat penting.
Itu sebabnya Zero One mengambil bagian Infra dengan sangat serius.
Kai-Fu Lee juga mengatakan bahwa orang yang telah melakukan model skala besar Infra lebih langka daripada bakat algoritmik.
Tim Infra telah berpartisipasi dalam mendukung pelatihan skala besar dari ratusan miliar model besar.
Dengan dukungan mereka, biaya pelatihan model Yi-34B telah berkurang sebesar 40%, dan biaya pelatihan skala simulasi 100 miliar yuan dapat dikurangi sebanyak 50%. Pelatihan yang sebenarnya menyelesaikan waktu prediksi domain waktu standar ** kesalahan kurang dari 1 jam ** - Anda tahu, umumnya industri akan menyisihkan beberapa hari sebagai kesalahan.
Menurut tim, hingga saat ini, tingkat akurasi prediksi kesalahan kemampuan Infra 010000 telah melebihi 90%, tingkat deteksi dini kesalahan telah mencapai 99,9%, dan tingkat penyembuhan diri kesalahan tanpa partisipasi manual telah melebihi 95%, yang secara efektif dapat memastikan kelancaran kemajuan pelatihan model.
Kai-Fu Lee mengungkapkan bahwa saat menyelesaikan pra-pelatihan Yi-34B, pelatihan model parameter tingkat 100 miliar telah diluncurkan secara resmi.
Dan itu mengisyaratkan bahwa model yang lebih besar kemungkinan akan tersedia lebih cepat dari yang diharapkan semua orang:
Preemptive Zero Satu Hal
Akhirnya, mari kita jawab pertanyaan yang kami sebutkan di awal.
Alasan mengapa Zero One Everything memilih untuk naik "kereta terlambat" di akhir tahun sebenarnya terkait erat dengan tujuannya sendiri.
Seperti yang dinyatakan Kai-Fu Lee dalam rilis ini:
Dan untuk menjadi yang pertama, Anda harus mampu menahan temperamen dan berkonsentrasi pada pengembangan fondasi yang kuat untuk mencapai blockbuster saat Anda debut.
Tidak hanya itu, pada saat berdirinya Zero One Things, titik awalnya secara fundamental berbeda dari produsen model skala besar lainnya.
Nol satu mewakili seluruh dunia digital, dari nol menjadi satu, dan bahkan semua hal di alam semesta, yang disebut Tao melahirkan satu ... Melahirkan segala sesuatu berarti ambisi "nol satu kecerdasan, semua hal diberdayakan".
** Konsepnya adalah AI-first, kekuatan pendorong adalah visi teknis **, didukung oleh warisan teknik Cina yang sangat baik, titik terobosan adalah model alas, yang mencakup berbagai tingkat teknologi, platform dan aplikasi.
Untuk tujuan ini, rute kewirausahaan yang dipilih oleh Zero One sejak didirikan adalah model yang dikembangkan sendiri.
Meskipun dirilis terlambat, itu pasti tidak lambat dalam hal kecepatan.
Misalnya, dalam tiga bulan pertama, 0100000000000 telah mencapai pengujian internal model dengan skala 10 miliar parameter; Setelah tiga bulan, Anda dapat membuka kunci yang pertama di dunia dengan skala parameter 34B.
Kecepatan dan tujuan setinggi itu harus tidak terlepas dari kekuatan tim yang kuat di belakang 01000000000.
Zero One Everything ** secara pribadi dipimpin oleh Dr. Kai-Fu Lee dan menjabat sebagai CEO **.
Di antara mereka, anggota tim gabungan yang telah bergabung termasuk mantan wakil presiden Alibaba, mantan wakil presiden Baidu, mantan eksekutif Google China, dan mantan wakil presiden Microsoft/SAP/Cisco, dan latar belakang algoritma dan tim produk semuanya dari produsen besar dalam dan luar negeri.
Mengambil anggota tim algoritma dan model sebagai contoh, ada master algoritma yang makalahnya telah dikutip oleh GPT-4, peneliti luar biasa yang telah memenangkan penghargaan penelitian internal Microsoft, dan insinyur super yang telah memenangkan Penghargaan Khusus CEO Alibaba. Secara total, ia telah menerbitkan lebih dari 100 makalah akademis yang terkait dengan model besar dalam konferensi akademik terkenal seperti ICLR, NeurIPS, CVPR, dan ICCV.
Selain itu, pada awal pendiriannya, 010000 telah mulai membangun platform eksperimental, membangun sekelompok ribuan GPU untuk pelatihan, penyetelan, dan inferensi. Dalam hal data, fokus utamanya adalah meningkatkan jumlah parameter yang valid dan kepadatan data berkualitas tinggi yang digunakan.
Dari sini, tidak sulit untuk melihat di mana kepercayaan model seri Yi dari nol satu hal adalah berani menyerang mundur.
Dapat dipahami bahwa berdasarkan seri Yi model besar, ia akan dengan cepat mengulangi dan membuka sumber versi yang lebih kuantitatif, model dialog, model matematika, model kode dan model multimodal.
Secara keseluruhan, dengan masuknya kuda hitam 010.000 hal, pertempuran 100 model menjadi lebih intens dan hidup.
Layak untuk menantikan berapa banyak "global firsts" model besar seri Yi akan ditumbangkan di masa depan.
Satu Hal Lagi
Mengapa nama "Yi"? **
Nama ini berasal dari pinyin "一", dan "Y" dalam "Yi" terbalik, dengan cerdik menyerupai karakter Cina "manusia", dikombinasikan dengan i dalam AI, yang mewakili Manusia + AI.
Kami percaya bahwa pemberdayaan AI akan mendorong masyarakat manusia maju, dan AI harus menciptakan nilai besar bagi manusia dalam semangat mengutamakan orang.