Menurut berita dari 1M AI News, pada 4 Maret, Google merilis versi pratinjau CEX 3.1 Flash-Lite, yang diposisikan sebagai model tercepat dan termurah dalam seri CEX 3. Model ini berbasis arsitektur CEX 3 Pro, menggunakan desain ahli campuran (MoE), hanya mengaktifkan sebagian parameter untuk mengurangi biaya inferensi. Harga API adalah $0.25 per juta token untuk input dan $1.50 per juta token untuk output, sekitar 1/8 dari CEX 3.1 Pro ($2/$18). Dalam hal kinerja, dibandingkan dengan CEX 2.5 Flash, latensi token pertama dipersingkat 2,5 kali, kecepatan output meningkat 45%, mencapai 363 token per detik. Mendukung input hingga 1 juta token dan output hingga 64.000 token, menerima input teks, gambar, audio, dan video. Dalam 11 pengujian benchmark internal, Flash-Lite mengungguli GPT-5 mini dan Claude 4.5 Haiku dalam 6 dari 11 pengujian, dengan GPQA Diamond (pertanyaan ilmiah tingkat doktor) mencapai 86,9%, MMMU-Pro (penalaran multimodal) 76,8%, dan LiveCodeBench (pembuatan kode) 72,0%. Model ini dilengkapi dengan tingkat “berpikir” yang dapat disesuaikan, memungkinkan pengembang mengontrol kedalaman inferensi model di AI Studio dan Vertex AI, untuk menyeimbangkan kualitas dan biaya dalam skenario frekuensi tinggi. Saat ini tersedia dalam versi pratinjau melalui CEX API (Google AI Studio) dan Vertex AI.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Google merilis CEX 3.1 Flash-Lite, dengan harga input hanya seperdelapan dari Pro, dan enam tolok ukur melampaui GPT-5 mini serta Claude 4.5 Haiku
Menurut berita dari 1M AI News, pada 4 Maret, Google merilis versi pratinjau CEX 3.1 Flash-Lite, yang diposisikan sebagai model tercepat dan termurah dalam seri CEX 3. Model ini berbasis arsitektur CEX 3 Pro, menggunakan desain ahli campuran (MoE), hanya mengaktifkan sebagian parameter untuk mengurangi biaya inferensi. Harga API adalah $0.25 per juta token untuk input dan $1.50 per juta token untuk output, sekitar 1/8 dari CEX 3.1 Pro ($2/$18). Dalam hal kinerja, dibandingkan dengan CEX 2.5 Flash, latensi token pertama dipersingkat 2,5 kali, kecepatan output meningkat 45%, mencapai 363 token per detik. Mendukung input hingga 1 juta token dan output hingga 64.000 token, menerima input teks, gambar, audio, dan video. Dalam 11 pengujian benchmark internal, Flash-Lite mengungguli GPT-5 mini dan Claude 4.5 Haiku dalam 6 dari 11 pengujian, dengan GPQA Diamond (pertanyaan ilmiah tingkat doktor) mencapai 86,9%, MMMU-Pro (penalaran multimodal) 76,8%, dan LiveCodeBench (pembuatan kode) 72,0%. Model ini dilengkapi dengan tingkat “berpikir” yang dapat disesuaikan, memungkinkan pengembang mengontrol kedalaman inferensi model di AI Studio dan Vertex AI, untuk menyeimbangkan kualitas dan biaya dalam skenario frekuensi tinggi. Saat ini tersedia dalam versi pratinjau melalui CEX API (Google AI Studio) dan Vertex AI.