Seiring dengan penerapan AI secara menyeluruh, kompetisi perusahaan beralih dari sekadar mengejar kinerja perangkat keras ke membangun sistem inferensi yang dapat diperluas dan berbiaya rendah. Red Hat dan Intel mendukung secara penuh vLLM sumber terbuka di lingkungan CPU Xeon, mendorong penerapan campuran CPU-GPU, dan dengan membiarkan CPU menangani inferensi AI proxy, serta menggunakan GPU hanya saat diperlukan, menurunkan biaya per token, dan meningkatkan efisiensi pengelolaan serta operasional. Masa depan keberhasilan AI tergantung pada rasio biaya-manfaat, kombinasi perangkat lunak sumber terbuka, dan perangkat keras yang dioptimalkan.

TechubNews

2026-05-13 16:10:08

Pembuatan abstrak sedang berlangsung

Seiring perusahaan memperkenalkan kecerdasan buatan (AI) melewati tahap percobaan, memasuki tahap penyebaran secara menyeluruh, kunci kemenangan pasar juga sedang berubah. Kini, inti kompetisi bukan lagi sekadar menumpuk model yang lebih besar dan lebih banyak prosesor grafis (GPU), tetapi siapa yang dapat membangun “sistem inferensi AI yang dapat diperluas” yang berjalan stabil sambil mengontrol anggaran.

Red Hat dan Intel sedang mengikuti tren ini, mempercepat pengembangan infrastruktur inferensi AI berbasis teknologi sumber terbuka. Kepala Insinyur Inferensi AI Red Hat, Taneem Ibrahim, dan Wakil Presiden Divisi Data Center dan AI Intel, Bill Pearson, menyatakan di “Red Hat Summit 2026” bahwa tantangan nyata dalam pengoperasian layanan AI skala besar adalah efisiensi biaya dan optimalisasi kombinasi infrastruktur.

Peralihan dari kecenderungan GPU tunggal ke strategi paralel CPU

Pada tahap awal penyebaran AI generatif, setelah munculnya ChatGPT dan model bobot terbuka, praktik utama adalah menempatkan model besar sebanyak mungkin di kluster GPU yang besar. Namun, dalam lingkungan perusahaan nyata, biaya operasional dan kontrol menjadi sama pentingnya dengan kinerja. Saat ini, bagaimana mengembangkan model secara efisien di platform seperti Red Hat Enterprise Linux (RHEL) dan OpenShift telah menjadi fokus utama.

Ibrahim menyatakan bahwa Red Hat semakin banyak memikirkan bagaimana mengelola salah satu proyek sumber terbuka yang paling banyak berkontribusi, “vLLM”, dalam lingkungan skala besar. Dia menunjukkan bahwa tantangan utama adalah mengurangi “biaya per token” agar AI dapat diterapkan dalam bisnis nyata, sambil mempertahankan kemampuan pengelolaan, dan melakukan deployment skala besar.

Baru-baru ini, prioritas infrastruktur juga mengalami perubahan. Pearson menjelaskan bahwa berbeda dari fase awal yang berfokus pada GPU, dengan menyebarnya “AI proxy”, peran Central Processing Unit (CPU) kembali menonjol. Ini berarti tidak semua pekerjaan AI membutuhkan GPU; tergantung pada jenis beban kerja yang diproses, kombinasi CPU dan GPU yang tepat menjadi semakin penting.

Red Hat dan Intel memperluas dukungan vLLM berbasis Xeon

Berdasarkan penilaian ini, kedua perusahaan mengintegrasikan fitur dukungan penuh vLLM di lingkungan Intel Xeon dalam versi “Red Hat AI 3.4”. Inti dari integrasi ini bukanlah pendekatan “satu ukuran cocok untuk semua” dalam merekomendasikan konfigurasi yang sama kepada semua pelanggan, tetapi merancang kombinasi perangkat keras dan perangkat lunak berdasarkan sifat bisnis dan hasil yang diharapkan dari masing-masing perusahaan.

Pearson menganalisis bahwa banyak perusahaan sebelumnya mengadopsi pendekatan “memiliki palu di tangan dan melihat semua sebagai paku”, dengan fokus pada solusi berbasis GPU. Tetapi dia menjelaskan bahwa jika menilai ulang sumber daya CPU yang sudah besar-besaran di pusat data dan beralih ke penambahan GPU sesuai kebutuhan, maka kinerja yang lebih baik dan biaya yang lebih rendah dapat dicapai secara bersamaan.

Terutama, pekerjaan proxy AI seperti panggilan alat dan orkestrasi data, banyak yang dapat diproses tanpa GPU. Intel berpendapat bahwa membebankan tugas inferensi ini ke CPU dapat membebaskan GPU untuk fokus pada perhitungan yang lebih berat, sehingga meningkatkan efisiensi seluruh sistem.

Persaingan infrastruktur AI: “Efisiensi operasional” semakin penting daripada “kinerja”

Diskusi ini menunjukkan bahwa pasar AI saat ini telah melampaui kompetisi sekadar kinerja model, beralih ke kompetisi ekonomi di tahap operasional. Bagi perusahaan, daripada hanya mendapatkan perangkat berkinerja tertinggi, cara memanfaatkan aset pusat data yang ada secara optimal, sambil mencapai “biaya token yang rendah” dan layanan yang stabil, menjadi tantangan yang lebih realistis.

Akhirnya, pemenang kompetisi AI generasi berikutnya kemungkinan bukanlah perusahaan dengan perangkat keras paling kuat, tetapi perusahaan yang mampu memaksimalkan “rasio biaya-manfaat” melalui kombinasi CPU-GPU yang tepat dan perangkat lunak sumber terbuka. Kerja sama Red Hat dan Intel ini juga dipandang sebagai langkah mengikuti tren pasar tersebut.

TP AI Catatan: Artikel ini dirangkum berdasarkan model bahasa TokenPost.ai. Isi utama mungkin ada yang terlewatkan atau tidak sesuai fakta.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.