Apakah ChatGPT bodoh atau tua?

Sumber asli: Pengetahuan Baru Ilmu Pengetahuan dan Teknologi

Sumber gambar: Dihasilkan oleh AI Tanpa Batas ‌

“Kinerja di masa lalu tidak menjamin hasil di masa depan.” Ini adalah gambaran bagus dari sebagian besar model pengelolaan keuangan. Dalam bisnis produk, hal ini disebut penyimpangan model, pembusukan, atau keusangan. Banyak hal berubah dan performa model menurun seiring waktu. Standar pengukuran terakhir adalah indikator kualitas model, yang dapat berupa akurasi, tingkat kesalahan rata-rata, atau beberapa KPI bisnis hilir, seperti rasio klik-tayang. Tidak ada model yang berfungsi selamanya, namun tingkat penurunannya bervariasi. ‍ Beberapa produk dapat digunakan selama bertahun-tahun tanpa memerlukan pembaruan, seperti visi komputer atau model bahasa tertentu, atau sistem pengambilan keputusan apa pun dalam lingkungan yang terisolasi dan stabil, seperti kondisi eksperimen umum. Jika Anda ingin memastikan keakuratan model, Anda perlu melatih data baru setiap hari.Ini adalah kelemahan paradigma model pembelajaran mesin, dan juga membuat penerapan kecerdasan buatan tidak dapat dilakukan sekali dan untuk selamanya seperti penerapan perangkat lunak . Yang terakhir ini telah diciptakan selama beberapa dekade, dan saat ini produk AI tercanggih masih menggunakan teknologi perangkat lunak dari tahun-tahun sebelumnya. Selama mereka tetap berguna, bahkan jika teknologinya sudah ketinggalan zaman, mereka akan terus hidup dalam setiap byte. Namun, model besar yang diwakili oleh ChatGPT, yang dikenal sebagai produk kecerdasan buatan paling mutakhir, menghadapi pertanyaan apakah model tersebut menjadi ketinggalan jaman dan menua setelah mengalami penurunan popularitas. ** Tidak ada angin, tidak ada gelombang. Pengguna menghabiskan lebih sedikit waktu di ChatGPT, turun dari 8,7 menit di bulan Maret menjadi 7 menit di bulan Agustus. Hal ini mencerminkan bahwa ketika sisi pasokan alat model besar berkembang pesat, ChatGPT yang hanya sekedar alat produktivitas tampaknya tidak cukup untuk menjadi favorit Generasi Z, kelompok pengguna arus utama. Popularitas sementara tidak cukup untuk menggoyahkan dominasi OpenAI yang berkomitmen menjadi toko aplikasi di era AI. Masalah yang lebih penting adalah penuaan produktivitas ChatGPT adalah alasan utama menurunnya kepercayaan di antara banyak pengguna lama. Sejak bulan Mei, terdapat postingan di forum OpenAI yang membahas bahwa performa GPT-4 tidak sebaik sebelumnya. Jadi, apakah ChatGPT sudah usang? Akankah model besar yang diwakili oleh ChatGPT sesuai dengan usia model pembelajaran mesin sebelumnya? Tanpa memahami isu-isu ini, kita tidak akan dapat menemukan jalur pembangunan berkelanjutan bagi manusia dan mesin di tengah kegemaran yang tak ada habisnya terhadap model-model besar.

**01 Apakah ChatGPT sudah usang? **

Data terbaru dari penyedia layanan perangkat lunak AI Salesforce menunjukkan bahwa 67% pengguna model besar adalah Generasi Z atau Milenial; lebih dari 68% orang yang jarang menggunakan AI generatif atau tertinggal dalam hal ini adalah generasi X atau baby boomer. Perbedaan generasi menunjukkan bahwa Generasi Z menjadi kelompok arus utama yang merangkul model-model besar. Kelly Eliyahu, pemasar produk di Salesforce, mengatakan: “Gen Z sebenarnya adalah generasi AI, dan mereka merupakan kelompok pengguna super. 70% Gen Z menggunakan AI generatif, dan setidaknya setengahnya menggunakannya setiap minggu atau lagi.” Namun, sebagai pemimpin dalam produk model besar, kinerja ChatGPT di kalangan Generasi Z tidak luar biasa.

Menurut data dari lembaga riset pasar Sameweb pada bulan Juli, **ChatGPT digunakan oleh 27% generasi Z, turun dari 30% pada bulan April. Sebagai perbandingan, Character.ai, produk model berskala besar lainnya yang memungkinkan pengguna merancang karakter kecerdasan buatan mereka sendiri, memiliki tingkat penetrasi sebesar 60% pada orang berusia 18-24 tahun. ** Berkat popularitas Generasi Z, aplikasi iOS dan Android Character.ai saat ini memiliki 4,2 juta pengguna aktif bulanan di Amerika Serikat, yang semakin mendekati 6 juta pengguna aktif bulanan ChatGPT seluler. Berbeda dari AI percakapan ChatGPT, Character.AI menambahkan dua fungsi inti personalisasi dan UGC atas dasar ini, sehingga memberikan skenario penggunaan yang lebih kaya daripada sebelumnya. Di satu sisi, pengguna dapat menyesuaikan peran AI sesuai dengan kebutuhan pribadi untuk memenuhi kebutuhan penyesuaian yang dipersonalisasi dari Generasi Z. Pada saat yang sama, karakter AI yang dibuat oleh para pengguna ini juga dapat digunakan oleh seluruh pengguna platform untuk membangun suasana komunitas AI. Misalnya, karakter virtual seperti Socrates dan Tuhan telah beredar di platform media sosial sebelumnya, serta gambar AI dari selebriti bisnis seperti Musk yang dibuat secara mandiri oleh pemerintah. Di sisi lain, kustomisasi mendalam yang dipersonalisasi + fungsi obrolan grup juga membuat pengguna mengandalkan platform untuk kecerdasan emosional. Komentar publik dari pengguna banyak platform media sosial menunjukkan bahwa pengalaman obrolan tersebut terlalu realistis, seolah-olah “karakter yang Anda buat memiliki kehidupan, seperti berbicara dengan orang sungguhan” dan “adalah hal yang paling dekat dengan teman khayalan atau malaikat pelindung. sejauh ini.” Mungkin karena tekanan dari Character.AI, OpenAI mengeluarkan pernyataan singkat di situs resminya pada 16 Agustus 2023, mengumumkan akuisisi perusahaan rintisan Amerika, Global Illumination, dan membawa seluruh tim di bawah sayapnya. Perusahaan kecil dengan sejarah hanya dua tahun dan delapan karyawan ini terutama bergerak dalam penggunaan kecerdasan buatan untuk menciptakan alat pintar, infrastruktur digital, dan pengalaman digital. Di balik akuisisi ini, OpenAI kemungkinan besar akan berkomitmen untuk meningkatkan pengalaman digital model besar saat ini dengan cara yang kaya.

02 Penuaan Kecerdasan Buatan

Penuaan ChatGPT pada tingkat pengalaman digital model besar berdampak pada efek mematikan waktu. Sebagai alat produktivitas, keakuratan hasil yang dihasilkan tidak menentu, yang juga memengaruhi kelekatan penggunanya.

Menurut survei Salesforce sebelumnya, hampir 60% pengguna model besar percaya bahwa mereka menguasai teknologi ini melalui akumulasi waktu pelatihan. Namun penguasaan teknologi tersebut saat ini terus berubah seiring berjalannya waktu.

Pada awal bulan Mei, pengguna lama model besar mulai mengeluh di forum OpenAI bahwa GPT-4 “mengalami kesulitan dalam menjalankan hal-hal yang sebelumnya berperforma baik”. Business Insider melaporkan pada bulan Juli bahwa banyak pengguna lama menggambarkan GPT-4 sebagai “malas” dan “bodoh” dibandingkan dengan kemampuan inferensi sebelumnya dan keluaran lainnya. Karena pejabat tersebut tidak menanggapi hal ini, masyarakat mulai berspekulasi tentang alasan penurunan kinerja GPT-4. Mungkinkah karena masalah arus kas OpenAI sebelumnya? Spekulasi arus utama berfokus pada penurunan kinerja karena optimalisasi biaya. Beberapa peneliti mengatakan OpenAI mungkin menggunakan model yang lebih kecil di belakang API untuk mengurangi biaya menjalankan ChatGPT. Namun kemungkinan ini kemudian dibantah oleh Peter Welinder, wakil presiden produk OpenAI. Dia mengatakan di media sosial: “Kami tidak membuat GPT-4 menjadi lebih bodoh. Salah satu asumsi saat ini adalah ketika Anda menggunakannya lebih sering, Anda akan mulai melihat masalah yang tidak Anda sadari sebelumnya.” Semakin banyak orang dan penggunaan yang lebih lama telah mengungkap keterbatasan ChatGPT. Mengenai hipotesis ini, para peneliti mencoba menyajikan “perubahan hubungan antara kinerja ChatGPT dan waktu” melalui eksperimen yang lebih ketat.

Sebuah makalah penelitian berjudul “Bagaimana perilaku ChatGPT berubah seiring waktu?” yang diajukan oleh Universitas Stanford dan Universitas California, Berkeley, pada bulan Juli menunjukkan bahwa: **Versi model besar yang sama memang dapat berubah dalam jangka waktu yang relatif singkat Perubahan besar telah terjadi. ** Dari bulan Maret hingga Juni, para peneliti menguji dua versi GPT-3.5 dan GPT-4, mengumpulkan dan mengevaluasi hasil pembuatan empat tugas tolok ukur umum: pertanyaan matematika, menjawab pertanyaan sensitif, pembuatan kode, dan penalaran visual. Hasilnya menunjukkan bahwa baik itu GPT-3.5 atau GPT-4, performa dan hasil pembangkitan keduanya dapat berubah seiring waktu. Dalam hal kemampuan matematika, GPT-4 (Maret 2023) berkinerja cukup baik dalam mengidentifikasi bilangan prima dan bilangan komposit (akurasi 84%), namun GPT-4 (Juni 2023) berkinerja buruk pada soal yang sama (akurasi 51%). Menariknya, CPT-3.5 melakukan tugas ini jauh lebih baik pada bulan Juni dibandingkan pada bulan Maret. Namun, dalam hal pertanyaan sensitif, GPT-4 kurang bersedia menjawab pertanyaan sensitif pada bulan Juni dibandingkan pada bulan Maret; dalam hal kemampuan pengkodean, GPT-4 dan GPT-3.5 menunjukkan lebih banyak kesalahan pada bulan Juni dibandingkan pada bulan Maret. Para peneliti percaya bahwa meskipun tidak ada hubungan linier yang jelas antara kinerja ChatGPT dan waktu, keakuratannya berfluktuasi.

Ini bukan hanya masalah ChatGPT itu sendiri, tetapi juga masalah umum pada semua model AI sebelumnya. **Menurut studi tahun 2022 yang dilakukan oleh MIT, Universitas Harvard, Universitas Monterey, dan Universitas Cambridge, 91% model pembelajaran mesin akan menurun seiring waktu. Para peneliti menyebut fenomena ini sebagai “kecerdasan buatan” Penuaan Cerdas”. ** Misalnya, Google Health pernah mengembangkan model pembelajaran mendalam yang dapat mendeteksi penyakit retina melalui pemindaian mata pasien. Model ini mencapai akurasi 90% selama fase pelatihan, tetapi gagal memberikan hasil yang akurat dalam kehidupan nyata. Terutama karena di laboratorium, data pelatihan berkualitas tinggi digunakan, tetapi pemindaian mata di dunia nyata memiliki kualitas lebih rendah. Karena penuaan model pembelajaran mesin, teknologi AI yang dihasilkan laboratorium di masa lalu sebagian besar didasarkan pada teknologi pengenalan suara tunggal, dan produk seperti speaker pintar adalah yang pertama menjadi populer. Menurut survei Biro Sensus AS pada tahun 2018 terhadap 583.000 perusahaan AS, hanya 2,8% yang menggunakan model pembelajaran mesin untuk memberikan keuntungan bagi operasi mereka. Namun, dengan terobosan dalam kemampuan kemunculan cerdas pada model besar, kecepatan penuaan model pembelajaran mesin telah melemah secara signifikan, dan model tersebut secara bertahap beralih dari laboratorium ke khalayak yang lebih luas. Namun, masih terdapat ketidakpastian di balik kemampuan yang muncul, menyebabkan banyak orang mempertanyakan apakah ChatGPT dapat mempertahankan peningkatan berkelanjutan dalam kinerja AI dalam jangka panjang.

03 Anti penuaan di bawah kotak hitam

Inti dari penuaan kecerdasan buatan sebenarnya adalah kelemahan paradigma model pembelajaran mesin.

Di masa lalu, model pembelajaran mesin dilatih berdasarkan korespondensi antara tugas tertentu dan data tertentu. Melalui sejumlah besar contoh, pertama-tama ajari model apa yang baik dan apa yang buruk dalam bidang tersebut, lalu sesuaikan bobot model untuk menghasilkan hasil yang sesuai. Berdasarkan gagasan ini, setiap kali Anda melakukan sesuatu yang baru atau distribusi data berubah secara signifikan, model tersebut harus dilatih ulang. Ada banyak hal baru dan data baru, dan modelnya hanya dapat disegarkan. Namun, penyegaran model juga akan menyebabkan hal-hal yang sebelumnya dilakukan dengan baik tiba-tiba tidak dilakukan dengan baik, sehingga semakin membatasi penerapannya. **Singkatnya, dalam model pembelajaran mesin tradisional, inti dari data flywheel adalah melakukan iterasi model dan menggunakan model baru untuk memecahkan masalah baru. ** Namun, model besar yang diwakili oleh ChatGPT telah muncul dengan kemampuan pembelajaran otonom dan telah mendobrak paradigma ini. Di masa lalu, pembelajaran mesin pertama-tama “memakan” data dan kemudian “menirunya”, berdasarkan hubungan korespondensi; model besar seperti ChatGPT “mengajarkan” data dan kemudian “memahaminya”, berdasarkan “logika internal”. Dalam hal ini, model besar itu sendiri tidak berubah dan secara teori dapat tetap awet muda selamanya. Namun, beberapa praktisi mengatakan bahwa seperti halnya kemunculan kecerdasan dalam model besar, ia berkembang secara non-linier, tidak dapat diprediksi, dan muncul secara tiba-tiba. Juga tidak diketahui apakah model-model besar akan menua seiring berjalannya waktu, dan muncul dengan ketidakpastian yang tidak dapat diprediksi. **Dengan kata lain, setelah ChatGPT muncul dengan kinerja cerdas yang sulit diperoleh secara teoritis, ChatGPT juga mulai muncul dengan ketidakpastian dan ketidakpastian. ** Mengenai sifat “kemunculan” kotak hitam, pada konferensi peluncuran model besar sumber terbuka Baichuan Intelligent Baichuan2 pada tanggal 6 September, Zhang Bo, akademisi Akademi Ilmu Pengetahuan Tiongkok dan dekan kehormatan Institut Kecerdasan Buatan Universitas Tsinghua, mengatakan: “Sampai saat ini dunia masih belum percaya pada model big open source. Prinsip kerja teoritis model dan fenomena yang dihasilkan semuanya tidak jelas, dan semua kesimpulan disimpulkan untuk menghasilkan fenomena kemunculan. mundurlah. Ketika penjelasannya tidak jelas, dikatakan kemunculan. Faktanya, itu mencerminkan Kami tidak tahu apa-apa tentang itu.” Dalam pandangannya, pertanyaan mengapa model besar menghasilkan halusinasi melibatkan perbedaan antara prinsip ChatGPT dan pembuatan bahasa alami manusia. Perbedaan yang paling mendasar adalah bahasa yang dihasilkan oleh ChatGPT didorong secara eksternal, sedangkan bahasa manusia didorong oleh niatnya sendiri, sehingga kebenaran dan rasionalitas konten ChatGPT tidak dapat dijamin. Setelah ikut-ikutan melalui serangkaian konsep yang menghebohkan, tantangan bagi mereka yang berkomitmen untuk mengembangkan model dasar produktivitas adalah bagaimana memastikan keandalan dan keakuratan keluaran produk mereka yang berkelanjutan. Namun untuk produk hiburan yang berkaitan dengan model-model besar, seperti yang dikatakan oleh salah satu pendiri Character.AI, Noam Shazeer di New York Times: "Sistem ini tidak dirancang untuk kebenaran. Mereka dirancang untuk dialog yang masuk akal. ” Dengan kata lain, mereka percaya diri artis omong kosong. Gelombang besar model besar sudah mulai bercabang.

Referensi:

  • Gizmodo-Apakah ChatGPT Semakin Buruk?
  • Aplikasi TechCrunch-Al Character.ai mengejar ChatGPT di AS
  • Pemantauan Pembelajaran Mesin- Mengapa Anda Harus Peduli Tentang Data dan Penyimpangan Konsep
  • Catatan Studi Miss M-Lima Pertanyaan Paling Penting Tentang ChatGPT
  • Institut Tata Kelola Internasional Kecerdasan Buatan Universitas Tsinghua-Penelitian pada model besar sangat mendesak, dan kita tidak bisa begitu saja mengatakan “kemunculan” jika penjelasannya tidak jelas
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan