Model besar AI "Pajak Bahasa Mandarin": Mengapa Bahasa Mandarin lebih memakan Token daripada Bahasa Inggris?

Question

Penulis: Tang Yitao, Sumber: Geek ParkBeberapa hari setelah rilis Opus 4.7, di X penuh keluhan. Ada yang bilang satu kali percakapan saja sudah menghabiskan kuota sesi-nya, ada yang bilang biaya menjalankan kode yang sama dibanding minggu lalu meningkat lebih dari dua kali lipat; dan ada juga yang memamerkan tangkapan layar mereka yang berlangganan Max 200 dolar dan mencapai batas dalam kurang dari dua jam.Pengembang independen BridgeMind mengakui Claude adalah model terbaik di dunia, tetapi sekaligus juga yang paling mahal. Langganan Max-nya habis kurang dari dua jam, tapi untungnya—dia membeli dua langganan.｜Sumber gambar: X@bridgemindaiHarga resmi Anthropic tidak berubah, tetap 5 dolar per juta token input, dan 25 dolar untuk output. Tapi versi ini memperkenalkan tokenizer baru, sekaligus Claude Code menaikkan effort default dari high ke xhigh. Dua hal ini menyebabkan konsumsi token untuk pekerjaan yang sama meningkat menjadi 2 sampai 2.7 kali lipat dari sebelumnya.Dalam diskusi ini, saya melihat dua pernyataan terkait bahasa Mandarin. Satu: dalam tokenizer baru, biaya untuk Mandarin hampir tidak naik, pengguna Mandarin terhindar dari kenaikan harga ini. Pernyataan lain yang lebih menarik: **Teks klasik (古文) lebih hemat token daripada bahasa Mandarin modern, berinteraksi dengan AI menggunakan bahasa klasik bisa menghemat biaya**.Pernyataan pertama menyiratkan Claude melakukan semacam optimisasi untuk Mandarin, tapi dalam dokumen rilis Anthropic, tidak disebutkan adanya penyesuaian terkait bahasa Mandarin.Pernyataan kedua lebih sulit dijelaskan. Teks klasik jelas lebih sulit dipahami manusia dibanding bahasa Mandarin modern; lalu bagaimana teks yang lebih kompleks bagi manusia ini bisa lebih mudah bagi AI?Saya melakukan sebuah pengujian, menggunakan 22 potongan teks paralel (berisi berita bisnis, dokumen teknis, teks klasik, percakapan sehari-hari, dll), sekaligus menginput ke 5 tokenizer (Claude 4.6 dan 4.7, GPT-4o, Qwen 3.6, DeepSeek-V3), lalu menghitung jumlah token yang digunakan di setiap model untuk setiap potongan teks, kemudian membandingkannya secara horizontal.Teks pengujian:1. Percakapan sehari-hari dalam bahasa Inggris dan Mandarin (perjalanan, forum tanya jawab, permintaan penulisan)2. Dokumen teknis dalam bahasa Inggris dan Mandarin (dokumen Python, dokumen Anthropic)3. Berita dalam bahasa Inggris dan Mandarin (berita politik NYT, berita bisnis NYT, pernyataan resmi Apple)4. Potongan sastra dalam bahasa Inggris, Mandarin klasik (《出师表》《道德经》)Setelah pengujian, kedua pernyataan tersebut terbukti sebagian benar, tetapi kenyataannya lebih kompleks dari sekadar rumor.**1. Pajak bahasa Mandarin**-------------Langsung ke kesimpulan:1. **Di Claude dan GPT, biaya bahasa Mandarin selalu lebih mahal daripada bahasa Inggris**2. **Di Qwen dan DeepSeek, bahasa Mandarin malah lebih murah daripada bahasa Inggris**3. **Upgrade tokenizer yang memicu gejolak di Opus 4.7, inflasi hampir hanya terjadi di bahasa Inggris, Mandarin tetap stabil**Mari lihat angka spesifiknya. Sebelum Opus 4.7, seluruh model Claude (termasuk Opus 4.6, Sonnet, Haiku) menggunakan tokenizer yang sama. Dalam tokenizer ini, konsumsi token untuk Mandarin secara keseluruhan lebih tinggi daripada konten bahasa Inggris yang setara, rasio cn/en berkisar antara 1.11× sampai 1.64×.Situasi paling ekstrem muncul pada berita bisnis bergaya NYT: untuk satu potongan konten yang sama, versi Mandarin membutuhkan 64% lebih banyak token, setara membayar 64% lebih mahal.Model Claude sebelum Opus 4.7 (termasuk Opus 4.6, Sonnet, Haiku), konsumsi token Mandarin jauh lebih tinggi dibanding model lain (tanda merah)Situasi paling ekstrem muncul pada berita bisnis bergaya NYT: untuk satu potongan konten yang sama, versi Mandarin membutuhkan 64% lebih banyak token (tanda hijau)Tokenizer o200k GPT-4o sedikit lebih baik, rasio cn/en kebanyakan berada di kisaran 1.0 sampai 1.35×, sebagian di bawah 1. Bahkan secara keseluruhan, biaya Mandarin masih lebih tinggi, tapi jaraknya jauh lebih kecil dibanding Claude.Model domestik Qwen 3.6 dan DeepSeek-V3 malah berbalik. Rasio cn/en mereka secara luas di bawah 1, artinya untuk konten yang sama, versi Mandarin justru lebih hemat token daripada versi Inggris. **DeepSeek bahkan mencapai 0.65×, satu potongan teks Mandarin lebih murah sepertiga dari Inggris**.Tokenizer baru Opus 4.7 inflasi hampir hanya terjadi di bahasa Inggris. Jumlah token Inggris membengkak 1.24× sampai 1.63×, sedangkan Mandarin tetap di angka 1.000×, hampir tidak berubah. Tagihan dari pengembang Inggris di awal diskusi ini memang bergejolak, tapi pengguna Mandarin tidak merasakan apa-apa. Kemungkinan alasannya: Mandarin di versi lama sudah dipotong sampai tingkat karakter tunggal, sehingga ruang untuk dipotong sangat kecil.********Dibandingkan Opus 4.6, Opus 4.7, konsumsi token bahasa Inggris meningkat, sementara Mandarin tetap stabilDalam pengujian, saya juga memperhatikan satu hal. Perbedaan konsumsi token ini bukan hanya soal tagihan, tetapi juga mempengaruhi ukuran ruang kerja. Dengan jendela konteks sekitar 200k, jika menggunakan tokenizer Claude versi lama untuk data Mandarin, jumlah konten yang bisa dimasukkan 40% sampai 70% lebih sedikit dibanding Inggris.Untuk pekerjaan yang sama, misalnya menganalisis dokumen panjang atau merangkum rapat, pengguna Mandarin harus memberi model bahan yang lebih sedikit, sehingga konteks yang bisa dirujuk model pun lebih pendek. Akibatnya, mereka membayar lebih, tapi mendapatkan ruang kerja yang lebih kecil.Jika dilihat dari keempat data ini, muncul satu pertanyaan:**Mengapa isi yang sama dalam bahasa berbeda membutuhkan jumlah token yang berbeda? Mengapa biaya untuk Mandarin di Claude dan GPT lebih mahal, sementara di Qwen dan DeepSeek malah lebih murah?**Jawabannya tersembunyi pada konsep tokenizer yang sudah sering disebutkan.**2. Berapa banyak bagian yang bisa dipotong dari satu karakter Hanzi?**----------------------Sebelum model membaca teks apa pun, tokenizer akan memotong input menjadi satuan token. Bayangkan tokenizer seperti mesin pemotong blok bangunan AI. Anda masukkan sebuah kalimat, mesin ini akan memecahnya menjadi blok-blok standar (token). Model AI tidak membaca teks, melainkan mengenali nomor blok tersebut. Semakin banyak blok yang digunakan, semakin mahal biaya yang harus dibayar.Pemotongan bahasa Inggris cukup intuitif, misalnya “intelligence” kemungkinan besar satu token, “information” juga satu token, satu kata satu satuan biaya.Tapi untuk Mandarin, di tahap ini sudah bermasalah. Jika kita kirim kalimat yang sama, “人工智能正在重塑全球的信息基础设施”, ke tokenizer GPT-4 cl100k dan Qwen 2.5, hasil potongannya sangat berbeda.GPT-4 umumnya memecah setiap karakter Hanzi menjadi satu token; Qwen akan mengenali kata sebagai satu token, misalnya “人工智能” empat karakter dihitung sebagai satu token.********Kalimat yang sama, 16 karakter Hanzi, dipotong GPT-4 menjadi 19 token, Qwen hanya 6 token.Mengapa bisa seperti ini? Jawabannya ada pada algoritma bernama BPE (Byte Pair Encoding).Cara kerja BPE adalah menghitung frekuensi kemunculan kombinasi karakter dalam korpus pelatihan, lalu menggabungkan kombinasi yang paling sering muncul menjadi satu token, lalu memasukkannya ke daftar kata.Di era GPT-2, sebagian besar data pelatihan adalah bahasa Inggris. Kombinasi huruf (th, ing, tion) sering muncul, cepat digabung menjadi satu token. Karakter Mandarin di korpus tersebut jarang muncul, sehingga tidak masuk ke daftar kata, dan harus diproses sebagai byte mentah. Satu karakter Hanzi, yang biasanya 3 byte, jadi dihitung sebagai 3 token.BPE menggabungkan berdasarkan frekuensi karakter dalam korpus pelatihan. Dalam korpus berbahasa Inggris, kombinasi huruf sering muncul, sehingga efisiensi token lebih tinggi. Karakter Mandarin dalam UTF-8 tidak bisa digabungkan menjadi satu token utuh karena frekuensinya terlalu rendah.Kemudian, GPT-4 dengan vocab cl100k memperluas daftar kata, sehingga karakter Mandarin yang umum mulai dimasukkan, biasanya menjadi 1-2 token per karakter, tapi efisiensinya tetap di bawah bahasa Inggris.Dengan vocab o200k di GPT-4o, efisiensi Mandarin meningkat lagi. Ini juga menjelaskan kenapa rasio cn/en di data pertama lebih rendah di GPT-4o dibanding Claude.Model domestik Qwen dan DeepSeek sejak awal memasukkan banyak karakter Mandarin umum dan frasa frekuensi tinggi sebagai satu token utuh. Satu karakter satu token, efisiensi langsung meningkat dua kali lipat atau lebih.Ilustrasi pemotongan kalimat yang berbeda di berbagai tokenizerIni sebabnya rasio cn/en mereka bisa di bawah 1. **Karena informasi dalam satu karakter Hanzi secara alami lebih padat daripada kata Inggris, ketika tokenizer tidak memecah Hanzi secara paksa, keunggulan alami ini muncul.**Jadi, perbedaan data dari empat pengujian sebelumnya sebenarnya berakar dari apa yang tersimpan di daftar kata tokenizer, bukan dari kemampuan model.Claude dan GPT awalnya membangun daftar kata berdasarkan bahasa Inggris secara default, sedangkan Mandarin dimasukkan belakangan; Qwen dan DeepSeek sejak awal memperlakukan Mandarin sebagai bahasa default. Perbedaan titik awal ini berpengaruh ke jumlah token, tagihan, dan ukuran jendela konteks.**3. Apakah teks klasik (古文) benar-benar lebih murah?**-------------------Kembali ke rumor kedua di awal: **Teks klasik lebih hemat token daripada bahasa Mandarin modern**.Data mengonfirmasi pernyataan ini. Dalam pengujian, rasio cn/en untuk teks klasik selalu di bawah 1, di semua tokenizer yang diuji. Versi teks klasik dari konten yang sama membutuhkan jumlah token yang lebih sedikit bahkan dibanding terjemahan Inggrisnya.Dalam semua model, teks klasik konsumsi token lebih sedikit dari bahasa Mandarin modern, bahkan lebih sedikit dari bahasa InggrisAlasannya tidak rumit: teks klasik sangat ringkas dalam penggunaan karakter. “学而不思则罔，思而不学则殆” hanya 12 karakter. Jika diterjemahkan ke bahasa modern, menjadi “Hanya belajar tanpa berpikir akan bingung, dan hanya berpikir tanpa belajar akan terjerat masalah”, jumlah katanya jadi dua kali lipat, otomatis token juga meningkat dua kali lipat.Selain itu, karakter-karakter umum dalam teks klasik (之、也、者、而、不) adalah karakter frekuensi tinggi, yang dalam daftar kata tokenizer mana pun memiliki posisi tersendiri, tidak dipotong menjadi byte. Jadi, secara encoding, teks klasik memang sangat efisien.Tapi ada jebakannya.**Token teks klasik memang lebih hemat di sisi encoding, tapi beban inferensi model tidak berkurang**. “罔” satu karakter, model harus menentukan maknanya dalam konteks: apakah “bingung”, “tertipu”, atau “tidak ada”. Bahasa Mandarin modern bisa mengungkapkan makna ini dengan 26 karakter, sedangkan teks klasik harus mengompres bagian yang terbuka, menyisakan pekerjaan inferensi ke model. Sebagai analogi, file yang dikompresi zip berukuran lebih kecil, tapi proses dekompresinya membutuhkan lebih banyak komputasi.**Token lebih sedikit, konsumsi inferensi justru meningkat, dan akurasi pemahaman malah menurun**. Perhitungan ini sulit dilakukan secara langsung.Contoh teks klasik ini membuat saya sadar, jumlah token sendiri tidak bisa jadi satu-satunya indikator. Tapi, jika mengikuti arah ini, ada satu hal lain yang sebelumnya saya abaikan.Seperti yang sudah disebutkan, tokenizer era GPT-2 akan memecah karakter “人” menjadi tiga byte UTF-8 token, sedangkan GPT-4 dengan daftar kata yang diperluas menjadikan satu karakter Hanzi sebagai satu token, dan Qwen bahkan menggabungkan empat karakter “人工智能” menjadi satu token.Secara intuitif, ini adalah proses perbaikan yang terus berlangsung: semakin banyak penggabungan, semakin efisien, dan model seharusnya semakin paham.Tapi benarkah begitu? Mari kita ingat kembali bagaimana kita memahami Hanzi.Hanzi adalah karakter ideogram, lebih dari 80% adalah karakter bentuk-suara (形声字), yang terdiri dari bagian penanda makna (偏旁) dan bagian penanda bunyi (部件). Contohnya: “氵” bagian air, “木” bagian pohon, “火” bagian api. **偏旁 adalah petunjuk makna dasar saat manusia belajar membaca, orang yang tidak tahu “焱” tetap bisa menebak maknanya dari tiga “火”.**Karena偏旁 adalah petunjuk makna dasar, manusia akan mulai dari struktur untuk menebak kategori makna, lalu mengonfirmasi maknanya dari konteks.********Api, nyala api, cahaya, sering muncul dalam bahasa tulis dan nama orang, melambangkan terang dan panas.Tapi dalam daftar kata tokenizer, “焱” ini hanya sebuah nomor. Misalnya nomor 38721, yang mewakili posisi indeks dalam daftar kata. Model akan mencari vektor angka dari indeks ini untuk merepresentasikan karakter “焱”.Nomor ini sendiri tidak mengandung informasi tentang struktur internal karakter. 38721 dan 38722, bagi model, sama seperti 1 dan 10000. Jadi, “struktur Hanzi” sebagai lapisan informasi ini disembunyikan. Tiga “火” bertumpuk, dalam nomor tidak ada representasinya.Tentu, model bisa belajar secara tidak langsung dari data pelatihan bahwa “焱”, “炎”, “灼” sering muncul dalam konteks yang mirip, tapi jalur ini lebih tidak langsung dibanding memanfaatkan informasi偏旁 secara langsung.Lalu, mungkinkah model dari byte yang dipotong-potong ini “melihat” petunjuk struktur偏旁 tertentu, lalu menggabungkannya kembali di lapisan kalkulasi berikutnya? Meskipun biaya meningkat karena token lebih banyak, mungkinkah secara semantik ini malah lebih efektif daripada langsung menerima nomor yang tidak transparan?Sebuah makalah yang diterbitkan tahun 2025 di MIT Press “Computational Linguistics” berjudul **“Tokenization Changes Meaning in Large Language Models: Evidence from Chinese”** menjawab pertanyaan ini.**4. Potongan fragmentasi mengandung偏旁**----------------------Penulisnya, David Haslett, menemukan sebuah kebetulan sejarah.Pada 1990-an, Unicode berurut berdasarkan偏旁 saat mengalokasikan kode UTF-8 untuk Hanzi. Hanzi yang berbagi偏旁 akan memiliki urutan kode yang berdekatan. Contohnya: “茶” dan “茎” keduanya mengandung偏旁 “艹” (rumput), kode UTF-8-nya berawalan sama. “河” dan “海” keduanya mengandung偏旁 “氵”, kode byte-nya juga berbagi awalan.********UTF-8 mengurutkan Hanzi berdasarkan偏旁, karakter yang berbagi偏旁 memiliki kode yang berdekatan｜Sumber gambar: GithubIni berarti, saat tokenizer memecah Hanzi menjadi tiga token byte UTF-8, karakter yang berbagi偏旁 akan berbagi token pertama. Dalam proses pelatihan, model akan berulang kali melihat pola byte yang sama ini, dan berpotensi belajar bahwa “karakter yang berbagi token pertama” biasanya termasuk dalam kategori makna yang sama. Ini secara fungsi mendekati proses manusia menebak makna dari偏旁.Haslett merancang tiga eksperimen untuk menguji ini.Eksperimen pertama: tanyakan ke GPT-4, GPT-4o, dan Llama 3: **“Apakah ‘茶’ dan ‘茎’ berbagi偏旁 yang sama?”**Eksperimen kedua: minta model memberi skor kemiripan makna antara dua Hanzi.Eksperimen ketiga: minta model melakukan tugas “menemukan yang berbeda” dari sekumpulan Hanzi.Setiap eksperimen mengontrol dua variabel: apakah kedua Hanzi benar-benar berbagi偏旁, dan apakah keduanya berbagi token pertama dalam tokenizer. Desain 2×2 ini memungkinkan memisahkan pengaruh偏旁 dan efek token.Kesimpulan dari ketiga eksperimen konsisten: saat Hanzi dipotong menjadi **beberapa token** (misalnya, 89% Hanzi di tokenizer lama GPT-4 dipotong menjadi lebih dari satu token), **model lebih akurat mengenali berbagi偏旁**; saat Hanzi diproses sebagai **satu token utuh** (seperti tokenizer baru GPT-4o, hanya 57% Hanzi tetap utuh), **akurasi menurun**.Dengan kata lain, dugaan sebelumnya terbukti: memotong Hanzi menjadi bagian-bagian meningkatkan biaya, tapi byte yang dipotong menyimpan jejak偏旁, dan model belajar dari sana. Sebaliknya, mengkode Hanzi sebagai satu token utuh menurunkan biaya, tapi偏旁 tersembunyi dalam nomor yang tidak transparan, sehingga model tidak bisa lagi mengakses petunjuk tersebut dari byte.Perlu dicatat, kesimpulan ini hanya berlaku untuk tugas-tugas yang berhubungan dengan makna bagian dari bentuk Hanzi, **tidak serta-merta menurunkan kemampuan pemahaman bahasa Mandarin secara keseluruhan, reasoning, atau pembuatan teks panjang**. Selain itu, perbandingan eksperimen antara GPT-4 dan GPT-4o, selain perbedaan tokenizer, juga melibatkan perubahan arsitektur model, data pelatihan, dan jumlah parameter, sehingga tidak bisa sepenuhnya mengaitkan perubahan akurasi dengan perbaikan granularitas token.Temuan ini juga diverifikasi secara praktis. Pada 2024, sebuah studi tentang GPT-4o menemukan bahwa ketika tokenizer baru menggabungkan beberapa karakter Mandarin menjadi satu token panjang, model malah mengalami kesalahan pemahaman. Ketika peneliti menggunakan tokenizer bahasa Mandarin profesional untuk memecah kembali token panjang tersebut, akurasi pemahaman kembali normal.Saat ini, konsensus utama di industri model besar adalah **menggunakan tokenizer yang mengoptimalkan kata utuh/karakter utuh sesuai bahasa target, yang secara signifikan meningkatkan performa model secara keseluruhan**. Pengkodean karakter/ kata utuh tidak hanya mengurangi biaya token, meningkatkan informasi konteks, tetapi juga memperpendek urutan, mengurangi latensi inferensi, dan meningkatkan stabilitas pengolahan teks panjang. Keunggulan yang ditemukan dalam tugas-tugas spesifik ini tidak mewakili seluruh manfaat performa di sebagian besar skenario NLP bahasa Mandarin.Namun, hal ini tetap menyentuh salah satu masalah paling kompleks dalam sistem besar: **Anda bisa mengoptimalkan bagian yang sudah Anda rancang, tapi tidak bisa mengoptimalkan bagian yang tidak Anda ketahui keberadaannya**. Unicode yang diurutkan berdasarkan偏旁 untuk memudahkan pencarian manusia, dan BPE yang memecah Hanzi menjadi byte karena frekuensi rendah di korpus, secara tidak sengaja menciptakan jalur semantik yang tidak direncanakan.Ketika insinyur baru “meningkatkan” tokenizer dengan menggabungkan Hanzi menjadi karakter utuh, mereka secara tidak sadar menutup satu jalur semantik yang tidak mereka sadari keberadaannya. Efisiensi meningkat, biaya menurun, tapi ada sesuatu yang diam-diam menghilang, dan Anda bahkan tidak akan mendapatkan pesan error.Jadi, masalahnya lebih rumit dari sekadar “biaya lebih untuk Mandarin di AI”. **Setiap tokenizer dioptimalkan untuk nilai default tertentu, dan biayanya tersembunyi di tempat lain**.**5. Lin Yutang**-------------------Biaya adaptasi bahasa Mandarin ke infrastruktur teknologi Barat bukan baru muncul di era AI.Pada Januari 2025, Nelson Felix warga New York memposting beberapa foto di grup penggemar mesin ketik di Facebook. Ia menemukan mesin ketik berisi tulisan Mandarin di warisan kakek nenek istrinya, tidak tahu asal-usulnya. Segera ratusan komentar bermunculan.********Seorang ahli studi Hanzi dari Stanford, Mo Leining (Thomas S. Mullaney), langsung mengenali ini sebagai prototipe “Mesin Ketik Cerah” yang dibuat Lin Yutang pada 1947, yang hilang selama hampir 80 tahun. Pada April tahun yang sama, Felix dan istrinya menjual mesin ketik itu ke Perpustakaan Stanford.Masalah yang ingin diselesaikan mesin ketik ini, dan yang dihadapi tokenizer saat ini, secara struktur sangat mirip: **Bagaimana mengintegrasikan Mandarin secara efisien ke infrastruktur berbasis alfabet Barat**.Mesin ketik Inggris tahun 1940-an memiliki 26 tombol huruf, satu huruf satu tombol, sederhana dan langsung. Mandarin memiliki ribuan karakter umum, tidak mungkin satu karakter satu tombol. Mesin ketik Mandarin saat itu adalah sebuah papan besar berisi ribuan huruf cetak, operator harus memilih satu per satu, dan kecepatan mengetik hanya sekitar sepuluh karakter per menit.Pada 1899, misionaris Amerika, Devello Z. Sheffield, menciptakan mesin ketik Mandarin pertama｜Sumber gambar: Wikipedia  Lin Yutang menghabiskan 120.000 dolar AS untuk pengembangan, hampir bangkrut, dan memesan dari perusahaan Carl E. Krum di New York sebuah mesin ketik Mandarin dengan hanya 72 tombol. Prinsip kerjanya adalah memecah karakter Hanzi berdasarkan struktur bentuknya, tombol atas memilih bagian atas karakter, tombol bawah bagian bawah, dan kandidat karakter muncul di jendela kecil “mata ajaib”, dipilih dengan angka. Kecepatan sekitar 40-50 karakter per menit, mendukung lebih dari 8000 karakter umum.( kiri ) Jendela kaca transparan sebagai “mata ajaib”; ( kanan ) Struktur dalam mesin ketik Cerah｜Sumber gambar: FacebookZhao Yuanren menilai: **“Tak peduli orang China maupun Amerika, jika sedikit belajar, mereka bisa menguasai keyboard ini. Saya rasa ini adalah mesin ketik yang kita perlukan.”**Secara teknologi, mesin ketik Cerah adalah sebuah terobosan, tapi secara komersial gagal.Saat Lin Yutang mempresentasikan ke manajemen Remington, mesin mengalami kerusakan, dan investor kehilangan minat. Karena biaya tinggi dan keuangan pribadi yang terganggu, produksi massal pun gagal. Pada 1948, Lin Yutang menjual prototipe dan hak komersialnya ke perusahaan Mergenthaler Linotype. Perusahaan ini akhirnya berhenti memproduksi, dan prototipe tersebut dibawa pulang ke Long Island saat relokasi perusahaan di tahun 1950-an, lalu hilang entah ke mana, sampai ditemukan kembali pada 2025.Dalam buku *Chinese Typewriter*, Mo Leining berpendapat bahwa mesin ketik Cerah “tidak gagal”. **Sebagai produk tahun 1940-an, memang gagal. Tapi sebagai paradigma interaksi manusia dan mesin, ia menang.****Lin Yutang pertama kali mengubah proses mengetik Mandarin menjadi “pencarian dan pilihan”.** Menggunakan tiga tombol untuk menentukan bagian atas karakter, lalu memilih dari kandidat. Ini adalah logika dasar dari semua input method modern: dari Cangjie, Wubi, hingga Sogou Pinyin, semuanya bisa dianggap sebagai keturunan mesin ketik Cerah.Mesin ketik yang melintasi hampir delapan puluh tahun ini, dan diskusi kita tentang tokenizer hari ini, menyimpan sebuah pola sejarah yang tersembunyi. **Bahasa Mandarin selalu menghadapi satu masalah:****Bagaimana menghubungkan ke infrastruktur berbasis alfabet Latin.**Menariknya, dalam proses pencarian ini, banyak terjadi kebetulan yang tidak direncanakan manusia. Urutan Unicode yang diatur berdasarkan偏旁 untuk memudahkan pencarian manusia, dan pemecahan BPE yang tidak disengaja menjadi byte, secara tidak sadar mereproduksi proses belajar mengenal Hanzi. Ketika insinyur berusaha mengurangi “biaya Mandarin”, mereka menggabungkan Hanzi menjadi karakter utuh, secara diam-diam menutup jalur semantik yang tidak mereka sadari. Efisiensi meningkat, biaya turun, tapi sesuatu yang tak terlihat menghilang secara diam-diam, dan Anda bahkan tidak akan mendapatkan pesan error.Jadi, masalahnya lebih rumit dari sekadar “biaya lebih untuk Mandarin di AI”. **Setiap tokenizer dioptimalkan untuk nilai default tertentu, dan biayanya tersembunyi di tempat lain.****6. Lin Yutang**-------------------Biaya adaptasi bahasa Mandarin ke infrastruktur teknologi Barat bukan baru muncul di era AI.Pada Januari 2025, Nelson Felix dari New York memposting beberapa foto di grup penggemar mesin ketik di Facebook. Ia menemukan mesin ketik berisi tulisan Mandarin di warisan kakek nenek istrinya, tidak tahu asal-usulnya. Segera ratusan komentar bermunculan.********Seorang ahli studi Hanzi dari Stanford, Mo Leining (Thomas S. Mullaney), langsung mengenali ini sebagai prototipe “Mesin Ketik Cerah” yang dibuat Lin Yutang pada 1947, yang hilang selama hampir 80 tahun. Pada April tahun yang sama, Felix dan istrinya menjual mesin ketik itu ke Perpustakaan Stanford.Masalah yang ingin diselesaikan mesin ketik ini, dan yang dihadapi tokenizer saat ini, secara struktur sangat mirip: **Bagaimana mengintegrasikan Mandarin secara efisien ke infrastruktur berbasis alfabet Barat**.Mesin ketik Inggris tahun 1940-an memiliki 26 tombol huruf, satu huruf satu tombol, sederhana dan langsung. Mandarin memiliki ribuan karakter umum, tidak mungkin satu karakter satu tombol. Mesin ketik Mandarin saat itu adalah sebuah papan besar berisi ribuan huruf cetak, operator harus memilih satu per satu, dan kecepatan mengetik hanya sekitar sepuluh karakter per menit.Pada 1899, misionaris Amerika, Devello Z. Sheffield, menciptakan mesin ketik Mandarin pertama｜Sumber gambar: Wikipedia  Lin Yutang menghabiskan 120.000 dolar AS untuk pengembangan, hampir bangkrut, dan memesan dari perusahaan Carl E. Krum di New York sebuah mesin ketik Mandarin dengan hanya 72 tombol. Prinsip kerjanya adalah memecah karakter Hanzi berdasarkan struktur bentuknya, tombol atas memilih bagian atas karakter, tombol bawah bagian bawah, dan kandidat karakter muncul di jendela kecil “mata ajaib”, dipilih dengan angka. Kecepatan sekitar 40-50 karakter per menit, mendukung lebih dari 8000 karakter umum.( kiri ) Jendela kaca transparan sebagai “mata ajaib”; ( kanan ) Struktur dalam mesin ketik Cerah｜Sumber gambar: FacebookZhao Yuanren menilai: **“Tak peduli orang China maupun Amerika, jika sedikit belajar, mereka bisa menguasai keyboard ini. Saya rasa ini adalah mesin ketik yang kita perlukan.”**Secara teknologi, mesin ketik Cerah adalah sebuah terobosan, tapi secara komersial gagal.Saat Lin Yutang mempresentasikan ke manajemen Remington, mesin mengalami kerusakan, dan investor kehilangan minat. Karena biaya tinggi dan keuangan pribadi yang terganggu, produksi massal pun gagal. Pada 1948, Lin Yutang menjual prototipe dan hak komersialnya ke perusahaan Mergenthaler Linotype. Perusahaan ini akhirnya berhenti memproduksi, dan prototipe tersebut dibawa pulang ke Long Island saat relokasi perusahaan di tahun 1950-an, lalu hilang entah ke mana, sampai ditemukan kembali pada 2025.Dalam buku *Chinese Typewriter*, Mo Leining berpendapat bahwa mesin ketik Cerah “tidak gagal”. **Sebagai produk tahun 1940-an, memang gagal. Tapi sebagai paradigma interaksi manusia dan mesin, ia menang.****Lin Yutang pertama kali mengubah proses mengetik Mandarin menjadi “pencarian dan pilihan”.** Menggunakan tiga tombol untuk menentukan bagian atas karakter, lalu memilih dari kandidat. Ini adalah logika dasar dari semua input method modern: dari Cangjie, Wubi, hingga Sogou Pinyin, semuanya bisa dianggap sebagai keturunan mesin ketik Cerah.Mesin ketik yang melintasi hampir delapan puluh tahun ini, dan diskusi kita tentang tokenizer hari ini, menyimpan sebuah pola sejarah yang tersembunyi. **Bahasa Mandarin selalu menghadapi satu masalah:****Bagaimana menghubungkan ke infrastruktur berbasis alfabet Latin.**Ada keunikan dalam proses pencarian ini, penuh kebetulan yang tidak direncanakan manusia. Urutan Unicode yang diatur berdasarkan偏旁 untuk memudahkan pencarian manusia, dan pemecahan BPE yang tidak disengaja menjadi byte, secara tidak sadar mereproduksi proses belajar mengenal Hanzi. Ketika insinyur berusaha mengurangi “biaya Mandarin”, mereka menggabungkan Hanzi menjadi karakter utuh, secara diam-diam menutup jalur semantik yang tidak mereka sadari keberadaannya. Efisiensi meningkat, biaya menurun, tapi sesuatu yang tidak terlihat menghilang secara diam-diam, dan Anda bahkan tidak akan mendapatkan pesan error.Sehingga, masalahnya lebih rumit dari sekadar “biaya lebih untuk Mandarin di AI”. **Setiap tokenizer dioptimalkan untuk nilai default tertentu, dan biayanya tersembunyi di tempat lain.**

Model besar AI "Pajak Bahasa Mandarin": Mengapa Bahasa Mandarin lebih memakan Token daripada Bahasa Inggris?

Topik Trending

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Sematkan