Từ “đơn vị từ” đến “đơn vị ký hiệu”: Cuộc tranh luận về nhận thức nền tảng AI đằng sau tên tiếng Trung của Token

2026-04-10 10:49:50

Gần đây, Ủy ban Phê duyệt Danh từ Khoa học và Công nghệ Quốc gia đã phát hành thông báo, đề xuất dịch “Token” trong lĩnh vực trí tuệ nhân tạo thành “từ nguyên”, và thử nghiệm rộng rãi trong xã hội. Sau đó, Báo Nhân Dân đã đăng bài “Giải thích của chuyên gia về tên tiếng Trung của token vì sao lại là ‘từ nguyên’”, nhằm hệ thống giải thích về việc đặt tên này từ góc độ chuyên môn.

Trong bài viết đề cập, “token” bắt nguồn từ tiếng Anh cổ tācen, nghĩa là “ký hiệu” hoặc “dấu”. Trong mô hình ngôn ngữ, token là đơn vị rời rạc nhỏ nhất thu được sau khi cắt nhỏ văn bản hoặc mã hóa theo byte, có thể biểu hiện dưới dạng từ, từ phụ, tiền tố hoặc ký tự. Chính mô hình thể hiện khả năng trí tuệ nhất định thông qua việc xây dựng chuỗi token.

Việc đặt tên này trong hệ thống chứng minh của các chuyên gia được cho là phù hợp với các nguyên tắc đơn nghĩa, khoa học, rõ ràng và hài hòa, đồng thời cũng có nền tảng sử dụng nhất định trong bối cảnh tiếng Trung hiện nay. Tuy nhiên, sau khi đọc các giải thích liên quan, tôi đã hình thành một cách hiểu khác về con đường đặt tên này.

Từ góc độ chuẩn hóa, phương án đặt tên này trong ngắn hạn có khả năng dễ hiểu và thuận tiện truyền đạt. Nhưng nếu xem xét theo các chiều của bản thể tính tính toán, cấu trúc thông tin, tiến hóa đa mô thức và tính nhất quán của dịch ngược, khả năng thích ứng lâu dài vẫn cần được kiểm nghiệm thêm. Trong bối cảnh này, một con đường thay thế cũng đáng chú ý — “符元” — dần thể hiện rõ tính nhất quán cấu trúc và ổn định xuyên ngữ cảnh hơn.

Sai lệch trong định nghĩa: không thể dùng “nguồn gốc” để thay thế “bản chất”

Ý kiến của bài viết (Tiến sĩ Chen Xilin, Viện Nghiên cứu Công nghệ Tính toán, Viện Hàn lâm Khoa học Trung Quốc): Token trong AI ban đầu là “đơn vị ý nghĩa ngôn ngữ cơ bản”, do đó “từ nguyên” phù hợp hơn với bản chất của nó.

Phán đoán này có tính hợp lý trong bối cảnh lịch sử, nhưng trong kỷ nguyên bước nhảy vọt của mô hình công nghệ, tư duy này về bản chất thực ra là một “đào sâu trong học thuật, mò mẫm trong mũi tên”.

Về mặt logic định nghĩa thuật ngữ, cần phân biệt rõ “ngữ cảnh ban đầu” và “bản chất cấu trúc”.

Token đúng là bắt nguồn từ xử lý ngôn ngữ tự nhiên (NLP), nhưng trong quá trình tiến hóa của AGI, nó đã vượt ra khỏi giới hạn của mô hình ngôn ngữ, trở thành đơn vị cơ sở xử lý đồng nhất văn bản, hình ảnh, giọng nói và thậm chí cả tín hiệu vật lý. Trong hệ thống tính toán hiện đại, bản thể thực sự của token là “đơn vị ký hiệu rời rạc”, chứ không chỉ là đơn vị ngôn ngữ của một mô thức duy nhất.

Nếu theo “vai trò ban đầu” để đặt tên, thì máy tính (Computer) đến nay đáng lẽ phải gọi là “máy tính điện tử” (xuất phát từ chức năng ban đầu thay thế người tính thủ công); Internet đáng lẽ phải gọi là “mạng quân sự thời chiến tranh lạnh”. Điểm chết của logic đặt tên này là: nó chỉ nhìn thấy “công việc tạm thời” của công nghệ trong một thời điểm lịch sử nhất định, mà bỏ qua “bản thể vật lý” vượt qua thời đại của nó.

Con đường lịch sử không thể đồng nhất với bản chất của nó. Tương tự, chúng ta cũng không thể vì token ban đầu dùng để xử lý chữ viết mà mãi mãi giữ nó trong ngữ cảnh hạn hẹp của “từ”.

Dùng “ngữ cảnh ban đầu” để định nghĩa khái niệm cơ bản, về bản chất là thay thế bản thể cấu trúc bằng sự phụ thuộc vào đường đi lịch sử. Định nghĩa này có thể giúp dễ hiểu trong giai đoạn sơ khai của công nghệ, nhưng trong giai đoạn mở rộng mô hình đa mô thức, nó sẽ nhanh chóng mất hiệu lực và trở thành xiềng xích cản trở nhận thức. Ngược lại, “符元” trực tiếp phù hợp với bản thể ký hiệu của tính toán đa mô thức, nó không định nghĩa “quá khứ” của token, mà là “bản chất chân thực” của token.

Giới hạn của phép so sánh: giải thích một khi trở thành định nghĩa sẽ bắt đầu lệch lạc

Ý kiến của bài viết (Phó giáo sư Đông Dục Hiểu, Khoa Máy tính, Đại học Thanh Hoa): Có thể dùng phép so sánh “đám mây từ”, “túi từ” để hiểu các đơn vị rời rạc trong đa mô thức là “nghĩa rộng của từ”.

Phép so sánh của giáo sư Đông Dục Hiểu giúp dễ hiểu hơn, nhưng không thể thay thế định nghĩa. Ý tưởng này có thể mang lại cảm hứng trong giải thích, nhưng nếu nâng lên thành căn cứ đặt tên thì có thể gây ra lệch lạc phạm trù trong khái niệm.

Về phương pháp luận, phép so sánh giúp giảm bớt rào cản hiểu biết, còn nhiệm vụ của định nghĩa là xác định ranh giới ý nghĩa. Khi “từ” được mở rộng để bao gồm khối hình ảnh (patch), đoạn âm thanh, biểu diễn vector (embedding) hay các tín hiệu cảm nhận rộng hơn, thì thuộc tính ngôn ngữ ban đầu của nó đã bị pha loãng liên tục, ranh giới ý nghĩa trở nên mơ hồ. Con đường mở rộng dựa trên phép so sánh này, trong ngắn hạn có thể duy trì tính nhất quán giải thích, nhưng về dài hạn dễ gây ra dịch chuyển ý nghĩa.

Trong khả năng mở rộng đa mô thức, cần cảnh giác “phép so sánh” chuyển thành “định nghĩa”. Trong bối cảnh phê duyệt thuật ngữ, cần phân biệt rõ “ẩn dụ giải thích” và “định nghĩa bản thể”, tránh để cái trước thay thế cái sau.

Một ví dụ trực quan hơn: Trong khoa học phổ thông, ta có thể so sánh bóng đèn như “mặt trời nhân tạo” để tăng tính trực quan; nhưng trong hệ thống đặt tên khoa học, không thể dựa vào đó để đổi tên đơn vị dòng điện “ampe” thành “nguyên tử sáng”. Cách diễn đạt đầu tiên mang tính mô tả, còn cách thứ hai liên quan đến hệ đo lường và tiêu chuẩn hóa nghiêm ngặt, không thể lẫn lộn.

Tương tự, các thuật ngữ như “đám mây từ”, “túi từ” về bản chất đều là phép ẩn dụ mô tả hoặc thống kê, giúp hiểu cấu trúc dữ liệu hoặc phân bố; còn Token là đơn vị đo lường cơ bản trong các mô hình lớn, đã ăn sâu vào hệ thống tính phí, huấn luyện mô hình và đo lường học thuật. Khi quy mô sử dụng đạt hàng trăm tỷ đến nghìn tỷ lần gọi mỗi ngày, tên gọi của nó không chỉ mang chức năng giải thích nữa, mà còn là khái niệm nền tảng mang ý nghĩa kỹ thuật và tiêu chuẩn. Ở cấp độ này, thuật ngữ cần phù hợp với bản thể của nó hơn là mở rộng dựa trên phép so sánh.

Nếu mở rộng phép so sánh này thành quy tắc đặt tên, thì thực ra ẩn chứa một tiền đề nguy hiểm: vì mọi người đã quen dùng “từ” để hiểu Token, nên cứ tiếp tục duy trì phép so sánh này. Nhưng thực chất đây là một dạng phụ thuộc vào đường đi đã hình thành — dùng sự tiện lợi của nhận thức cũ để thay thế việc chỉnh sửa bản thể khái niệm. Trong ý nghĩa này, cách đặt tên này gần như là “lãng mạn học ngôn ngữ”, chứ không phải phù hợp chặt chẽ với bản thể tính toán.

Chúng ta không thể vì “mã lực” có “mã” mà yêu cầu trong mô tơ điện phải bàn về “ngựa điện”. Phép so sánh có thể giúp hiểu, nhưng không thể định chuẩn.

Ngược lại, “符” như một khái niệm trung tính hơn, vốn đã có khả năng phù hợp đa mô thức, không cần giải thích thêm đã có thể bao phủ dạng thức thông tin văn bản, hình ảnh, giọng nói. Do đó, dựa trên “đơn vị ký hiệu” làm trung tâm của đặt tên, về mặt định nghĩa sẽ gần hơn với bản thể của Token. Trong logic này, “符元” là tên dịch phù hợp hơn về mặt khái niệm, có tính nhất quán cao và khả năng thích ứng lâu dài.

Giá trị nhận thức: khi điểm neo ý nghĩa tạo ra hiểu lầm hệ thống

Ý kiến của các chuyên gia (tổng hợp): “Từ nguyên” ngắn gọn, phù hợp thói quen tiếng Trung, dễ truyền đạt.

Phán đoán này có tính hợp lý trong truyền thông, nhưng ẩn chứa tiền đề: cộng đồng có thể chấp nhận phép so sánh “từ” xuyên mô thức. Nhưng phép so sánh vốn là công cụ tư duy của chuyên gia, không phải cách hiểu tự nhiên của đại chúng. Đối với người dùng phổ thông, “từ” mang hiệu ứng neo ý nghĩa rất mạnh — nghe “từ” là nghĩ ngay đến hệ thống ngôn ngữ, chứ không phải ký hiệu đa mô thức khác như hình ảnh, âm thanh hay hành động. Con đường nhận thức này không phải là vấn đề kỹ thuật, mà là cấu trúc ổn định của tâm lý nhận thức.

Trên nền tảng này, khi “từ” được mở rộng thành “nghĩa rộng của từ”, thực ra đã tạo ra lệch lạc trong nhận thức của người dùng. Người dùng ban đầu hình thành trực giác “từ = đơn vị ngôn ngữ”, chứ không phải “ký hiệu đa mô thức”. Khi hiểu lầm này hình thành, các giải thích sau đó đều trở thành chỉnh sửa nhận thức đã có, chứ không phải mở rộng hiểu biết tự nhiên.

Ví dụ, khi truyền thông đưa tin “mô hình đã dùng 10 nghìn tỷ token để huấn luyện”, người đọc dễ hiểu là “đọc rất nhiều văn bản”, mà bỏ qua lượng lớn dữ liệu hình ảnh, âm thanh và các dạng mô thức khác. Hiểu lầm này không phải cá biệt, mà do chính bản chất neo ý nghĩa của thuật ngữ gây ra.

Trong thực tế kỹ thuật, cách đặt tên này còn có thể gây ra xung đột trong giao tiếp liên ngành. Khi các mô hình thị giác hoặc giọng nói gọi các đơn vị rời rạc là “từ”, không chỉ dễ gây hiểu lầm về ý nghĩa, mà còn tạo ra xung đột ngôn ngữ không cần thiết giữa các lĩnh vực. Các hệ thống đa mô thức cần “các ký hiệu” thống nhất, chứ không phải mở rộng phạm vi ngôn ngữ.

Ngược lại, “符” như một khái niệm trừu tượng hơn, mặc dù ban đầu có thể khó hiểu hơn, nhưng ý nghĩa của nó mang tính trung tính hơn, không làm khóa nhận thức vào ngôn ngữ. Trong thời gian dài, nó sẽ giúp xây dựng khung nhận thức ổn định, thống nhất hơn, giảm thiểu chi phí giải thích, và tạo nền tảng nhận thức vững chắc cho sự thống nhất đa mô thức.

Chi phí của việc đặt tên không phát sinh khi định nghĩa, mà phát sinh khi sửa chữa nhận thức. Một khi tên gọi sớm hình thành neo ý nghĩa, chi phí chỉnh sửa nhận thức về sau sẽ tăng theo cấp số nhân.

Chuyên gia có thể mở rộng phép so sánh “từ” để bao quát hơn, nhưng người dùng không thể hiểu khái niệm qua phép so sánh. Đặt tên không chỉ phục vụ chuyên gia, mà còn phải chịu trách nhiệm với hệ thống nhận thức của toàn thời đại.

Ảo tưởng về đơn nghĩa: khi một từ cố gắng mang hai hệ thống

Ý kiến của bài viết (Nguyên tắc phê duyệt thuật ngữ): “Từ nguyên” phù hợp với nguyên tắc đơn nghĩa, giúp giải quyết vấn đề hỗn loạn trong dịch thuật.

Trong lĩnh vực đơn nghĩa thuật ngữ, cần đặc biệt chú ý đến rủi ro hệ thống do “hai nghĩa một từ” gây ra. Trong phê duyệt thuật ngữ khoa học, “đơn nghĩa” là nguyên tắc nền tảng. Một thuật ngữ nếu cần dựa vào ngữ cảnh hoặc giải thích bổ sung để phân biệt ý nghĩa, thì đã mất giá trị như một phần tiêu chuẩn.

Tuy nhiên, từ góc độ hệ thống học thuật hiện tại, phán đoán này vẫn còn có thể bàn luận thêm. “Từ nguyên” đã sớm “nổi tiếng” trong lĩnh vực ngôn ngữ học và NLP, trong các giáo trình ngôn ngữ học cổ điển, khái niệm tiếng Anh tương ứng là Lemma, tức dạng chuẩn của từ (ví dụ, is/am/are đều có lemma là be). Cách dùng này đã hình thành sự đồng thuận ổn định trong các tài liệu học thuật và nghiên cứu.

Trong bối cảnh này, nếu dịch “Token” thành “từ nguyên”, sẽ dễ gây ra xung đột về ý nghĩa trong cách diễn đạt cụ thể. Ví dụ, trong mô tả “làm phép lemmatize một token trong NLP”, sẽ xuất hiện cấu trúc “đối với ‘từ nguyên’ thực hiện ‘từ nguyên hóa’”. Cách diễn đạt này không chỉ tăng chi phí hiểu, mà còn gây ra mơ hồ trong viết bài học thuật và tìm kiếm thông tin, khiến người đọc khó phân biệt “từ nguyên” chỉ đơn vị rời rạc đã cắt ra, hay dạng chuẩn của từ.

Về mặt chức năng khái niệm, hai khái niệm này cũng rõ ràng phân biệt: Lemma nhấn mạnh “phục hồi dạng chuẩn” trong ngôn ngữ, sau biến đổi hình thái; còn Token nhấn mạnh “phân đoạn” trong quá trình tính toán, là đơn vị rời rạc nhỏ nhất của mô hình xử lý thông tin. Sự khác biệt này phản ánh rõ ràng các chiều ý nghĩa và ký hiệu.

Do đó, khi một thuật ngữ cần mở rộng để bao quát nhiều khái niệm đã tồn tại, thì đơn nghĩa của nó thực ra đã chuyển thành “hợp nhất theo cách giải thích”, chứ không còn là “ổn định về ý nghĩa”.

Khi một thuật ngữ cần giải thích để duy trì sự thống nhất, thì tính ổn định như một thuật ngữ tiêu chuẩn đã bắt đầu lung lay.

Ngược lại, “符元” trong hệ thống thuật ngữ hiện tại không gây mâu thuẫn về ý nghĩa. Một mặt, nó giữ nguyên bản chất của Token như ký hiệu rời rạc; mặt khác, cũng tránh trùng lặp với các tên gọi đã có của Lemma, giúp rõ ràng về mặt ý nghĩa và nhất quán hệ thống.

Quay về bản thể: Token thực chất là “ký hiệu”, chứ không phải “từ”

Ý kiến chung (Giải thích phổ quát): Token là đơn vị nhỏ nhất trong mô hình ngôn ngữ để xử lý văn bản.

Cách diễn đạt này phù hợp về mặt chức năng, nhưng vẫn chỉ dừng lại ở “cách sử dụng”, chưa chạm tới bản thể trong lý thuyết tính toán. Từ góc độ lý thuyết thông tin và lý thuyết tính toán, đối tượng cơ bản mà hệ thống xử lý không phải là “từ”, mà là “ký hiệu” (symbol).

Điều này có thể hiểu rõ hơn qua hai chiều:

Một là, trong quan điểm lý thuyết thông tin, bản chất của thông tin là loại bỏ bất định, đơn vị đo lường là bit, và thực thể mang thông tin là ký hiệu rời rạc. Ký hiệu không quan tâm nội dung ý nghĩa, chỉ liên quan đến phân phối xác suất và mã hóa.

Hai là, trong thực thi tính toán, các mô hình lớn không “đọc chữ”, mà xử lý các chỉ số (ID) rời rạc. Dù ID này tượng trưng cho ký tự Hán, khối hình ảnh hay mẫu âm thanh, trong quá trình tính toán đều dưới dạng ký hiệu thống nhất.

Trong khung này, chính là do bản chất nằm ở “lớp ký hiệu”, chứ không phải “lớp ý nghĩa”. Ký hiệu bản thân không mang ý nghĩa, chỉ là phương tiện mã hóa và tính toán.

Việc dịch “Token” thành “từ nguyên” vô hình trung mang ý nghĩa ngầm về ngữ nghĩa đa mô thức — kéo khái niệm vốn thuộc lớp ký hiệu trở lại trung tâm ngữ nghĩa của ngôn ngữ. Cách đặt tên này có thể giúp giải thích dễ hơn, nhưng về lý thuyết dễ gây ra sự mơ hồ trong phân biệt “tổ chức ký hiệu” và “hiểu ý nghĩa”.

Ngược lại, “符元” giữ nguyên tính chất ký hiệu của Token, vừa phản ánh đúng bản thể ký hiệu rời rạc, vừa tránh gây nhầm lẫn với các tên gọi đã tồn tại của Lemma, phù hợp hơn về mặt ý nghĩa và hệ thống.

Quay về bản thể: Token về bản chất là “ký hiệu”, không phải “từ”

Ý kiến chung (Giải thích phổ quát): Token là đơn vị nhỏ nhất để xử lý văn bản trong mô hình ngôn ngữ.

Cách diễn đạt này phù hợp về chức năng, nhưng vẫn chỉ dừng lại ở “cách dùng”, chưa chạm tới bản thể trong lý thuyết tính toán. Từ góc độ lý thuyết thông tin và lý thuyết tính toán, đối tượng cơ bản của hệ thống xử lý là “ký hiệu” (symbol).

Điều này có thể hiểu rõ hơn qua hai chiều:

Quay về bản thể: Token về bản chất là “ký hiệu”, chứ không phải “từ”

Ý kiến chung (Giải thích phổ quát): Token là đơn vị nhỏ nhất để xử lý văn bản trong mô hình ngôn ngữ.

Điều này có thể hiểu rõ hơn qua hai chiều:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.