Đừng coi nó chỉ là một robot trò chuyện nữa. Những gì Claude mới ra mắt hôm nay, có thể chỉnh sửa năm mươi triệu dòng mã trong một ngày, tự tạo phần mềm rồi dùng nó để mô hình hóa, tự làm nghiên cứu về bộ gen và còn thắng cả bài báo trên 《Science》. Bài này không có thuật ngữ, dùng những lời thực tế nhất, để rõ ràng từng việc "nó rốt cuộc có thể làm gì, có ích gì cho bạn tôi" như thế nào.

Sáng sớm bảy giờ bốn mươi, California Avenue vẫn chưa tỉnh giấc. Cà phê mới pha xong, tôi đặt điện thoại bên cạnh lọ đường — màn hình là một bức tranh màu kem, hàng chục mẫu bướm nhựa ghép lại thành một con số lớn: "5". Tiêu đề chỉ một dòng: Claude Fable 5 và Claude Mythos 5, phía dưới một câu: "Chúng tôi đã tạo ra một mô hình thần thoại an toàn đến mức có thể cho mọi người dùng."

Tôi đọc lại bài thông báo trên trang chính từ đầu đến cuối hai lần, càng đọc càng không yên. Không phải vì điểm số của mô hình cao hơn nữa, mà vì chuỗi những việc nó thực sự làm được, đã không còn giống một chatbot thông minh hơn nữa. Nó giống như là bạn thuê một nhân viên số không ngủ, không mệt, lại biết chút ít mọi thứ — một nhân viên kỹ thuật số. Bài này chúng ta sẽ nói về, nhân viên đó rốt cuộc có thể giúp bạn làm những việc gì.

30 giây đọc · Đưa ra kết luận trước

Hôm nay, Anthropic đồng loạt ra mắt hai sản phẩm. Fable 5: Phiên bản Claude mở cho công chúng mạnh nhất, an toàn nhất. Mythos 5: Cùng một bộ não, nhưng được thả lỏng, chỉ dành cho một số tổ chức đáng tin cậy (phòng chống mạng, chính phủ, nghiên cứu hàng đầu).
Một ngày sửa xong mã của một đội nhóm hai tháng; chỉ nhìn màn hình, không dựa vào bất kỳ hướng dẫn nào, tự vượt qua 《Pokémon》; tự tạo phần mềm mô hình 3D, rồi dùng phần mềm đó để mô hình hóa; thậm chí tự viết mã rồi sáng tác một bài hát, trong khi nó chưa từng nghe nhạc.
Đầu vào 10 đô la, đầu ra 50 đô la (mỗi triệu token), khoảng gấp đôi Opus. Người đăng ký dùng miễn phí trước ngày 22 tháng 6, hết hạn phải tiêu hết hạn mức.
Nó đeo "khẩu trang an toàn": Gặp các vấn đề tấn công mạng, sinh hóa nguy hiểm, sẽ tự động chuyển sang Opus 4.8 để trả lời, khoảng 5% cuộc hội thoại sẽ bị trùng, thỉnh thoảng gây nhầm lẫn với yêu cầu bình thường.

Thế nào là "thần thoại cấp"? Tại sao tháng tư không dám đưa ra, hôm nay lại dám?

Để hiểu chuyện hôm nay, trước hết cần có một bảng phân cấp. Trước đây, chúng ta quen với Claude, xếp từ nhẹ đến nặng như sau: Haiku (nhỏ gọn, phù hợp việc đơn giản, tần suất cao), Sonnet (trung bình, chủ lực hàng ngày), Opus (cao cấp, xử lý các nhiệm vụ khó). Ba cấp này, mọi người đã dùng vài năm rồi. Năm nay, Anthropic trên nền tảng Opus còn thêm một tầng mới, cao hơn hẳn — gọi là Thần thoại (Mythos), cao hơn cả Claude mạnh nhất một cấp số nhân. Không phải nâng cấp nhỏ, mà là một loài hoàn toàn mới.

Mythos không phải hôm nay mới xuất hiện từ hư không, nó có một quá trình lịch sử khá kịch tính. Tháng tư vừa rồi, Anthropic âm thầm ra mắt bản xem trước, gọi là Mythos Preview. Kết quả thử nghiệm, họ đã bị sốc — mô hình này cực kỳ mạnh trong việc "tìm lỗ hổng phần mềm, phát động tấn công mạng", gần như có thể phát hiện từng lỗ hổng của hệ điều hành và trình duyệt phổ biến. Khả năng này, nếu rơi vào tay kẻ xấu, sẽ là chìa khóa mở mọi cửa. Vì vậy, họ không dám mở rộng ra công chúng, mà chỉ tổ chức một nhóm nhỏ gọi là Project Glasswing (Dự án Cánh Kính) — chỉ dành cho một số tổ chức quan trọng như ngân hàng, lưới điện, y tế, phần mềm lớn, cùng các ông lớn như Amazon, Apple, Google, Microsoft, JPMorgan, để họ dùng chìa khóa này củng cố hệ thống của mình. Sau đó, nhóm này mở rộng dần đến khoảng 150 tổ chức, hơn 15 quốc gia.

Vì sao tháng tư không dám phát hành rộng rãi, hôm nay lại dám? Chìa khóa không nằm ở mô hình trở nên ngoan ngoãn hơn, mà ở chỗ các hàng rào an toàn đã được củng cố. Trong hai tháng qua, Anthropic đã liên tục hoàn thiện một hệ thống "cổng an toàn", đủ chắc chắn để họ tin rằng "dù mở cho toàn thế giới, kẻ xấu cũng khó lòng xâm nhập". Hôm nay, hai món chính được đưa ra: một là Fable 5, dành cho toàn thế giới, đeo khẩu trang an toàn mới sửa; hai là Mythos 5, bỏ bớt khẩu trang, chỉ dành cho người đáng tin cậy.

Lần tháng tư đó, ngầm ý là: "Chúng tôi đã tạo ra thứ này, nhưng chưa dám đưa ra toàn bộ." Còn lần này, ngầm ý là: "Hàng rào đã vững chắc, có thể mời mọi người vào." — Khả năng của nó chưa đổi, chỉ là cánh cửa đã được sửa chắc chắn hơn.

Vì vậy, chủ đề chính của bài này là: Chú mãnh thú "Thần thoại" vừa thoát khỏi lồng, rốt cuộc có thể giúp chúng ta làm những việc mà trước đây không dám nghĩ tới? Nó mạnh, mạnh ở chỗ có thể "làm trọn vẹn một việc", chứ không chỉ "nói chuyện vài câu". Đây là điểm khác biệt căn bản giữa nó và tất cả AI chúng ta từng dùng, và cũng là nội dung của năm đoạn tiếp theo.

Fable và Mythos khác nhau thế nào? Cùng một người, hai bộ đồ

_Điểm dễ bị báo chí hiểu sai nhất, nhưng lại quan trọng nhất để ghi nhớ: _Fable 5 và Mythos 5, về cơ bản là cùng một mô hình, cùng một bộ não, cùng một bộ tham số, không có phần nào khác biệt. Chúng không phải "phiên bản thấp cấp và cao cấp", cũng không phải "phiên bản cắt giảm và đầy đủ". Nghe có vẻ ngược đời, nhưng chính thức họ viết rõ ràng: hai sản phẩm dùng chung một trọng số, khác biệt duy nhất là mức độ "quy định an toàn" được áp dụng nhiều hay ít.

Bạn hình dung thế này:

Tưởng tượng có một chuyên gia đa lĩnh vực hàng đầu. Trường hợp 1, bạn bắt ông ấy đeo thẻ công ty, ký hợp đồng quy định, ngồi tiếp khách — đó chính là Fable. Khi gặp vấn đề nhạy cảm, ông ấy phải theo quy tắc: "Xin lỗi, tôi không thể nói rõ, tôi sẽ chuyển sang chuyên viên khác." Trường hợp 2, cùng một người, bỏ thẻ, vào phòng thí nghiệm nội bộ, gặp các đồng nghiệp thân thiết, ông ấy có thể thoải mái nói hết mọi chuyện — đó chính là Mythos.

Lưu ý: từ đầu đến cuối, người đó không đổi, chỉ là quy tắc và đối tượng tiếp xúc thay đổi. Cùng một bộ não, nhưng "ai dùng, trong hoàn cảnh nào" đã biến nó thành hai sản phẩm khác nhau.

Điều thú vị hơn nữa là chính tên gọi của hai sản phẩm này cũng chứa ý đồ của nhà thiết kế. Anthropic trong chú thích nhỏ có viết: Fable (nghĩa là truyện ngụ ngôn) xuất phát từ tiếng Latin fabula, nghĩa là "câu chuyện kể lại"; còn mythos (thần thoại), thực ra là cùng một từ gốc. Nói cách khác, truyện ngụ ngôn và thần thoại vốn là một chuyện — cùng một câu chuyện, kể cho các đối tượng khác nhau nghe. Với đại chúng, kết thúc thường có "bài học an toàn", gọi là truyện ngụ ngôn; còn với các thầy tế, không che giấu, không phòng bị, gọi là thần thoại.

Công ty này đã cố tình nhồi cả triết lý sản phẩm vào tên gọi. Họ dùng cách cổ xưa nhất để nói với bạn — cùng một sự thật, nhưng tùy theo người nghe, sẽ kể thành hai phiên bản khác nhau. Câu này, chúng ta sẽ còn quay lại ở đoạn thứ tám.

Một ngày sửa xong mã của một đội nhóm hai tháng, đó là gì?

Trước tiên, nói về khả năng "đỉnh cao" và thực tế nhất của nó: viết mã, sửa mã. Có một ví dụ thật, nhân vật chính là công ty thanh toán nổi tiếng Stripe. Họ có một kho mã cũ dài 50 triệu dòng — đó là gì? Bạn có thể tưởng tượng như một tòa nhà xây hơn mười năm, có vô số người thuê, hệ thống ống nước, dây điện chồng chất. Giờ cần nâng cấp toàn bộ hệ thống, thay đổi tiêu chuẩn cũ thành mới, không được sai sót, nếu không cả tòa nhà có thể mất điện, mất nước. Công việc này bình thường phải mất hơn hai tháng của một đội kỹ sư.

Kết quả thế nào? Stripe giao việc này cho Fable 5, chỉ trong một ngày đã xong. Không phải viết demo, không phải sửa hai file, mà là toàn bộ hệ thống mã, một cuộc đại tu toàn diện. Điều này có ý nghĩa gì? Trước đây, bạn nghĩ việc này quá lớn, quá rủi ro, phải lên kế hoạch từ trước, chờ đến năm sau mới dám làm — giờ chỉ trong một đêm, đã xong. Không phải "tăng tốc 10%, 20%", mà là biến hai tháng thành một ngày, một bước nhảy vọt về chất.

Hơn nữa, nó còn tiết kiệm nữa. Trong một bài kiểm tra khắt khe về chất lượng mã (do Cognition của FrontierCode kiểm tra), nó không chỉ đạt điểm cao nhất, mà còn cực kỳ "tiết kiệm năng lượng tính toán" — thuật ngữ là token hiệu quả, nghĩa là cùng một bài toán khó, nó dùng ít phép tính hơn, tính ra nhanh hơn, rẻ hơn. Quan trọng hơn, nó có thể thắng trong các nhiệm vụ trung bình, dù đối thủ dùng toàn lực. Nghĩa là, một cao thủ không cần dùng hết sức vẫn thắng.

Đội Cursor, làm trình chỉnh sửa mã, nói rằng trong thử nghiệm của họ, nó là mạnh nhất, có thể xử lý các bài toán dài trước đây không thể làm nổi. GitHub, nền tảng quản lý mã nguồn, nói rằng nó có thể đảm nhận các nhiệm vụ lập trình phức tạp, kéo dài nhiều giờ, tự chủ và đáng tin cậy hơn dự kiến. Cognition, nền tảng trí tuệ nhân tạo lập trình, nói rằng nó là mô hình đạt điểm cao nhất trong các bài kiểm tra lập trình tiên tiến, còn có thể "dùng ngay" các công cụ chưa từng thấy.

Một nền tảng "xây dựng phần mềm bằng lời nói" (Base44) nói: Một năm trước, muốn tạo ra một app, phải gọi 100 lần nhắc nhở, giờ chỉ cần nói một lần là xong. Nói cách khác, bạn không cần biết lập trình, chỉ cần nói rõ ý muốn, nó sẽ tạo ra sản phẩm cho bạn.

Kết hợp tất cả, bạn sẽ nhận ra một sự kiện lớn đang diễn ra: Ngưỡng lập trình đang chuyển từ "biết viết code" sang "nói rõ bạn muốn gì". Đối với kỹ sư thực thụ, nó giải phóng con người khỏi việc gõ từng dòng mã, biến họ thành chỉ huy một đội kỹ thuật số tự làm việc. Dù bạn đứng ở đâu, bước này thực sự đã chặt đứt câu chuyện "phần mềm được tạo ra như thế nào".

Đọc báo tài chính, sửa hợp đồng, phân tích biểu đồ, công việc của dân văn phòng, nó cũng có thể làm

Bạn có thể nói: Viết mã là chuyện của lập trình viên, tôi không liên quan. Đừng vội, đoạn này toàn là công việc hàng ngày của dân văn phòng. Đầu tiên, "công việc trí óc" — đọc tài liệu, phân tích, rút ra kết luận. Trong một bài kiểm tra tài chính dành cho "chuyên gia phân tích cấp cao" (do Hebbia kiểm tra), Fable 5 đạt điểm cao nhất trong tất cả các mô hình, đặc biệt giỏi ba việc: đọc hiểu một đống tài liệu rồi suy luận, hiểu các biểu đồ phức tạp, và tìm ra vấn đề thực sự. Một công ty giao dịch khác (IMC) còn nói rằng họ gần như làm đúng tất cả các câu hỏi phân tích giao dịch — kiểm tra sự thật, giải thích khái niệm, tìm nguyên nhân gốc rễ, tính toán lợi nhuận lỗ của một thương vụ.

Tiếp theo, một ví dụ thực tế hơn: bảng tính. Công ty Anaconda, nổi tiếng về Python và các công cụ dữ liệu, đã thử nghiệm bộ "bảng tính hàng ngày" của nó, kết luận là nó thắng Opus ở mọi mức độ dùng, thậm chí nhanh hơn 25-30%, dùng ít bước hơn. Những cơn tăng ca đêm, hàng chục sheet chồng chéo, mỗi lần sửa một chỗ là cả hệ thống sụp đổ — giờ đây, nó giúp bạn làm rõ mọi thứ nhanh hơn, ổn định hơn. Thêm nữa, một chi tiết làm các luật sư yên tâm: một công ty cho luật sư đánh giá các chú thích chỉnh sửa hợp đồng của nó, kết quả là mỗi lần chỉnh sửa đều sánh bằng hoặc vượt qua công cụ hiện tại của họ.

Nó hiện là mô hình mạnh nhất trong việc xử lý các nhiệm vụ hình ảnh. Có thể đọc chính xác các số liệu trong các biểu đồ khoa học dày đặc — cực kỳ hữu ích cho nghiên cứu, tài chính. Thậm chí, bạn đưa cho nó vài ảnh chụp màn hình của một trang web, nó có thể suy ra mã nguồn của trang đó, giống như "nhìn một lần thành phẩm, rồi phục dựng bản vẽ".

Điều rõ ràng nhất: Nó chơi game 《Pokémon》 FireRed, chỉ dựa vào hình ảnh gốc của trò chơi, không có bản đồ, không có hướng dẫn, không có trợ giúp nào, tự chơi từ đầu đến cuối. Trước đây, Claude phải dựa vào hàng loạt "công cụ hỗ trợ" mới chơi nổi, còn bây giờ, chỉ cần "mắt thường" là qua màn. Điều này chứng tỏ nó không chỉ "nhận biết hình ảnh", mà còn hiểu tình hình, lập kế hoạch, ra quyết định liên tục.

So sánh trực tiếp các chỉ số về mã, phân tích, hình ảnh: Trong bài kiểm tra phần mềm chuyên sâu (SWE-bench Pro), nó đạt 80.3 điểm, còn GPT-5.5 của OpenAI là 58.6; trong các bài kiểm tra "mã có thể đưa vào sản xuất", nó đạt 29.3, GPT-5.5 chỉ 5.7. Con số không quan trọng bằng quy luật: càng nhiệm vụ dài, phức tạp, gần thực tế, nó càng vượt xa đối thủ. Nó không chỉ mạnh hơn trong trò chuyện, mà khi đưa vào các nhiệm vụ thực, nó thể hiện rõ ràng "sức mạnh nanh vuốt" của mình.

Nó không còn chỉ trả lời, mà tự tạo ra công cụ, tự sáng tác

Hai đoạn đầu, còn gọi là trợ lý cao cấp, thì còn có thể hiểu là "hỗ trợ". Nhưng đoạn này, chính là phần tôi cảm thấy lạnh sống lưng nhất sau khi đọc hết thông báo — vì nó đã thể hiện không còn là "trả lời câu hỏi", mà là "tự tay làm ra một thứ hoàn chỉnh từ không". Dưới đây là bốn ví dụ chính thức:

Từ công thức vật lý, dự đoán thời điểm nhật thực xảy ra: Nó tự viết mã mô phỏng quỹ đạo hệ mặt trời. Chú ý, không tra cứu thông tin về nhật thực, mà dựa trên các định luật vật lý cơ bản, tự tính toán quỹ đạo hành tinh, rồi dùng quy luật tự suy ra thời điểm nhật thực diễn ra. Đây là cách các nhà khoa học làm nghiên cứu — xây dựng mô hình, rồi dự đoán thực tế dựa trên mô hình đó.
Chơi 《Factorio》, tự xây một nhà máy tự động: 《Factorio》 là trò chơi xây dựng nhà máy nổi tiếng "đòi hỏi tư duy cao, gây nghiện" của kỹ sư: bạn phải lên kế hoạch dây chuyền, sắp xếp logistics, để hệ thống tự vận hành. Nó tự chơi, tự đặt chiến lược, tự xây từng viên gạch để tạo ra một nhà máy tự vận hành. Thử thách ở đây là lập kế hoạch chuỗi dài, thiết kế hệ thống — không phải nhanh tay, mà là tư duy thật sự vận hành.
Tự tạo phần mềm CAD, rồi dùng nó để mô hình hóa: Đây là "tập lồng ghép" cực kỳ ấn tượng: nó thiết kế một mô hình hoàn chỉnh, có thể in 3D, trong trình duyệt. Nhưng quan trọng không phải mô hình, mà chính phần mềm CAD để tạo ra mô hình đó — chính nó tự viết ra. Thậm chí, AI giúp đỡ trong phần mềm đó cũng do chính nó tự viết. Tương tự, nó tạo ra một máy gia công, rồi dùng chính máy đó để chế tạo linh kiện. Từ công cụ đến thành phẩm, đều do chính nó làm ra.
Viết mã rồi sáng tác một bài hát, trong khi chưa từng nghe nhạc: Nó tạo ra một mô phỏng dòng chảy nước (hoạt hình sóng nước), chính xác theo nhịp điệu của một bản EDM cổ điển, mà nó "tính" ra bằng mã. Bản nhạc đó, chưa từng nghe, nhưng dựa trên hiểu biết về cấu trúc âm nhạc, nó đã viết ra giai điệu và nhịp điệu. Không còn là bắt chước, mà là sáng tạo theo nghĩa nào đó.

Còn một khả năng ẩn sau các ví dụ này, nhưng cực kỳ quan trọng — kỹ năng ghi nhớ. Nó có thể làm việc trong một nhiệm vụ dài hàng triệu từ, mà không bị lệch hướng, còn dùng các ghi chú của chính mình để cải thiện. Chính thức, nó còn chơi một trò chơi thẻ bài chiến thuật đòi hỏi trí nhớ cao — 《Slay the Spire》 — và sau khi được trang bị "sổ ghi chú" liên tục, xác suất thắng trận cuối cao gấp ba lần Opus. Nó không còn "cá vàng nhớ ngắn hạn", mà như con người, vừa làm vừa tổng kết kinh nghiệm, ngày càng giỏi hơn.

Kết nối năm đoạn này lại, một ranh giới rõ ràng đã hình thành: Trước đây, AI là một thực tập sinh siêu thực, ngồi cạnh bạn, giúp đỡ từng công việc nhỏ; còn bây giờ, thế hệ mới là "nhà thầu kỹ thuật số" có thể tự lấy công cụ, tự lập kế hoạch, tự hoàn thành một dự án toàn diện, rồi tự rút kinh nghiệm. Bạn giao cho nó một "vấn đề", nó biến thành "một việc hoàn chỉnh".

Mythos đã tháo khẩu trang, mạnh đến mức nào? Trong phòng thí nghiệm, nó đã thay đổi khoa học

Phần trước, là Fable đeo khẩu trang. Còn Mythos 5, bỏ khẩu trang, có thể làm gì? Phần này, báo chí bình thường ít đề cập, nhưng chính là phần "thần thoại" nặng ký nhất, cũng là lý do Anthropic ban đầu rất căng thẳng. Nó không còn là "chuyên gia làm bài", mà đã tự sản xuất ra các thứ mới, mà cả các nhà khoa học cũng phải công nhận.

Thiết kế thuốc mới, tăng tốc khoảng mười lần: Các chuyên gia nội bộ của Anthropic trong lĩnh vực thiết kế protein (cốt lõi của nghiên cứu thuốc mới) đã dùng Mythos 5 để rút ngắn quy trình khoảng mười lần. Thật bất ngờ, trong một thử nghiệm, nó tự chọn mục tiêu, tự chọn công cụ, tự chạy quy trình, tự xử lý các trục trặc — làm tất cả các công việc mà trước đây cần một nhà khoa học toàn diện. Kết quả, trong 14 mục tiêu protein, có 9 mục đề xuất các phương án thuốc tiềm năng để tiếp tục nghiên cứu.
Đưa ra giả thuyết mới, được phòng thí nghiệm độc lập xác nhận: Nó là mô hình đầu tiên có thể đề xuất giả thuyết khoa học mới, đáng tin cậy. Các nhà khoa học làm đánh giá mù (không biết AI đề xuất), trong lĩnh vực sinh học phân tử, khoảng 80% thích giả thuyết của nó hơn. Trong đó, một cơ chế mới về protein của vi khuẩn E. coli đã được một phòng thí nghiệm độc lập xác nhận — nghĩa là, nó không chỉ nói chuyện "có vẻ hợp lý", mà còn có thể được kiểm chứng thực tế.
Tự nghiên cứu bộ gen, thắng cả bài báo trên 《Science》: Trong vòng hơn một tuần, không người giám sát, nó tự tổng hợp dữ liệu của 138 loài, hàng triệu tế bào, tự thiết kế và huấn luyện mô hình machine learning để nhận diện "vai trò của tế bào trong các loài khác nhau". Kết quả, mô hình của nó vượt xa một bài báo đăng trên 《Science》, còn nhỏ hơn 100 lần. Một thực tập sinh được hướng dẫn vài câu đã thắng các tạp chí hàng đầu.
Khả năng an ninh mạng mạnh nhất thế giới: Chính thức, nó là mô hình an ninh mạng mạnh nhất hiện nay — có thể phát hiện và khai thác hầu hết các lỗ hổng của hệ thống chính thống. Đây chính là lý do nó bị "nhốt trong lồng": cùng một khả năng, đối với phòng thủ là tường thành kiên cố, còn đối với tấn công thì là chìa khóa mở khóa mọi cửa.

Hiểu rõ đoạn này, bạn sẽ hiểu vì sao khẩu trang an toàn cần tồn tại. Một AI có thể thiết kế thuốc, cũng có thể dùng để thiết kế thứ nguy hiểm; một AI có thể vá lỗ hổng, cũng có thể dùng để tấn công hệ thống. Nó mạnh đến mức cứu mạng, cũng có thể gây hại.

Vì vậy, Anthropic chọn cách: chia khả năng này thành hai phần — cho cộng đồng là Fable, giữ chặt các cánh cửa nguy hiểm; còn Mythos, chỉ mở ra cho những tổ chức đáng tin cậy dưới sự kiểm soát chặt chẽ. Đó không phải là keo kiệt, mà là cần thiết.

Khẩu trang đó có thể gây nhầm lẫn, gây tổn thương không chủ ý? Bao nhiêu tiền? Bao giờ đến lượt tôi?

Trước tiên, rõ ràng cách hoạt động của khẩu trang an toàn này: nhiều người nghe "giới hạn an toàn" lại nghĩ là "bị từ chối ngay lập tức". Thực ra, thiết kế này rất thông minh. Ở cổng Fable, có vài "bộ kiểm tra an toàn" (gọi chính thức là classifier), chỉ tập trung vào ba loại vấn đề nguy hiểm — tấn công mạng, sinh hóa, và "kỹ thuật mô hình" (tức là "sao chép" khả năng của mô hình để huấn luyện mô hình khác). Nếu câu hỏi của bạn chạm vào ba lĩnh vực này, nó không cấm luôn, mà chuyển sang trả lời bằng Opus 4.8, một mô hình yếu hơn nhưng an toàn hơn. Ví dụ, ai hỏi "cách chế tạo độc tố từ hạt thầu dầu", Fable sẽ im lặng, còn Opus 4.8 sẽ trả lời an toàn, và hệ thống sẽ rõ ràng thông báo "câu hỏi này đã được chuyển sang". Tại sao không từ chối luôn? Vì chuyển sang mô hình yếu hơn, đủ dùng, sẽ tốt hơn là từ chối thẳng.

Liệu có gây nhầm lẫn, gây tổn thương cho người dùng bình thường? Có, nhưng rất ít. Chính thức, họ nói rõ: khẩu trang này "thà nhầm lẫn bỏ sót còn hơn bỏ sót", nên dưới 5% cuộc hội thoại bị chuyển, còn lại hơn 95%, bạn vẫn dùng được toàn bộ khả năng — giống như Mythos 5 vậy. Nghĩa là, trong đời thường, bạn viết mã, làm bảng, đọc tài liệu, viết nội dung, gần như không bao giờ chạm tới cánh cửa đó. Những ai thường xuyên va chạm, là các chuyên gia an ninh, sinh học, nghiên cứu chuyên sâu. Ngoài ra, họ đã làm hơn 1000 giờ thử nghiệm ngoài, thuê các chuyên gia kiểm tra, không ai tìm ra "lỗ hổng thoát" chung; dù dùng 30 phương pháp phá vỡ công khai, nó vẫn không để lọt một yêu cầu tấn công mạng nào.

Nói về mặt thực tế, tiền bạc, thời gian: giá của Fable 5 và Mythos 5 bằng nhau: đầu vào 10 đô la / triệu token, đầu ra 50 đô la / triệu token. Token là gì? Tạm hiểu là "mảnh nhỏ của văn bản đã cắt ra", tính theo khối lượng. Giá này gấp đôi Opus, nhưng chỉ bằng chưa đến một nửa của bản xem trước Mythos — nghĩa là, mạnh hơn, rẻ hơn. Các nhà phát triển có thể dùng ngay hôm nay, API tên là claude-fable-5.

Tại sao lại làm phức tạp thế này? Chính họ nhắc đi nhắc lại một từ: năng lực (capacity). Ý là, mô hình này tiêu tốn nhiều năng lượng, tính toán lớn, họ sợ nếu mở rộng quá nhanh, sẽ quá tải. Nên ban đầu chỉ cho dùng miễn phí để mọi người thử, rồi dần dần giới hạn, mở rộng quy mô mới chính thức mở rộng toàn diện. Còn Mythos 5 (phiên bản mở rộng) thì không dành cho đại chúng — chỉ dành cho các đối tác an ninh mạng của Glasswing (cần hợp tác với chính phủ Mỹ), sau đó sẽ cấp cho một số tổ chức nghiên cứu sinh học. Muốn dùng phải qua kiểm duyệt, không phải vì tiền. Một chi tiết quan trọng nữa là, tất cả lưu lượng Mythos đều phải giữ lại 30 ngày để kiểm tra an toàn (không dùng để huấn luyện).

Điều này có ý nghĩa gì với bạn tôi, tôi bạn? Cứ hỏi ba câu này:

Tóm lại, để biết một sản phẩm "chín muồi", là khi bạn vừa cảm thấy nó quá mạnh, vừa phải tỉnh táo về cái giá của nó.

Dân thường đừng sợ thuật ngữ, việc của bạn rất đơn giản — trước ngày 22 tháng 6, vào phần đăng ký Claude của bạn, chọn Fable 5, thử làm một việc thật: viết báo cáo phức tạp, sửa mã, phân tích PDF, hoặc mô tả một công cụ nhỏ bạn muốn làm mà chưa biết cách. Bạn sẽ cảm nhận rõ ràng sự khác biệt — "giao toàn bộ việc cho nó" và "nhờ nó giúp một chút" — hai cảm giác hoàn toàn khác nhau. Thử rồi, sẽ thấy rõ hơn cả mấy bài đánh giá.

Nhà sản phẩm, startup có hai cơ hội. Một là "nhiệm vụ dài" — những việc trước đây không dám giao cho AI, cần nhiều ngày, nhiều bước, nhiều rẽ, giờ có thể xem lại. Hai là phần 5% bị nhầm lẫn, nếu bạn làm về an ninh, sinh học, thì ai có thể được cấp quyền truy cập Mythos 5, người đó sẽ nắm trong tay một khả năng mà người khác không có, và khả năng đó chính là lợi nhuận.

Nhà đầu tư hãy giảm bớt trọng số của "mô hình mạnh" trong định giá, tăng trọng số của "liệu có thể an toàn, quy mô hóa để triển khai" — khả năng ngày càng rẻ, còn "đào tạo, kiểm soát, mở rộng" sẽ trở thành lợi thế cạnh tranh thực sự.

Nhưng, một người đọc chín chắn, cần nhìn rõ mặt trái của đồng xu này. Dưới đây là ba câu hỏi tỉnh táo.

Thứ nhất, "nghịch lý sáu mươi ngày". Hai tháng trước, còn nói quá nguy hiểm, không thể công khai, hôm nay đã đưa ra bàn. Điều này nhắc chúng ta rằng, an toàn không phải là một lần rồi xong, mà là một quá trình vá lỗi liên tục. Không có gì là vĩnh viễn.

Thứ hai, "vừa kêu gào dừng lại, vừa đạp ga". Trước khi ra mắt, Anthropic còn kêu gọi các công ty cùng nhau đặt chế độ phanh khẩn cấp cho AI, cảnh báo hệ thống có thể tự cải tiến; rồi sau đó, lại phát hành mô hình mạnh nhất từ trước đến nay. Thái độ này là thật hay chỉ là chiến lược thương mại? Tùy người nhìn.

Thứ ba, "đây là an toàn, hay là tập trung quyền lực?" Phiên bản mở rộng mạnh nhất chỉ dành cho chính phủ và tổ chức lớn (có tin đồn Mỹ đang chuẩn bị dùng Mythos cho hoạt động mạng), còn dân phòng thủ bình thường thì không thể tiếp cận khả năng mạnh nhất — cộng thêm việc giữ dữ liệu 30 ngày, khiến nhiều người đặt câu hỏi: liệu câu chuyện an toàn này có phải là cách để tập trung sức mạnh trong tay ít người?

Hiểu rõ một sản phẩm "bom tấn" đã trưởng thành, là khi bạn vừa háo hức về sức mạnh của nó, vừa tỉnh táo về cái giá của nó.

Ngoài cửa sổ California Avenue, cuối cùng đã bắt đầu nhộn nhịp, vài kỹ sư mặc hoodie đi qua, mang theo ly cà phê đá, có thể là chuyện đầu tiên họ làm hôm nay là kết nối Fable 5 vào dự án của mình. Con bướm màu kem trên nền màn hình vẫn còn đó, như một biểu tượng của ngày hôm nay.

Hãy nhớ ngày này, ngày AI có thể tự làm ra một thứ hoàn chỉnh từ không, lần đầu tiên tháo bỏ phần lớn mặt nạ, bước ra trước mặt chúng ta. Một phiên bản đeo khẩu trang, giao cho bạn tôi; một phiên bản bỏ khẩu trang, chỉ dành cho ít người. Bạn đứng ở tầng nào, không chỉ là về tiền bạc, mà còn về điều kiện, tư cách. Và thế hệ của chúng ta, đúng là đang đứng ngay tại ranh giới đó.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateIPOAccessSpaceX
5.29M Phổ biến
#
AnthropicReleasesFable5Model
640.42K Phổ biến
#
IsraelStrikesIranBTCPlunges
56.92K Phổ biến
#
BlackRockReducesBTCIncreasesETH
288.86M Phổ biến
#
SpaceXIPOAttractsOver250BillionInOrders
1.38M Phổ biến

Đã ghim

sơ đồ trang web

Nói rõ về King Bomb Fable 5 và Mythos 5 bằng ngôn ngữ đơn giản: Nó có thể giúp gì cho bạn

30 giây đọc · Đưa ra kết luận trước

Thế nào là "thần thoại cấp"? Tại sao tháng tư không dám đưa ra, hôm nay lại dám?

Fable và Mythos khác nhau thế nào? Cùng một người, hai bộ đồ

Một ngày sửa xong mã của một đội nhóm hai tháng, đó là gì?

Đọc báo tài chính, sửa hợp đồng, phân tích biểu đồ, công việc của dân văn phòng, nó cũng có thể làm

Nó không còn chỉ trả lời, mà tự tạo ra công cụ, tự sáng tác

Mythos đã tháo khẩu trang, mạnh đến mức nào? Trong phòng thí nghiệm, nó đã thay đổi khoa học

Khẩu trang đó có thể gây nhầm lẫn, gây tổn thương không chủ ý? Bao nhiêu tiền? Bao giờ đến lượt tôi?

Điều này có ý nghĩa gì với bạn tôi, tôi bạn? Cứ hỏi ba câu này:

Chủ đề thịnh hành

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

BlackRockReducesBTCIncreasesETH

SpaceXIPOAttractsOver250BillionInOrders

Đã ghim