Chuyển hướng của Coinbase sang hoạt động dựa trên trí tuệ nhân tạo đang gặp nhiều khó khăn

Coinbase (Nasdaq: COIN) một lần nữa đã cho các nhà giao dịch tiền điện tử thấy rõ cách phần cứng đám mây chậm có thể làm hỏng ngay cả một sàn giao dịch nhanh. Có vẻ như chiến lược chuyển đổi hoạt động dựa trên trí tuệ nhân tạo của công ty có thể đã là bước đi tồi tệ nhất của họ cho đến nay.

Vào thứ Sáu, công ty cho biết một sự cố làm mát bên trong Amazon Web Services (Nasdaq: AMZN) đã góp phần gây ra một sự cố mất dịch vụ kéo dài nhiều giờ, ảnh hưởng đến giao dịch, truy cập sàn và cập nhật số dư trên toàn nền tảng của họ.

Vấn đề bắt đầu vào khoảng 23:50 UTC ngày 7 tháng 5 khi các bộ giám sát nội bộ phát hiện ra sự bùng phát rộng rãi các lỗi báo giá trong hệ thống của công ty.

Lúc đó, nhiều sự cố Sev1 đã được các kỹ sư tạo ra, và khách hàng đã bị ảnh hưởng về các dịch vụ như giao dịch spot, Coinbase Prime, International, phái sinh, Retail, Advanced và các sàn giao dịch dành cho các tổ chức.

Brian Armstrong, CEO của Coinbase, đã viết trên X rằng công ty của ông “đã gặp sự cố mất dịch vụ” và rằng sự kiện như vậy là “không bao giờ chấp nhận được.” Theo ông, nguyên nhân là “một phòng quá nhiệt trong trung tâm dữ liệu AWS do nhiều bộ làm mát bị hỏng.”

Theo Brian, công ty đảm bảo rằng tất cả các dịch vụ của họ được thiết kế sao cho không bị ngưng hoạt động trong trường hợp một khu vực khả dụng của AWS gặp sự cố. Phần lớn các dịch vụ được cấu trúc theo cách này, ngoại trừ sàn giao dịch, vốn sử dụng hạ tầng khác do yêu cầu độ trễ cao.

Coinbase đổ lỗi cho các bộ làm mát AWS bị hỏng khi hệ thống báo giá bắt đầu gặp sự cố trước nửa đêm UTC

Trước đó, Cryptopolitan đã đưa tin rằng Coinbase đang có kế hoạch sa thải 700 nhân viên vì số này chiếm khoảng 14% tổng số nhân lực. Và điều này nhằm mục đích thay thế các quy trình thủ công bằng AI.

Rob Witoff, người đứng đầu Nền tảng của Coinbase, đã cung cấp các chi tiết kỹ thuật về vấn đề này. Theo ông, sự cố kéo dài và ảnh hưởng đến “giao dịch, truy cập sàn và cập nhật số dư.”

Cảnh báo ban đầu xuất hiện vào khoảng 23:50 UTC do lỗi báo giá phát sinh từ hệ thống nội bộ. Một phân tích Sev1 ngay lập tức đã được thực hiện. Theo Rob, nguyên nhân của thách thức này là một “sự kiện nhiệt” trong một phần nhỏ của các giá đỡ trong một trong các trung tâm của AWS us-east-1.

Cấu trúc hạ tầng cho sàn giao dịch này đã phát huy tác dụng. Rob nói rằng Coinbase duy trì hạ tầng sàn trong một khu vực khả dụng, vì ngành công nghiệp coi trọng tốc độ.

Ngoài ra, công ty còn có một bản sao dự phòng phân tán của hạ tầng sàn này để phòng các tình huống như vậy. Nhưng sự cố của một phần hạ tầng sàn tại thời điểm đó đã vượt ra ngoài giới hạn của nó, kéo dài quá trình khắc phục tình hình.

Hai thành phần đã gặp sự cố. Có một lỗi trong phần cứng dưới engine khớp lệnh. Do đó, trước tiên cần thực hiện các hoạt động phục hồi và chuyển đổi dự phòng.

Ngoài ra, cụm Kafka phân tán, chịu trách nhiệm chia sẻ thông tin trong toàn bộ hệ thống của tổ chức, đã bị sập. Việc khôi phục các phân vùng Kafka trên phần cứng mới, chứa hàng terabytes dữ liệu, đã mất thời gian.

Các kỹ sư đã xây dựng lại nhóm đồng thuận và đưa các thị trường của Coinbase trở lại qua chế độ hủy bỏ duy nhất và đấu giá

Engine khớp lệnh chịu trách nhiệm cho phần lớn các đợt đình trệ giao dịch. Engine xử lý các lệnh và duy trì sổ lệnh. Hệ thống hoạt động trong một cụm phân tán và yêu cầu đồng thuận để chọn ra người lãnh đạo và thực hiện các giao dịch một cách an toàn.

Vì không phải tất cả các nút đều còn hoạt động do hạn chế trong trung tâm dữ liệu trong suốt thời gian mất dịch vụ, nên không thể đạt được đồng thuận, từ đó ngăn cản hoạt động giao dịch trên các sàn Retail, Advanced và Institutional.

Rob đề cập rằng các đội hỗ trợ trực tiếp và kỹ sư đã phải thực hiện các thủ tục khôi phục thảm họa của công ty, thiết lập đồng thuận và đánh giá tình trạng hệ thống trong điều kiện hạ tầng khó khăn.

Theo ông, nhóm đã phải phát triển, thử nghiệm, triển khai và xác nhận một giải pháp trong khi vẫn quản lý sự cố lớn hơn. Kafka sẽ cần phục hồi thủ công nhiều vì kiến trúc phân vùng của nó quản lý hàng nghìn terabytes dữ liệu hàng ngày.

Có một số vấn đề với dòng số dư bị trì hoãn vì Kafka bị chậm. Rob nói rằng các vấn đề về số dư này đã biến mất sau khi quá trình sao chép đồng bộ trở lại. Theo Coinbase, không có dữ liệu nào bị mất.

Khi engine khớp lệnh hoạt động trở lại, các thị trường không được kích hoạt cùng lúc. Đầu tiên, Coinbase đã chuyển tất cả các sản phẩm sang chế độ hủy bỏ duy nhất, kiểm tra trạng thái sản phẩm, chuyển tất cả các thị trường sang chế độ đấu giá, và cuối cùng, kích hoạt giao dịch trên Coinbase Exchange.

Hơn nữa, Rob nhấn mạnh rằng khách hàng không nên bị khóa tạm thời khỏi tài khoản của họ. Coinbase cam đoan rằng công ty sẽ cung cấp một lời giải thích chi tiết về sự cố này trong vòng vài tuần.

Tuy nhiên, Josh Ellithorpe đã phản bác các tin đồn sau khi đọc bài đăng của Rob trên Twitter. Ông nói rằng, “không ai lập trình cái gì đó thất bại. Một ‘kỹ sư không chính thức’ đã đẩy mã sản xuất và làm hỏng engine giao dịch. Không phải cố ý. Không phải vì Coinbase không thiết kế hệ thống chuyển đổi dự phòng. Mọi thứ xảy ra quy mô lớn, đừng để các bình luận viên trên ghế dự bị kể chuyện hoang đường.”

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim