Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Hãy tưởng tượng bạn đang làm việc trên một dự án AI biên với RK3588: luồng video camera cần thực hiện nhận dạng khuôn mặt và phát hiện phương tiện theo thời gian thực, đồng thời hỗ trợ hiển thị giao diện người dùng, tải dữ liệu lên và xử lý logic nghiệp vụ. Bạn nhận thấy: hiện tượng rớt khung hình xảy ra khi có nhiều đối tượng trong khung hình, các mô hình lớn không chạy mượt mà và nhiệt độ tăng cao.
Tại thời điểm này, mọi người thường nói: "Mô hình của bạn quá lớn—6TOPS của RK3588 là không đủ."
Nhưng liệu đó có thực sự là do thiếu sức mạnh tính toán? Bạn đã bao giờ tự hỏi: Tại sao một NPU 6TOPS vẫn gặp phải tình trạng rớt khung hình và lag khi chạy một mô hình 4TOPS? Câu trả lời nằm ở ba khía cạnh của sức mạnh tính toán NPU: Hiệu suất đỉnh (TOPS), Độ chính xác (INT8/FP16), và Hiệu quả (Băng thông).
Bạn sẽ thấy rằng các chip khác nhau nhấn mạnh các thông số kỹ thuật NPU của chúng, với một thông số cốt lõi được hiển thị nổi bật: Sức mạnh tính toán NPU: X TOPS. Các ví dụ bao gồm RK3588-6TOPS, RK3576-6TOPS, RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, v.v...
Tera: Đại diện cho 10¹².
Phép tính trên giây: Đề cập đến tổng số phép tính AI mà NPU có thể thực hiện trong một giây. Nói một cách đơn giản, 1 TOPS có nghĩa là NPU có thể thực hiện 1 nghìn tỷ (10¹²) phép tính mỗi giây.
![]()
Tổng số Đơn vị MAC là cốt lõi của tính toán mạng nơ-ron. Trong các lớp tích chập và các lớp kết nối đầy đủ, phép tính chính liên quan đến việc nhân dữ liệu đầu vào với trọng số và sau đó cộng các kết quả.
Triết lý thiết kế của một NPU nằm ở việc có một mảng cực lớn các đơn vị MAC song song. Một chip NPU có thể chứa hàng nghìn hoặc thậm chí hàng chục nghìn đơn vị MAC, có thể hoạt động đồng thời để đạt được tính toán song song quy mô lớn.
Càng có nhiều đơn vị MAC, lượng tính toán mà NPU có thể hoàn thành trong một chu kỳ đồng hồ càng lớn.
Tần số xung nhịp: Xác định số chu kỳ mà chip NPU và các đơn vị MAC của nó hoạt động mỗi giây (đo bằng Hertz, Hz). Tần số cao hơn cho phép mảng MAC thực hiện nhiều phép toán nhân-tích lũy hơn trên một đơn vị thời gian. Khi các nhà sản xuất công bố TOPS, họ sử dụng tần số hoạt động đỉnh của NPU (tức là tần số tối đa có thể đạt được).
Phép tính trên mỗi MAC: Một phép toán MAC hoàn chỉnh thực sự bao gồm một phép nhân và một phép cộng. Để phù hợp với phương pháp đếm FLOPS (Phép toán dấu phẩy động trên giây) truyền thống, nhiều tiêu chuẩn tính toán tính một phép toán MAC là 2 phép toán cơ bản (1 cho phép nhân và 1 cho phép cộng).
Hệ số độ chính xác: Các đơn vị MAC của một NPU được tối ưu hóa để xử lý dữ liệu có độ chính xác thấp (ví dụ: INT8).
Tỷ lệ tăng tốc đơn giản của INT8 so với FP32: Vì 32 bit / 8 bit = 4, một đơn vị FP32 duy nhất về mặt lý thuyết có thể thực hiện gấp 4 lần số phép toán trong một chu kỳ khi chuyển sang tính toán INT8. Do đó, nếu TOPS của nhà sản xuất được tính toán dựa trên INT8, nó cần được nhân với tỷ lệ tăng tốc liên quan đến độ chính xác. Đây là lý do tại sao INT8 TOPS cao hơn nhiều so với FP32 TOPS.
TOPS đo lường sức mạnh tính toán lý thuyết đỉnh. Trong các ứng dụng thực tế, do các yếu tố như truyền dữ liệu, hạn chế bộ nhớ và cấu trúc mô hình, sức mạnh tính toán hiệu quả thực tế của một NPU thường thấp hơn giá trị đỉnh này.
![]()
Sức mạnh tính toán cho chúng ta biết NPU chạy nhanh như thế nào, trong khi độ chính xác tính toán cho chúng ta biết nó hoạt động tinh tế như thế nào. Độ chính xác là một khía cạnh quan trọng khác của hiệu suất NPU, xác định số bit được sử dụng và phạm vi biểu diễn của dữ liệu trong quá trình tính toán.
Ở cùng một mức TOPS, tốc độ tính toán thực tế của INT8 nhanh hơn nhiều so với FP32. Điều này là do các đơn vị MAC của NPU có thể xử lý nhiều dữ liệu 8 bit hơn cùng một lúc và thực hiện nhiều phép toán hơn.
TOPS của NPU mà các nhà sản xuất tuyên bố thường dựa trên độ chính xác INT8. Khi so sánh, hãy đảm bảo rằng bạn đang so sánh TOPS với cùng một độ chính xác.
![]()
Khi bạn thấy một NPU tuyên bố 20 TOPS (INT8), bạn cần hiểu:
Sức mạnh tính toán (TOPS) của NPU là một chỉ số về tốc độ của nó, trong khi độ chính xác tính toán (ví dụ: INT8) là chìa khóa cho hiệu quả và khả năng ứng dụng của nó. Đối với các thiết bị hướng đến người dùng cuối, các nhà sản xuất thường hướng đến việc tối đa hóa INT8 TOPS trong khi vẫn duy trì mức mất độ chính xác có thể chấp nhận được, để đạt được hiệu suất suy luận AI hiệu quả cao và tiêu thụ điện năng thấp.