Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
ลองจินตนาการว่าคุณกําลังทํางานในโครงการ AI ขั้วด้วย RK3588: คล้องถ่ายวิดีโอ ต้องการที่จะดําเนินการในเวลาจริง การจํานองใบหน้าและการตรวจจับรถยนต์ ในขณะเดียวกันยังสนับสนุนการแสดง UI การอัพโหลดข้อมูลและการประมวลผลตรรกะทางธุรกิจคุณสังเกตเห็นไหม: การตกของกรอบเกิดขึ้นเมื่อมีวัตถุมากมายในกรอบ โมเดลขนาดใหญ่ไม่สามารถทํางานได้อย่างราบรื่น และอุณหภูมิเพิ่มขึ้นอย่างคมชัด
ในตอนนี้ ผู้คนมักจะบอกว่า "รุ่นของคุณใหญ่เกินไป" 6TOPS ของ RK3588 ไม่เพียงพอ
แต่มันคือการขาดพลังงานคอมพิวเตอร์จริงๆหรือ? คุณเคยสงสัยไหม: ทําไม NPU 6TOPS ยังมีภาวะตกกรอบและความช้า เมื่อทํางานแบบ 4TOPS?คําตอบอยู่ที่สามมิติของพลังงานคอมพิวเตอร์ NPU:ความสามารถสูงสุด (TOPS),ความละเอียด (INT8/FP16)และประสิทธิภาพ (ความกว้างของแบนด์วิท).
คุณจะเห็นว่าชิปต่าง ๆ เน้นรายละเอียดของ NPU ของพวกเขา, โดยมีปารามิเตอร์หลักที่แสดงออกอย่างโดดเด่น: พลังการคิดเลข NPU: X TOPS ตัวอย่างรวมถึง RK3588-6TOPS, RK3576-6TOPS,RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS และอื่นๆ
เทรา: เป็นตัวแทนของ 1012
การดําเนินงานต่อวินาที: อ้างอิงถึงจํานวนทั้งหมดของการประกอบการ AI ที่ NPU สามารถดําเนินการได้ในหนึ่งวินาที. ในภาษาง่าย ๆ 1 TOPS หมายถึง NPU สามารถดําเนินการได้ 1 พันล้าน (1012) การประกอบการต่อวินาที
![]()
จํานวนรวมของหน่วย MAC เป็นแกนหลักของคอมพิวเตอร์เครือข่ายประสาทการคํานวณหลักเกี่ยวกับการคูณข้อมูลเข้าด้วยน้ําหนัก และต่อมารวมผล.
ปรัชญาการออกแบบของ NPU อยู่ที่การมีชุดขนาดใหญ่มากของหน่วย MAC ทิศกัน ชิป NPU อาจมีพันหรือแม้แต่สิบพันหน่วย MACซึ่งสามารถทํางานพร้อมกัน เพื่อให้ได้ผลการคํานวณปานกลางขนาดใหญ่.
ยิ่งมีหน่วย MAC มากเท่าไหร่ นพยูจะสามารถทําการคํานวณได้มากยิ่งขึ้นในวงจรนาฬิกาเดียว
ความถี่ของนาฬิกา: กําหนดจํานวนวงจรที่ชิป NPU และหน่วย MAC ของมันทํางานต่อวินาที (วัดใน Hertz, Hz)ความถี่ที่สูงขึ้นทําให้เรียง MAC สามารถดําเนินการคูณ-สะสมมากกว่าต่อหน่วยเวลาเมื่อผู้ผลิตประกาศ TOPS พวกเขาใช้ความถี่ในการทํางานสูงสุดของ NPU (เช่น ความถี่สูงสุดที่สามารถบรรลุได้)
การดําเนินงานต่อ MAC: การทํางาน MAC ครบถ้วนในความเป็นจริงรวมถึงการคูณและการบวกครั้งหนึ่ง เพื่อสอดคล้องกับวิธีการนับแบบ FLOPS (Floating-Point Operations Per Second)มาตรฐานคอมพิวเตอร์หลายอย่างนับการปฏิบัติ MAC หนึ่งเป็น 2 การปฏิบัติพื้นฐาน (1 สําหรับการคูณและ 1 สําหรับการบวก).
ปัจจัยความแม่นยํา: หน่วย MAC ของ NPU ถูกปรับปรุงให้ดีที่สุดสําหรับการประมวลผลข้อมูลความแม่นยําต่ํา (เช่น INT8)
อัตราการเร่งเร่งง่ายของ INT8 vs FP32: เนื่องจาก 32 บิต / 8 บิต = 4 หน่วย FP32 เดี่ยวสามารถทําการดําเนินการ 4 เท่าในรอบหนึ่งเมื่อเปลี่ยนไปสู่การคํานวณ INT8 ดังนั้น,หาก TOPS ของผู้ผลิตถูกคํานวณขึ้นอยู่กับ INT8, มันจําเป็นต้องคูณด้วยอัตราเร่งที่เกี่ยวข้องกับความแม่นยํา. นี่คือเหตุผลที่ INT8 TOPS มากกว่า FP32 TOPS มาก.
TOPS วัดพลังงานคอมพิวเตอร์ในทฤษฎีสูงสุด ในการใช้งานจริง เนื่องจากปัจจัยเช่น การส่งข้อมูล ความจําจําจํากัด และโครงสร้างแบบพลังการคํานวณเชิงจริงของ NPU มักจะต่ํากว่าค่าสูงสุด.
![]()
พลังคอมพิวเตอร์บอกเราว่า NPU วิ่งเร็วแค่ไหน ขณะที่ความแม่นยําทางคอมพิวเตอร์บอกเราว่ามันทํางานได้ดีแค่ไหน ความแม่นยําเป็นมิติสําคัญอีกอย่างของผลงานของ NPUการกําหนดจํานวนบิตที่ใช้และช่วงการแสดงข้อมูลระหว่างการคํานวณ.
ในระดับ TOPS เดียวกัน ความเร็วการคํานวณจริงของ INT8 เร็วกว่าของ FP32 มาก เพราะหน่วย MAC ของ NPU สามารถประมวลผลข้อมูล 8-bit มากขึ้นพร้อมกัน และดําเนินการได้มากกว่า
NPU TOPS ที่ผู้ผลิตอ้างอิงมักจะใช้ความละเอียด INT8 เมื่อทําการเปรียบเทียบให้แน่ใจว่าคุณกําลังเปรียบเทียบ TOPS ภายใต้ความละเอียดเดียวกัน
![]()
เมื่อคุณเห็น NPU กล่าวว่า 20 TOPS (INT8) คุณจําเป็นต้องเข้าใจ:
พลังการคํานวณของ NPU (TOPS) เป็นตัวชี้วัดของความเร็วของ NPU ขณะที่ความแม่นยําในการคํานวณ (เช่น INT8) เป็นกุญแจของประสิทธิภาพและการนําไปใช้ผู้ผลิตโดยทั่วไปมุ่งหมายให้สูงสุด INT8 TOPS โดยยังคงการสูญเสียความแม่นยําที่ยอมรับได้, เพื่อบรรลุผลการสรุป AI ที่ใช้พลังงานต่ําและมีประสิทธิภาพสูง