![]() |
@nvidia |
NVIDIA Dynamo menjadi tolak ukur, karena mampu meningkatkan jumlah permintaan yang dilayani hingga 30 kali lipat saat menjalankan model DeepSeek-R1 pada GPU generasi terbaru NVIDIA Blackwell. Ini menjadi terobosan besar dalam efisiensi dan kecepatan layanan AI.
"Kerangka kerja ini meningkatkan jumlah permintaan yang dilayani hingga 30x, saat menjalankan model DeepSeek-R1 sumber terbuka pada NVIDIA Blackwell. NVIDIA Dynamo kompatibel dengan alat sumber terbuka, termasuk PyTorch, SGLang, NVIDIA TensorRT-LLM , dan vLLM, bergabung dengan komunitas alat inferensi yang berkembang yang memberdayakan pengembang dan peneliti AI untuk mempercepat AI," tulis NVIDIA dalam pengumuman resminya, dikutip topik.id Rabu (19/3/2025).
Kompatibilitas NVIDIA Dynamo dengan berbagai alat sumber terbuka seperti PyTorch, SGLang, NVIDIA TensorRT-LLM, dan vLLM memperkuat posisinya dalam komunitas pengembang. Hal ini memudahkan integrasi bagi perusahaan dan peneliti yang telah menggunakan ekosistem AI tersebut.
Salah satu keunggulan utama dari NVIDIA Dynamo adalah arsitektur inferensi yang telah dioptimalkan. Inferensi pra-pengisian dan dekode kini dipisahkan, meningkatkan throughput per GPU secara signifikan dan memberikan efisiensi yang belum pernah dicapai sebelumnya.
GPU dinamis.
Dynamo juga menghadirkan penjadwalan GPU dinamis yang memungkinkan sistem beradaptasi secara real-time terhadap fluktuasi permintaan. Ini memastikan kinerja tetap optimal tanpa pemborosan sumber daya.
Perutean permintaan yang cerdas di Dynamo juga mencegah biaya perhitungan ulang cache KV, yang selama ini menjadi hambatan besar dalam sistem inferensi skala besar. Inovasi ini mampu menghemat waktu dan meningkatkan efisiensi pemrosesan.
Transfer data asinkron antargrafik dipercepat, mengurangi waktu respons dan meningkatkan pengalaman pengguna akhir secara drastis. Teknologi ini menjadikan inferensi AI semakin responsif dan adaptif.
"NVIDIA Dynamo tersedia untuk pengembang di repo GitHub ai-dynamo/dynamo . Bagi perusahaan yang menginginkan waktu produksi yang lebih cepat serta keamanan, dukungan, dan stabilitas tingkat perusahaan, NVIDIA Dynamo akan disertakan dengan layanan mikro NVIDIA NIM , bagian dari NVIDIA AI Enterprise," jelasnya.
NVIDIA Dynamo juga memperkenalkan manajemen cache KV lintas hierarki memori, yang membuat sistem lebih efisien dalam menangani permintaan dalam jumlah besar. Hasilnya, throughput sistem pun melonjak tanpa mengorbankan performa.
Menariknya, Dynamo memungkinkan pemrosesan lebih banyak token dengan biaya sangat rendah, hanya sekitar $1 per juta token. Model ini sangat ekonomis dan mengubah paradigma monetisasi layanan AI generatif menjadi lebih kompetitif. Dengan sistem itu juga, NVIDIA memperkenalkan bahasa data yang memungkinkan token menjadi mata uang AI, berbeda dengan kripto.
Untuk mendukung sistem ini, NVIDIA juga meluncurkan versi DeepSeek R1 yang telah dioptimalkan menggunakan format komputasi FP4. Format ini membuat proses inferensi lebih ringan tetapi tetap akurat, menciptakan efisiensi komputasi yang ideal.
Tidak hanya itu, NVIDIA memperkenalkan versi Ultra dari chip Blackwell serta DGX Spark, komputer pribadi yang ringkas untuk pengembang AI dan DGX Station dengan konfigurasi baru yang lebih kuat. Ini menandai strategi NVIDIA dalam menjangkau segmen pengembang independen dan korporat.