NVIDIA x xAI |
Colossus, superkomputer AI terbesar di dunia, digunakan untuk melatih keluarga model bahasa besar Grok milik xAI, dengan chatbot yang ditawarkan sebagai fitur bagi pelanggan X Premium. Perusahaan xAI besutan Elon Musk itu sedang dalam proses menggandakan ukuran Colossus menjadi total gabungan 200.000 GPU NVIDIA Hopper.
Fasilitas pendukung dan superkomputer canggih ini dibangun oleh xAI dan NVIDIA hanya dalam waktu 122 hari, bukan jangka waktu yang umum untuk sistem sebesar ini yang dapat memakan waktu berbulan-bulan hingga bertahun-tahun. Diperlukan waktu 19 hari sejak rak pertama diluncurkan ke lantai hingga pelatihan dimulai.
Saat melatih model Grok yang sangat besar, Colossus mencapai kinerja jaringan yang belum pernah ada sebelumnya. Di ketiga tingkatan jaringan, sistem tidak mengalami penurunan latensi aplikasi atau kehilangan paket karena tabrakan aliran. Sistem ini mempertahankan throughput data 95% yang dimungkinkan oleh kontrol kongesti Spectrum-X.
Tingkat performa ini tidak dapat dicapai dalam skala besar dengan Ethernet standar, yang menimbulkan ribuan tabrakan aliran sambil hanya memberikan 60% throughput data.
"AI menjadi misi penting dan membutuhkan peningkatan kinerja, keamanan, skalabilitas, dan efisiensi biaya," ungkap Gilad Shainer, wakil presiden senior jaringan di NVIDIA dalam keterangan resminya, dikutip Kamis (31/10/2024).
xAI telah membangun superkomputer terbesar dan terkuat di dunia, GPU Hopper dan Spectrum-X NVIDIA memungkinkan untuk mendorong batasan pelatihan model AI dalam skala besar, menciptakan pabrik AI yang sangat cepat dan optimal berdasarkan standar Ethernet.
Inti dari platform Spectrum-X adalah sakelar Ethernet Spectrum SN5600 , yang mendukung kecepatan port hingga 800Gb/s dan didasarkan pada ASIC sakelar Spectrum-4. xAI memilih untuk memasangkan sakelar Spectrum-X SN5600 dengan NVIDIA BlueField-3 ® SuperNIC untuk kinerja yang tak tertandingi.
Jaringan Ethernet Spectrum-X untuk AI menghadirkan fitur-fitur canggih yang memberikan bandwidth yang sangat efektif dan terukur dengan latensi rendah dan latensi ekor pendek, yang sebelumnya hanya tersedia untuk InfiniBand.
Fitur-fitur ini mencakup perutean adaptif dengan teknologi NVIDIA Direct Data Placement, kontrol kemacetan, serta visibilitas jaringan AI yang ditingkatkan dan isolasi kinerja, semua persyaratan utama untuk cloud AI generatif multi-penyewa dan lingkungan perusahaan besar.