|  | 
| Project Rainier, salah satu klaster komputasi AI terbesar di dunia | dok: @amazon | 
Amazon Web Services (AWS) resmi mengaktifkan Project Rainier, salah satu klaster komputasi AI terbesar di dunia dengan hampir setengah juta chip Trainium2. Proyek ambisius ini mulai beroperasi penuh kurang dari satu tahun setelah diumumkan dan kini telah digunakan oleh Anthropic, perusahaan riset dan keselamatan AI yang dikenal melalui model bahasa Claude. AWS berharap Rainier akan mendukung lebih dari satu juta chip Trainium2 pada akhir 2025.
Kolaborasi dengan Anthropic bukan hanya soal teknologi, melainkan soal efisiensi dan keamanan AI. Melalui Rainier, Anthropic kini memiliki daya komputasi lima kali lipat lebih besar dibandingkan saat melatih model sebelumnya. Klaster ini memungkinkan pelatihan dan penerapan model AI generasi berikutnya dengan kecepatan dan presisi yang belum pernah dicapai sebelumnya. AWS menilai, semakin banyak daya komputasi yang didedikasikan untuk pelatihan model seperti Claude, semakin cerdas dan akurat hasilnya.
Nama Project Rainier sendiri diambil dari gunung berapi legendaris di dekat Seattle, mencerminkan besarnya skala dan tantangan teknis yang dihadapi. Tersebar di berbagai pusat data di Amerika Serikat, proyek ini menjadi salah satu yang paling ambisius sepanjang sejarah AWS.
"Proyek Rainier adalah salah satu proyek AWS yang paling ambisius hingga saat ini, ini adalah proyek infrastruktur yang masif dan unik, yang akan mengantarkan generasi model kecerdasan buatan berikutnya," jelas Ron Diamant, seorang insinyur terkemuka AWS dan kepala arsitek Trainium, seperti dilansir topik.id, Kamis (30/10/2025).
Kekuatan Rainier bersumber dari chip Trainium2, prosesor buatan AWS yang didesain khusus untuk melatih sistem AI dalam skala besar. Tidak seperti chip serbaguna di laptop atau ponsel, Trainium2 dibuat untuk menangani miliaran hingga triliunan perhitungan per detik, tugas yang akan memakan waktu puluhan ribu tahun bagi manusia. Infrastruktur baru ini diklaim 70% lebih besar dibandingkan platform komputasi AI mana pun yang pernah dibangun AWS sebelumnya.
Namun, kekuatan chip saja tidak cukup. AWS memperkenalkan UltraServer dan UltraCluster, dua inovasi yang memungkinkan ribuan chip Trainium2 bekerja serempak tanpa hambatan. UltraServer menggabungkan empat server fisik, masing-masing berisi 16 chip Trainium2, yang dihubungkan melalui koneksi berkecepatan tinggi NeuronLink. Jalur data supercepat ini memungkinkan 64 chip di setiap UltraServer berkomunikasi secara langsung, memproses informasi kompleks dalam waktu yang jauh lebih singkat.
"Untuk mewujudkan visi yang berani ini, Proyek Rainier dirancang sebagai "EC2 UltraCluster dari Trainium2 UltraServers" yang masif. Bagian pertama mengacu pada Amazon Elastic Compute Cloud (EC2), layanan AWS yang memungkinkan pelanggan menyewa komputer virtual di cloud alih-alih membeli dan memelihara server fisik mereka sendiri," ungkapnya.
Puluhan ribu UltraServer kemudian digabungkan menjadi satu sistem raksasa bernama UltraCluster. Untuk memastikan efisiensi maksimal, AWS mengandalkan dua tingkat komunikasi, NeuronLink di dalam UltraServer dan Elastic Fabric Adapter (EFA) antar server dan pusat data. Dengan pendekatan dua lapis ini, Rainier dapat mempertahankan performa tinggi sekaligus fleksibel untuk diperluas di masa depan. Hasilnya adalah sebuah ekosistem AI berskala planet yang mampu menjalankan pelatihan dan inferensi secara simultan.
Di balik keberhasilan besar ini, AWS juga belajar dari kegagalan. Mengelola klaster komputasi sebesar ini menghadirkan tantangan ekstrem dalam stabilitas dan keandalan. Untuk mengatasinya, AWS mengandalkan filosofi kontrol penuh atas seluruh stack teknologinya, dari desain chip, perangkat lunak, hingga arsitektur pusat data.
Pendekatan end-to-end ini memastikan bahwa setiap komponen dapat dioptimalkan untuk kinerja maksimal, membuat Rainier bukan sekadar proyek teknologi besar, tetapi juga simbol kematangan dan ketekunan AWS dalam mengejar masa depan kecerdasan buatan.
"Sejauh ini, semuanya berjalan baik—namun, mengoperasikan dan memelihara klaster komputasi sebesar ini bukannya tanpa tantangan. Untuk memastikan semua kapasitas raksasa itu tersedia bagi pelanggan, keandalan adalah yang terpenting. Di sinilah pendekatan perusahaan terhadap pengembangan perangkat keras dan perangkat lunak benar-benar menjadi sorotan," terangnya.
 

 
 
 
 
 
 
 
.png.webp) 
.png.webp) 
.png%20(1).webp)