AI & Machine Learning

Monarch PyTorch API: Süper Bilgisayar Kontrolü Basitleşti

Süper bilgisayarlarda dağıtık eğitim, bir hidrayla güreşmek gibi; bir başını kesersin, iki yeni hata ayıklama kabusu biter. Monarch'ın Python API'si bunu evcilleştirmeyi vaat ediyor, kümeleri dizüstü bilgisayarınız gibi çalıştıran 16 Gbps dosya senkronizasyonlarına ulaşıyor.

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
Monarch API: AWS EFA'da 16 Gbps RDMA Hızları [PyTorch Güncellemesi] — Open Source Beat

Key Takeaways

  • Monarch'ın RDMA'sı 16 Gbps'ye ulaşıyor, 14.5 GB veriyi 7.6 saniyede senkronize ediyor — küme iterasyonu hızlandırıldı.
  • Kubernetes ve SQL tabanlı aracılı (agentic) telemetri, süper bilgisayarları yerel gibi hissettiriyor.
  • Yeni AWS EFA, ROCm desteği InfiniBand dışındaki donanım uyumluluğunu genişletiyor.

14.5 GB’lık veri, 7.6 saniyede senkronize edildi. İşte bu, Monarch’ın RDMA destekli dosya sisteminin AWS EFA üzerinde veriyi 16 Gbps hızında — TCP’den on kat daha hızlı — fırlatması.

Ve işin özü şu: Dağıtık eğitim sıkıntılarına gark olmuş bir dünyada, Meta’nın laboratuvarlarından çıkan bu PyTorch çatısı, süper bilgisayarları güçlendirilmiş bir dizüstü bilgisayar gibi hissettirmeyi vaat ediyor. Sonsuz küme hata ayıklama maratonlarına ya da buz devri hızındaki iterasyon döngülerine son. Ekim 2025’teki PyTorch konferansında tanıtılan Monarch, devasa GPU filolarını inanılmaz derecede basit bir Python API’si aracılığıyla kullanıma sunuyor, tüm eğitim boru hatlarınızı tek bir dosyada betimlemenize olanak tanıyor. Sunucular, işlemler, aktörler — hepsi tutarlı, doğrudan kontrol edilebilir. Aracı (agent) odaklı yapısıyla da optimize edilmiş; SQL telemetrisi yapay zeka güdümlü geliştirme iş akışlarıyla uyumlu çalışıyor.

Ama altı ay sonra bu iddiaları ne kadar karşılayabiliyor?

Neden Dağıtık Eğitim Hala Berbat (Ve Monarch Neden Bunu Düzeltmeye Çalışıyor)

Binlerce GPU’luk kümelere iş yüklemek mi? Acımasız. Peki pekiştirmeli öğrenme (reinforcement learning) kurulumları mı? Tam bir kabus. Geri dönüş süreleri uzuyor, hatalar havanın boşluklarında gizleniyor.

Monarch bu gidişatı tersine çeviriyor. Tek bir birleşik model — sunucular, işlemler, aktörler — inşa ediyor ve bunu zengin bir altyapıyla eşleştiriyor. Aracı (agent) geliştiricilere süper güçler kazandırıyor: doğrudan kod yönetimi, yıldırım hızında bağımlılık senkronizasyonları, anlık kaynak sağlama. Geliştirme makinenizin bir süper bilgisayarı sorunsuz bir şekilde yönettiğini hayal edin.

Bunu mümkün kılan ana unsurlar neler mi? Küme genelinde salt okunur bağlamaları dağıtan RDMA dosya sistemi. Monarch’ın RDMA tamponları ve PyFuse üzerine kurulu bu sistem, kod, bağımlılıklar ve konteynerler için senkronizasyon sürelerini ciddi oranda azaltıyor. Ardından gelen dağıtık SQL telemetrisi var — her düğümden pyspy izlerini, günlükleri ve canlı durumu toplayan hafif bir motor. Hata ayıklama zevki için yerinde (in situ) DataFusion sorguları çalıştırın.

“Monarch, süper bilgisayar kümesini basit bir Python API’si aracılığıyla programlanabilir hale getiren, PyTorch için bir dağıtık programlama çatısıdır. Süper bilgisayarı tutarlı, doğrudan kontrol edilebilir bir sistem olarak sunar — büyük ölçekli eğitime yerel geliştirme deneyimini getirir.”

Jobs API ise işi tamamlıyor: Sunucuları Kubernetes veya SLURM aracılığıyla bir kez yapılandırın, ardından yeniden tahsis cezaları olmadan sonsuz sayıda iş yükünü başlatın. Aracı (agent) geliştiriciler hızlıca iterasyon yapabilir — tek bir merkezi noktadan yeniden başlatma, senkronizasyon, hata ayıklama.

Yenilikler: Kubernetes ve RDMA Sıçramaları

Lansmanından bu yana Monarch, önemli başarılar elde etti. Kubernetes artık birinci sınıf vatandaş.

GitHub’da (github.com/meta-pytorch/monarch-kubernetes) yer alan yeni açık kaynak (OSS) depo, bir MonarchMesh CRD’si, KueBuilder operatörü ve basit bir “merhaba dünya” demosu içeriyor. Etiket yayılımı (label propagation) Kueue zamanlayıcısına entegre oluyor. Tam zamanında pod (just-in-time pod) sağlama, yer israf eden ön rezervasyonlar olmadan kullanım oranını artırıyor. Küme dışı istemcilerin (yakında çıkacak 0.5 sürümüyle) erişebilmesi için harici ağ geçitleri bulunuyor. Docker konteynerleri mi? GHCR’de versiyonlu, gece güncellemeli olarak bulunuyor, tekrarlanabilirliği sağlıyor.

RDMA daha da güçlendirildi. AWS EFA desteği RDMABuffer’a entegre edildi — o göz alıcı 16 Gbps hızlarında doğrulandı. AMD ROCm GPU’ları, GPU-direct RDMA ve Mellanox üzerinden RCCL kolektifleri aracılığıyla destekleniyor. Birleşik bir API tüm bunları soyutluyor: InfiniBand (mlx5), EFA, ROCm — donanımdan bağımsız, zahmetsiz.

Bunlar sadece küçük ayarlamalar değil. Bunlar, yapay zeka aracıların (agent) SQL telemetrisini sorguladığı, kodu değiştirdiği, yeniden yapılandırdığı — tüm bunları insan gözetimi olmadan yaptığı aracılı (agentic) geliştirmenin geleceğine yapılan yatırımlar.

Ancak şüphecilik de yok değil. Meta, bu teknolojiyi yapay zeka silahlanma yarışının ortasında açık kaynaklı hale getiriyor. TensorFlow’un ilk günlerini hatırlayın; Google milyonlar döktü, sonra PyTorch onu geçti çünkü Facebook araştırmacılarla daha iyi anlaşıyordu. Monarch, kümeler için PyTorch 2.0 gibi hissettiriyor — tacını korumak için cesur bir hamle. Peki kim kâr edecek? Elbette Meta’nın Llama ölçeğindeki eğitim faturaları. Peki ya bizler? Ücretsiz süper bilgisayar API’leri rüya gibi geliyor, ta ki benimsenme gecikene veya bir kilitlenme (lock-in) sorunu ortaya çıkana kadar.

Monarch Gerçekten Aracı (Agent) Hazır mı?

Aracılar (agent) dizüstü bilgisayarlarda geliştirme görevlerinde üstünlük sağlıyor. Monarch onları bir üst seviyeye taşıyor, geliştirme platformlarını süper bilgisayar vekillerine (proxy) dönüştürüyor. Tutarlı soyutlamalar, anında anlayabildikleri SQL API’leri.

RDMA aracılığıyla hızlı senkronizasyonlar. Yerinde (in-situ) telemetri sorguları. Anlık iş yükleri için Jobs API’si. Fikir üretimi, hata ayıklama, ölçeklendirme gibi geliştirme aşamalarında aracılara (agent) güç veriyor.

Ancak. Aracı (agent) geliştirme kusursuz değil. Kod üretiminde halüsinasyonlar mı? Çöp telemetri sorguları mı? Monarch engelleri alçaltıyor, ama ortadan kaldırmıyor. Henüz erken günler — sadece demolar değil, modeller sunan gerçek dünya aracı (agent) boru hatlarını görmek için takipte kalın.

Tarihsel bir paralellik: Slurm ve Kubernetes on yıl önce kümeleri demokratikleştirdi, ancak karmaşıklık devam etti. Monarch daha derinlemesine soyutlama yapıyor, önceliği Python’a veriyor. Tahmin: Eğer bağımsız yapay zeka araştırmacılarını (RL researchers) kendine çekerse, kartopu gibi büyüyecektir. Aksi takdirde, sadece kurumsal silolarla sınırlı kalacaktır.

Kurumsal söylem kontrolü — Meta’nın blogu “süper güçler!” diye övünüyor. Tamam, ama bu coşkuyu sıyırıp atın: bunlar sağlam altyapı tesisatı. Büyü yok, sadece daha hızlı borular.

Bu Neden PyTorch Geliştiricileri İçin Önemli?

PyTorch, makine öğrenmesi eğitiminde baskın durumda. Kümeler ise darboğaz.

Monarch bu darboğazı küçültüyor. Tek bir betik yazın. Çalıştır’a basın. Aracı (agent) geliştiriciler iterasyon yapsın. Kubernetes mi yoksa SLURM mu? İstediğinizi seçin.

Bireysel geliştiriciler veya küçük ekipler için, operasyon ekipleri olmadan InfiniBand ölçeğinde performans erişimi sağlayarak güç çarpanı oluyor. Büyük laboratuvarlar için mi? Mühendislik yükünü azaltın, aracılara (agent) güç verin.

Dezavantajları mı? RDMA ince ayarları için öğrenme eğrisi. Arka uç parçalanması (bugün EFA, yarın RoCE?). Hala olgunlaşıyor.

Sonuç: Küme cehenneminde Monarch bir el feneri. Çıkış yolu değil, ama duvarları daha net göreceksiniz.


🧬 İlgili İçgörüler

Sıkça Sorulan Sorular

Monarch PyTorch nedir?
Monarch, PyTorch için tüm süper bilgisayar kümelerini tek bir tutarlı sistem olarak programlayan bir Python API çatısıdır; dağıtık eğitim ve aracılı (agentic) iş akışları için idealdir.

Monarch Kubernetes’i destekliyor mu?
Evet, CRD’ler, tam zamanında podlar, harici ağ geçitleri ve Kueue entegrasyonu dahil olmak üzere birinci sınıf destek sunuyor — ayrıca kolay dağıtımlar için Docker konteynerleri de mevcut.

Monarch’ın RDMA dosya senkronizasyonu ne kadar hızlı?
AWS EFA üzerinde 16 Gbps hızında doğrulandı, 14.5 GB veriyi 7.6 saniyede senkronize ediyor — kod, bağımlılıklar ve veriler için TCP hızlarının 10 katı.

Written by
Open Source Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Open Source stories of the week in your inbox — no noise, no spam.

Originally reported by PyTorch Blog