TorchInductor’ın otomasyonu (autotuner) duraklıyor. Triton ile cuBLAS’ı, CUTLASS ile yeni gelen CuteDSL‘i tartıyor. Ve transformer döngülerini hızla işleyen GEMM’ler için Python destekli adayı seçiyor.
Bu bir tantana değil. PyTorch’un backend savaşlarında hesaplanmış bir dönüm noktası; matris çarpımları – LLM’lerin o doymak bilmez canavarları – kusursuz donanım kontrolü gerektiriyor.
CuteDSL Neden TorchInductor’a Bu Kadar Sorunsuz Giriyor?
Üç maddeyi işaretlemeli: düşük bakım maliyeti, derleme hatası yok, kilit iş yüklerinde üstün hız. CuteDSL hepsini başarıyor. NVIDIA bu alana kaynak aktarıyor, PyTorch mühendislerinin işlerini kolaylaştıran hazır kernel şablonları sunuyor. Derleme süreleri mi? Triton ile aynı seviyede, CUTLASS’ın nvcc yavaşlığına kıyasla büyük nimet.
“CuteDSL, CUTLASS C++ ile aynı soyutlamalar üzerine kurulu, FP8 GEMM’lerde ve epilogue fusion’da güçlü performans gösterdi, ancak Python’da yazılmış, daha hızlı derleme sürelerine sahip ve bakımı daha az karmaşık.”
Bu doğrudan PyTorch ekibinden. Laf salatası yok. Ve asıl bomba burada: bu sadece bir backend değişimi değil. PyTorch’un H100’ün paylaşımlı belleğinden B200’ün küme hilelerine kadar NVIDIA’nın tensor çekirdeklerini Python ile kontrol etmeye oynaması.
CuteDSL, C++’ın yükü olmadan tüm yığını – warplar, thread blokları, bellek hiyerarşileri – ortaya çıkarıyor. Otomasyon adaylarla patlıyor, fusion kıyaslamaları yapılabilir hale geliyor. Triton için zaten güçlü olan PyTorch pipeline’ı artık GEMM hassasiyetine de ölçekleniyor.
Ama bekleyin. Sadece GEMM’ler. Neden?
GEMM’ler Hakim — Peki Neden Onlara Bu Kadar Takıntılılar?
Transformer’lar fısıldamaz. İleri geçişleri (forward passes) GEMM diye bağırır: dikkat projeksiyonları, FFN’ler, çıktı başlıkları. Her seferinde GPU döngülerinin çoğu. En yüksek kullanım? Bu, karol (tile) boyutlarını tensor pipeline’larına göre ayarlamak, paylaşımlı belleği tam istediğiniz gibi yerleştirmek, warpları bir maestro gibi zamanlamak anlamına gelir.
Yüksek seviyeli diller bunu gizler. CuteDSL — CUTLASS gibi — gizlemez. El ile optimize edilmiş şablonlarla başlar, şekiller için parametreleri ayarlar. Sıfırdan üretim yok; o işe ruh hastaları bakar.
Triton geri kalan her şeyi yönetir. Eleman bazlı işlemler, aktivasyonlar, indirgemeler — belleğe bağlı, vektörize edilmiş bir zevk. Her iki DSL de softmax’ta bant genişliği sınırlarına ulaşır, örneğin GB200 ölçeklerinde. Orada CuteDSL’in düşük seviyeli zorlamasının anlamı yok.
CuteDSL Terlemeden Nasıl CUTLASS’ı Geride Bırakıyor?
CUTLASS C++ işini yapar. FP8 GEMM’ler, epilogue’lar sıkıca kaynaşmış. Ama her varyant için mi? Tam nvcc derlemesi. Otomasyon hacimden boğulur; fusion kıyaslamaları mı? Unutun.
CuteDSL işleri tersine çeviriyor. Python’dan MLIR derleyicisine, yıldırım hızında. CUTLASS ile aynı karo cebiri, bellek öncelikleri, fusion modeli. Yine de TorchInductor bunu Triton gibi ele alıyor: tam otomasyon gücü.
NVIDIA’nın donanım ilerlemesi — Hopper’ın kümeleri, Blackwell’in dağıtılmış SM’leri — CuteDSL’in önceliklerine tam uyuyor. Açık kaynak momentumu artıyor: Tri Dao’nun Quack’ı, Colfax’ın Jay Shah’ı. Yıldızlar hizalanmış.
Ve benzersiz açı? Bu CUDA’nın kendi evrimini yansıtıyor. PTX’i hatırlayın? Araçlar için yeterince yüksek seviyeli, ISA ayarlamaları için yeterince düşük. CuteDSL, GEMM’ler için bu rolü üstleniyor — PyTorch’un PTX anı, DSL’lerin derleyici karmaşıklığını yemesine izin verirken NVIDIA metalin ince ayarını yapıyor. Cesur tahmin: Hopper’ın sonunda, CUTLASS C++ solacak; CuteDSL o alanı ele geçirecek, kod tabanı incelenecek, PyTorch hızlanacak.
Şüpheci misiniz? Haklısınız. Kurumsal dil “stratejik yatırım” diye bağırıyor. Ama metrikler yalan söylemez. Derleme denkliği kanıtlanmış, performans SOTA seviyesinde. Bakım NVIDIA’ya devredilmiş. Hatta PyTorch aslında güvenli oynuyor — CuteDSL pisti turlayana kadar.
Daha derine inersek: bu backend değişimi, PyTorch’un GEMM hırslarını işaret ediyor. Sadece cuBLAS sarmalayıcılarıyla yetinmiyor, artık DSL-native’e geçiyor. NVIDIA yığınlarında LLM’leri ayarlayan geliştiriciler için, zirveleri daha sıkı saran birleşmiş kernel’lar ve inceltilmiş çalışma zamanları bekleyin.
Ya GEMM olmayanlar? Triton idare ediyor. Deneyler doğruluyor: her iki DSL’den gelen softmax kernel’ları, boyutlar arttıkça GB200 bant genişliğini doyuruyor. Hata yok, karmaşıklık peşinde koşmak yok.
CuteDSL PyTorch GEMM Otomasyonunun Geleceği mi?
Evet, donanım gelişmeye devam ederse. B200’ün thread blok kümeleri mi? CuteDSL öncelikleri onları yerel olarak senkronize ediyor. Gelecek nesiller mi? Aynı soyutlamalar ölçekleniyor. CUTLASS C++ nvcc altında gıcırdıyor; Python akıyor.
PyTorch’un kriterleri rastgele değildi. Tedarikçi taahhüdü (tamamlandı), zaman tarafsızlığı (tamamlandı), iş yükü kazançları (tamamlandı). Sonuç: SOTA GEMM’ler, anında üretiliyor.
PR cilasını eleştirebilir misiniz? Var — “uzun vadeli stratejik yatırım” yönetim kurulu kokuyor. Ama madde bunu destekliyor: daha hızlı derlemeler otomasyonun vaadini açığa çıkarıyor, fusion kararları gerçek zamanlıya geçiyor. Transformer’lar kazanıyor.
Tarihsel paralellik: GCC’nin yükselişi, hız ve taşınabilirlik konusunda rakiplerinin öğle yemeğini yiyerek özel C derleyicilerini ezdi. CuteDSL, GEMM backend’leri için bunu yapabilir — Python erişilebilirliği NVIDIA’nın düşük seviye avantajını demokratikleştiriyor.
CuteDSL LLM Eğitimi İçin Neden Önemli?
GEMM’lerde tasarruf edilen döngüler zincirleme etki yaratır. İleri geçişler sıkılaşır, geri geçişler de. İnce ayar, saatlerden… daha aza iner. GB200 kümelerinde bu, kümeler değerinde verimlilik demektir.
Geliştiriciler şablonlar alır, şekilleri ayarlar, TorchInductor’ın kazananları seçmesine izin verir. Artık C++ kernel hack’leri yok.
🧬 İlgili İçgörüler
- Daha fazla oku: Oracle’ın Project Detroit’i: V8 ve CPython’ı Doğrudan JVM’ye Yerleştirme
- Daha fazla oku: Linux 7.1 Çizgiyi Çekiyor: 30 Yıl Sonra Artık i486 Desteği Yok
Sıkça Sorulan Sorular
TorchInductor CuteDSL backend’i nedir?
NVIDIA’nın Python DSL’inin PyTorch’un TorchInductor’ına entegre edilmiş hali olup, yüksek performanslı GEMM kernel’ları üretir, CUTLASS kontrolünü Triton hızında derlemelerle birleştirir.
CuteDSL, PyTorch’ta CUTLASS’ın yerini mi alacak?
Daha hızlı Python derlemesi ve paylaşılan soyutlamalar sayesinde, yeni NVIDIA donanımlarında nihai bir yedek olarak konumlandırılıyor — uzun vadede bakımı basitleştiriyor.
CuteDSL LLM çıkarım hızımı iyileştirebilir mi?
Potansiyel olarak evet, transformer katmanlarında daha iyi optimize edilmiş GEMM’lere olanak tanıyarak, özellikle H100/B200 GPU’larda epilogue fusion ile.