CUDA Toolkit 12.8 NVIDIA Blackwell Desteği ile Yayında!

NVIDIA, CUDA Toolkit 12.8 sürümünü duyurdu. Bu yeni sürüm, veri bilimi, yapay zeka, bilimsel hesaplama, bilgisayar grafikleri ve simülasyon alanlarında hızlandırılmış bilgi işlem performansını en üst seviyeye taşımak için tasarlandı. En yeni NVIDIA CPU ve GPU’lar ile uyumlu olan bu sürüm, Blackwell mimarisi desteği ile geliyor.

CUDA Toolkit 12.8 ile Gelen Yenilikler:

  • NVIDIA Blackwell mimarisi desteği
  • CUDA Graphs için gelişmiş koşullu düğümler
  • Blackwell CUTLASS çekirdekleri ile büyük dil modelleri (LLM) için optimize edilmiş performans
  • NVIDIA Nsight geliştirici araçlarında önemli güncellemeler
  • Matematik kütüphaneleri için geliştirmeler
  • cudaStreamGetDevice API’si ile çoklu cihaz yönetimi
  • Derleyici ve Python hızlandırma güncellemeleri

NVIDIA Blackwell Mimari Desteği

CUDA Toolkit 12.8, NVIDIA Blackwell mimarisini tam kapsamlı olarak destekleyen ilk sürümdür. Performans analiz araçları, profilleyiciler, kütüphaneler ve derleyiciler bu yeni mimariye göre optimize edilmiştir. 208 milyar transistör içeren Blackwell, NVIDIA Hopper GPU’larından 2.5 kat daha fazla transistör sayısına sahiptir.

Öne Çıkan Blackwell Özellikleri:

  • İkinci nesil Transformer Engine: Özel Tensor Core teknolojisi sayesinde büyük dil modelleri ve uzman sistemler için eğitim ve çıkarım süreçlerinde hızlanma sağlar.
  • Veri sıkıştırma hızlandırma: LZ4, Snappy ve Deflate gibi sıkıştırma formatları kullanılarak veri analitiği ve bilimsel hesaplama uygulamalarında daha yüksek verim elde edilir.
  • NVLink ve NVLink Switch desteği: Trilyonlarca parametre içeren AI modelleri için GPU’lar arası yüksek hızlı iletişim sunar.

Blackwell ile ilgili daha fazla bilgi için NVIDIA Blackwell Teknik İnceleme sayfasını ziyaret edebilirsiniz.


CUDA Graphs ile 2 Kat Daha Hızlı Çıkarım

CUDA Toolkit 12.8 ile CUDA Graphs API’leri daha da geliştirilerek çalışma süresi sırasında çekirdek seçimi yapılmasına olanak tanır. Bu sayede LLM çıkarımı ve eğitim süreçlerinde önemli performans artışı sağlanmaktadır.

  • Koşullu düğümler sayesinde belirli hesaplamaların sadece gerektiğinde çalıştırılması sağlanarak performans ve esneklik artırılır.
  • CUDA Graphs için yeni IF/ELSE ve SWITCH düğümleri desteği eklendi.
  • CPU bağımlılığı azaltılarak eğitim süreci hızlandırıldı, böylece Model FLOPS Kullanımı (MFU) artırıldı.
  • Token üretim oranı artırılarak yapay zeka modellerinin daha fazla akıllı kararlar vermesi sağlandı.

Daha fazla bilgi için Koşullu Düğümler ile CUDA Graphs’ta Dinamik Kontrol Akışı makalesini inceleyebilirsiniz.


Blackwell CUTLASS Çekirdekleri ile LLM Performansı

NVIDIA, CUDA Toolkit 12.8 ile birlikte CUTLASS 3.8 sürümünü duyurdu. CUTLASS, LLM modelleri için yüksek performanslı CUDA çekirdekleri geliştirmeyi sağlayan temel bir kütüphanedir.

  • FP4, FP8, INT8, TF32, BF16 ve FP16 formatları desteklenmektedir.
  • LLM eğitimi ve çıkarımı için Grup GEMM çekirdekleri ile Blackwell üzerinde FP4 kullanarak H200’e kıyasla 5 kata kadar daha fazla performans elde edilir.

Daha fazla bilgi için Blackwell CUTLASS Gelişmiş GEMM Performansı sayfasını ziyaret edebilirsiniz.


NVIDIA Nsight Geliştirici Araçlarında Güncellemeler

NVIDIA Nsight Compute 2025.1 sürümü, Blackwell mimarisini destekleyen ilk resmi sürümdür. Yeni güncellemeler şunları içerir:

  • Tensor Bellek Trafiği Görselleştirme: Bellek kullanımını optimize etmek için Nsight Compute Hafıza Grafiği iyileştirildi.
  • Kod Profilleme İçin Yeni Araçlar: Kaynak seviyesinde talimat yürütme ve bellek erişimi bilgileri sunar.
  • Python Çağrı Yığını Desteği: Python uygulamaları üzerinden başlatılan CUDA çekirdeklerindeki hata tespiti geliştirildi.

Daha fazla bilgi için NVIDIA Nsight Compute 2025.1 sayfasına göz atabilirsiniz.


Matematik Kütüphanelerindeki Güncellemeler

CUDA Toolkit 12.8 ile aşağıdaki matematik kütüphaneleri optimize edildi:

  • cuBLAS: FP4 ve FP8 destekli yeni tensör çekirdek hızlandırmalı matris çarpımı API’leri eklendi.
  • cuSOLVER: Yeni kompleks simetrik doğrudan çözücü desteği eklendi.
  • nvJPEG: Tegra mimarisi desteği sağlandı.
  • NPP: DRIVE Thor mimarisi için optimizasyon yapıldı.

CUDA Compiler Güncellemeleri

  • GCC 14 desteği eklendi.
  • LLVM 18 tabanlı yüksek seviye optimizasyon Blackwell için varsayılan hale getirildi.
  • nvdisasm artık JSON formatında SASS ayrıştırması yapabiliyor.

Hızlandırılmış Python Güncellemeleri

  • CUDA Python, cuda.core adlı yeni bir nesne modeli sundu.
  • CUDA Core Compute Libraries (CCCL), Python’da paralel ve kooperatif algoritmaların kullanımını kolaylaştırıyor.
  • CuPy, Blackwell optimizasyonları ile genel kullanıma hazır sürümünü yayınladı.

Daha fazla bilgi için CUDA Python Geliştirme Güncellemeleri sayfasını ziyaret edebilirsiniz.


Özet

CUDA Toolkit 12.8, NVIDIA Blackwell mimarisi için tam özellik desteği sunmaktadır. Bu sürüm ile geliştiriciler en yeni GPU’lar, hızlandırılmış kütüphaneler, derleyiciler ve geliştirici araçları ile uygulamalarını daha hızlı ve verimli hale getirebilirler.

Daha fazla bilgi için CUDA Dokümantasyonu sayfasına göz atabilir, NVIDIA Deep Learning Institute (DLI) eğitim programlarını inceleyebilir ve NGC Kataloğu üzerinden en son yazılım paketlerine erişebilirsiniz.

Paylaş