Yapay zeka odaklı uygulamalardaki patlama, geliştiriciler için benzersiz zorluklar doğurdu. Geliştiriciler, en son performansı sunarken operasyonel karmaşıklığı ve maliyetleri yönetmek zorunda kalıyorlar.
NVIDIA, çiplerden sistemlere ve yazılıma kadar uzanan tam yığın inovasyonları ile yapay zeka çıkarımını daha hızlı, verimli ve ölçeklenebilir hale getirerek geliştiricileri güçlendiriyor.
Yüksek Çıkışlı, Düşük Gecikmeli Çıkarımı Kolayca Dağıtın Altı yıl önce NVIDIA, yüksek verimli, düşük gecikmeli üretim uygulamaları geliştiren geliştiricilere yönelik özel bir yapay zeka çıkarım sunucusu oluşturmaya başladı. O dönemde geliştiriciler, çerçeveye özel sunucularla uğraşıyor, operasyonel maliyetleri artırıyor ve katı hizmet seviyelerini karşılamakta zorlanıyordu.
Bu sorunu çözmek için NVIDIA, herhangi bir yapay zeka çerçevesinden modelleri çalıştırabilen açık kaynaklı bir platform olan NVIDIA Triton Inference Server’ı geliştirdi. Triton, çerçeveye özel çıkarım sunucularını birleştirerek yapay zeka çıkarım dağıtımını kolaylaştırdı ve tahmin kapasitesini artırdı. Günümüzde yüzlerce lider kuruluş tarafından kullanılan Triton, NVIDIA’nın en yaygın benimsenen açık kaynak projelerinden biri haline geldi.
Triton’un yanı sıra NVIDIA, geniş bir yapay zeka çıkarım çözüm ekosistemi sunuyor. Güçlü ve özelleştirilebilir araçlar arayan geliştiriciler için NVIDIA TensorRT, yüksek performanslı bir derin öğrenme çıkarım kütüphanesi sunarken, NVIDIA NIM mikro hizmetleri, yapay zeka modellerinin bulut, veri merkezi veya iş istasyonları arasında esnek bir şekilde dağıtılmasını sağlıyor.
Yapay Zeka Çıkarım İş Yükleri için Optimizasyonlar Günümüzde çıkarım, yüksek performanslı altyapı ve verimli yazılım gerektiren tam yığın bir sorundur. Model boyutları büyümeye devam ederken, gecikme kısıtlamaları artıyor ve yapay zeka hizmetlerinden yararlanan kullanıcı sayısı hızla artıyor. NVIDIA, yapay zeka çıkarım performansını artırmak için model paralelliği, karma hassasiyetli eğitim, budama, niceleme ve veri ön işleme optimizasyonları gibi yöntemleri en yeni çıkarım teknolojileriyle birleştiriyor.
TensorRT-LLM kütüphanesi, büyük dil modellerinin (LLM’ler) çıkarım performansını hızlandıran en son özellikleri içermektedir.
Prefill ve KV Önbellek Optimizasyonları
- KV Önbellek Erken Kullanımı: Sistem istemlerini tekrar kullanarak ilk token süresini (TTFT) 5 kata kadar hızlandırır.
- Bölünmüş Prefill: Ön işleme aşamasını küçük görevlere bölerek GPU kullanımını artırır ve gecikmeyi azaltır.
Kod Çözme Optimizasyonu
- Uzun Sekanslar için Çok Bloklu Dikkat: Uzun giriş dizilerini işlerken GPU kullanımını en üst düzeye çıkarır ve sistem verimini 3 kattan fazla artırır.
- Spekülatif Kod Çözme: Küçük bir taslak model kullanarak çıkarım verimini 3,6 kata kadar artırır.
Çoklu GPU Çıkarımı
- MultiShot İletişim Protokolü: Çoklu GPU senaryolarında veri iletim adımlarını azaltarak düşük gecikmeli çıkarımı ölçeklenebilir hale getirir.
- Boru Hattı Paralelliği: Llama 3.1 modellerinde %50 daha yüksek verim sağlar.
Niceleme ve Düşük Hassasiyetli Hesaplama
- Özel FP8 Niceleme: NVIDIA TensorRT Model Optimizer, FP8 niceleme tarifi ile %44 daha yüksek verim sunarak gecikmeyi azaltır ve donanım gereksinimlerini düşürür.
Çıkarım Performansının Değerlendirilmesi NVIDIA Blackwell, en son MLPerf Çıkarım testlerinde NVIDIA H100 Tensor Core GPU’ya kıyasla 4 kat daha fazla performans sundu. NVIDIA H200 Tensor Core GPU, Llama 2 70B ve Stable Diffusion XL gibi testlerde mükemmel sonuçlar elde etti.
Yapay Zeka Çıkarımının Geleceği Yapay zeka çıkarım teknolojileri hızla gelişiyor. Daha büyük modeller, daha gelişmiş GPU’lar gerektiriyor. NVIDIA Blackwell mimarisi, ikinci nesil Transformer Motoru ve beşinci nesil Tensor Çekirdekleri ile yeni nesil üretken yapay zeka çıkarımını desteklemek için tasarlandı.
NVIDIA GB200 NVL72 raf ölçeğinde çözüm, 72-GPU NVLink alanı oluşturarak tek bir devasa GPU gibi çalışmasını sağlar. GPT-MoE 1.8T gerçek zamanlı çıkarımı için önceki nesil Hopper GPU’ya kıyasla 30 kat iyileştirme sağlar.
Yapay zeka çıkarımı, veri merkezi ölçekli hesaplama performansındaki sürekli ilerlemelere dayanır. NVIDIA platformu, yapay zeka ekosisteminin sınırları zorlamaya devam edebilmesi için hızlı bir yıllık inovasyon döngüsüyle evrimleşmektedir.



