NVIDIA Blackwell prezentuje się w nowych testach InferenceMAX, oferując wysoką wydajność i efektywność
InferenceMax v1 to pierwszy niezależny test mierzący całkowity koszt obliczeniowy w różnych modelach i rzeczywistych scenariuszach. Optymalizacja oprogramowania NVIDIA B200 pozwala uzyskać dwa centy za milion tokenów w gpt-oss, zapewniając 5-krotnie niższy koszt na token w zaledwie 2 miesiące. Najlepsza przepustowość i interaktywność: NVIDIA B200 wyznacza trendy, oferując 60 000 tokenów na sekundę na GPU i 1000 tokenów na sekundę na użytkownika w gpt-oss z najnowszym stosem NVIDIA TensorRT-LLM.
Nowe, niezależne testy porównawcze InferenceMAX v1 jako pierwsze mierzą całkowity koszt obliczeniowy w rzeczywistych scenariuszach. Jakie są rezultaty? Platforma NVIDIA Blackwell zapewnia niezrównaną wydajność i najlepszą ogólną efektywność dla fabryk AI.
Inwestycja 5 milionów dolarów w system NVIDIA GB200 NVL72 może wygenerować 75 milionów dolarów przychodów z tokenów. To 15-krotny zwrot z inwestycji (ROI), nowa ekonomia wnioskowania.
InferenceMAX v1
InferenceMAX v1, nowy benchmark firmy SemiAnalysis, to najnowszy dowód na wiodącą pozycję Blackwell w dziedzinie wnioskowania. Uruchamia popularne modele na wiodących platformach, mierzy wydajność w szerokim zakresie przypadków użycia i publikuje wyniki, które każdy może zweryfikować.
Dlaczego takie testy porównawcze są ważne?
Ponieważ współczesna sztuczna inteligencja to nie tylko kwestia szybkości, lecz także efektywności i ekonomii w dużej skali. Wraz z przejściem modeli od jednorazowych odpowiedzi do wieloetapowego wnioskowania i korzystania z narzędzi, liczba generowanych tokenów na zapytanie rośnie wielokrotnie, co znacząco zwiększa zapotrzebowanie na moc obliczeniową.
Współpraca firmy NVIDIA w zakresie oprogramowania open source z OpenAI (gpt-oss 120B), Meta (Llama 3 70B) i DeepSeek AI (DeepSeek R1) pokazuje, jak modele oparte na społecznościach rozwijają najnowocześniejsze wnioskowanie i wydajność.
Współpracując z tymi wiodącymi twórcami modeli i społecznością open source, NVIDIA zapewnia optymalizację najnowszych modeli pod kątem największej na świecie infrastruktury wnioskowania AI. Działania te odzwierciedlają szersze zaangażowanie w otwarte ekosystemy, gdzie wspólne innowacje przyspieszają postęp dla wszystkich.
Ścisła współpraca ze społecznościami FlashInfer, SGLang i vLLM umożliwia tworzenie ulepszeń jądra i środowiska uruchomieniowego, które napędzają te modele w dużej skali.
Optymalizacja oprogramowania zapewnia stały wzrost wydajności
NVIDIA stale poprawia wydajność poprzez optymalizację sprzętu i oprogramowania. Początkowa wydajność gpt-oss-120b w systemie NVIDIA DGX Blackwell B200 z biblioteką NVIDIA TensorRT LLM wiodła na rynku, ale zespoły NVIDIA i społeczność znacząco zoptymalizowały TensorRT LLM pod kątem dużych modeli językowych open source.
Wydanie TensorRT LLM v1.0 to nowy krok w przyspieszaniu i zwiększaniu responsywności dużych modeli AI dla wszystkich.
Dzięki zaawansowanym technikom paralelizacji, model ten wykorzystuje system B200 i dwukierunkową przepustowość przełącznika NVIDIA NVLink o wartości 1800 GB/s, aby radykalnie poprawić wydajność modelu gpt-oss-120b.
Dodatkowo nowo wydany model gpt-oss-120b-Eagle3-v2 wprowadza dekodowanie spekulatywne – inteligentną metodę, która przewiduje wiele tokenów jednocześnie. Zmniejsza to opóźnienia i zapewnia jeszcze szybsze rezultaty, potrajając przepustowość do 100 tokenów na sekundę na użytkownika (TPS/użytkownika) — zwiększając prędkość na procesor GPU z 6000 do 30 000 tokenów.
W przypadku gęstych modeli AI, takich jak Llama 3.3 70B, które wymagają znacznych zasobów obliczeniowych ze względu na dużą liczbę parametrów i fakt, że wszystkie parametry są wykorzystywane jednocześnie podczas wnioskowania, NVIDIA Blackwell B200 wyznacza nowy standard wydajności w testach InferenceMAX v1.
Blackwell zapewnia ponad 10 000 TPS na GPU przy 50 TPS na interaktywność użytkownika, 4-krotnie wyższą przepustowość na GPU w porównaniu z GPU NVIDIA H200.
Wydajność napędza wartość
Wskaźniki takie jak liczba tokenów na wat, koszt na milion tokenów i TPS na użytkownika mają równie duże znaczenie jak przepustowość. W rzeczywistości, w przypadku fabryk AI o ograniczonym zużyciu energii, Blackwell zapewnia 10-krotnie większą przepustowość na megawat w porównaniu z poprzednią generacją, co przekłada się na wyższe przychody z tokenów.
Koszt na token ma kluczowe znaczenie dla oceny wydajności modelu AI, bezpośrednio wpływając na koszty operacyjne. Architektura NVIDIA Blackwell obniżyła koszt miliona tokenów 15-krotnie w porównaniu z poprzednią generacją, co przełożyło się na znaczne oszczędności i sprzyjało szerszemu wdrażaniu sztucznej inteligencji oraz innowacjom.
Wydajność wielowymiarowa
InferenceMAX wykorzystuje granicę Pareto, krzywą pokazującą najlepsze kompromisy między różnymi czynnikami, takimi jak przepustowość centrum danych i responsywność do mapowania wydajności.
Odzwierciedla ona sposób, w jaki NVIDIA Blackwell równoważy pełne spektrum priorytetów produkcyjnych: koszty, efektywność energetyczną, przepustowość i responsywność. Ta równowaga zapewnia najwyższy zwrot z inwestycji (ROI) w rzeczywistych obciążeniach.
Systemy optymalizujące się tylko pod kątem jednego trybu lub scenariusza mogą osiągać szczytową wydajność w izolacji, ale ekonomia takiego rozwiązania nie jest skalowalna. Pełnozakresowa konstrukcja Blackwell zapewnia wydajność i wartość w produkcji.