Oracle i AMD rozszerzają współpracę, by umożliwić wdrażanie AI na nową skalę
Począwszy od 3. kwartału kalendarzowego 2026 r., Oracle satnie się pierwszym hiperskalerem oferującym publicznie dostępny superklaster AI oparty na 50 000 procesorach graficznych AMD Instinct™ serii MI450
Oracle i AMD ogłosiły znaczące rozszerzenie swojej wieloletniej współpracy, której celem jest umożliwienie klientom skalowania możliwości i inicjatyw w obszarze sztucznej inteligencji.
W ramach tej kooperacji Oracle Cloud Infrastructure (OCI) zostanie partnerem uruchamiającym pierwszy publicznie dostępny superklaster AI oparty na procesorach graficznych AMD Instinct™ serii MI450. Początkowe wdrożenie obejmie 50 000 GPU i rozpocznie się w trzecim kwartale kalendarzowym 2026 roku, a następnie będzie dalej rozbudowywane w 2027 roku i kolejnych latach.
Ogłoszenie to stanowi kontynuację dotychczasowej współpracy Oracle i AMD w zakresie dostarczania klientom platform GPU AMD Instinct w środowisku OCI — od uruchomienia instancji opartych na układach AMD Instinct MI300X w 2024 roku, po osiągnięcie powszechnej dostępności OCI Compute z procesorami graficznymi AMD Instinct MI355X. Rozwiązania te będą dostępne w ramach superklastra OCI o skali zetta.
Zapotrzebowanie na wydajność sztucznej inteligencji na dużą skalę rośnie, ponieważ modele sztucznej inteligencji nowej generacji przekraczają możliwości obecnych klastrów AI. Aby je trenować, klienci potrzebują elastycznych, otwartych rozwiązań obliczeniowych zaprojektowanych z myślą o ekstremalnej skalowalności i wydajności. Planowane nowe superklastry AI OCI będą oparte na konstrukcji rackowej AMD „Helios”, która obejmuje procesory graficzne AMD Instinct serii MI450, procesory AMD EPYC™ nowej generacji o nazwie kodowej „Venice” oraz zaawansowaną technologię sieciową AMD Pensando™ nowej generacji o nazwie kodowej „Vulcano”. Ta zoptymalizowana pionowo architektura o rozmiarach rack została zaprojektowana z myślą o zapewnieniu maksymalnej wydajności, skalowalności i energooszczędności w celu szkolenia i wnioskowania AI na dużą skalę.
„Nasi klienci tworzą jedne z najbardziej ambitnych aplikacji AI na świecie, a to wymaga solidnej, skalowalnej i wysokowydajnej infrastruktury” – powiedział Mahesh Thiagarajan, wiceprezes wykonawczy Oracle Cloud Infrastructure. „Łącząc najnowsze innowacje procesorów AMD z bezpieczną, elastyczną platformą OCI i zaawansowanymi funkcjami sieciowymi opartymi na Oracle Acceleron, klienci mogą śmiało przekraczać granice. Dzięki naszej trwającej dekadę współpracy z AMD – od procesorów EPYC po akceleratory AMD Instinct – nieustannie dostarczamy najlepszą w swojej klasie, otwartą, bezpieczną i skalowalną platformę chmurową, aby sprostać potrzebom klientów w nowej erze AI”.
GPU AMD Instinct serii MI450 trafią do OCI
Instancje oparte na procesorach graficznych AMD Instinct serii MI450 zostały zaprojektowane z myślą o zapewnieniu wysokiej wydajności, elastycznych opcji wdrażania w chmurze oraz szerokiego wsparcia dla oprogramowania open source.
Stanowią one solidną podstawę dla klientów uruchamiających najbardziej zaawansowane modele językowe, rozwiązania generatywnej sztucznej inteligencji oraz obciążenia wysokowydajnych obliczeń (HPC).
Dzięki wykorzystaniu GPU AMD Instinct serii MI450 w OCI klienci będą mogli skorzystać z następujących możliwości:
Przełomowe obliczenia i pamięć:
Pomaga klientom osiągać szybsze wyniki, obsługiwać bardziej złożone obciążenia i zmniejszać potrzebę partycjonowania modeli poprzez zwiększenie przepustowości pamięci dla modeli szkoleniowych AI. Każdy procesor graficzny AMD Instinct serii MI450 zapewni do 432 GB pamięci HBM4 i przepustowość pamięci 20 TB/s, umożliwiając klientom trenowanie i wnioskowanie modeli o 50 procent większych niż poprzednie generacje, oparte wyłącznie na pamięci.
Zoptymalizowana przez AMD konstrukcja rackowa „Helios”:
Umożliwia klientom skalowanie, optymalizując gęstość wydajności, koszty i energooszczędność dzięki gęstym, chłodzonym cieczą rackom z 72 procesorami graficznymi. Konstrukcja rackowa AMD „Helios” integruje łączność skalowalną UALoE i skalowalną sieć opartą na standardzie Ethernet Ultra Ethernet Consortium (UEC), aby zminimalizować opóźnienia i zmaksymalizować przepustowość w modułach i rackach. Wydajny węzeł główny: Pomaga klientom zmaksymalizować wykorzystanie klastra i usprawnić przepływy pracy na dużą skalę poprzez przyspieszenie koordynacji zadań i przetwarzania danych w architekturze składającej się z procesorów AMD EPYC nowej generacji o nazwie kodowej „Venice”. Ponadto procesory EPYC oferują poufne możliwości obliczeniowe i wbudowane funkcje bezpieczeństwa, pomagając kompleksowo chronić wrażliwe obciążenia AI.
Sieć konwergentna akcelerowana przez DPU:
Umożliwia pobieranie danych z prędkością łącza, zwiększając wydajność i poprawiając bezpieczeństwo infrastruktury AI i chmury na dużą skalę. Zbudowana na w pełni programowalnej technologii AMD Pensando DPU, sieć konwergentna akcelerowana przez DPU zapewnia bezpieczeństwo i wydajność niezbędne centrom danych do obsługi nowej ery szkoleń AI, wnioskowania i obciążeń chmurowych.
Skalowalna sieć dla AI:
Umożliwia klientom wykorzystanie ultraszybkiego, rozproszonego trenowania oraz zoptymalizowanej komunikacji zbiorowej dzięki otwartej, przyszłościowej strukturze sieciowej. Każdy procesor graficzny może zostać wyposażony w maksymalnie trzy karty sieciowe AMD Pensando „Vulcano” AI-NIC o przepustowości 800 Gb/s, zapewniając bezstratną, wysokowydajną i programowalną łączność obsługującą zaawansowane standardy RoCE i UEC.
Innowacyjna sieć UALink i UALoE:
Rozwiązanie to pomaga klientom efektywnie skalować obciążenia, ograniczać wąskie gardła pamięci oraz orkiestrację dużych modeli liczących wiele bilionów parametrów. Skalowalna architektura minimalizuje liczbę przeskoków i opóźnienia, eliminując konieczność routingu przez procesory CPU. Umożliwia również bezpośrednią, sprzętowo spójną komunikację sieciową oraz współdzielenie pamięci między procesorami graficznymi w obrębie jednej szafy rack za pośrednictwem protokołu UALink transportowanego przez strukturę UALoE.
UALink to otwarty, wysokoprzepustowy standard połączeń zaprojektowany specjalnie dla akceleratorów AI i wspierany przez szeroki ekosystem branżowy. Dzięki temu klienci zyskują elastyczność, skalowalność i niezawodność niezbędne do uruchamiania najbardziej wymagających obciążeń AI na infrastrukturze opartej na otwartych standardach.
Oprogramowanie AMD ROCm™ o otwartym kodzie źródłowym:
Umożliwia szybkie wprowadzanie innowacji, zapewnia swobodę wyboru dostawcy oraz upraszcza migrację istniejących obciążeń AI i HPC. Klienci otrzymują otwarte, elastyczne środowisko programistyczne obejmujące popularne frameworki, biblioteki, kompilatory oraz środowiska uruchomieniowe.
Zaawansowane partycjonowanie i wirtualizacja:
Umożliwia klientom bezpieczne współdzielenie klastrów oraz przydzielanie zasobów GPU zgodnie z wymaganiami poszczególnych obciążeń. Rozwiązanie to zapewnia bezpieczne i efektywne wykorzystanie infrastruktury dzięki precyzyjnemu partycjonowaniu GPU i podów, wirtualizacji SR-IOV oraz solidnemu wsparciu dla środowisk wielodzierżawnych.
Źródło: AMD, Oracle and AMD Expand Partnership to Help Customers Achieve Next-Generation AI Scale
Zapraszamy na TEK.day Wrocław, 19 marca 2026. Zapisz się tutaj!
