
رکورد جدید انویدیا با پردازندههای گرافیکی Blackwell | سد 1000 TPS با متا Llama 4 Maverick شکسته شد

رانویدیا با استفاده از پردازندههای Blackwell موفق شد به سرعت بیسابقهای در تولید توکن دست یابد و رکورد 1000 توکن در ثانیه را با مدل Llama 4 Maverick متا بشکند. انویدیا اعلام کرد که با بهرهگیری از معماری جدید Blackwell، محدودیتهای عملکردی هوش مصنوعی را پشت سر گذاشته است. این دستاورد بزرگ حاصل مجموعهای از بهینهسازیهای نرمافزاری و توان بالای سختافزاری است. تا انتهای خبر با ویکوگیم همراه باشید.
بهینهسازی پیشرفته Blackwell برای مدلهای زبانی بزرگ، رقابت در سرعت تولید توکن را به سطح تازهای برد
انویدیا که مدتهاست در حوزه هوش مصنوعی پیشرفتهایی چشمگیر داشته است، اکنون با راهکارهای مبتنی بر Blackwell، جهشی بزرگ برداشت. در یک پست جدید، این شرکت اعلام کرد که موفق شد به سرعت 1000 توکن در ثانیه (TPS) دست یابد. رکورد یادشده را انویدیا تنها با استفاده از یک گره DGX B200 و هشت GPU از نوع Blackwell بهدست آورد. این آزمایش را بر روی مدل Llama 4 Maverick متعلق به شرکت متا انجام داد؛ مدلی با 400 میلیارد پارامتر که در شمار بزرگترین مدلهای موجود قرار دارد. این عملکرد نشان میدهد که اکوسیستم هوش مصنوعی انویدیا تأثیری جدی بر این حوزه دارد.
با این پیکربندی، اکنون انویدیا میتواند در یک سرور Blackwell به سرعت 72,000 توکن در ثانیه برسد. همانطور که جنسن هوانگ، مدیرعامل انویدیا، در سخنرانی خود در کامپیوتکس اشاره کرد، از این پس شرکتها برای نمایش پیشرفت در هوش مصنوعی، سرعت تولید توکن را بهعنوان شاخصی کلیدی ارائه خواهند داد. به نظر میرسد انویدیا تمرکز کامل خود را بر همین موضوع گذاشته است.
راز عبور از مرز TPS: بهینهسازی با TensorRT-LLM و مدل پیشنویس پیشبینی
انویدیا فاش کرد که برای عبور از محدودیت سرعت تولید توکن، از بهینهسازیهای نرمافزاری گستردهای استفاده میکند؛ مانند بهرهگیری از TensorRT-LLM و یک مدل پیشنویس (draft) در روش «رمزگشایی پیشگویانه» (Speculative Decoding) که چهار برابر سرعت عملکرد را افزایش میدهد.
انویدیا در این پست، جزئیات مختلفی از فرایند بهینهسازی Blackwell برای مدلهای زبانی بسیار بزرگ شرح میدهد. در این میان، تکنیک رمزگشایی پیشگویانه نقش کلیدی را بر عهده دارد. در این روش، یک مدل کوچکتر و سریعتر چند توکن آینده را بهصورت پیشنویس پیشبینی میکند و مدل بزرگتر نیز آنها را بهطور همزمان تأیید میکند. انویدیا این روش را چنین توصیف میکند:
رمزگشایی پیشگویانه یک تکنیک محبوب برای افزایش سرعت استنتاج مدلهای زبانی بزرگ (LLM) بدون افت کیفیت متن تولیدشده است. این روش با استفاده از یک مدل پیشنویس کوچکتر و سریعتر، مجموعهای از توکنهای پیشنهادی را تولید میکند که سپس به صورت موازی توسط مدل هدف بزرگتر تأیید میشوند.
سرعت افزایشیافته از آنجا حاصل میشود که مدل هدف در یک مرحله میتواند چند توکن را تأیید کند، اگرچه هزینه آن استفاده اضافه از مدل پیشنویس است.
استفاده از معماری نرمافزاری EAGLE3 به جای معماری سختافزاری
انویدیا همچنین از معماری EAGLE3 استفاده میکند. این معماری، یک ساختار در سطح نرمافزار است که با هدف افزایش سرعت استنتاج مدلهای زبانی بزرگ طراحی میشود، نه یک معماری سختافزاری برای GPU. این شرکت تأکید میکند که با این دستاورد، رهبری خود را در حوزه هوش مصنوعی به نمایش خواهد گذاشت. اکنون معماری Blackwell برای مدلهایی به بزرگی Llama 4 Maverick بهینه است. بدون شک این یک موفقیت بزرگ برای انویدیا محسوب میشود و گامی اساسی در راستای تعامل سریعتر و روانتر با هوش مصنوعی به شمار میرود.