رکورد جدید انویدیا با پردازنده‌های گرافیکی Blackwell | سد 1000 TPS با متا Llama 4 Maverick شکسته شد
رکورد جدید انویدیا با پردازنده‌های گرافیکی Blackwell | سد 1000 TPS با متا Llama 4 Maverick شکسته شد

رانویدیا با استفاده از پردازنده‌های Blackwell موفق شد به سرعت بی‌سابقه‌ای در تولید توکن دست یابد و رکورد 1000 توکن در ثانیه را با مدل Llama 4 Maverick متا بشکند. انویدیا اعلام کرد که با بهره‌گیری از معماری جدید Blackwell، محدودیت‌های عملکردی هوش مصنوعی را پشت سر گذاشته است. این دستاورد بزرگ حاصل مجموعه‌ای از بهینه‌سازی‌های نرم‌افزاری و توان بالای سخت‌افزاری است. تا انتهای خبر با ویکوگیم همراه باشید.


بهینه‌سازی پیشرفته Blackwell برای مدل‌های زبانی بزرگ، رقابت در سرعت تولید توکن را به سطح تازه‌ای برد

انویدیا که مدت‌هاست در حوزه هوش مصنوعی پیشرفت‌هایی چشمگیر داشته است، اکنون با راهکارهای مبتنی بر Blackwell، جهشی بزرگ برداشت. در یک پست جدید، این شرکت اعلام کرد که موفق شد به سرعت 1000 توکن در ثانیه (TPS) دست یابد. رکورد یادشده را انویدیا تنها با استفاده از یک گره DGX B200 و هشت GPU از نوع Blackwell به‌دست آورد. این آزمایش را بر روی مدل Llama 4 Maverick متعلق به شرکت متا انجام داد؛ مدلی با 400 میلیارد پارامتر که در شمار بزرگ‌ترین مدل‌های موجود قرار دارد. این عملکرد نشان می‌دهد که اکوسیستم هوش مصنوعی انویدیا تأثیری جدی بر این حوزه دارد.

با این پیکربندی، اکنون انویدیا می‌تواند در یک سرور Blackwell به سرعت 72,000 توکن در ثانیه برسد. همان‌طور که جن‌سن هوانگ، مدیرعامل انویدیا، در سخنرانی خود در کامپیوتکس اشاره کرد، از این پس شرکت‌ها برای نمایش پیشرفت در هوش مصنوعی، سرعت تولید توکن را به‌عنوان شاخصی کلیدی ارائه خواهند داد. به نظر می‌رسد انویدیا تمرکز کامل خود را بر همین موضوع گذاشته است.

رکورد جدید انویدیا با پردازنده‌های گرافیکی Blackwell | سد 1000 TPS با متا Llama 4 Maverick شکسته شد

راز عبور از مرز TPS: بهینه‌سازی با TensorRT-LLM و مدل پیش‌نویس پیش‌بینی

انویدیا فاش کرد که برای عبور از محدودیت سرعت تولید توکن، از بهینه‌سازی‌های نرم‌افزاری گسترده‌ای استفاده می‌کند؛ مانند بهره‌گیری از TensorRT-LLM و یک مدل پیش‌نویس (draft) در روش «رمزگشایی پیش‌گویانه» (Speculative Decoding) که چهار برابر سرعت عملکرد را افزایش می‌دهد.

انویدیا در این پست، جزئیات مختلفی از فرایند بهینه‌سازی Blackwell برای مدل‌های زبانی بسیار بزرگ شرح می‌دهد. در این میان، تکنیک رمزگشایی پیش‌گویانه نقش کلیدی را بر عهده دارد. در این روش، یک مدل کوچک‌تر و سریع‌تر چند توکن آینده را به‌صورت پیش‌نویس پیش‌بینی می‌کند و مدل بزرگ‌تر نیز آن‌ها را به‌طور همزمان تأیید می‌کند. انویدیا این روش را چنین توصیف می‌کند:

رمزگشایی پیش‌گویانه یک تکنیک محبوب برای افزایش سرعت استنتاج مدل‌های زبانی بزرگ (LLM) بدون افت کیفیت متن تولیدشده است. این روش با استفاده از یک مدل پیش‌نویس کوچک‌تر و سریع‌تر، مجموعه‌ای از توکن‌های پیشنهادی را تولید می‌کند که سپس به صورت موازی توسط مدل هدف بزرگ‌تر تأیید می‌شوند.

سرعت افزایش‌یافته از آن‌جا حاصل می‌شود که مدل هدف در یک مرحله می‌تواند چند توکن را تأیید کند، اگرچه هزینه آن استفاده اضافه از مدل پیش‌نویس است.

استفاده از معماری نرم‌افزاری EAGLE3 به جای معماری سخت‌افزاری

انویدیا همچنین از معماری EAGLE3 استفاده می‌کند. این معماری، یک ساختار در سطح نرم‌افزار است که با هدف افزایش سرعت استنتاج مدل‌های زبانی بزرگ طراحی می‌شود، نه یک معماری سخت‌افزاری برای GPU. این شرکت تأکید می‌کند که با این دستاورد، رهبری خود را در حوزه هوش مصنوعی به نمایش خواهد گذاشت. اکنون معماری Blackwell برای مدل‌هایی به بزرگی Llama 4 Maverick بهینه است. بدون شک این یک موفقیت بزرگ برای انویدیا محسوب می‌شود و گامی اساسی در راستای تعامل سریع‌تر و روان‌تر با هوش مصنوعی به شمار می‌رود.

اشتراک گذاری