کشفی جدید در شبکه‌های عصبی MIT: خلق و ویرایش تصاویر بدون نیاز به ژنراتور

دانشمندان موسسه فناوری ماساچوست (MIT) شیوه‌ای نوین را برای فشرده‌سازی و بازنمایی داده‌های تصویری کشف کرده‌اند که نیازی به ژنراتور ندارد. این اکتشاف می‌تواند انقلاب عظیمی در صنعت هوش مصنوعی و بینایی ماشین ایجاد کند.

شبکه‌های عصبی مخصوص MIT

تولید تصویر توسط هوش مصنوعی معمولاً با استفاده از شبکه‌های عصبی و ژنراتورها صورت می‌گیرد، اما محققان MIT متدی ارائه کرده‌اند که نشان‌دهنده قابلیت‌های فراتر از حد انتظار این شبکه‌ها، تحت عنوان توکنیزر، می‌باشد. این پژوهشگرها موفق شده‌اند با استفاده از توکنیزرهای یک‌بعدی، تصاویری را بدون نیاز به ژنراتور خلق کنند.

برخلاف نسل‌های پیشین که تصویر را به آرایه‌ای از توکن‌های 16×16 تقسیم می‌کردند، توکنیزرهای یک‌بعدی قادرند با تعداد توکن بسیار کمتری، اطلاعات کل تصویر را ثبت کنند. به عنوان مثال، تصویری 256×256 پیکسل به فقط 32 عدد، معروف به توکن، خلاصه می‌شود. این امر شبیه به دانشی جدید است که در آن امکانات حضور 4000 واژه‌ی انتزاعی برای توصیف یک تصویر به دست آمده است.

یافته‌های MIT نشان می‌دهند که با اصلاح این توکن‌ها، ویژگی‌هایی مانند وضوح، نوردهی و حتی شکل ظاهری عناصر تصویر قابل تغییر است. بیش از آن، می‌توان با استفاده از توکنیزر و دی‌توکنیزر، و با کمک شبکه عصبی CLIP، تصاویری جدید و یا حتی تصاویر مخدوش را بازیابی کرد.

تحقیقات نشان می‌دهد که اجتناب از استفاده از ژنراتور برای برخی وظایف می‌تواند باعث کاهش قابل توجه هزینه‌های محاسباتی شود. تیم تحقیقاتی MIT دریافت که ترکیب توکنیزر با مدل CLIP می‌تواند به طور موثری تصاویر جدید تولید کرده و حتی اجزای گمشده تصاویر را پر کند؛ بدون اینکه نیاز به آموزش مدل‌های پیچیده ژنراتور باشد.

نتیجه‌گیری

این دستاورد می‌تواند منجر به استفاده‌های متنوعی فراتر از دنیای بینایی ماشین شود. به عنوان مثال، می‌توان از این تکنیک برای فشرده‌سازی و تجزیه و تحلیل داده‌های روبوتیک و خودروهای خودران استفاده کرد. این روش نشان‌دهنده قدرت واقعی توکنیزرهاست و به نوعی، تعریف جدیدی از نقش آنها در صنعت هوش مصنوعی ارائه می‌دهد.

پرسش‌های متداول


توکنیزر یک‌بعدی تصویری بزرگ را به تعداد کمی از توکن‌ها خلاصه می‌کند، که هر کدام اطلاعات جامع‌تری از کل تصویر ارائه می‌دهند.


با استفاده از ترکیب توکنیزر با دی‌توکنیزر، و راهنمایی مدل CLIP، می‌توان تصاویر جدید را از صفر و بدون نیاز به ژنراتور ایجاد کرد.


کیفیت تصاویر با بهینه‌سازی توکن‌ها و توانایی تغییر ویژگی‌های تصویر نظیر وضوح و نوردهی حفظ و حتی بهبود می‌یابد.

Rasa

مقالات مرتبط

لیست پخش هوشمند: تجربه‌ای جدید در اسپاتیفای

مطالب مرتبط: سام آلتمن از نسخه جدید ChatGPT با حالت بزرگسالان و…

دسامبر 11, 2025

آشنایی با ابزار مدیریت توسعه‌دهنده و اهمیت آن در صنعت نرم‌افزار

مطالب مرتبط: فروش سهام OpenAI به ارزش ۶ میلیارد دلار به سافت‌بانک…

دسامبر 11, 2025

جزئیات کامل سرمایه‌گذاری ۳۵ میلیارد دلاری آمازون در هند تا سال ۲۰۳۰

مطالب مرتبط: چگونه با ChatGPT سلفی خود را به یک **پرتره هیولایی…

دیدگاهتان را بنویسید