دانشمندان موسسه فناوری ماساچوست (MIT) شیوهای نوین را برای فشردهسازی و بازنمایی دادههای تصویری کشف کردهاند که نیازی به ژنراتور ندارد. این اکتشاف میتواند انقلاب عظیمی در صنعت هوش مصنوعی و بینایی ماشین ایجاد کند.

تولید تصویر توسط هوش مصنوعی معمولاً با استفاده از شبکههای عصبی و ژنراتورها صورت میگیرد، اما محققان MIT متدی ارائه کردهاند که نشاندهنده قابلیتهای فراتر از حد انتظار این شبکهها، تحت عنوان توکنیزر، میباشد. این پژوهشگرها موفق شدهاند با استفاده از توکنیزرهای یکبعدی، تصاویری را بدون نیاز به ژنراتور خلق کنند.
برخلاف نسلهای پیشین که تصویر را به آرایهای از توکنهای 16×16 تقسیم میکردند، توکنیزرهای یکبعدی قادرند با تعداد توکن بسیار کمتری، اطلاعات کل تصویر را ثبت کنند. به عنوان مثال، تصویری 256×256 پیکسل به فقط 32 عدد، معروف به توکن، خلاصه میشود. این امر شبیه به دانشی جدید است که در آن امکانات حضور 4000 واژهی انتزاعی برای توصیف یک تصویر به دست آمده است.
یافتههای MIT نشان میدهند که با اصلاح این توکنها، ویژگیهایی مانند وضوح، نوردهی و حتی شکل ظاهری عناصر تصویر قابل تغییر است. بیش از آن، میتوان با استفاده از توکنیزر و دیتوکنیزر، و با کمک شبکه عصبی CLIP، تصاویری جدید و یا حتی تصاویر مخدوش را بازیابی کرد.
تحقیقات نشان میدهد که اجتناب از استفاده از ژنراتور برای برخی وظایف میتواند باعث کاهش قابل توجه هزینههای محاسباتی شود. تیم تحقیقاتی MIT دریافت که ترکیب توکنیزر با مدل CLIP میتواند به طور موثری تصاویر جدید تولید کرده و حتی اجزای گمشده تصاویر را پر کند؛ بدون اینکه نیاز به آموزش مدلهای پیچیده ژنراتور باشد.
نتیجهگیری
این دستاورد میتواند منجر به استفادههای متنوعی فراتر از دنیای بینایی ماشین شود. به عنوان مثال، میتوان از این تکنیک برای فشردهسازی و تجزیه و تحلیل دادههای روبوتیک و خودروهای خودران استفاده کرد. این روش نشاندهنده قدرت واقعی توکنیزرهاست و به نوعی، تعریف جدیدی از نقش آنها در صنعت هوش مصنوعی ارائه میدهد.
پرسشهای متداول
توکنیزر یکبعدی تصویری بزرگ را به تعداد کمی از توکنها خلاصه میکند، که هر کدام اطلاعات جامعتری از کل تصویر ارائه میدهند.
با استفاده از ترکیب توکنیزر با دیتوکنیزر، و راهنمایی مدل CLIP، میتوان تصاویر جدید را از صفر و بدون نیاز به ژنراتور ایجاد کرد.
کیفیت تصاویر با بهینهسازی توکنها و توانایی تغییر ویژگیهای تصویر نظیر وضوح و نوردهی حفظ و حتی بهبود مییابد.


