هوش‌یار۲۴ | هوش مصنوعی فارسی

معرفی SAM 2: نسل جدید مدل Segment Anything Meta برای ویدئوها و تصاویر

فهرست مطالب

در ۲۹ جولای ۲۰۲۴، Meta AI نسل جدیدی از مدل Segment Anything را با نام SAM 2 معرفی کرد. SAM 2 مدلی یکپارچه برای real-time promptable object segmentation است که در ویدئوها و تصاویر عملکرد منحصر بفردی را ارائه می‌دهد. این مدل تحت مجوز Apache 2.0 به صورت منبع باز ارائه شده است. همچنین، Meta AI مجموعه داده‌ای به نام SA-V شامل حدود ۵۱,۰۰۰ ویدئوی واقعی و بیش از ۶۰۰,۰۰۰ ماسک‌ (masklet) را به اشتراک گذاشته است. SAM 2 می‌تواند هر شیء را در هر ویدئو یا تصویری segmentation کند، حتی اگر قبلاً آن شیء را ندیده باشد، و این امکان را فراهم می‌کند که بدون نیاز به تطبیق سفارشی برای موارد کاربردی متنوع استفاده شود.

مشخصات کلیدی SAM 2

SAM 2 مدل یکپارچه‌ای است که قابلیت segmentation اشیاء در تصاویر و ویدئوها را دارد. این مدل بهبودهایی نسبت به نسخه قبلی خود دارد که شامل دقت بیشتر در segmentation تصاویر و عملکرد بهتر در segmentation ویدئوها است، در حالی که زمان تعامل کمتری نیاز دارد. این مدل می‌تواند به‌صورت عمومی برای موارد کاربردی متنوعی مانند ایجاد افکت‌های ویدئویی جدید، ابزارهای annotation سریع‌تر برای داده‌های بصری و سیستم‌های computer vision بهتر استفاده شود.

کاربردهای واقعی SAM 2

SAM 2 کاربردهای متنوعی در دنیای واقعی دارد. برای مثال، خروجی‌های SAM 2 می‌توانند با مدل‌های ویدئویی مولد (generative video models) برای ایجاد افکت‌های ویدئویی جدید و کاربردهای خلاقانه ترکیب شوند.همچنین، می‌تواند در توسعه ابزارهای سریع‌تر برای annotation داده‌های بصری کمک کند و باعث بهبود سیستم‌های computer vision شود. به عنوان مثال، SAM 2 می‌تواند در زمینه‌های علمی، پزشکی، و صنایع مختلف مورد استفاده قرار گیرد.

نمونه‌هایی از کاربردهای عملی SAM 2

  • پایش حیوانات در معرض خطر در فیلم‌های گرفته شده توسط پهپادها: SAM 2 می‌تواند به محققان کمک کند تا حرکات حیوانات را دنبال کرده و داده‌های دقیق‌تری جمع‌آوری کنند.
  • annotation سریع‌تر داده‌های بصری: SAM 2 می‌تواند در سیستم‌های annotation داده‌ها استفاده شود تا زمان مورد نیاز برای annotation دستی را به طور قابل توجهی کاهش دهد.
  • تحقیقات پزشکی: SAM 2 می‌تواند در تجزیه و تحلیل تصاویر پزشکی و تشخیص بیماری‌ها مانند سرطان پوست کمک کند.

تکنولوژی پشت SAM 2

SAM 2 بر اساس معماری مدل SAM ساخته شده است، اما با بهبودهایی که امکان segmentation اشیاء در ویدئوها را فراهم می‌کند. این مدل با استفاده از یک مکانیزم حافظه که شامل یک memory encoder، memory bank و memory attention module است، اطلاعات مربوط به اشیاء و تعاملات قبلی را ذخیره کرده و از آن‌ها برای تولید پیش‌بینی‌های ماسک در تمامی فریم‌های ویدئو استفاده می‌کند.

 

مجموعه داده SA-V

مجموعه داده SA-V که توسط Meta AI منتشر شده است، شامل بیش از ۶۰۰,۰۰۰ ماسک در حدود ۵۱,۰۰۰ ویدئو است. این مجموعه داده شامل سناریوهای واقعی و متنوع از ۴۷ کشور مختلف است و حاوی annotationهایی برای کل اشیاء، قسمت‌های اشیاء و موارد چالش‌برانگیز مانند انسداد‌ها و ناپدید شدن‌ها است.

نتایج و عملکرد SAM 2

SAM 2 در مقایسه با روش‌های قبلی عملکرد بهتری در segmentation ویدئوها و تصاویر دارد. این مدل در بنچمارک‌های مختلف عملکرد بهتری نسبت به مدل‌های موجود نشان داده است و قابلیت پردازش ویدئوها به صورت بلادرنگ با سرعت ۴۴ فریم در ثانیه را دارد. SAM 2 در annotation ویدئوها حدود ۸.۴ برابر سریع‌تر از annotation دستی با استفاده از SAM است.

SAM 2

محدودیت‌ها و چالش‌ها

با وجود عملکرد قوی SAM 2، این مدل همچنان می‌تواند در سناریوهای چالش‌برانگیز مانند تغییرات چشم‌انداز دوربین، انسداد‌های طولانی، صحنه‌های شلوغ و ویدئوهای طولانی دچار مشکل شود. همچنین، در برخی موارد ممکن است SAM 2 نتواند جزئیات ریز اشیاء در حال حرکت سریع را به‌درستی پیش‌بینی کند. این مسائل با اضافه کردن پیام‌های اصلاحی در فریم‌های بعدی تا حدی قابل حل هستند.

آینده SAM 2

Meta AI امیدوار است با به اشتراک‌گذاری SAM 2 و منابع مربوط به آن، جامعه تحقیقاتی AI بتواند پیشرفت‌های بیشتری در زمینه segmentation ویدئوها و تصاویر و وظایف مرتبط با آن انجام دهد. این مدل می‌تواند به عنوان بخشی از یک سیستم AI بزرگ‌تر برای درک چندوجهی از جهان استفاده شود و در صنایع مختلف به کار گرفته شود تا ابزارهای پیشرفته‌تری برای داده‌های بصری تولید شود.

به اشتراک بگذارید

مقالات مرتبط

پیمایش به بالا