در ۲۹ جولای ۲۰۲۴، Meta AI نسل جدیدی از مدل Segment Anything را با نام SAM 2 معرفی کرد. SAM 2 مدلی یکپارچه برای real-time promptable object segmentation است که در ویدئوها و تصاویر عملکرد منحصر بفردی را ارائه میدهد. این مدل تحت مجوز Apache 2.0 به صورت منبع باز ارائه شده است. همچنین، Meta AI مجموعه دادهای به نام SA-V شامل حدود ۵۱,۰۰۰ ویدئوی واقعی و بیش از ۶۰۰,۰۰۰ ماسک (masklet) را به اشتراک گذاشته است. SAM 2 میتواند هر شیء را در هر ویدئو یا تصویری segmentation کند، حتی اگر قبلاً آن شیء را ندیده باشد، و این امکان را فراهم میکند که بدون نیاز به تطبیق سفارشی برای موارد کاربردی متنوع استفاده شود.
مشخصات کلیدی SAM 2
SAM 2 مدل یکپارچهای است که قابلیت segmentation اشیاء در تصاویر و ویدئوها را دارد. این مدل بهبودهایی نسبت به نسخه قبلی خود دارد که شامل دقت بیشتر در segmentation تصاویر و عملکرد بهتر در segmentation ویدئوها است، در حالی که زمان تعامل کمتری نیاز دارد. این مدل میتواند بهصورت عمومی برای موارد کاربردی متنوعی مانند ایجاد افکتهای ویدئویی جدید، ابزارهای annotation سریعتر برای دادههای بصری و سیستمهای computer vision بهتر استفاده شود.
کاربردهای واقعی SAM 2
SAM 2 کاربردهای متنوعی در دنیای واقعی دارد. برای مثال، خروجیهای SAM 2 میتوانند با مدلهای ویدئویی مولد (generative video models) برای ایجاد افکتهای ویدئویی جدید و کاربردهای خلاقانه ترکیب شوند.همچنین، میتواند در توسعه ابزارهای سریعتر برای annotation دادههای بصری کمک کند و باعث بهبود سیستمهای computer vision شود. به عنوان مثال، SAM 2 میتواند در زمینههای علمی، پزشکی، و صنایع مختلف مورد استفاده قرار گیرد.
نمونههایی از کاربردهای عملی SAM 2
- پایش حیوانات در معرض خطر در فیلمهای گرفته شده توسط پهپادها: SAM 2 میتواند به محققان کمک کند تا حرکات حیوانات را دنبال کرده و دادههای دقیقتری جمعآوری کنند.
- annotation سریعتر دادههای بصری: SAM 2 میتواند در سیستمهای annotation دادهها استفاده شود تا زمان مورد نیاز برای annotation دستی را به طور قابل توجهی کاهش دهد.
- تحقیقات پزشکی: SAM 2 میتواند در تجزیه و تحلیل تصاویر پزشکی و تشخیص بیماریها مانند سرطان پوست کمک کند.
تکنولوژی پشت SAM 2
SAM 2 بر اساس معماری مدل SAM ساخته شده است، اما با بهبودهایی که امکان segmentation اشیاء در ویدئوها را فراهم میکند. این مدل با استفاده از یک مکانیزم حافظه که شامل یک memory encoder، memory bank و memory attention module است، اطلاعات مربوط به اشیاء و تعاملات قبلی را ذخیره کرده و از آنها برای تولید پیشبینیهای ماسک در تمامی فریمهای ویدئو استفاده میکند.
مجموعه داده SA-V
مجموعه داده SA-V که توسط Meta AI منتشر شده است، شامل بیش از ۶۰۰,۰۰۰ ماسک در حدود ۵۱,۰۰۰ ویدئو است. این مجموعه داده شامل سناریوهای واقعی و متنوع از ۴۷ کشور مختلف است و حاوی annotationهایی برای کل اشیاء، قسمتهای اشیاء و موارد چالشبرانگیز مانند انسدادها و ناپدید شدنها است.
نتایج و عملکرد SAM 2
SAM 2 در مقایسه با روشهای قبلی عملکرد بهتری در segmentation ویدئوها و تصاویر دارد. این مدل در بنچمارکهای مختلف عملکرد بهتری نسبت به مدلهای موجود نشان داده است و قابلیت پردازش ویدئوها به صورت بلادرنگ با سرعت ۴۴ فریم در ثانیه را دارد. SAM 2 در annotation ویدئوها حدود ۸.۴ برابر سریعتر از annotation دستی با استفاده از SAM است.
محدودیتها و چالشها
با وجود عملکرد قوی SAM 2، این مدل همچنان میتواند در سناریوهای چالشبرانگیز مانند تغییرات چشمانداز دوربین، انسدادهای طولانی، صحنههای شلوغ و ویدئوهای طولانی دچار مشکل شود. همچنین، در برخی موارد ممکن است SAM 2 نتواند جزئیات ریز اشیاء در حال حرکت سریع را بهدرستی پیشبینی کند. این مسائل با اضافه کردن پیامهای اصلاحی در فریمهای بعدی تا حدی قابل حل هستند.
آینده SAM 2
Meta AI امیدوار است با به اشتراکگذاری SAM 2 و منابع مربوط به آن، جامعه تحقیقاتی AI بتواند پیشرفتهای بیشتری در زمینه segmentation ویدئوها و تصاویر و وظایف مرتبط با آن انجام دهد. این مدل میتواند به عنوان بخشی از یک سیستم AI بزرگتر برای درک چندوجهی از جهان استفاده شود و در صنایع مختلف به کار گرفته شود تا ابزارهای پیشرفتهتری برای دادههای بصری تولید شود.