این تیم در حالی که روی بازی نبرد سایه های ۳ کار می کرد، حدود ۱۱۰۰ انیمیشن رزمی با میانگین مدت زمان هر ۴ ثانیه را انجام داد. آن ها در ضمن تصمیم گرفتند که این می تواند یک شروع خوبی برای آموزش یک شبکه عصبی باشد.
این تیم خاطرنشان کرد: «ما در هنگام کار بر روی پروژه های مختلف، متوجه شدیم که انیماتورها می توانند با ترسیم یک شکل چوبی ساده در هنگام ساخت اولین طرح خود، پوز کاراکتر را تصور کنند. ما فکر کردیم از آنجا که یک انیماتور باتجربه می تواند با استفاده از یک طرح ساده، پوز را طراحی کند، این کار برای شبکه عصبی نیز امکان پذیر خواهد بود.»
آنها تصمیم گرفتند از هر پوز، فقط ۶ نقطه ی کلیدی (مچ دست ، مچ پا ، لگن و پایه گردن) را در نظر بگیرند و بررسی کنند که آیا شبکه عصبی می تواند موقعیت ۳۷ نقطه ی باقیمانده را پیش بینی کند و یا خیر.
اول اینکه، شبکه موقعیت ۶ نقطه از یک پوز خاص را دریافت میکند و سپس موقعیت ۳۷ نقطه باقیمانده را پیشبینی میکند « سپس آنها را با موقعیت در حالت اصلی مقایسه میکنیم. ما در تابع زیان، از روش حداقل مجذورات برای فواصل بین موقعیتهای نقاط و منبع پیشبینی شده استفاده میکنیم.»
برای مجموعه داده های برآوردگر، این تیم از حرکات شخصیت های نبرد سایه های ۳ استفاده کرده و برای هر فریم، حدود ۱۱۵ هزار پوز ایجاد کرده است.
معماری شبکه عصبی، براساس یک شبکه پنج لایه با اتصال کامل با یک تابع فعال و یک روش مقداردهی اولیه از شبکههای عصبی خودعادی سازی می باشد. تیم اظهار داشت: با داشتن ۳ مختصات برای هر گره ، یک لایه ورودی از عناصر ۶×۳ و یک لایه خروجی از عناصر ۳۷×۳ بدست آوردیم. «ما به جستجوی معماری بهینه برای لایه های مخفی پرداختیم و یک معماری پنج لایه با تعداد نورونهای ۳۰۰، ۴۰۰، ۳۰۰، ۲۰۰ را در هر لایه ی پنهان نصب کردیم، اما شبکههای با لایههای پنهانِ کمتر، نتایج خوبی را نشان دادند.»
آن ها خاطرنشان كردند كه تنظيم L2 پارامترهاي شبكه بسيار مفيد است زيرا پيش بيني ها را هموارتر و مداوم تر نشان می دهد «یک شبکه عصبی با این پارامترها موقعیت نقاط با خطای متوسط ۳٫۵ سانتی متر را پیش بینی می کند. این یک میانگین بسیار بالا می باشد، اما مهم است که جزئیات این کار را مد نظر قرار دهید.»
بعد از آن، تیم ایده ی آموزش چند شبکه دیگر را با مجموعهای گسترده از نقاطی که جهت گیری دستها، پاها و سر، به علاوه موقعیت زانوها و آرنجها را مشخص میکنند، مطرح کرد. آنها طرحهای ۱۶ نقطهای و ۲۸ نقطه ای را اضافه کردهاند، و دریافتند که نتایج این شبکهها را می توان با هم ترکیب کرد تا کاربر بتواند موقعیت را با مجموعهای از نقاط دلخواه تنظیم کند. برای مثال، کاربر تصمیم گرفت آرنج چپ را حرکت دهد اما دست راستش را لمس نکرد. در این حالت، وضعیت آرنج راست و شانه راست در الگوی ۶ نقطه ای پیشبینی میشود، در حالی که موقعیت شانه چپ در الگوی ۱۶ نقطه ای پیشبینی میشود.»
نسخه اول این ابزار در Cascadeur موجود است و به نظر می رسد ممکن است روزی به استاندارد صنعت انیمیشن تبدیل شود. حتما در قسمت نظرات، در مورد این ابزار یادداشت بگذارید.
ترجمه: خانه انیمیشن
منبع: ۸۰٫lv