رشتہ دار صفات

رشتہ دار صفات

مارر پرائز (بہترین پیپر ایوارڈ) فاتح ، آئی سی سی وی 2011

By – دیوی پیرکھ  اور  یئدنسسٹین گرومین

“اندردخش میں کون لکیر کھینچ سکتا ہے جہاں وایلیٹ ٹنٹ ختم ہوتا ہے اور اورینج ٹنٹ شروع ہوتا ہے؟ واضح طور پر ہم رنگوں کا فرق دیکھتے ہیں ، لیکن بالکل ایک جہاں ملاوٹ میں دوسرے میں داخل ہوتا ہے؟ تو بے ہوشی اور پاگل پن کے ساتھ۔”
 
– ہرمین میل ویل ، بلی بڈ 

[ کاغذ ] [ ڈیٹا ]     [ کوڈ ] [ ڈیمو ]     [ سلائڈز ]     [ ٹاک (ویڈیو) ] [ پوسٹر ] [ ترجمہ ]

خلاصہ

انسانی نامی بصری “اوصاف” شناخت کے مختلف کاموں میں فائدہ اٹھا سکتے ہیں۔ تاہم ، موجودہ تکنیک ان خصوصیات کو طبقاتی لیبلوں تک محدود کرتی ہے (مثال کے طور پر ، کوئی شخص ‘مسکرا رہا ہے’ یا نہیں ، کوئی منظر ‘خشک’ ہے یا نہیں) ، اور اس طرح زیادہ عام معنوی تعلقات کو حاصل کرنے میں ناکام ہوجاتا ہے۔ ہم ماڈل کی نسبت سے متعلق صفات کی تجویز کرتے ہیں ۔ تربیت کے اعداد و شمار کو بتاتے ہوئے بتایا گیا ہے کہ آبجیکٹ / منظر کے زمرے کس طرح مختلف صفات کے مطابق تعلق رکھتے ہیں ، ہم فی اوصاف کی درجہ بندی کا فنکشن سیکھتے ہیں۔ سیکھے درجے کے افعال ناول کی تصاویر میں ہر جائیداد کی نسبتا strength قوت کی پیش گوئی کرتے ہیں۔ اس کے بعد ہم صفات سے متعلق درجہ بندی کے مشترکہ حصے پر ایک جنریٹ ماڈل بناتے ہیں ، اور صفر شاٹ سیکھنے کی ایک نئی شکل تجویز کرتے ہیں جس میں سپروائزر کا تعلق ہے صفات کے توسط سے پہلے دیکھے جانے والے آبجیکٹ میں غیب دیکھے جانے والے آبجیکٹ کا زمرہ (مثال کے طور پر ، ‘ریچھ جراف سے زیادہ سخت ہیں’)۔ ہم مزید بتاتے ہیں کہ کس طرح مجوزہ رشتہ دار صفات نئی تصاویر کے لئے متناسب عبارت کی وضاحت کو اہل بناتی ہیں ، جو عملی طور پر انسانی تشریح کے لئے زیادہ واضح ہیں۔ ہم چہروں اور قدرتی مناظر کے ڈیٹاسیٹ پر نقطہ نظر کا مظاہرہ کرتے ہیں ، اور ان نئے کاموں کے لئے روایتی بائنری وصف کی پیش گوئی سے زیادہ واضح فوائد ظاہر کرتے ہیں۔ 
 

محرک

ثنائی صفات محدود ہیں اور غیر فطری بھی ہوسکتی ہیں۔ مندرجہ بالا مثالوں میں ، جب کہ ایک شخص بالترتیب بائیں اور اوپر دائیں طرف کی تصویر کو بالترتیب قدرتی اور انسان ساختہ بنا سکتا ہے ، آپ اوپر والے مرکز میں اس تصویر کی کیا وضاحت کریں گے؟ اس کی خصوصیت کا ایک ہی معنی خیز طریقہ یہ ہے کہ دوسری شبیہات کا احترام کیا جائے: یہ بائیں طرف کی شبیہہ سے کم قدرتی ہے ، لیکن دائیں طرف کی شبیہہ سے کہیں زیادہ ہے۔ 

تجویز

اس کام میں ، ہم نمونہ دار صفات کو ماڈل پیش کرنے کی تجویز کرتے ہیں۔ کسی وصف کی موجودگی کی پیش گوئی کرنے کے برخلاف ، ایک رشتہ دار وصف کسی شبیہہ میں دوسری شبیہوں کے حوالے سے کسی صفت کی مضبوطی کی نشاندہی کرتا ہے۔ زیادہ قدرتی ہونے کے علاوہ ، نسبتا attrib صفات مواصلات کے زیادہ موثر انداز کی پیش کش کرتی ہیں ، اس طرح زیادہ سے زیادہ انسانی نگرانی تک رسائی (اور ممکنہ طور پر اعلی پہچان کی درستگی) تک رسائی کی اجازت دی جاتی ہے ، اور ساتھ ہی ناول کی تصاویر کی مزید معلوماتی وضاحتیں پیدا کرنے کی صلاحیت بھی دستیاب ہے۔ 

ہم ایک ایسا نقطہ نظر وضع کرتے ہیں جو مثال کے جوڑے کی نسبت مماثل رکاوٹوں (یا زیادہ تر عام طور پر کچھ مثالوں پر جزوی ترتیب دینے) کی بنا پر ہر خاصیت کے لئے درجہ بندی کا کام سیکھتا ہے ۔ سیکھی رینکنگ فنکشن تصویروں کے لئے ایک قابل قدر درجہ کا تخمینہ لگاسکتی ہے جس میں ان میں وصف کی موجودگی کی نسبت دار قوت کی نشاندہی ہوتی ہے۔ 

ہم صفر شاٹ سیکھنے اور تصویری وضاحت کی نئی شکلیں متعارف کرواتے ہیں جو متعلقہ وابستگی کی پیش گوئوں سے فائدہ اٹھاتے ہیں۔

اپروچ

متعلقہ صفات کو سیکھنا: ہر نسبت وصف کی تشکیل کی درجہ بندی کرنا سیکھنے کے ذریعہ سیکھا جاتا ہے ، تقابلی نگرانی دی جاتی ہے ، جیسا کہ ذیل میں دکھایا گیا ہے:

وسیع حاشیے کی درجہ بندی کے فنکشن (دائیں) کے سیکھنے کے درمیان فرق جو تربیت پوائنٹس (1-6) پر مطلوبہ آرڈر کو نافذ کرتا ہے ، اور ایک وسیع مارجن بائنری کلاسیر (بائیں) جو صرف دو کلاسوں کو الگ کرتا ہے (+ اور -) ، اور کرتا ہے ضروری نہیں کہ ذیل میں دکھایا گیا ہے پوائنٹس پر ایک مطلوبہ آرڈر کو محفوظ رکھیں۔

ناول صفر شاٹ سیکھنا: ہم مندرجہ ذیل سیٹ اپ کا مطالعہ کرتے ہیں 

N کل زمرے: دیکھے ہوئے زمرے (متعلقہ تصاویر دستیاب ہیں) + U غیب زمرے (ان قسموں کے لئے کوئی تصویر دستیاب نہیں ہے)

دیکھا ہوا زمروں کو اوصاف کے توسط سے ایک دوسرے سے نسبتا described بیان کیا گیا ہے (زمرے کے تمام جوڑے کو تمام صفات سے متعلق ہونے کی ضرورت نہیں ہے)

U غیب زمرہ جات کو (ایک سب سیٹ) دیکھا ہوا زمروں (جس کا ایک سبسیٹ) اوصاف کے لحاظ سے بیان کیا گیا ہے۔

ہم سب سے پہلے دیکھے ہوئے زمرے میں فراہم کردہ نگرانی کا استعمال کرتے ہوئے رشتہ دار صفات کے ایک سیٹ کی تربیت کرتے ہیں ۔ بیرونی ڈیٹا سے ان صفات کو پہلے سے تربیت بھی دی جاسکتی ہے۔ پھر ہم میں سے ہر ایک کے لئے ایک تخلیق ماڈل (گاشین) کی تعمیر دیکھا کی طرف سے تصاویر کی نسبت صفات کے ردعمل کا استعمال کرتے ہوئے کے زمرے دیکھا زمرے. اس کے بعد ہم نے تخلیق ماڈل کی پیرامیٹرز کا استنباط غیب کے لئے احترام کے ساتھ ان کے رشتہ دار کی وضاحت استعمال کرتے زمرے دیکھا زمرے. اس کے لئے ہم استعمال کرتے ہوئے سادہ نقطہ نظر کا تصور ذیل میں دکھایا گیا ہے: 

ایک ٹیسٹ امیج زیادہ سے زیادہ امکانات کے ساتھ زمرے میں تفویض کی گئی ہے۔

تصویری متن کے متعلقہ متنی وضاحتیں خود بخود تیار کرنا: مجھے بتائے جانے والے ایک عکس کے مطابق ، ہم I پر سیکھنے والے تمام درجہ بندی کے افعال کی جانچ کرتے ہیں۔ ہر ایک وصف کے لئے ، ہم I کے دونوں اطراف میں پڑے ہوئے دو حوالہ امیجوں کی نشاندہی کرتے ہیں ، اور I سے بہت دور یا بہت قریب نہیں ہیں۔ تصویری I کے بعد بیان کیا گیا ہے ان دو حوالوں کی تصاویر سے متعلق ، جیسا کہ ذیل میں دکھایا گیا ہے:
 

جیسا کہ اوپر دیکھا گیا ہے ، دوسری شبیہوں کے مقابلے میں کسی تصویری بیان کے علاوہ ، ہمارا نقطہ نظر بھی دوسرے زمرے کے مقابلہ میں ایک تصویری بیان کرسکتا ہے ، جس کے نتیجے میں مکمل عبارت کی تفصیل ہوگی۔ واضح طور پر ، روایتی بیانات روایتی بائنری تفصیل سے کہیں زیادہ عین مطابق اور معلوماتی ہیں۔

تجربات اور نتائج

ہم دو ڈیٹاسیٹوں پر تجربات کرتے ہیں۔ 

(1) بیرونی مناظر کی شناخت (OSR) جس میں 8 زمروں کی 2688 تصاویر ہیں: ساحل سی ، جنگل F ، ہائی وے ایچ ، شہر کے اندر I ، ماؤنٹین M ، کھلی ملک O ، گلی S اور لمبے عمارت والے ٹی۔ تصاویر

(2) عوامی اعداد و شمار کے چہرے کے ڈیٹا بیس (پب فگ) کا ایک ذیلی سیٹ ہے جس میں 8 قسموں سے 772 امیجز ہیں: الیکس روڈریگ اے ، کلائیو اوین سی ، ہیو لوری ایچ ، جارڈ لیٹو جے ، مائلی سائرس ایم ، سکارلیٹ جوہسنسن ، وگو مورٹنسن وی اور زیک۔ ایفرن زیڈ۔ ہم تصویروں کی نمائندگی کرنے کے لئے ٹھوس اشارے اور رنگین خصوصیات استعمال کرتے ہیں۔

بائنری اور رشتہ دار انتساب تشریح کے ساتھ ہر ڈیٹاسیٹ کے لئے استعمال ہونے والی صفات کی فہرست ذیل میں دکھائی گئی ہے۔

صفر شاٹ سیکھنا:

ہم اپنے مجوزہ انداز کو دو اساسوں سے موازنہ کرتے ہیں۔ پہلا اسکور پر مبنی رشتہ دار صفات (ایس آر اے) ہے۔ یہ بنیادی نقطہ نظر ہمارے نقطہ نظر کی طرح ہی ہے ، سوائے اس میں کہ کسی درجہ بندی کے فنکشن کے اسکور کے بجائے بائنری کلاسیفائر (بائنری اوصاف) کے اسکور استعمال کریں۔ یہ بیس لائن بہترین رشتہ دار صفات کی نمائش کیلئے درجہ بندی کی تقریب کی ضرورت کا اندازہ کرنے میں مدد کرتی ہے۔ ہماری دوسری بیس لائن براہ راست انتساب پیشن گوئی (DAP) ماڈل ہے جو لیمپرٹ ET رحمہ اللہ تعالی نے متعارف کرایا ہے۔ سی وی پی آر 2009 2009 2009 in میں۔ یہ بنیادی سطر صفات کے نسبتا treatment سلوک کے فوائد کا اندازہ کرنے میں مدد دیتی ہے جیسا کہ زمرہ کے خلاف ہے۔ ہم ان نظریات کا انکشاف کرتے ہیں کہ مختلف غائب زمروں کی خصوصیات ، خصوصیات کو تربیت دینے کے لئے استعمال ہونے والے اعداد و شمار کی مختلف مقدار ، غیب والے زمروں کی وضاحت کے لئے استعمال ہونے والے صفات کی مختلف تعداد ، اور غیب شدہ زمروں کی تفصیل میں ‘ڈھیلے پن’ کی مختلف سطحیں ہیں۔ تجرباتی سیٹ اپ کی تفصیلات ہمارے پیپر میں مل سکتی ہیں۔ نتائج ذیل میں دکھائے گئے ہیں:

خود سے تیار کردہ تصویری وضاحت:

بائنری ہم منصبوں سے متعلقہ تصویری وضاحتوں کے معیار کے جائزہ کے ل we ، ہم نے ایک انسانی مطالعہ کیا۔ ہم نے اپنے نقطہ نظر کا استعمال کرتے ہوئے ایک تصویر کی تفصیل ، نیز بنیادی لائن بائنری صفات بھی تیار کیں۔ ہم نے تین امیجوں کے ساتھ مضامین کو اس تفصیل کے ساتھ پیش کیا۔ ان تین امیجوں میں سے ایک تصویر کی وضاحت کی جارہی تھی۔ مضامین کا کام ان تین امیجوں کی درجہ بندی کرنا تھا جس کی بنیاد پر ان کے خیال میں زیادہ تر امکانات بیان کی جارہی تھیں۔ جتنا زیادہ تفصیل بیان کی جائے گی ، مضامین کے صحیح امیج کی شناخت کے امکانات اتنے ہی بہتر ہیں۔ مضامین کو پیش کیے گئے کسی کام کی مثال ذیل میں دکھائی گئی ہے۔

مطالعہ کے نتائج ذیل میں دکھائے گئے ہیں۔ ہم دیکھتے ہیں کہ بائنری صفات کے مقابلہ میں ، مضامین ہمارے مجوزہ رشتہ دار صفات کا استعمال کرتے ہوئے صحیح شبیہہ کو زیادہ درست طریقے سے شناخت کرسکتے ہیں۔

تصاویر کی بائنری تفصیل کے ساتھ ساتھ زمرہ جات سے متعلق تفصیل بھی ذیل میں دکھائے گئے ہیں:

تصویرثنائی کی وضاحتمتعلقہ تفصیل
قدرتی
نہیں کھلا
تناظر نہیں
ٹیل بلڈنگ سے زیادہ قدرتی ، جنگل
سے کم قدرتی ٹیل بلڈنگ سے زیادہ کھلا ، ساحل
سے کم کھلا اور بلڈ بلڈنگ سے زیادہ تناظر
قدرتی
نہیں کھلا
تناظر نہیں
کپٹی سے زیادہ قدرتی ،
گلی سے زیادہ کھلا شاہراہ سے کم قدرتی ، ساحل
سے کم کھلا شاہراہ سے زیادہ نقطہ نظر ، کپٹی سے کم تناظر
قدرتی
کھلا
نقطہ نظر
ٹیل بلڈنگ سے زیادہ قدرتی ، پہاڑ
سے کم قدرتی اوپن
کاؤنٹری سے پہاڑ سے کم تناظر میں
وائٹ
مسکراتے ہوئے نہیں
قابل نظارہفوری سر
سے زیادہ سفید AlexRodriguez
سے زیادہ مسکرا JaredLeto سے کم مسکرا ZacEfron
سے زیادہ VisibleForehead  JaredLeto سے کم VisibleForehead MileyCyrus
وائٹ
مسکراتے ہوئے
نہیں مرئی دکھائی دے رہے ہیں
سے زیادہ سفید AlexRodriguez سے کم وائٹ  MileyCyrus بھی کم مسکرا HughLaurie سے زیادہ VisibleForehead  ZacEfron ، کم VisibleForehead مقابلے  MileyCyrus

ینگ
بوشی
ایبروز راؤنڈفیکس نہیں
زیادہ نوجوان مقابلے CliveOwen ، کم نوجوان مقابلے ScarlettJohansson
سے زیادہ BushyEyebrows  ZacEfron ، سے کم BushyEyebrows AlexRodriguez زائد RoundFace  CliveOwen مقابلے، کم RoundFace  ZacEfron

ڈیٹا

ہم ان کو پیش کرتے ہیں جو اس نے ہمارے پیپر میں استعمال ہونے والے دو ڈیٹاسیٹس کے ل relative متعلقہ خصوصیات اور ان کی پیش گوئیاں سیکھ لیں :  آؤٹ ڈور سین ریگنیشن (OSR) اور پبلک فگرس فیس ڈیٹا بیس (پب فگ) کا سب سیٹ۔ 

دوبارہ پڑھیں

ڈاؤن لوڈ کریں (v2)

متعلقہ چہرے کی خصوصیات ڈیٹاسیٹ ۔ اس میں پبلک فگرس فیس ڈیٹا بیس (پب فگ) کے 60 زمروں پر 29 نسبتی صفات کیلئے تشریحات ہیں  ۔ 

کوڈ

ہم نے مماثلت کی رکاوٹوں کے ساتھ رشتہ دار صفات کی تربیت کے ل Ol اویلیویر چیپل کے رینک ایس وی ایم کے نفاذ میں ردوبدل کیا۔ ہمارا ترمیم شدہ کوڈ یہاں پایا جاسکتا ہے ۔

اگر آپ ہمارا کوڈ استعمال کرتے ہیں تو ، براہ کرم درج ذیل کاغذ پیش کریں:

ڈی پیرک اور کے گرومان

رشتہ دار صفات

کمپیوٹر وژن پر بین الاقوامی کانفرنس (آئی سی سی وی) ، 2011۔

ڈیمو

رشتہ دار صفات کی مختلف درخواستوں کے ڈیمو یہاں پاسکتے ہیں ۔ ان درخواستوں کی تفصیل کاغذات میں مل سکتی ہے ۔

By : Devi Parikh and Kristen Grauman