بصری سوال کے جواب میں انسانی توجہ:

کیا انسان اور گہرے نیٹ ورک ایک ہی علاقے کو دیکھتے ہیں؟

ابھیشیک داس *، ہرش اگروال *، سی لارنس زٹنک ، دیوی پارکھ ، دھرو بترا

خلاصہ

ہم تصویری سوالات کے جوابات (VQA) میں ‘انسانی توجہ’ پر بڑے پیمانے پر مطالعہ کرتے ہیں تاکہ یہ سمجھا جا سکے کہ انسان تصاویر کے بارے میں سوالات کے جوابات کہاں دیکھنا چاہتے ہیں۔ ہم ایک سے زیادہ گیم سے متاثرہ ناول توجہ-تشریحی انٹرفیس کو ڈیزائن اور جانچتے ہیں جس میں کسی سوال کے جواب کے لیے دھندلی شبیہ کے علاقوں کو تیز کرنے کی ضرورت ہوتی ہے۔ اس طرح ، ہم VQA-HAT (ہیومن اٹینشن) ڈیٹاسیٹ متعارف کراتے ہیں۔ ہم جدید توجہ کے نقشوں کا اندازہ کرتے ہیں جو جدید VQA ماڈلز کے ذریعے انسانی توجہ کے خلاف کوالٹی (بصریات کے ذریعے) اور مقداری طور پر (رینک آرڈر باہمی ربط کے ذریعے) کا جائزہ لیتے ہیں۔ مجموعی طور پر ، ہمارے تجربات سے پتہ چلتا ہے کہ وی کیو اے میں موجودہ توجہ کے ماڈل انسانوں کی طرح کے علاقوں کو نہیں دیکھ رہے ہیں۔

ببٹیکس

@inproceedings{vqahat,
  title={{Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?}},
  author={Abhishek Das and Harsh Agrawal and C. Lawrence Zitnick and Devi Parikh and Dhruv Batra},
  booktitle={Conference on Empirical Methods in Natural Language Processing (EMNLP)},
  year={2016}
}

VQA-HAT ڈیٹاسیٹ۔
انسانی توجہ امیج فائلوں کو " 
qidn.png" 
کا نام دیا گیا ہے 
۔ 
VQA ڈیٹاسیٹ (v1.0) کے
qid مطابق سوال ID کا حوالہ دیتا ہے 
، اور 
فی سوال ایک سے زیادہ توجہ کے نقشوں پر تکرار کرتا ہے۔ 
مثال کے طور پر ، 1500070_1.png ، 1500070_2.png ، وغیرہ n = 1 تربیتی سیٹ کے لیے اور n = {1،2،3} توثیقی سیٹ کے لیے۔ 
ڈاؤنلوڈ لنک نیچے دیے گئے ہیں۔ 

n
ٹریننگ سیٹ (703M)

58،475 توجہ کے نقشے۔
توثیق سیٹ (47M)

4،122 توجہ کے نقشے۔

انسان بمقابلہ مشین توجہ۔

مشین کے تیار کردہ توجہ انبار توجہ نیٹ ورک (یانگ ET رحمہ اللہ تعالی.، CVPR16)، HieCoAtt (لو ET رحمہ اللہ تعالی.، NIPS16) اور جڈ ET اللہ تعالی کے لئے Coco-ویل پر نقشے، ICCV09 ڈاؤن لوڈ کے لئے دستیاب ہیں یہاں . SAN اور HieCoAtt کے لیے ، تصویری فائلوں کو ” qid.png” اور Judd et al. ، ” coco_image_id.jpg” کا نام دیا گیا ہے۔ انسانی توجہ کی مثالیں (کالم 2) بمقابلہ مشین سے پیدا ہونے والی توجہ (کالم 3-5) درجے کے ارتباط گتانک کے ساتھ ذیل میں دکھائے گئے ہیں۔

اعترافات۔

ہم مددگار تجاویز اور مباحثوں کے لیے جیاسین لو اور رام کرشنا ویدانتم کا شکریہ ادا کرتے ہیں۔ اس کام کی جزوی طور پر مدد کی گئی: ڈی بی اور ڈی پی کو نیشنل سائنس فاؤنڈیشن کیریئر ایوارڈ ، ڈی بی اور ڈی پی کو آرمی ریسرچ آفس وائی آئی پی ایوارڈ ، ورجینیا ٹیک ٹو ڈی بی اور ڈی پی میں آئی سی ٹی اے ایس جونیئر فیکلٹی ایوارڈ ، آرمی ریسرچ لیب گرانٹ W911NF-15- ڈی پی اور ڈی بی کو 2-0080 ، آفس نیول ریسرچ وائی آئی پی ایوارڈ ڈی پی کو ، آفس نیول ریسرچ گرانٹ N00014-14-1-0679 ڈی بی کو ، الفریڈ پی سلوان فیلوشپ ڈی پی کو ، پال جی ایلن فیملی فاؤنڈیشن ایلن ممتاز تحقیقاتی ایوارڈ ڈی پی کو ، ڈی پی اور ڈی بی کو گوگل فیکلٹی ریسرچ ایوارڈ ، ڈی بی کو ای ڈبلیو ایس ایجوکیشن ریسرچ گرانٹ ، اور ڈی بی کو این وی آئی ڈی آئی اے جی پی یو عطیہ۔