جعلی کجاست؟GAN های تحت نظارت وصله شده برای تزریق بافت

  • 2021-06-14

ما با مشکل وارد کردن بافت در جایی که تصاویر ورودی بافت هایی با مقادیر گمشده به همراه ماسک هایی هستند که مناطقی را نشان می دهد که باید تولید شوند ، مقابله می کنیم. بسیاری از آثار با هدف دستیابی به قوام جهانی و محلی در تزریق تصویر انجام شده است. اما این آثار هنگام برخورد با بافت ها هنوز از محدودیت ها رنج می برند. در حقیقت ، برای دستیابی به استمرار محلی و تزریق بافت واقع بینانه ، اطلاعات محلی موجود در تصویر باید مورد استفاده قرار گیرد. برای این کار ، ما یک تبعیض آمیز جدید را پیشنهاد می کنیم که طبقه بندی واقعی/جعلی را انجام می دهد و تحت نظارت ماسک های ورودی قرار می گیرد. در حین آموزش ، هدف آن قرار گرفتن سیگنال ثابت جعلی و در نتیجه برگشتی به ژنراتور است. ما رویکرد خود را در مجموعه داده های DTD در دسترس عموم آزمایش کردیم و نشان دادیم که به عملکردهای پیشرفته و معاملات بهتر با سازگاری محلی نسبت به روشهای موجود دست می یابد.

تحقیقات مرتبط

بافت توجه را برای تزریق تصویر واقع گرایانه تغییر می دهد

اشتراک گذاری

سد گان: تزریق تصویر با استفاده از نقشه توجه پویا بر اساس تشخیص بافت جعلی

اشتراک گذاری

ساختار جریان: تزریق تصویر از طریق جریان ظاهر آگاه ساختار

اشتراک گذاری

حافظه بافتی با اوج و پچ عمیق

اشتراک گذاری

تصویربرداری تصویر توسط PRIORS انسجام معناشناسی و بافت هدایت می شود

اشتراک گذاری

روش اندازه گیری انرژی تطبیقی

اشتراک گذاری

SAINET: استریو آگاهی از پشت اشیاء با شبکه های تولیدی

اشتراک گذاری

1. مقدمه

کار تزریق شامل پر کردن قسمت های مفقود شده یک تصویر است. وارد کردن "خوب" باید از نظر بصری قابل قبول باشد. به عبارت دیگر ، باید به بافت ، رنگ ها ، شکل ها و الگوهای تداوم احترام بگذارد. این حتی بیشتر در مواردی است که ما با وارد کردن بافت ، که دامنه این مقاله است ، مقابله می کنیم.

شبکه های مخالف مولد [6] ثابت کردند که در انجام واقعی ترین نتایج در کار ورودی بسیار کارآمد هستند. به عنوان مثال ، رمزگذارهای متن (CE) [11] (شکل 1 سمت چپ) در مقایسه با رویکردهای سنتی نتایج چشمگیر به دست آورد [2 ، 4 ، 5]. ایده این بود که یک ژنراتور (شبکه رمزگذار) را با کمک یک ضرر مخالف محاسبه شده از طریق یک شبکه تبعیض آمیز آموزش دهیم. Howeve ، هدف اصلی CE یادگیری ویژگی ها و عدم استفاده از آن بود ، که منجر به یک قوام جهانی خوب می شود (به عنوان مثال ، یک تصویر تولید شده در سطح جهانی قابل قبول است) اما یک محلی ضعیف (یعنی بزرگنمایی بر روی یک تصویر ناسازگاری های بسیاری را نشان می دهد).

شکل 1: مقایسه بصری از تبعیض های S. O. T. A و مورد پیشنهادی ما. R/F به واقعی/جعلی اشاره دارد.

ایزوکا و همکاران.، 2017 [8] با افزودن یک تبعیض محلی (شکل 1 چپ متوسط) که تکه های تصویر را با محوریت منطقه تکمیل شده می گیرد ، این مشکل ناسازگاری های محلی را برطرف کرد. این تکنیک موفق شد با سازگاری محلی بهتر برخورد کند اما معمولاً مصنوعات مرزی و تحریفاتی را ایجاد می کند که نویسندگان را وادار به استفاده از مخلوط پواسون [12] به عنوان مرحله پس از پردازش می کند. ایزولا و همکاران.[9] با پیشنهاد یک تبعیض آمیز Patchgan پیش رفت (شکل 1

راست) که تصاویر را در تکه های همپوشانی تقسیم می کند و سپس همه آنها را طبقه بندی می کند. خروجی نهایی میانگین تمام نتایج طبقه بندی بود. به عنوان مثال ، این تکنیک با موفقیت در وارد کردن در زمینه تصاویر پزشکی توسط Armanious استفاده شد

و همکاران، 2018 [1]. با این حال ، ما معتقدیم که میانگین کمک های همه تکه ها قدرت تبعیض ها را محدود می کند. در حقیقت ، Patchgan می تواند تصاویر را با مناطق کوچک "جعلی" به عنوان واقعی در سطح جهان طبقه بندی کند. و خطر یادگیری ویژگی ها از مکان های بد مناطق جعلی و واقعی.

شکل 2: در چارچوب ورودی ما ، ژنراتور (سمت چپ) به عنوان تصاویر ماسک شده ورودی و خروجی تصاویر داخلی ، که به تبعیض کننده (سمت راست) تغذیه می شوند ، که بخش های جعلی را تغذیه می کنند ، می گیرد. مورد دوم با ماسک های GT آموزش دیده و به عنوان یک ضرر مخالف برای سابق استفاده می شود ، که با از دست دادن بازسازی کلاسیک نیز آموزش دیده است. فیلترهای چند مقیاس برای سادگی نشان داده نمی شوند.

در این مقاله ، ما پیشنهاد می کنیم این مشکلات را با استفاده از آنچه ما یک بخش را به عنوان یک تبعیض آمیز (سعد) می نامیم ، حل کنیم. ایده اصلی در پشت سعد (شکل 1 سمت راست) داشتن یک تبعیض دقیق تر است که قطعات جعلی را در تصاویر داخلی قرار می دهد ، بنابراین از شیب های بهتری به ژنراتور استفاده می کند. برای این کار ، به جای طبقه بندی کل تصویر به عنوان واقعی یا جعلی ، ما یک تبعیض را پیشنهاد می کنیم که یک کار تقسیم بندی را حل می کند ، و در نتیجه یاد می گیریم که جعلی را پیدا کنید. به لطف ماسک های داخلی ، این تقسیم بندی زمین تقسیم بندی "به صورت رایگان" داده می شود. علاوه بر این ، در حالی که تبعیض های پیشرفته (S. O. T. A) مناطق جعلی را در یک مقیاس خاص اداره می کنند ، ما پیشنهاد کردیم که یک رویکرد واقعی/جعلی چند مقیاس را در درون تبعیض آمیز بخش خود دنبال کنیم.

آزمایشات در مجموعه داده DTD [3] انجام شد که ما روش خود را با آثار ذکر شده در بالا مقایسه کردیم. نتایج نشان می دهد که رویکردهای ما به عملکردهای پیشرفته و تصاویر بافتی بهتر دست می یابند.

2 شرح روش

روش ورودی ما از دو مؤلفه تشکیل شده است: (i) یک ژنراتور کلاسیک که کار تکمیل را انجام می دهد (Sec. 2. 1). و (ب) سهم اصلی ما که یک egmentor a s a d iscriminator (Saad) است (Sec. 2. 2). علاوه بر این در ثانیه. 2. 3 ، ما یک نسخه چند مقیاس Saad را ارائه می دهیم که هدف آن مقابله با مناطق جعلی چند مقیاس است.

2. 1 ژنراتور

ژنراتور G به عنوان تصاویر ماسک ورودی (x m a s k = x ⊙ (1-m) با m مکان های ماسک و x تصویر حقیقت زمین) می گیرد و تصاویر داخلی را خروجی می کند (مشخص شده~x f i n a l). G یک معمار U کلاسیک مانند معماری (رمزگذار-دکوراسیون + اسکی های بلند) است [13]

با پیچش های 2 قدم

[14] در رمزگذار-دکوراسیون برای کاهش ابعاد و پیچیدگی های گشاد شده [15] در بلوک های حلقوی میانی به منظور افزایش اندازه زمینه های پذیرش. توجه داشته باشید که ، G هر پیکسل را بازسازی می کند تا یک تصویر جدید شکل بگیرد (مشخص شده~ایکس ). با این حال ، پیکسل های واقعی از تصویر نقاب ورودی نیازی به تعویض ندارند. از این رو ، ما فقط پیکسل ها را در مکان های ماسک در نظر می گیریم و خروجی نهایی G می شود:~x f i n a l = x m a s k +~x ⊙ m. برای آموزش G ، ما از مجموع از دست دادن بازسازی L R و همچنین یک ضرر مخالف L a d v که از تبعیض بخش ما (که در بخش بعدی شرح داده شده است) استفاده می کنیم. برای L R ، ما از MSE بین تصویر تولید شده و حقایق مربوطه (GT) استفاده می کنیم: L r (x ،~x f i n a l ، m) = ∥ x ⊙ m -~x f i n a l ⊙ m ∥ 2 2.

2. 2 بخش به عنوان یک تبعیض آمیز (سعد)

ایده اصلی سعد این است که یک تبعیض ریز تر داشته باشد که با توجه به تصویری از رنگ آمیزی شده ، می تواند قطعات جعلی خود را پیدا کند ، بنابراین از شیب های بهتر به ژنراتور استفاده می کند. پیدا کردن جعلی کمک می کند: (i) اجتناب از طبقه بندی تصاویر با مناطق کوچک تولید شده به عنوان واقعی یا جعلی. و (ب) ویژگی های یادگیری از مکان های صحیح مناطق جعلی و واقعی.

برای یافتن جعلی ، ما پیشنهاد می کنیم که تبعید کننده یک کار تقسیم بندی را انجام دهد. در حقیقت ، در داخل ، ماسک های تقسیم بندی "به صورت رایگان" داده می شوند ، زیرا آنها با ماسک های ورودی مطابقت دارند. به طور خاص ، تبعیض آمیز D به عنوان ورودی x f i n a l و خروجی ها از نقشه های f f e a t s در بالای آن استفاده می کند که ما یک فیلتر حلقوی k r / f اضافه می کنیم که یک نقشه واقعی / جعلی را که ما آن را مشخص می کنیم ، خروجی می کند. به عبارت ساده ، f r / f = k r / f (f f e a t s). برای یادگیری تبعیض آمیز بخش خود ، ما خروجی آن را σ (f r / f) اجرا می کنیم (σ

متر ، با به حداقل رساندن یک ضرر و زیان پیکسل. این مربوط به l a d v است.

Note that, for D we can use classical architectures, thus, the output size of the last feature map is usually smaller than the input size. It is thus the same for F r / f . Hence, to match the size of the input masks ( h × w ), we up-sample F r / f from h ′ × w ′ to h × w . Note also that k r / f has a receptive field of size s × s with s >1. این بدان معنی است که K R / F تکه های تصاویر ورودی را طبقه بندی می کند و به همین دلیل ما D را به عنوان یک تبعیض آمیز وصله ای توصیف می کنیم.

پس از همگرایی مدل ، همانطور که برای هرگونه تبعیض آمیز و لکه های واقعی و جعلی قابل تشخیص نیست. با این حال ، در طول آموزش ، این آخرین ها معمولاً طبقه بندی می شوند. در مورد ما ، این تبعیض آمیز قادر است با طبقه بندی و بومی سازی مناطق جعلی همانطور که در شکل 2 نشان داده شده است ، بیشتر پیش برود.

2. 3 رویکرد چند رشته ای

در بخش فوق فقط از یک فیلتر تقسیم بندی واقعی / جعلی K R / F استفاده کردیم که دارای یک میدان گیرنده خاص از اندازه S × S است. این اندازه با موقعیت K R / F در شبکه تعریف می شود. بنابراین رسیدگی به مناطق جعلی که می توانند در مقیاس های مختلف تنها با یک فیلتر در یک مقیاس خاص رخ دهند ، بهینه بهینه است. بنابراین ، ما پیشنهاد می کنیم یک رویکرد تقسیم بندی واقعی/جعلی چند مقیاس برای ضبط تنوع بافت بیشتر دنبال کنیم.

برای انجام این کار ، ما وظیفه تقسیم بندی را با فیلترهای متعدد مستقر در سطوح مختلف شبکه انجام می دهیم و در نتیجه اندازه زمینه های گیرنده متفاوتی داریم. به طور رسمی ، هر فیلتر K I R / F به عنوان ورودی نقشه های ویژگی ارائه شده توسط لایه Convolutional I T H و نقشه های واقعی / جعلی F I R / F که به صورت رو به رشد هستند و همیشه با همان ماسک حقیقت زمین M ، مانند Sec ، مقایسه می شود. 2. 2

3 آزمایش و نتیجه

3. 1 تنظیمات آزمایشی

کار تزریق بافت از آنجا که کار تزئین بافت مبتنی بر GAN در ادبیات رایج نیست ، ما پیشنهاد کردیم که یک تنظیم آزمایشی جدید را با استفاده از مجموعه داده های Textures قابل توصیف در دسترس (DTD) تنظیم کنیم [3]. DTD شامل 5640 تصویر بافت است و ما تقریباً 200 تصویر تصادفی را برای اهداف آزمایش و بقیه برای آموزش/اعتبار سنجی استفاده کردیم. برای هر تصویر ، ما چندین ماسک مستطیل (تعداد تصادفی ، حداکثر 5) ، در موقعیت های تصادفی قبل از تغذیه آن به ژنراتور ایجاد کردیم. ماسک ها در نهایت با یکدیگر همپوشانی دارند و 15 ٪ تا 30 ٪ از آموزش و تصاویر را پوشش می دهند. ما برای مقایسه عادلانه از یک مجموعه ثابت از ماسک برای تصاویر آزمایش استفاده کردیم.

برای مقایسه عملکرد همه روشها ، ما از 3 معیار مشترک استفاده کردیم: نسبت سیگنال به نویز (PSNR) ، شباهت ساختاری (SSIM) و میانگین شباهت ادراکی (MPS) محاسبه شده توسط:

1 c a r d (x) ∑ x ∈ X (1 - p s (x ،~x)) ، جایی که x مجموعه ای از تصاویر تست ماسک است ، و PS از دست دادن ادراکی است که در آن تعریف شده است [16]. علاوه بر این ، هر ژنراتور 5 بار آموزش دیده و میانگین نمره برای اطمینان از مقایسه عادلانه گزارش می شود.

روشهای مقایسه ای که ما تبعیض آمیز (سعد و نسخه چند مقیاس آن) را با سه مورد موجود مقایسه کردیم: (i) رمزگذار متن (CE) که در سطح جهان تصویر تولید شده را طبقه بندی می کند.(ب) GLCIC که شامل ویژگی های یک تبعیض جهانی و محلی است. و (iii) GLPG که ترکیبی از Glcic و Patchgan است (در طبقه بندی تکه های واقعی/جعلی با فیلترهای حلقوی و میانگین خروجی های آنها برای به دست آوردن پیش بینی جهانی است). سعد و این سه روش در شکل 1 نشان داده شده است. لازم به ذکر است که ، بسیاری از آثار ارائه شده برای استفاده از ضرر ادراکی [16] محاسبه شده از ویژگی های VGG-19 یا Alexnet [1] اما این به سهم ما متعامد است و هدف در اینجا سنجش نظارت های مختلف تبعیض ها است.

توجه داشته باشید که ، از همان شبکه ژنراتور برای همه روش ها و همچنین ستون فقرات یکسان استفاده شده است. مورد دوم ، مربوط به 3 بلوک اول Resnet-18 [7]

معماری همانطور که با بافت ها سر و کار داریم و نیازی به ویژگی های سطح بالا نداریم. برای تبعیض محلی در GLCIC و GLPG ، ما فقط از دو بلوک اول استفاده کردیم. ما تمام شبکه ها را با 200 دوره با استفاده از Adam Optimizer با نرخ یادگیری آموزش دادیم

10 - 4 و 4 10 - 4 به ترتیب برای ژنراتور و تبعیض آمیز. برای جلوگیری از فروپاشی مدل ، ما از مجازات شیب صفر محور همانطور که در [10] تعریف شده است استفاده کردیم

3. 2 نتیجه

نتایج روشهای مختلف در مورد کارآیی بافت در DTD در برگه ارائه شده است. 1

وادما می توانیم ببینیم که روشهای ما بدون در نظر گرفتن متریک ارزیابی ، بهتر از سایرین عمل می کنند. به عنوان مثال ، Saad-Multiscale با 2 امتیاز از نمایندگان مجلس از پایه CE بهتر عمل می کند. مهمتر از همه ، در مقایسه با GLPG اخیر ، ما MPS را 1. 6 ٪ بهبود می دهیم. از آنجا که تنها تفاوت بین GLPG و سعد نظارت است (

یعنی طبقه بندی در مقابل تقسیم بندی) ، این نتیجه نشان می دهد که سهم اصلی این مقاله با ارزش است.

با این حال ، باید در هنگام برخورد با تصاویر بافت ، در دستکاری معیارهای ارزیابی PSNR ، SSIM و MPS مراقب باشید. در واقع ، گاهی اوقات از نظر بصری نتایج خوبی دارد ، همانطور که در شکل 3 نشان داده شده است. بنابراین ، ما تصمیم گرفتیم یک مقایسه کیفی روشهای مختلف انجام دهیم. نتایج در شکل 4 آورده شده است. از این نتایج ، ما به وضوح می توانیم مشاهده کنیم که چگونه بافت های تولید شده روش ما در مقایسه با دیگران از نظر بصری بهتر هستند.

نمایندگان PSNR SSIM
رمزگذار متن (پاتاک و همکاران) 95. 3 24. 385 0. 901
GLCIC (Iizuka و همکاران) 96. 2 24. 728 0. 924
GLPG (Armanious و همکاران) 95. 6 26. 409 0. 930
سعد (مال ما) 97. 2 26. 635 0. 934
Saad Multiscale (ما) 97. 3 27. 536 0. 937
جدول 1: نتایج تزریق با MPS در ٪ و PSNR در DB.

4. نتیجه گیری

ما یک رویکرد جدید برای تزریق بافت مبتنی بر GAN ارائه دادیم که شامل تغییر وظیفه تبعیض به یک تقسیم بندی برای دستیابی به تکمیل بافت بهتر است. ما از طریق نتایج کمی و کیفی در DTD نشان داده ایم که این روش جدید نظارت به ژنراتور اجازه می دهد تا بافت ها را بهتر تولید کند و ویژگی های محلی مانند رنگ ها ، تضادها و شکل ها را حفظ کند.

شکل 3: تصویر ناکارآمدی معیارهای ارزیابی برای مشکل وارد کردن بافت. به عنوان مثال ، در ردیف اول ، نتیجه چپ از نظر ادراکی مبهم است ، در حالی که نمرات بسیار بالاتری از سمت راست کسب می کند ، که این شکل ها را کاملاً واضح می کند.

شکل 4: نتایج کیفی روشهای مختلف در کار تزریق بافت. ماسک ها برای دید به رنگ آبی رنگ هستند.

منابع

  • [1] K. Armanious ، Y. Mecky ، S. Gatidis ، and B. Yang (2019) Inpainting inpainting از روش های تصویر پزشکی. در ICASSP 2019-2019 کنفرانس بین المللی IEEE در مورد آکوستیک ، پردازش گفتار و سیگنال (ICASSP) ، به نقل از: §1 ، §3. 1.
  • [2] A. Bugeau و M. Bertalmio (2009) ترکیب سنتز بافت و انتشار برای تزریق تصویر. واددر VisAsp 2009 پیشروهای چهارمین کنفرانس بین المللی نظریه و برنامه های دیدگاه رایانه ، به نقل از: 1.
  • [3] M. Cimpoi ، S. Maji ، I. Kokkinos ، S. Mohamed ، and A. Vedaldi (2014) توصیف بافت ها در طبیعت. که در

مجموعه مقالات IEEE Conf. در مورد دید رایانه و تشخیص الگوی (CVPR) <SPAN> [1] K. Armanious ، Y. Mecky ، S. Gatidis و B. Yang (2019) Inpainting inpainting از روش های تصویر پزشکی. در ICASSP 2019-2019 کنفرانس بین المللی IEEE در مورد آکوستیک ، پردازش گفتار و سیگنال (ICASSP) ، به نقل از: §1 ، §3. 1.

برچسب ها

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.