ເຕັກນິກປັນຍາປະດິດ (AI) ແລະການຮຽນຮູ້ເລິກ (DL) ກໍາລັງກາຍເປັນພື້ນຖານຂອງຄໍາຮ້ອງສະຫມັກເຊັ່ນ: ການສ້າງຂໍ້ຄວາມເປັນຮູບພາບ, ຄວາມລະອຽດສູງສຸດ, ແລະການແຕ້ມຮູບໃນຮູບພາບ.

ແທ້ຈິງແລ້ວ, ມັນເປັນໄປໄດ້ທີ່ຈະໃຫ້ພວກເຂົາໃສ່ຄໍາອະທິບາຍລາຍລະອຽດສູງຂອງຮູບພາບແລະໄດ້ຮັບຮູບພາບທີ່ແທ້ຈິງທີ່ສອດຄ້ອງກັນກັບຂໍ້ຄວາມທີ່ໄດ້ຮັບເປັນຜົນຜະລິດ. ຍິ່ງໄປກວ່ານັ້ນ, ພວກເຂົາສາມາດຖ່າຍທອດຮູບພາບຈາກຄວາມລະອຽດຕ່ໍາໄປສູ່ຄວາມລະອຽດສູງກວ່າ, ການສ້າງຊຸດໃຫມ່ຂອງລາຍລະອຽດຄວາມຖີ່ສູງທີ່ແທ້ຈິງ. ພວກມັນສາມາດຊ່ວຍເອົາສິ່ງປອມ ຫຼືວັດຖຸທີ່ບໍ່ຕ້ອງການອອກຈາກຮູບພາບທີ່ປ້ອນເຂົ້າໄດ້. ຄວາມຫລາກຫລາຍຂອງວຽກງານແລະຄວາມສາມາດຂອງເຄືອຂ່າຍ neural ເບິ່ງຄືວ່າບໍ່ຈໍາກັດ. ຈະເປັນແນວໃດຖ້າຫາກວ່າວິທີການເຫຼົ່ານີ້ຍັງສາມາດເດີນທາງໃນເວລາ?

ຕົວຢ່າງ, ເຈົ້າເຄີຍສົງໄສບໍວ່າຮູບຖ່າຍຂອງເຈົ້າຈະມີລັກສະນະແນວໃດຖ້າມັນຖືກຖ່າຍເມື່ອຫ້າສິບຫຼືຮ້ອຍປີກ່ອນ? ນັກສະແດງຫຼືນັກສະແດງທີ່ເຈົ້າມັກຈະມີລັກສະນະແນວໃດຖ້າພວກເຂົາເກີດໃນຍຸກທີ່ແຕກຕ່າງຈາກພວກເຂົາ? ຖ້າທ່ານສົນໃຈຢາກຮູ້ຄໍາຕອບຂອງຄໍາຖາມເຫຼົ່ານີ້, ສືບຕໍ່ອ່ານ, ແລະທ່ານຈະຄົ້ນພົບ.

ເນື່ອງຈາກຄວາມສໍາເລັດທີ່ຜ່ານມາຂອງ StyleGAN ໃນການສັງເຄາະແລະການແກ້ໄຂໃບຫນ້າທີ່ມີຄຸນນະພາບສູງ, ວຽກງານຈໍານວນຫຼາຍໄດ້ສຸມໃສ່ການແກ້ໄຂຮູບຄົນໂດຍໃຊ້ຕົວແບບ StyleGAN ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນ. ແນວໃດກໍ່ຕາມ, ເຕັກນິກທີ່ມີຢູ່ໂດຍປົກກະຕິຈະຈັດການຄຸນລັກສະນະ semantic ທີ່ຖືກກໍານົດໄວ້ດີ (ຕົວຢ່າງ, ເພີ່ມຫຼືເອົາຮອຍຍິ້ມອອກຫຼືດັດແປງອາຍຸຂອງຫົວຂໍ້). ແນວຄວາມຄິດທີ່ຢູ່ເບື້ອງຫລັງການເຮັດວຽກນີ້ແມ່ນແທນທີ່ຈະຮັກສາຄຸນລັກສະນະເຫຼົ່ານີ້ທີ່ບໍ່ປ່ຽນແປງ, ເຊິ່ງປະກອບເປັນຕົວຕົນຂອງບຸກຄົນ, ໃນຂະນະທີ່ສົ່ງພວກເຂົາກັບຄືນສູ່ອະດີດຫຼືກັບຄືນສູ່ອະນາຄົດກັບ DeLorean ທີ່ໃຊ້ AI ນີ້.

ບັນຫາຕົ້ນຕໍ, ໃນກໍລະນີນີ້, ແມ່ນການຂາດຊຸດຂໍ້ມູນທີ່ເຫມາະສົມ, ແລະມັນເປັນທີ່ຮູ້ຈັກຢ່າງກວ້າງຂວາງວ່າເຖິງແມ່ນວ່າຮູບແບບເຄືອຂ່າຍ neural ທີ່ສົມບູນແບບ, ຊຸດຂໍ້ມູນຍັງຄົງເປັນຝັນຮ້າຍຂອງນັກຄົ້ນຄວ້າ AI ທຸກຄົນ. ຂໍ້ມູນທີ່ບໍ່ສົມດຸນ, ບໍ່ພຽງພໍ, ຫຼືບໍ່ມີຂໍ້ມູນແມ່ນບັນຫາທີ່ກ່ຽວຂ້ອງທີ່ມີຊື່ສຽງໃນຂົງເຂດການຮຽນຮູ້ເລິກ, ຕາມລໍາດັບນໍາໄປສູ່ຜົນໄດ້ຮັບທີ່ບໍ່ລໍາອຽງຫຼືບໍ່ຖືກຕ້ອງ.

ເພື່ອເອົາຊະນະບັນຫານີ້, ນັກຄົ້ນຄວ້າໄດ້ສ້າງຕັ້ງ FTT (Faces Through Time), ຊຸດຂໍ້ມູນໃຫມ່ທີ່ມີຮູບພາບທີ່ມາຈາກ Wikimedia Commons (WC), ການເກັບກໍາຂໍ້ມູນຈໍານວນ 50 ລ້ານຮູບພາບທີ່ໄດ້ຮັບອະນຸຍາດຈາກຝູງຊົນ. TFF ມີ 26,247 ຮູບຈາກສັດຕະວັດທີ 19 ຫາ 21, ໂດຍສະເລ່ຍປະມານ 1,900 ຮູບຕໍ່ທົດສະວັດ.

ເຖິງແມ່ນວ່າມີຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍນີ້, ຜົນໄດ້ຮັບແມ່ນປະທັບໃຈ (ຮູບ 1).

ທີ່ມາ: https://arxiv.org/pdf/2210.6642.pdf

ແຕ່ຜົນໄດ້ຮັບເຫຼົ່ານີ້ບັນລຸໄດ້ແນວໃດ? ແນວຄວາມຄິດຕົ້ນຕໍແມ່ນ StyleGAN (Generative Adversarial Network) ສະຖາປັດຕະຍະກຳພໍ່ແມ່-ລູກ. ແທນທີ່ຈະເປັນການຝຶກອົບຮົມແບບຈໍາລອງດຽວທີ່ກວມເອົາທຸກທົດສະວັດ, ຄອບຄົວຂອງຕົວແບບເດັກນ້ອຍຖືກນໍາໃຊ້, ຫນຶ່ງສໍາລັບແຕ່ລະທົດສະວັດ, ເພື່ອສັງເຄາະການແຈກຢາຍຂໍ້ມູນຂອງແຕ່ລະໄລຍະເວລາ. ແນວໃດກໍ່ຕາມ, ເພື່ອຮັກສາເອກະລັກ ແລະການສະແດງຕົວຕົນຂອງບຸກຄົນທີ່ມີຮູບຄົນ, ຮູບແບບພໍ່ແມ່ໄດ້ຖືກຮັບຮອງເອົາເພື່ອເຮັດແຜນທີ່ຂໍ້ມູນນີ້ເປັນ vector ຊ່ອງຫວ່າງ.

ທໍ່ສະຖາປັດຕະຍະກໍາໄດ້ຖືກນໍາສະເຫນີດັ່ງຕໍ່ໄປນີ້.

ທີ່ມາ: https://arxiv.org/pdf/2210.6642.pdf

ທໍາອິດ, ຄອບຄົວຂອງແບບຈໍາລອງ StyleGAN ໄດ້ຖືກຝຶກອົບຮົມ, ຫນຶ່ງສໍາລັບແຕ່ລະທົດສະວັດ, ການນໍາໃຊ້ການສູນເສຍຂອງສັດຕູແລະການສູນເສຍຕົວຕົນໃນໃບຫນ້າປະສົມ. ໃບໜ້ານີ້ສະແດງເຖິງຜົນຜະລິດຈາກຕົວແບບເດັກນ້ອຍທີ່ດັດແປງໃຫ້ຄ້າຍກັບຕົວແບບແມ່ໃນສີຂອງມັນ. ມັນເປັນສິ່ງຈໍາເປັນເພື່ອຫຼີກເວັ້ນການບໍ່ສອດຄ່ອງໃນການສູນເສຍຕົວຕົນທີ່ຄິດໄລ່ຜ່ານລັກສະນະຕ່າງໆໃນ ArcFace, ຮູບແບບການຮັບຮູ້ໃບຫນ້າທີ່ນິຍົມ. ເນື່ອງຈາກຕົວແບບ ArcFace ໄດ້ຮັບການຝຶກອົບຮົມພຽງແຕ່ກ່ຽວກັບຮູບພາບທີ່ທັນສະໄຫມ, ຜູ້ຂຽນພົບວ່າມັນປະຕິບັດບໍ່ດີຕໍ່ຮູບພາບປະຫວັດສາດ.

ຫຼັງຈາກນັ້ນ, ແຕ່ລະຮູບພາບທີ່ແທ້ຈິງຈະຖືກນໍາໄປໃສ່ໃນ vector w ຢູ່ໃນ manifold ທົດສະວັດ (1960 ໃນຮູບຂ້າງເທິງ), ບ່ອນທີ່ເຄື່ອງກໍາເນີດໄຟຟ້າ G′t ໄດ້ຖືກຝຶກອົບຮົມເພື່ອໂອນລາຍລະອຽດການປັບປຸງໃຫມ່ໃຫ້ກັບຕົວແບບເດັກນ້ອຍທັງຫມົດ. ສຸດທ້າຍ, ຫນ້າກາກຖືກນໍາໃຊ້ກັບຮູບພາບທີ່ປ້ອນເຂົ້າເພື່ອຊຸກຍູ້ໃຫ້ຕົວແບບຮັກສາລາຍລະອຽດໃບຫນ້າ.

ເພື່ອສະຫຼຸບ, ການປະກອບສ່ວນທີ່ສໍາຄັນແມ່ນ (i) ການປະເຊີນຫນ້າຜ່ານເວລາ (ເຊັ່ນ, ຊຸດຂໍ້ມູນທີ່ຖືກຂຸດຄົ້ນສໍາລັບການຝຶກອົບຮົມເຄືອຂ່າຍ neural) ແລະ (ii) ສະຖາປັດຕະຍະກໍາໃຫມ່ສໍາລັບການຫັນປ່ຽນໃບຫນ້າໃນໄລຍະເວລາໃນຂະນະທີ່ຮັກສາລາຍລະອຽດຂອງຕົວຕົນ. ເຖິງແມ່ນວ່າມັນທົນທຸກກັບຄວາມລໍາອຽງຂະຫນາດນ້ອຍໃນຊຸດຂໍ້ມູນ (ເຊັ່ນ: ແມ່ຍິງຈໍານວນຫນ້ອຍທີ່ມີຜົມສັ້ນໃນຕອນຕົ້ນຂອງສະຕະວັດທີ 20) ທີ່ນໍາໄປສູ່ຄວາມບໍ່ສອດຄ່ອງຂອງຮູບພາບທີ່ອອກມາ, ຮູບແບບນີ້ຄ້າຍຄືກັບການປັບປຸງຂະຫນາດໃຫຍ່ເມື່ອປຽບທຽບກັບວຽກງານທີ່ຜ່ານມາ.

ນີ້ແມ່ນບົດສະຫຼຸບຂອງ TFF, ວິທີການໃຫມ່ສໍາລັບການປ່ຽນໃບຫນ້າຜ່ານເວລາ. ທ່ານສາມາດຊອກຫາຂໍ້ມູນເພີ່ມເຕີມຢູ່ໃນການເຊື່ອມຕໍ່ຂ້າງລຸ່ມນີ້ຖ້າທ່ານຕ້ອງການຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບມັນ.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'What's in a Decade? Transforming Faces Through Time'. All Credit For This Research Goes To Researchers on This Project. Check out the paper and project.
Please Don't Forget To Join Our ML Subreddit


Daniele Lorenzi ໄດ້ຮັບ M.Sc. ໃນ ICT ສໍາລັບວິສະວະກໍາອິນເຕີເນັດແລະມັນຕິມີເດຍໃນປີ 2021 ຈາກມະຫາວິທະຍາໄລ Padua, ປະເທດອິຕາລີ. ລາວເປັນ Ph.D. ຜູ້ສະໝັກທີ່ສະຖາບັນເຕັກໂນໂລຊີຂໍ້ມູນຂ່າວສານ (ITEC) ທີ່ Alpen-Adria-Universität (AAU) Klagenfurt. ໃນປັດຈຸບັນລາວກໍາລັງເຮັດວຽກຢູ່ໃນຫ້ອງທົດລອງ Christian Doppler ATHENA ແລະຄວາມສົນໃຈໃນການຄົ້ນຄວ້າຂອງລາວລວມມີການຖ່າຍທອດວິດີໂອແບບປັບຕົວ, ສື່ທີ່ເລິກເຊິ່ງ, ການຮຽນຮູ້ເຄື່ອງຈັກ, ແລະການປະເມີນຜົນ QoS / QoE.


Categories: AiHome

0 Comments

Leave a Reply

Avatar placeholder

Your email address will not be published. Required fields are marked *