ຂະຫຍາຍ / ການສະແດງຕົວຢ່າງຂອງຂໍ້ມູນໃນຄື້ນສຽງ.

Meta AI

ອາທິດທີ່ຜ່ານມາ, Meta ໄດ້ປະກາດວິທີການບີບອັດສຽງທີ່ໃຊ້ AI ທີ່ເອີ້ນວ່າ “EnCodec” ທີ່ສາມາດຖືກລາຍງານວ່າສາມາດບີບອັດສຽງຂະຫນາດນ້ອຍກວ່າຮູບແບບ MP3 10 ເທົ່າຢູ່ທີ່ 64kbps ໂດຍບໍ່ມີການສູນເສຍຄຸນນະພາບ. Meta ກ່າວວ່າເຕັກນິກນີ້ສາມາດປັບປຸງຄຸນນະພາບສຽງຂອງສຽງເວົ້າໃນການເຊື່ອມຕໍ່ທີ່ມີແບນວິດຕ່ໍາ, ເຊັ່ນ: ການໂທຫາໂທລະສັບໃນເຂດທີ່ມີການບໍລິການທີ່ຊັດເຈນ. ເຕັກນິກຍັງເຮັດວຽກສໍາລັບດົນຕີ.

Meta ໄດ້ເປີດຕົວເທກໂນໂລຍີໃນວັນທີ 25 ເດືອນຕຸລາໃນເອກະສານທີ່ມີຊື່ວ່າ “High Fidelity Neural Audio Compression,” ຂຽນໂດຍນັກຄົ້ນຄວ້າ Meta AI Alexandre. Defossez, Jade Copet, Gabriel Synnaeve, ແລະ Yossi Adi. Meta ຍັງໄດ້ສະຫຼຸບການຄົ້ນຄວ້າກ່ຽວກັບ blog ຂອງຕົນທີ່ອຸທິດໃຫ້ EnCodec.

Meta ອ້າງວ່າຕົວເຂົ້າລະຫັດ/ຕົວຖອດລະຫັດສຽງໃໝ່ຂອງມັນສາມາດບີບອັດສຽງໜ້ອຍກວ່າ MP3 10x.
ຂະຫຍາຍ / Meta ອ້າງວ່າຕົວເຂົ້າລະຫັດ/ຕົວຖອດລະຫັດສຽງໃໝ່ຂອງມັນສາມາດບີບອັດສຽງໜ້ອຍກວ່າ MP3 10x.

Meta AI

Meta ອະທິບາຍວິທີການຂອງຕົນເປັນລະບົບສາມສ່ວນການຝຶກອົບຮົມເພື່ອບີບອັດສຽງເປັນຂະຫນາດເປົ້າຫມາຍທີ່ຕ້ອງການ. ທໍາອິດ, ຕົວເຂົ້າລະຫັດຈະປ່ຽນຂໍ້ມູນທີ່ບໍ່ໄດ້ບີບອັດເປັນການສະແດງອັດຕາເຟມຕ່ໍາ “ຊ່ອງຫວ່າງ”. “quantizer” ຫຼັງຈາກນັ້ນບີບອັດການເປັນຕົວແທນໃຫ້ກັບຂະຫນາດເປົ້າຫມາຍໃນຂະນະທີ່ຕິດຕາມຂໍ້ມູນທີ່ສໍາຄັນທີ່ສຸດທີ່ຕໍ່ມາຈະຖືກນໍາໃຊ້ເພື່ອສ້າງສັນຍານຕົ້ນສະບັບ. (ສັນຍານທີ່ຖືກບີບອັດນີ້ແມ່ນສິ່ງທີ່ຖືກສົ່ງຜ່ານເຄືອຂ່າຍຫຼືຖືກບັນທຶກໄວ້ໃນແຜ່ນ.) ສຸດທ້າຍ, ຕົວຖອດລະຫັດປ່ຽນຂໍ້ມູນທີ່ຖືກບີບອັດກັບຄືນສູ່ສຽງໃນເວລາຈິງໂດຍໃຊ້ເຄືອຂ່າຍ neural ໃນ CPU ດຽວ.

ແຜນວາດບລັອກທີ່ສະແດງໃຫ້ເຫັນວິທີການບີບອັດ EnCodec ຂອງ Meta ເຮັດວຽກ.
ຂະຫຍາຍ / ແຜນວາດບລັອກທີ່ສະແດງໃຫ້ເຫັນວິທີການບີບອັດ EnCodec ຂອງ Meta ເຮັດວຽກ.

Meta AI

ການໃຊ້ຕົວຈຳແນກ Meta ພິສູດໃຫ້ເຫັນຫຼັກໃນການສ້າງວິທີການບີບອັດສຽງໃຫ້ຫຼາຍເທົ່າທີ່ເປັນໄປໄດ້ ໂດຍບໍ່ສູນເສຍອົງປະກອບຫຼັກຂອງສັນຍານທີ່ເຮັດໃຫ້ມັນໂດດເດັ່ນ ແລະສາມາດຮັບຮູ້ໄດ້:

“ກຸນແຈຂອງການບີບອັດການສູນເສຍແມ່ນການກໍານົດການປ່ຽນແປງທີ່ມະນຸດບໍ່ສາມາດຮັບຮູ້ໄດ້, ຍ້ອນວ່າການຟື້ນຟູທີ່ສົມບູນແບບເປັນໄປບໍ່ໄດ້ໃນອັດຕາບິດຕ່ໍາ. ເພື່ອເຮັດສິ່ງນີ້, ພວກເຮົາໃຊ້ຕົວຈໍາແນກເພື່ອປັບປຸງຄຸນນະພາບການຮັບຮູ້ຂອງຕົວຢ່າງທີ່ສ້າງຂຶ້ນ. ນີ້ສ້າງ cat- ແລະເກມຫນູທີ່ວຽກຂອງຜູ້ຈໍາແນກແມ່ນການຈໍາແນກລະຫວ່າງຕົວຢ່າງທີ່ແທ້ຈິງແລະຕົວຢ່າງທີ່ສ້າງຂຶ້ນໃຫມ່.

ມັນເປັນມູນຄ່າທີ່ສັງເກດວ່າການນໍາໃຊ້ເຄືອຂ່າຍ neural ສໍາລັບການບີບອັດສຽງແລະການບີບອັດແມ່ນຢູ່ໄກຈາກສິ່ງໃຫມ່ – ໂດຍສະເພາະສໍາລັບການບີບອັດສຽງ – ແຕ່ນັກຄົ້ນຄວ້າຂອງ Meta ອ້າງວ່າພວກເຂົາເປັນກຸ່ມທໍາອິດທີ່ນໍາໃຊ້ເຕັກໂນໂລຢີກັບສຽງສະເຕີລິໂອ 48 kHz (ດີກວ່າອັດຕາການເກັບຕົວຢ່າງ CD ຂອງ 44.1 kHz ເລັກນ້ອຍ. ) ), ເຊິ່ງແມ່ນປົກກະຕິສໍາລັບໄຟລ໌ເພງທີ່ແຈກຢາຍຢູ່ໃນອິນເຕີເນັດ.

ສໍາລັບຄໍາຮ້ອງສະຫມັກ, Meta ກ່າວວ່າ “hypercompression ຂອງສຽງ” ທີ່ຂັບເຄື່ອນດ້ວຍ AI ສາມາດສະຫນັບສະຫນູນ “ການໂທໄວ, ຄຸນນະພາບດີກວ່າ” ໃນສະພາບເຄືອຂ່າຍທີ່ບໍ່ດີ. ແລະ, ແນ່ນອນ, ເປັນ Meta, ນັກຄົ້ນຄວ້າຍັງກ່າວເຖິງຜົນສະທ້ອນ metaverse ຂອງ EnCodec, ໂດຍກ່າວວ່າເຕັກໂນໂລຢີສາມາດສົ່ງ “ປະສົບການ metaverse ທີ່ອຸດົມສົມບູນໂດຍບໍ່ຈໍາເປັນຕ້ອງມີການປັບປຸງແບນວິດທີ່ສໍາຄັນ.”

ນອກຈາກນັ້ນ, ບາງທີພວກເຮົາຍັງຈະໄດ້ຮັບໄຟລ໌ສຽງດົນຕີຂະຫນາດນ້ອຍແທ້ໆອອກຈາກມັນໃນມື້ຫນຶ່ງ. ສໍາລັບໃນປັດຈຸບັນ, ເທກໂນໂລຍີໃຫມ່ຂອງ Meta ຍັງຢູ່ໃນຂັ້ນຕອນການຄົ້ນຄວ້າ, ແຕ່ມັນຊີ້ໃຫ້ເຫັນເຖິງອະນາຄົດທີ່ສຽງທີ່ມີຄຸນນະພາບສູງສາມາດນໍາໃຊ້ແບນວິດຫນ້ອຍ, ເຊິ່ງອາດຈະເປັນຂ່າວດີສໍາລັບຜູ້ໃຫ້ບໍລິການບໍລະອົດແບນມືຖືທີ່ມີເຄືອຂ່າຍ overburdened ຈາກສື່ streaming.

Categories: AiHome

0 Comments

Leave a Reply

Avatar placeholder

Your email address will not be published. Required fields are marked *