دیپ فیک

دیپ فیک صوتی چیست؟

دیپ فیک صوتی چیست؟

دیپ فیک صوتی نیز مانند نمونه‌های تصویری , از هوش مصنوعی برای تغییر صدا استفاده میکند . آیا می‌توان صدای تغییریافته و غیرواقعی را شناسایی کرد؟

ویدیوهای دیپ‌فیک , شخصیت‌های غیرواقعی را در یک فیلم قرار می دهند . با دیدن این فیلم‌ها , دیگر نمی توان به آن‌چه که می بینیم , اعتماد کنیم . اکنون نمونه‌های دیگری به‌نام دیپ فیک صوتی مطرح میگردند که اعتماد به گوش‌ها را نیز از در میان می برند . احتمال دارد از این پس با شنیدن یک قطعه‌ی صوتی نیز از خویش بپرسید که آیا صدای فولدر , همان فرد مدنظر بود؟ به‌عنوان مثال فکر کنید یک کدام از دوستان خوب , در پیامی صوتی یا این که حتی تماس , از شما بخواهد که سر عبور مهم مشترکی را برای وی بخوانید . آیا صدایی که شنیدید , صدای خویش وی بوده است؟

فناوری دیپ‌فیک اگر چه در ابتدا به‌عنوان سرگرمی چشم به جهان گشود , به‌مرور خویش را به یک نگرانی و معضل امنیتی تبدیل کرد . درواقع بسیاری از متخصصین امنیت نگران می باشند که در آینده , محتوای صوتی و چهره یی تولیدشده به‌کمک دیپ‌فیک , چه بسا به جنگ‌های جهانی بینجامد . فکر کنید پیامی صوتی یا این که چهره‌ای از مقام مسئول یک کشور پخش شود که با کشوری دیگر , اعلام جنگ می‌نماید . احتمال دارد تا پاسخ رسمی آن مقام مسئول و تکذیب محتوای منتشرشده , نیمی از جهان وارد جنگ شده باشند . به‌هرحال دیپ‌فیک امروز اهمیت بالایی در نظر متخصصین دارد و احتمال دارد شناخت خوب تر با آن , از فریب خوردن ساده و ابتدایی خودداری نماید .

دیپ فیک

دیپ فیک صوتی چیست؟

بخش اعظم ما ویدیوهای دیپ‌فیک را دیده‌ایم که در آن ها , چهره‌ی شخصیت حیاتی یک فیلم با چهره‌ی شخص دیگری جابه‌جا می‌گردد . در نمونه‌های حرفه‌ای , شناسایی تقلبی بودن چهره‌ی نو مضاعف مشقت بار می‌گردد . اکنون نمونه‌های دیگری دیده می شوند که از هوش تصنعی و مصنوعی برای تغییر و تحول صدا استعمال می‌نمایند . کمپانی Resemble AI یکی ارائه‌دهنده‌های فناوری کپی گرفتن صدا است . زهیب احمد , مدیرعامل کمپانی , دیپ‌فیک صوتی را به فتوشاپ تشبیه مینماید که برای صوت به عمل رفته باشد . دستکاری ناشیانه‌ی یک فولدر فتوشاپ , اکثر وقت ها به‌راحتی شناسایی میگردد . درحالی‌که محققان امنیتی می‌‌گویند مردمان در شناسایی صدای دیپ‌فیک , فقط ۵۷ درصد دقت دارند .

دیپ فیک صوتی از هوش مصنوعی  برای جابه‌جایی یا این که کپی کردن صدای اشخاص استفاده می نماید

نکته‌ی قابل‌توجه در دیپ‌فیک صوتی این است که اکثر زمان ها محتوای ضبط‌شده از تماس‌های صوتی یا این که پیام‌های صوتی که در شبکه‌های اجتماعی بده بستان می‌گردد , کیفیت پایینی دارد . به‌هرحال این محتوا در محیط‌های پر هیاهو یا این که با دستگاه‌های نه‌چندان حرفه‌ای ضبط میگردد . در چنین قوانینی دیپ فیک صوتی راحت‌تر کار می کند . درنهایت هرچه کیفیت صدا پایین‌تر باشد , شناسایی صدای مهم و تقلبی دشوارتر خواهد بود .

اکنون این سؤال تولید می شود که چرا از ابتدا می بایست یک فناوری شبیه فتوشاپ برای صدا بسط پیدا کند؟

عامل قانع‌کننده برای ساخت صدای مصنوعی

زهیب میگوید تقاضای متعددی برای صدای مصنوعی در بازار موجود هست . خصوصا در دنیای بازی , درخواست‌کردن فراوان بیشتر می‌گردد . در گذشته , صدای صحبت کردن اشخاص در بازی‌ها به‌صورت آنی ساخته نمی شد . حتی‌در حرفه‌ای‌ترین بازی‌ها با صحنه‌های سینمایی کیفیت عالی نیز صدای شخصیت‌ها به‌صورت ایستا ضبط و منتشر شده بود . امروزه با ترقی فناوری , استودیوها گنجایش مطلوب را برای رو نوشت صدای یک هنرپیشه پیدا کرده‌اند . آنان با ادغام این صدای اسکن با فناوری‌های تبدیل متن به صوت , صدای زنده را به شخصیت‌های بازی می دهند . درنتیجه هر شخصیت در بازی , به‌صورت زنده حرف می نماید .

علاوه بر دنیای بازی , تبلیغات و پشتیبانی مشتریان و دیگر حوزه‌های فناوری نیز از صدای تصنعی بهره می برند . در بخش رابطه با مشتری , صدایی طبیعی و مشابه به آدم که واکنشی طبیعی به پرسش‌ها و سؤال‌های مشتری دارد , فراوان کارآمد خواهد بود . شرکت‌های فعال در صنعت کپی کردن صدا , کاربردهای زیادی را نیز در حوزه‌های طبی پیدا کرده‌اند . اما استفاده از صدای جایگزین در دنیای طبی آ‌ن‌چنان تازه نیست . استیون هاوکینگ از سال ۱۹۸۵ و بعد از آنکه صدایش را از دست داد , از صدای مصنوعی برای صحبت کردن استفاده میکرد . امروزه فناوری‌های پیشرفته‌تری به یاری محققان میایند و صدای مصنوعی با کیفیت بالاتری ایجاد میکنند .

از شرکت‌های فعال در صنعت ساخت صدای مصنوعی می‌توان به CereProc اشاره نمود . این شرکت پروژه‌هایی همچون ساخت صدای تصنعی و مصنوعی برای منتقد سینما , راجر ایبرت داشت که بعد از ابتلا به سرطان , صدای خویش را از دست داده بود . آنان همینطور وب‌سایتی گسترش دادند که متن‌های واردشده توسط یوزرها را با صدای رئیس‌جمهور ایالات متحده میخواند . کمپانی مذکور به‌همراه تعدادی کمپانی شبیه , همکاری‌هایی نیز با مؤسسه‌ی ASL Associaton دارااست و با فعال‌ساز‌ی Project Revoice , در بازیابی صدا به بیماران دچار به ALS امداد میکند .

 

صدای مصنوعی چه گونه ساخته می‌شود؟

ساخت صدای اسکن و مصنوعی امروزه طرف داران متعددی دارد و شرکت‌های زیادی با جدیت در این حوزه کار میکنند . به‌عنوان نمونه Resemble AI و Descript دموهای آنلاینی را در اختیار یوزرها معمولی قرار می دهند که تجهیزات قابل‌توجهی نیز دارا‌هستند . برای به کارگیری از دموهای آنلاین صرفا بایستی صدای خویش را با خواندن یک متن روی نمایشگر ضبط کرده و ارسال نمائید . سپس یک نمونه‌ی کامل از صدای شما ساخته می گردد .

تبدیل کردن نمونه‌ی صدا به صدایی بی نقص , به لطف فناوری هوش تصنعی و خصوصا الگوریتم‌‌های یاد گرفتن عمیق ممکن میگردد . این الگوریتم‌ها , جزئیات صدای شمارا از نمونه‌ی ضبط‌شده استخراج میکنند و مدلی از آن میسازند . بعد بلوک‌های سازنده‌ی گویش استخراج میشوند تا برای تفلظ کلماتی که شما به گویش نیاورده‌اید , استفاده شوند . فناوری موردنیاز برای چنین فرایندی از مدت‌ها پیش وجود داشت , البته محققان به ادغام کردن و استخراج بهترین راهکار برای استفاده از آن , نیاز داشتند .

پیشرفت‌های صورت‌گرفته در بصیرت کامپیوتری , در کپی کردن صدا هم به فعالیت آمدند

توسعه‌دهنده‌ها برای ساختن الگوریتم‌های حرفه‌ای , به مجموعه‌ای عظیم از صداهای ضبط‌شده نیاز داشتند تا حاصل قابل‌قبولی از فرایندهای ساخت صدا کسب شود . از یک سری سال پیش , پژوهش ها و پیشرفت‌های علمی با سرعت متعددی پیش رفتند و زمینه‌ی کافی برای توسعه‌ی فناوری آماده شد . پژوهش ها در حوزه‌ی بصیرت کامپیوتری اهمیت متعددی پیدا کرد که بعدا باعث به ترقی سریع‌تر هوش تصنعی و مصنوعی صوتی نیز شد . محققان برای توسعه‌ی الگوریتم‌های بصیرت کامپیوتری , شبکه‌های GAN گسترش دادند که بضاعت پیش‌بینی براساس داده‌های جان دار را داشت . درنهایت پژوهشگران حوزه‌ی هوش مصنوعی صوتی براین باوراند پایه‌های ترقی , از توسعه‌ی هوش مصنوعی بصری تولید شد .

یکی‌از نوآوری‌های مهمی که در فناوری کپی کردن صدا ایجاد شد , نیاز به داده‌های خام برای ساخت یک صدا را تا حد متعددی کاهش بخشید . همان‌طور که گفته شد , در قبلی به ده‌ها یا این که صدها ساعت صدا نیاز بود تا یک صدای مصنوعی ساخته شود . اکنون فقط با استعمال از یکسری دقیقه نمونه‌ی صدا , می‌توان آن را کپی کرد .

ترس ذاتی و عدم اعتماد

فناوری صدای مصنوعی هم نظیر هر فناوری انقلابی دیگر همچون انرژی هسته‌ای , نانوتکنولوژی , چاپ سه‌بعدی و CRISPR , در صدر با نگرانی و هراس روبه‌رو شد . در کل , گزارش‌های زیادی نیز وجود داشتند که از فریب تناول کردن به‌خاطر صدای مصنوعی و تقلبی گلایه می‌کردند . یک کمپانی بریتانیای در سال ۲۰۱۹ گزارش بخشید که با فریب میل کردن از یک صدای مصنوعی , ‌ یه خرده پول به مجرمان پرداخت نموده است . برای دیدن نمونه‌های صوت اسکن شده , نیاز به جست‌وجوی متعددی ندارید . هم‌اکنون در یوتیوب کانال‌های زیادی میباشند که از صدای شخصیت‌های دارای شهرت برای ساختن کلیپ‌های طنز به کارگیری مینمایند .

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *