هوش مصنوعی در حال تغییر دید ما از زبان و نحوه دسترسی به آن است و با پیشرفت آن در سالیان آتی شاید شاهد تحول در زمینه ترجمه زنده و صحیح اغلب زبانهای دنیا از جانب هوش مصنوعی باشیم.
به گزارش رمز فردا، در عصر اینترنت، مردم به یکدیگر نزدیک و نزدیکتر میشوند. شما میتوانید با دوست خود در هر کجای دنیا به صورت صوتی و تصویری تماس برقرار کنید یا بسیاری از کارهای سنتی را که قبلا به ابزار و کاغذ و موارد دیگر نیاز داشت، تنها با موبایل هوشمند خود در کمترین زمان ممکن انجام دهید.
اما هرچه دنیا به هم نزدیکتر میشود، توجه ما بیشتر و بیشتر به سمت فضای مجازی معطوف میشود. ما ساعتها در طول روز به گردش در برنامههایی نظیر اینستاگرام میپردازیم و زمان کمتری را صرف تعامل مستقیم با یکدیگر میکنیم.
نقش هوش مصنوعی در دنیای امروز
هوش مصنوعی(AI) موضوعی است که جهان امروز ما را به شدت تحت تاثیر قرار داده است و مانند بسیاری از فناوریها، مزایای فراوان و البته برخی معایب نیز دارد. این فناوری هم اکنون به سرعت در حال پیشرفت و توسعه است و حتی برخی را نسبت به سلطه بر انسان طی سالهای آینده نگران کرده است.
اما آیا هوش مصنوعی در آینده نزدیک جایگزین مترجمان و زبان اشاره خواهد شد؟
سرشاخ شدن گوگل با مترجمان
شرکت گوگل در مارس ۲۰۲۱ از ویژگی “Live Captions” به معنای “زیرنویس یا عنوان زنده” خود در مرورگرهای کروم(Chrome) رونمایی کرد. این ویژگی از فناوری یادگیری ماشینی استفاده میکند تا بلافاصله زیرنویسها را روی هر کلیپ تصویری یا صوتی ایجاد کند و به افراد ناشنوا و کم شنوا دسترسی بیشتری به محتوای اینترنت بدهد.
در گذشته و امروز نیز از زیرنویسهای از قبل تهیه شده برای قالبهای ویدئویی استفاده میشود و یا اینکه یک تندنویس، تقریباً فوری و در لحظه مطالب را تایپ میکرد تا به عنوان زیرنویس پخش شود. با این حال، در جاهایی که زیرنویس معمول و رایج نیست، مانند برنامههایی مانند اینستاگرام یا تیکتاک، یافتن زیرنویسها تقریباً غیرممکن است.
اکنون ویژگی “زیرنویس زنده” این موضوع را تغییر میدهد و هر کاربری با چند کلیک روی نمایشگر میتواند زیرنویسهای آنی و دقیقی در اختیار داشته باشد که محتواهای صوتی و تصویری را در برمیگیرد.
ویژگی “زیرنویس زنده” شرکت گوگل نوعی “NLP” یا “پردازش زبان طبیعی” است. “NLP” نوعی هوش مصنوعی است که با استفاده از الگوریتمها، برقراری تعامل میان مردم و ماشینها را تسهیل میکند. “NLP” به ما کمک میکند تا زبانهای انسانی را به زبانهای ماشینی و برعکس ترجمه کنیم.
“آلن تورینگ” پدر هوش مصنوعی
برای درک تاریخچه “NLP” باید به سراغ یکی از باهوشترین دانشمندان عصر مدرن به نام “آلن تورینگ” برویم. وی در سال ۱۹۵۰ مقاله ” ماشین آلات رایانشی و هوش” را منتشر کرد که در مورد مفهوم رایانههای متفکر و دارای درک بحث میکرد.
وی در این مقاله ادعا کرد که هیچ استدلال قانع کنندهای علیه این ایده که ماشینها میتوانند مانند انسان فکر کنند، وجود ندارد و آزمون “بازی تقلید”(imitation game) را که اکنون به عنوان “آزمون تورینگ” شناخته میشود، ارائه کرد. “تورینگ” راهی برای سنجش اینکه آیا هوش مصنوعی میتواند به تنهایی فکر کند یا نه پیشنهاد کرد و گفت که اگر هوش مصنوعی بتواند انسانی را فریب دهد تا آن انسان باور کند که هوش مصنوعی احتمالا یک انسان است، میتوان آن را هوشمند دانست.
“جوزف وایزنباوم” دانشمند آلمانی از سال ۱۹۶۴ تا ۱۹۶۶ یک الگوریتم “NLP” نوشت که معروف به “الیزا”(ELIZA) است. “الیزا” از تکنیکهای تطبیق الگو برای ایجاد مکالمه استفاده کرده است. به عنوان مثال در یک مکالمه مربوط به مراجعه بیمار به پزشک، اگر بیمار به رایانه بگوید “سر من درد میکند”، این عبارت با عبارتی شبیه به “چرا سرت درد میکند؟” پاسخ داده میشود. “الیزا” در حال حاضر به عنوان یکی از قدیمیترین رباتهای گفتگو و یکی از اولین الگوریتمهایی است که به نوعی در “آزمایش تورینگ” میتواند انسان را فریب دهد.
دهه ۱۹۸۰ نقطه عطف بزرگی در تولید “NLP” بود. در گذشته سیستمهای “NLP” مانند “الیزا” با تکیه بر مجموعهای پیچیده از قوانین، مکالمات را شکل میدادند و هوش مصنوعی نمیتوانست برای خودش فکر کند. بلکه از پاسخهای از پیش آماده متناسب با موضوع گفتگو استفاده میکرد و وقتی یک انسان چیزی را به آن میگفت که پاسخی برای آن نداشت، با پاسخی نظیر “درباره این موضوع بیشتر به من بگویید” مواجه میشد.
“NLP” در اواخر دهه ۱۹۸۰ در عوض بر روی مدلهای آماری متمرکز شد که به آن کمک میکرد مکالمات را بر اساس احتمال شکل دهد.
تشخیص گفتار مدرن “NLP” شامل چند اصل مشترک مانند تشخیص گفتار، تشخیص صدا، شناسایی زبان و خلاصهسازی است که میتواند بین سخنرانان تفاوت قائل شود.
سیستم “زیرنویس زنده” گوگل از سه مدل یادگیری عمیق برای تشکیل زیرنویسها استفاده میکند: یک شبکه عصبی بازگشتی(RNN) برای تشخیص گفتار، یک RNN مبتنی بر متن برای تشخیص علائم نگارشی و یک شبکه عصبی حلقوی(CNN) برای طبقهبندی رویدادهای صوتی. این سه مدل، سیگنالهایی را ارسال میکنند که با هم ترکیب میشوند و زیرنویس را تشکیل میدهند.
وقتی گفتار در قالب صوت یا تصویر تشخیص داده میشود، شبکه عصبی بازگشتی تشخیص خودکار گفتار(ASR RNN) فعال میشود و به دستگاه اجازه میدهد کلمات را به شکل متن درآورد. وقتی این گفتار متوقف میشود، به عنوان مثال وقتی موسیقی به جای آن پخش میشود، فعالیت تشخیص خودکار گفتار برای صرفهجویی در باتری موبایل با نمایش برچسب “موسیقی” در زیرنویس، متوقف میشود.
همانطور که متن گفتار به صورت زیرنویس تنظیم میشود، علائم نگارشی روی جمله کامل شکل میگیرد. علائم نگارشی به طور مداوم تنظیم میشوند تا زمانی که نتایج تشخیص خودکار گفتار با معنی جمله تداخل نداشته باشد.
در حال حاضر، ویژگی “زیرنویس زنده” تنها میتواند زیرنویس را برای متون و گفتارها به زبان انگلیسی ایجاد کند، اما دائماً در حال بهبود است و در آینده نزدیک به زبانهای دیگر نیز گسترش مییابد. هم اکنون نسخههای اولیه زیرنویسهای اسپانیایی، آلمانی و پرتغالی در دسترس هستند.
“پروژه یوفونیا”
NLPهای دسترسی محور فقط به ایجاد زیرنویس محدود نمیشوند. یکی دیگر از پروژههای گوگل، “پروژه یوفونیا”(Project Euphonia) است که با استفاده از NLP به افراد دارای اختلال گفتاری کمک میکند تا توسط نرمافزار تشخیص گفتار بهتر شنیده و درک شوند.
“پروژه یوفونیا” ۳۰۰ تا ۱۵۰۰ عبارت صوتی را از داوطلبان دارای اختلال گفتاری جمعآوری میکند. سپس میتوان این نمونههای صوتی را به مدلهای تشخیص گفتار داده و برای آموزش انواع نقص گفتار تغذیه کرد. علاوه بر این، این برنامه سیستمهای صوتی ساده شدهای ایجاد میکند که میتوانند با استفاده از ردیابی صورت یا صداهای ساده اعمال مختلفی مانند روشن کردن چراغ یا پخش یک آهنگ خاص را انجام دهند.
یکی از جدیدترین شبکههای عصبی بازگشتی تشخیص خودکار گفتار گوگل در تلاش است تا نحوه تعامل ما با دیگران را تغییر دهد و دامنه ارتباط را گسترش دهد. حالت “مترجم گوگل”(Google Interpreter) برای شناسایی آنچه شما میگویید از تشخیص خودکار گفتار استفاده میکند و ترجمه دقیق آن را به زبان دیگری پخش میکند و به طور موثر مکالمهای را بین افراد دارای زبانهای متفاوت ایجاد میکند و موانع زبانی را از بین میبرد.
هنوز چند مشکل در سیستم تشخیص خودکار گفتار(ASR) وجود دارد. ماشینها در مشکلی که اغلب “شکاف لهجه هوش مصنوعی” نامیده میشوند، گاهی اوقات در درک افراد با لهجهها یا گویشهای غلیظ مشکل دارند. در حال حاضر این مشکل به شکل مورد به مورد حل میشود.
دانشمندان تمایل دارند از یک مدل “لهجه واحد” استفاده کنند که در آن الگوریتمهای مختلف برای گویشها یا لهجههای مختلف طراحی شده است. به عنوان مثال، برخی از شرکتها با استفاده از سیستمهای جداگانه تشخیص خودکار گفتار برای تشخیص گویشهای مکزیکی-اسپانیایی در مقابل گویشهای اسپانیایی-اسپانیایی آزمایش کردهاند.
در نهایت، بسیاری از این سیستمهای تشخیص خودکار گفتار نشان دهنده درجهای از سوگیری و تعصب ضمنی است. در ایالات متحده، گویش انگلیسی بومی آفریقایی-آمریکایی که به آن “AAVE” نیز گفته میشود، گویشی کاملاً رایج از انگلیسی سنتی است که معمولاً توسط آمریکاییهای آفریقاییتبار صحبت میشود. با این حال، مطالعات متعدد اختلافات نژادی قابل توجهی را در میزان خطای سیستمهای مختلف تشخیص خودکار گفتار پیدا کرده است. به عنوان مثال یک مطالعه که نشان میدهد که میانگین خطا برای سیاهپوستان در برنامههای تشخیص خودکار گفتار شرکتهای آمازون، اپل، گوگل، آیبیام و مایکروسافت تقریبا دو برابر سفیدپوستان است.
ایجاد آموزش متنوعتر برای هوش مصنوعی که شامل لهجههای محلی، گویشهای مختلف و عامیانه است میتواند به کاهش اختلاف در دقت تشخیص خودکار گفتار برای نژادها و قومیتهای مختلف کمک کند.
این فناوری پتانسیلی باورنکردنی برای گردهم آوردن مردم دارد، اما وقتی دچار تعصب و جهتگیری میشود، میتواند یک نیروی تفرقه افکن و منزوی کننده باشد. ما به لطف فناوری پردازش زبان طبیعی(NLP) در حال شروع به پر کردن این شکاف برای ایجاد آیندهای بهتر هستیم.