با پیشرفت­هایی که در سال­های اخیر در حوزه­های مختلف علوم کامپیوتر اتفاق افتاده است، تعامل آسان و راحت با ماشین­های پردازش­گر به عنوان یک نیاز کاربران، ضروری­تر از گذشته به نظر می­رسد. گفتار به عنوان اولیه­ترین وسیله ارتباطی میان­ انسان­ها می­تواند به عنوان مسیر اصلی ارتباطی مطرح شود.
پردازش گفتار زیرشاخه­ای از هوش مصنوعی است که به امکان پردازش، فهم محتوا و دسته­بندی گفتار و تولید گفتار می­پردازد. ابزارهای تبدیل گفتار به متن(Automatic Speech Recognition- ASR) و متن به گفتار(Text to Speech- TTS) از مهمترین بخش­های این حوزه هستند.
در گذشته روش­های آماری بیشتر در حوزه پردازش گفتار استفاده می­شد که در سال­های اخیر با پیشرفت­هایی که در حوزه شبکه­های عصبی(Neural Network) خصوصا یادگیری عمیق(Deep Learning) اتفاق افتاده­است، حوزه پردازش گفتار نیز همگام با این تحولات تغییر کرده است.

پردازش گفتار انیگمایند

شرکت آوای همراه هوشمند هزاردستان سابقه فعالیت 4 ساله در حوزه پردازش محتوا اخیرا اقدام به ارایه سرویس­های در حوزه پردازش گفتار کرده است. این سرویس­های در قالب بسته سرویس­های پایه هوش مصنوعی به نام تجاری انیگمایند Enigmind ارایه می­شود. سرویس پردازش گفتار انیگمایند شامل دو خدمت تبدیل گفتار به متن و متن به گفتار ارایه شده است.
پردازش گفتار انیگمایند با تمرکز به زبان فارسی و استفاد و بهبود مستمر الگوریتم­های جدید پردزش گفتار به دنبال ایجاد یک سرویس با کیفیت بومی در این حوزه برای استفاده دیگر محصولات نرم­افزاری و شرکت­ها است.
از مزیت­های این سرویس نسبت به دیگر سرویس­های عرضه شده توسط شرکت­های بین­المللی موارد زیر است:

  • تمرکز بر زبان فارسی و دقت عملکرد در این زبان
  • امکان اختصاصی سازی پردازش بسته به حوزه کاربرد
  • استفاده از مدل زبانی خاص هر دامنه کاربرد که مسلما افزایش دقت در حوزه عملکرد به دنبال دارد
  • امکان Deployment بسته به محیط­های عملیاتی مورد نیاز