با پیشرفتهایی که در سالهای اخیر در حوزههای مختلف علوم کامپیوتر اتفاق افتاده است، تعامل آسان و راحت با ماشینهای پردازشگر به عنوان یک نیاز کاربران، ضروریتر از گذشته به نظر میرسد. گفتار به عنوان اولیهترین وسیله ارتباطی میان انسانها میتواند به عنوان مسیر اصلی ارتباطی مطرح شود.
پردازش گفتار زیرشاخهای از هوش مصنوعی است که به امکان پردازش، فهم محتوا و دستهبندی گفتار و تولید گفتار میپردازد. ابزارهای تبدیل گفتار به متن(Automatic Speech Recognition- ASR) و متن به گفتار(Text to Speech- TTS) از مهمترین بخشهای این حوزه هستند.
در گذشته روشهای آماری بیشتر در حوزه پردازش گفتار استفاده میشد که در سالهای اخیر با پیشرفتهایی که در حوزه شبکههای عصبی(Neural Network) خصوصا یادگیری عمیق(Deep Learning) اتفاق افتادهاست، حوزه پردازش گفتار نیز همگام با این تحولات تغییر کرده است.
پردازش گفتار انیگمایند
شرکت آوای همراه هوشمند هزاردستان سابقه فعالیت 4 ساله در حوزه پردازش محتوا اخیرا اقدام به ارایه سرویسهای در حوزه پردازش گفتار کرده است. این سرویسهای در قالب بسته سرویسهای پایه هوش مصنوعی به نام تجاری انیگمایند Enigmind ارایه میشود. سرویس پردازش گفتار انیگمایند شامل دو خدمت تبدیل گفتار به متن و متن به گفتار ارایه شده است.
پردازش گفتار انیگمایند با تمرکز به زبان فارسی و استفاد و بهبود مستمر الگوریتمهای جدید پردزش گفتار به دنبال ایجاد یک سرویس با کیفیت بومی در این حوزه برای استفاده دیگر محصولات نرمافزاری و شرکتها است.
از مزیتهای این سرویس نسبت به دیگر سرویسهای عرضه شده توسط شرکتهای بینالمللی موارد زیر است:
- تمرکز بر زبان فارسی و دقت عملکرد در این زبان
- امکان اختصاصی سازی پردازش بسته به حوزه کاربرد
- استفاده از مدل زبانی خاص هر دامنه کاربرد که مسلما افزایش دقت در حوزه عملکرد به دنبال دارد
- امکان Deployment بسته به محیطهای عملیاتی مورد نیاز