از قدیم كه انسان زبانهایی را برای گفتار اختراع كرد گفتار مستقیم ترین راه برای انسان برای رساندن اطلاعات به دیگری بوده است. تاكنون ارتباط با بهره گرفتن از گفتار معمول ترین روش در شبكه های ارتباطی بوده است. سیگنال گفتار هم اكنون در بین تكنولوژی های واسط همانند تلفن، فیلم رادیو، تلویزیون و اینترنت گسترش یافته است. از اینرو نوشته های بسیاری در زمینه پردازش سیگنال گفتار پیشنهاد شده است و الگوریتمهای زیادی مربوط به آنها ارائه شده است. بهرحال با توجه به طبیعت متغیر با زمان سیستم تولید گفتار انسان، صحت و توانایی سیستم همچنان به عنوان مشكلی در زمینه پردازش سیگنال گفتار باقی مانده است. با توجه به كاربردهای فراوان قطعه بندی گفتار و تعیین محل واكه و همخوان، روش های گونانی برای این منظور ارائه شده است. هدف از این تحقیق ارائه روشی با بهره گرفتن از نتایج و تجربیات صورت گرفته در تحقیقات گذشته برای معرفی مدلی با دقت و سرعت بالا در تعیین محل واكه ها میباشد.
در فصل اول كلیاتی راجع به این هدف مشاهده میكنید، در فصل دوم با مفاهیم اولیه این بحث آشنایی پیدا میكنیم سپس در فصل سوم شبكه عصبی و روابط آن مورد بررسی قرار میگیرد، در فصل چهارم در مورد مراحل كار توضیح داده میشود و در نهایت در فصل پنجم نتایج بدست آمده مورد بررسی قرار می گیرد.
فصل اول: کلیات
1-1) هدف
از زمان اختراع تلفن توسط الكساندر گراهام بل در سال 1875 با پردازش سیگنال گفتار به عنوان یک هدف مهندسی رفتار شده است كه به علت تكنیكهای اطلاعاتی توسعه زیادی یافته است. بخصوص توسعه سریع مدارات VLSI و كامپیوترهای شخصی باعث پشرفت چشمگیر پردازش سیگنال شده است. بطوركلی تحقیقات در حوزه پردازش سیگنال گفتار به 6 دسته تقسیم می شود.
1- انتقال و ذخیره گفتار
2- سیستم های تولید گفتار
3- شناسایی و تشخیص گوینده
4- سیستم های بازشناسی گفتار
5- خدمات به معلولان
6- بهبود و ارتقاء كیفیت سیگنال گفتار
2-1) پیشینه تحقیق
كارهای بسیاری بر روی پردازش سیگنال گفتار انجام شده است اما درستی و توانایی سیستم پردازش سیگنال گفتار همچنان دارای مشكلاتی است. اصلی ترین دلیل این مشكل آن است كه سیستم تولید گفتار انسان متغیر با زمان است و سیگنال طبیعی یک فرایند متغیر است.
3-1) روش کار و تحقیق
در این تحقیق سعی بر آن داریم تا روشی را برای تعیین محل و نوع واكه ها ارائه دهیم. با بهره گرفتن از روش توضیح داده شده در فصل دوم سیگنالهای ورودی گفتار را به كمك تعیین محل رخدادها قطعه بندی كرده و سپس برای هر قطعه نرخ عبور از صفر، نسبت مجموع ضرایب فوریه برای هر بانك ایجاد شده در طیف فوریه و نسبت انرژی هر قطعه به قطعه قبل و بعد آن قطعه را بعنوان ورودی به شبكه عصبی اعمال می نماییم.