چارلز داروین نخستین كتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این
اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمع آوری دانش و اطلاعات در این زمینه
پرداختند. اخیراً نیز موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را بر انگیخته است.
بعضی از دلایل این رنسانس عبارتند از :
پیشرفت فناوری در ثبت, ذخیره و تحلیل اطلاعات صوتی و تصویری, پیشرفت در فناوری حسگر
و كامپیوتر های فرسایش پذیر , بالا رفتن سطح فناوری ارتباط انسان و رایانه از نقطه none intrusive های
و كلیک به حس و عاطفه و نرم افزار های زنده وار مخصوص كمك به انسان و رباتهای حیوان شكل
های شركت سونی كه قادر به درك و بیان احساسات می Aibo , های شركت تایگر Furbi خانگی از قبیل
تحت عنوان محاسبه عاطفی ایجاد (AI) باشد. به تازگی زمینه های تحقیقاتی جدیدی در هوش مصنوعی
شده است. در حوزه رمز گشایی و توصیف و به تصویر كشیدن حالات در گفتار، تا كنون روانشناسان به
آزمایشات تجربی بسیاری دست زده اند و فرضیه هایی ارائه داده اند و از طرف دیگر محققان هوش
مصنوعی نیز در شاخه های زیر تحقیقات ارزنده ای انجام داده اند:
ساخت و تركیب حالات گفتار, باز شناسایی حالات گفتار و استفاده از نرم افزار هایی برای رمز گشایی و
بیان حالات. انگیزه ما تحقیق و كاوش در راه های استفاده از بازشناسی حالات گفتار است كه می تواند
در تجارت (به خصوص كاربرد آن در یک مركز تلفن), یک كاربرد بالقوه آن تشخیص حالت گفتاری در
یک مكالمه تلفنی و ایجاد فیدبك به یک اپراتور یا سرپرست به منظور نمایش باشد. كاربرد دیگر آن
ذخیره پیامهای صوتی طبق حالت بیان شده توسط تماس گیرنده می باشد. و كاربرد دیگر آن استفاده از
محتوای حالت احساسی مكالمات جهت ارزیابی عملكرد اپراتور است.
شناسایی خودكار حالت گفتار با توجه با حالات صورت، حركات بدن و یا ویژگی های گفتار از
امیدبخش ترین روش های بازشناسی حالت گفتار ثابت شده است. بخصوص در زمینه سیستم های
امنیتی در سالهای اخیر علاقه مندی های بسیاری مشاهده شده است.
حال می خواهیم بدانیم كه منظور از حالت در گفتار چیست؟ اگر تا كنون در چند سخنرانی شركت كرده
باشید خواهید دید كه برخی از سخنرانی ها جذاب و برخی خسته كننده می باشند. این موضوع علاوه بر
موضوع سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یكنواخت داشته باشد
همانند یک ربات خواهد بود، كه باعث خواب آلودگی شنونده می شود. بنابراین سخنرانان حرفه ای با تغییر آهنگ گفتار خویش و با حركات به موقع دست، سر و بدن خویش، با تاكید روی برخی كلمات،
بیان برخی جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر می دهند. این تغییرات
در نحوه بیان جملات و كلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شكلی غیر
از حالت عادی و یكنواخت بعنوان یک حالت شناخته می شود. حالات مختلف ممكن از قبیل: خشم،
تنفر، ترس، شادی، غم، هیجان، آرامش، كسالت، افسردگی و … می باشند. حتی در برخی از مواقع در
مورد میزان یک حالت بحث می شود، مثلا شاد با خیلی شاد را در نظر می گیرند. اضافه كردن حالت
طبیعی به این حالت ها معقول بنظر می رسد تا هر كدام از این حالت ها درك شوند. یعنی برای در نظر
گرفتن یک حالت جدید یک سری تغییرات باید نسبت به یک مبدا وجود داشته باشد و در اینگونه كار ها
مبنا حالت طبیعی و بدون حالت می باشد. این طبقه بندی بعنوان اساس مقایسه استفاده می شود. امروزه
آمار عمومی از یک عبارت بعنوان اساس كار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را
دارند.
اغلب برای تشخیص مثلا: دروغ، بازی های ویدیویی و كمك روانپزشكی از بازشناسی حالت گفتار
استفاده شده است. برای اطمینان از تشخیص صحیح معقول است كه تعداد و نوع حالت های قابل
تشخیص محدود و متناسب با نیاز در آن كاربرد خاص باشد(برای طبقه بندی مناسب). هنوز بصورت فنی
هیچ استاندارد مشخصی برای تشخیص و طبقه بندی حالت های گفتار نداریم. اغلب یک روش تمیز
دادن، میان یک مجموعه تعریف شده از حالت های گفتار مجزا است و عقیده مشتركی(واحدی)برای
نام شش حالت : 1- خشم 2- تنفر Mpeg تعداد و اسامی آنها موجود نیست. این موضوع در استاندارد 4
-3 ترس 4- شادی 5- غم 6- هیجان را در بر دارد. از طرفی این تحقیقات در هر زبان و لهجه ای خاص
خود می باشد و چنانچه از مبنا دور گردیم دقت بازشناسی كاهش می یابد. مثلا نمی توان سیستمی كه
برای زبان انگلیسی طراحی شده است را برای زبان فارسی بكار برد. زیرا پایگاه داده ای كه برای زبان
انگلیسی طراحی شده ویژگی های خاص خود را دارد كه برای زبان فارسی متفاوت است و كاربردی
ندارد. البته ممكن است الگوریتم كاری آنها مشابه باشد.
اطلاعات غیر كلامی كه در حالات، حركات و ادای چهره انسان پدیدار می گردد، نقش مهمی درارتباطات
بشری دارد. به ویژه افراد با بهره گرفتن از اطلاعات حالت یا عاطفی راحتتر با یكدیگر ارتباط برقرار می كنند.
بعنوان مثال: در موقعیتهای تجاری علایق مشتری كه ناشی از حالات وی حدس زده می شود ممكن است
گاهی پیشنهادات سودمندی را برای طرح ریزی استراتژی های بعدی به طرف معامله بدهد. واضح است كه تبادل اطلاعات غیر كلامی همانند حالات و عواطف در تمامی اشكال ارتباطات مهم است و اهمیت
آن در برخی مواقع بیش از اطلاعات كلامی می باشد. به این معنا كه ارتباطات غیر كلامی بنیان ارتباط
بشری است. علاوه بر ارتباطات انسان با انسان، ارتباطات بشری از طریق كامپیوتر و ارتباط میان انسان و
ماشین نیز بیش از پیش رواج یافته است. برای دستیابی به رابطه نزدیكتر و انسان گونه میان انسان و
ماشین، كاربرد اطلاعات كلامی ونیز غیر كلامی ضروری است. تا كنون حالات و یا عواطف در حوزه
های روانشناسی و یا فلسفه مورد مطالعه قرار گرفته اند. اگر چه با افزایش اهمیت اطلاعات غیر كلامی در
زمینه رابطه انسان با ماشین، مدتی است كه این امر بعنوان موضوع تحقیقی در حوزه مهندسی نیز مورد
بحث و بررسی قرار گرفته است.