Humans express their emotions through multiple modalities, including facial
expressions, speech prosody and body gestures and various biological signals.
Therefore, multi modal emotion recognition has been a major interest in applications
requiring natural man-machine interaction and ambient intelligence scenarios, such as
security, driver safety, health-care, behavioral science, education, marketing and
advertising, where the response of the system to the user depends on the estimated
emotional and/or mental state of the user. In the literature, various state-of-the-art
techniques have been employed for emotion recognition from single modality (mainly
facial expressions and speech); but there are relatively few works that combine different
modalities in a single system for the analysis of human emotional state. Recent research
has started focusing on extraction of emotional features from each modality and then
combining the outputs of each modality for improved recognition of the user’s
emotional state.
In this thesis, we present an effective framework for multimodal emotion recognition
based on a novel approach for automatic peak frame selection from audio-visual video
sequences. Given a video with an emotional expression, peak frames are the ones at
which the emotion is at its apex, and hence are expected give higher emotion
recognition results. The objective of peak frame selection is to summarize the
expressed emotion over a video sequence. The main steps of the proposed framework
consists of extraction of video and audio features based on peak frame selection,
unimodal classification and decision level fusion of audio and visual results. We
evaluated the performance of our approach on eNTERFACE’05 containing six basic
emotional classes recorded in English and BAUM-1 audio-visual database containing
eight emotional and mental state classes recorded in Turkish. Experimental results
demonstrate the effectiveness and superiority of the proposed system over other
methods in the literature.
İnsanlar arası iletişimde yüz ifadeleri, ses tonundaki değişiklikler, vücut duruşu ve
hareketleri ve diğer biyolojik sinyaller gibi kipler duygularımız hakkında ipuçları
taşırlar. Günümüzde gittikçe önem kazanmakta olan insan-bilgisayar etkileşimi ve
yapay zeka uygulamalarının daha doğal ve etkin hale gelebilmesi için çok kipli duygu
tanıma problemi ilgi odağı haline gelmiştir. Duygu tanımanın güvenlik, sürücü
güvenliği, sağlık, davranış bilimleri, eğitim, reklam ve pazarlama gibi sistemin
tepkisinin kullanıcının duygusal ve zihinsel durumuna göre değişebileceği alanlarda
uygulamaları vardır. Literatürde, tek-kipli duygu tanıma yöntemleri mevcuttur (örn. yüz
ifadeleri ve ses kullanarak). Fakat, birden fazla kipi birleştirerek duygu ya da zihinsel
durum tanımaya çalışan yöntemler daha azdır. Yakın zamanda çok-kipli duygu tanıma
çalışmaları daha yüksek tanıma başarımı elde etmek amacıyla önem kazanmıştır.
Bu tezde, yüz ifadelerinden ve sesten çok kipli duygu tanıma amacıyla tepe çerçeve
seçimine dayalı bir sistem öneriyoruz. Duygusal ifade içeren bir yüz videosu
verildiğinde, tepe çerçeveler, duygusal ifadenin maximum olduğu yerlerdir ve duygu
tanıma için kullanıldığında daha yüksek tanıma oranları vermeleri beklenir. Bu nedenle
tepe çerçeve seçiminin amacı, video parçasındaki duyguyu en iyi şekilde özetlemektir.
Önerilen çok kipli duygu sisteminin ana basamakları, tepe çerçeve seçimine dayalı yüz
ifadelerinden ve sesten öznitelik çıkarma, tek kipli sınıflandırma ve karar aşamasında
birleştirme adımlarından oluşmaktadır. Sistemin performansını altı temel duyguyu
içeren İngilizce eNTERFACE ve sekiz duygu ve zihinsel durum içeren Türkçe BAUM-
1 veritabanları üzerinde test ettik. Deney sonuçları önerilen sistemin literatürdeki diğer
yöntemlere göre etkinliğini göstermektedir.