You signed in with another tab or window.Reload to refresh your session.You signed out in another tab or window.Reload to refresh your session.You switched accounts on another tab or window.Reload to refresh your session.Dismiss alert
Konuşmacı tanıma, ses işaretinin içerdiği bilginin kullanılması ile otomatik olarak kimin konuştuğunun belirlenmesi işlemidir. Konuşmacı tanıma,konuşmacı doğrulama vekonuşmacı belirleme olmak üzere ikiye ayrılır.
Konuşmacı doğrulama: Verilen bir ses örneğinin iddia edilen kişiye ait olup olmadığının tespiti.
Konuşmacı belirleme: Verilen ses örneğinin sistemde daha önceden kayıtlı olan kişilerden hangisine ait olduğunun saptanması.
Ayrıca konuşmacı tanıma işlemleri:
Metinden bağımsız
Metne bağımlı
olarak iki gruba ayrılabilir.
Konuşmacı tanıma sistemlerinin kullanım alanları oldukça yaygındır. Örneğin:
Telefon bankacılığı
Sesli arama
Telefonla alışveriş
Veritabanı erişim servisleri
Bilgisayarların uzaktan sesle kontrolü
Adli uygulamalar
Ses işaretinin durağan olmaması, ortamdaki gürültü ve hava şartlarından kolayca etkilenmesi, konuşmacı tanımayı diğer örüntü tanıma problemlerine göre daha zor hale getirir. Bundan dolayı sınıflandırma yöntemlerininhem yüksek başarım vermesi hem de hızlı çalışması beklenmektedir.
2. Konuşma Tanıma Teorisi
Ses teknolojisi, yedi ortak konuşma uygulamasını içermektedir.
Şekil 2.1: Ses teknolojilerinin çeşitleri (yer tutucu)
Ses teknolojisi içerisinde:
Otomatik konuşma tanıma
Sürekli konuşma tanıma
Ayrık sözcük tanıma
Kelime yakalama sistemleri
yer alırken, ayrıca:
Ses sentezleme
Konuşmacı tanıma
Dil tanıma
Ses üretme
Konuşmacı ayırımı
Ses kodlama
da bulunmaktadır.
Otomatik konuşma tanıma problemi: Verilen bir akustik dizisiX için, kelime dizileriW’yi bulmaktır. Matematiksel gösterim:
$$ f: X \to W $$
2.1 - Konuşma Tanıma Teorisi ve Teknikleri
Bir konuşma tanıma sistemi şu modüllerden oluşur:
Sinyal işleme modülü
Konuşma sinyalinin gösterimini elde eder.
Özellik çıkarma modülü
Anahtar elemanları belirler, fazla bilgiyi çıkartır.
Zaman düzenleme ve model karşılaştırma
Kelime tespiti ve eşleştirme yapar.
Dil modeli
Son kelime dizisini seçer.
Şekil 2.2: Genel konuşma tanıma modeli (yer tutucu)
2.2 - Sinyal İşleme
Ses, mikrofonla analogdan sayısala dönüştürülür.
İşlemler:Örnekleme → Nicelendirme → Kodlama
Amaç: Gürültü ve stres gibi dış etkenlerden bağımsız gösterim elde etmektir.
2.3 - Özellik Çıkarımı
Sinyaldeki geçişleri yakalar.
Fonemleri ayırt edecek parametreler hesaplanır.
Segmentasyon: Kelimelerin başlangıç ve sonlarının bulunması.
2.4 - Zaman Düzenleme ve Model Karşılaştırma
Konuşma hızındaki değişikliklere uyum sağlar.
Eğitim sırasında çıkarılan parametre kümeleri ile karşılaştırma yapılır.
2.5 - Dil Modeli
Hedef dilin kurallarına uygun olarak kelime dizisi seçilir.
Tanıma sistemi, dil bilgisi kurallarını dikkate alarak çalışır.
2.6 - Konuşma Tanıma Sistemlerinin Sınıflandırılması
Konuşma tanıma sistemleri şu açılardan sınıflandırılabilir:
Konuşmacıya bağlılık: Tek veya çok kişiye ait olabilir.
Ayrık sözcük tanıma sistemleri (isolated word recognition systems)
Sözcük yakalama sistemleri (word spotting systems)
Sürekli konuşma tanıma sistemleri (continuous speech recognition systems)
2.8 - Konuşma Tanımada Kullanılan Teknikler
Konuşma tanımada kullanılan temel teknikler şunlardır:
Neural Networks (Yapay Sinir Ağları)
Dynamic Time Warping (Dinamik Zaman Eşleştirme)
Hidden Markov Models (Saklı Markov Modelleri)
3. Kaynaklar
Nabiyev, V. (2005).Yapay Zeka. Seçkin Yayıncılık San. ve Tic. A.Ş., Ankara. ISBN 975-347-985-9, ss. 704–714.
Yalçın, N. & Bay, Ö. F. (2006).İlköğretim birinci sınıf öğrencilerine konuşma tanıma teknolojisi yardımıyla ilkokuma yazma öğretimi. 6th International Educational Technology Conference, Eastern Mediterranean University, vol. 3, pp. 1659. Famagusta, North Cyprus, 19–21 April.
Morgan, D. & Scofield, L. C. (1991).Neural Networks and Speech Processing. Kluwer Academic Publishers, pp. 102–108, USA.
Becchetti, C. & Ricotti, L. P. (1999).Speech Recognition Theory and C++ Implementation. John Wiley & Sons Ltd., England. ISBN 0-471-97730-6, ss. 167–188, 310–311.
Gökhan, A. (1997).Yapay Sinir Ağları ile Ayrık Türkçe Sözcüklerin Tanınması. Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ, ss. 1–17.
Jurafsky, D. & Martin, J. H. (2000).Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, Upper Saddle River, New Jersey, USA. ISBN 0-13-122798-X, pp. 235–249.
Mengüşoğlu, E. (1999).Bir Türkçe Sesli İfade Tanıma Sisteminin Kural Tabanlı Tasarımı ve Gerçekleştirimi. Yüksek Mühendislik Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, ss. 14–16, 22–26.
About
Voice Recognition and Identification (Turkish) MATLAB