Konuşma sentezleyici

Konuşma sentezleyici (İngilizce: speech synthesizer), İnsan seslerinin bilgisayar yapay zekası tarafından üretimidir. Genellikle Metin okuma sistemlerinde kullanılan Konuşma sentezleyicisi bu sistemlerde bir dilin tüm ses bilgisi ve benzeri kurallarına göre çevri yapacak şekilde programlanırlar. Bu sentezleyicinin metni doğru telaffuz etmesini sağlar.

Otomatik Duyuru

İsveç'te perona yaklaşan bir trenin anonsu

Dinlerken sorun mu yaşıyorsunuz? Medya yardımı alın.

Ayrıca Konuşma Sentezleyici Ses konuşma tanımlayıcı yazılımlarda ve Fonetik transkripsiyon'larda da kullanılamaktadır. Konuşma Sentezleri yapılma sırasında veritabanında saklanan kayıtlı konuşma parçalarının birleştirilmesiyle oluşturulabilir. Ses sentezleyicinin daha doğal veya daha iyi performans vermesi için tüm kelimelerin veri tabanında kayıtlı olması gerekmektedir.^[1]

Konuşma Sentezleyicilerin özellikle görme ve okuma güçlüğü çeken insanların metinlerini sesli olarak söyleyerek yazması ve yazılı sözcükleri dinlemesine olarak tanımaktadır

Bir Metini konuşma yazılımı yani ses parçasına dönüştürmek için genel bakış açısı ile giriş ve çıkış bölümleri gerekmektedir. Giriş metindir çıkış ise sestir. Metin öncellikle içindeki sayı, sembol ve noktalama işaretlerini Sözcüksel analiz işlemi olarak algılamakta ve daha sonra metin normalleştirme denilen işleme geçirmektedir. Daha sonra metin Fonetik transkripsiyon işlemi ile parçalara ayrılmaktadır. En sonunda ise ses doğru ses parçaları seçilerek konuşma yani ses olarak çıkmaktadır.^[2]

Tarihçe

Rus Bilimler Akademisinin 1779 yılında düzenlediği bir yarışma sırasında Alman ve Danimarka asıllı bilim adamı Christian Gottlieb Kratzenstein tarafından [aː], [eː], [iː], [oː] ve [uː] harflerini üretebilen modeller ile birincilik ödülünü kazanmıştır.^[3] Daha sonrasında Macar bilim adamı Wolfgang von Kempelen tarafından 1791 makalesinde bahsedilen körükle çalışan ve ünlü harflerin yanı sıra ünsüz harfleride içeren Wolfgang von Kempelen'in konuşan makinesi'ni icat etti.

1837'de Charles Wheatstone, von Kempelen'in tasarımına dayanan bir "konuşan makine" üretti. 1846'da Joseph Faber, " Euphonia "yı sergiledi. 1923'te Paget, Wheatstone'un tasarımını yeniden canlandırdı.^[4]

1930'larda Bell Labs, konuşmayı temel tonlarına ve rezonanslarına göre otomatik olarak analiz eden ses kodlayıcıyı geliştirdi bu özellikle günümüz metin analizlerinin temelidir. Homer Dudley ise ses kodlayıcı üzerindeki çalışmasından sonra, 1939 New York Dünya Fuarı'nda sergilediği The Voder (Voice Demonstrator) adlı klavyeyle çalışan bir ses sentezleyici geliştirdi.

Bilgisayar Tabanlı

İlk bilgisayar tabanlı ses sentezleyiciler 1950'lerin sonlarında ortaya çıktı. Noriko Umeda ilk genel İngilizce metin okuma sistemini 1968'de Japonya'daki Elektroteknik Laboratuvarında geliştirdi.^[5] 1961'de fizikçi John Larry Kelly Jr ve meslektaşı Louis Gerstman konuşmayı sentezlemek için bir IBM 704 bilgisayarı kullandılar; bu, Bell Laboratuvarları tarihindeki en önemli olaylardan biridir.^[6]

1975'te Fumitada Itakura, NTT'deyken yüksek sıkıştırmalı konuşma kodlaması için hat spektral çiftleri (LSP) yöntemini geliştirdi.^[7]^[8]^[9] 1975'ten 1981'e kadar Itakura, LSP yöntemine dayalı konuşma analizi ve sentezindeki sorunları inceledi.^[9] 1980'de ekibi, LSP tabanlı bir konuşma sentezleyici çipi geliştirdi. LSP, konuşma sentezi ve kodlaması için önemli bir teknolojidir ve 1990'larda neredeyse tüm uluslararası konuşma kodlama standartları tarafından temel bir bileşen olarak benimsenerek, mobil kanallar ve internet üzerinden dijital konuşma iletişiminin geliştirilmesine katkıda bulunmuştur.^[8]

1975 yılında MUSA piyasaya sürüldü ve ilk Konuşma Sentez sistemlerinden biriydi. Bağımsız bir bilgisayar donanımından ve İtalyanca okumasını sağlayan özel bir yazılımdan oluşuyordu.

1980'ler ve 1990'lardaki baskın sistemler büyük ölçüde MIT'de Dennis Klatt'ın çalışmasına dayanan DECtalk sistemi ve Bell Labs sistemiydi; ikincisi, doğal dil işleme yöntemlerini kapsamlı bir şekilde kullanan, dilden bağımsız ilk çok dilli sistemlerden biriydi.

DECtalk demo

Fidelity Chess Challenger Voice

Fidelity Chess Challenger Voice speech output

Konuşma sentezleyici küçük cihazlara ilk olarak 1970li yıllarda hizmet vermeye başladı. İlklerden sayılabilecek olan 1976 yılında Telesensory Systems tarafından geliştirilen ve görme engelliler için taşınabilir hesap makinesini geliştirdiler.^[10]^[11] Fidelity, 1979'da elektronik satranç bilgisayarının konuşan bir sürümünü piyasaya sürdü.^[12]

Sentezlenmiş sesler, AT&T Bell Laboratories'de Ann Syrdal'ın bir kadın sesi yarattığı 1990 yılına kadar tipik olarak erkekti.^[13]

Konuşma sentezi biçimlendirme dilleri

Gelişen teknoloji ile konuşma sentezlerinin XML dosyasına uygun şekilde olması için İşaretleme dili oluşturulmaktadır. En yeni hali olarak kabul edilen Konuşma Sentezi İşaretleme Dili (SSML) XML tabanlı bir biçimlendirme dili hizmeti vermektedir. Standart olarak önerilmiş olsa da, yaygın olarak benimsenmemiştir.

Konuşma sentezi biçimlendirme dilleri, diyalog biçimlendirme dillerinden farklıdır. Örneğin VoiceXML, metinden konuşmaya işaretlemeye ek olarak konuşma tanıma, diyalog yönetimi ve tuşlu arama ile ilgili etiketleri içerir.

Ayrıca bakınız

Kaynakça

^ Rubin, Philip; Baer, Thomas; Mermelstein, Paul (1 Ağustos 1981). "An articulatory synthesizer for perceptual research". The Journal of the Acoustical Society of America (İngilizce). 70 (2): 321-328. doi:10.1121/1.386780. ISSN 0001-4966.
^ Santen, Jan P. H. van, (Ed.) (1997). Progress in speech synthesis. New York Heidelberg: Springer. ISBN 978-0-387-94701-3.
^ "History and Development of Speech Synthesis". research.spa.aalto.fi. 14 Mayıs 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.
^ "Wayback Machine" (PDF). web.archive.org. 10 Mart 2021 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 16 Ağustos 2023.
^ Klatt, D (1987). "Review of text-to-speech conversion for English". Journal of the Acoustical Society of America. 82 (3): 737–93. Bibcode:1987ASAJ...82..737K. doi:10.1121/1.395275. PMID 2958525.
^ "Louis Gerstman, 61, a Specialist In Speech Disorders and Processes (Published 1992)" (İngilizce). 21 Mart 1992. 2 Nisan 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.
^ "work.caltech.edu/~ling/pub/icslp98lsp.pdf | Ghostarchive". ghostarchive.org. 1 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.
^ ^a ^b "Milestones:List of IEEE Milestones". ETHW. 9 Aralık 2020. 10 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.
^ ^a ^b "Oral-History:Fumitada Itakura". ETHW. 26 Ocak 2021. 3 Nisan 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.
^ Mordas, G.; Manninen, H. E.; Petäjä, T.; Aalto, P. P.; Hämeri, K.; Kulmala, M. (Ocak 2008). "On Operation of the Ultra-Fine Water-Based CPC TSI 3786 and Comparison with Other TSI Models (TSI 3776, TSI 3772, TSI 3025, TSI 3010, TSI 3007)". Aerosol Science and Technology. 42 (2): 152-158. doi:10.1080/02786820701846252. ISSN 0278-6826.
^ Gevaryahu, Jonathan, [ "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide".
^ "Ismenio's chess computer collection". www.ismenio.com. 21 Nisan 2005 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.
^ "Ann Syrdal, Who Helped Give Computers a Female Voice, Dies at 74 (Published 2020)" (İngilizce). 20 Ağustos 2020. 16 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[1] Rubin, Philip; Baer, Thomas; Mermelstein, Paul (1 Ağustos 1981). "An articulatory synthesizer for perceptual research". The Journal of the Acoustical Society of America (İngilizce). 70 (2): 321-328. doi:10.1121/1.386780. ISSN 0001-4966.

[2] Santen, Jan P. H. van, (Ed.) (1997). Progress in speech synthesis. New York Heidelberg: Springer. ISBN 978-0-387-94701-3.

[3] "History and Development of Speech Synthesis". research.spa.aalto.fi. 14 Mayıs 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[4] "Wayback Machine" (PDF). web.archive.org. 10 Mart 2021 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[5] Klatt, D (1987). "Review of text-to-speech conversion for English". Journal of the Acoustical Society of America. 82 (3): 737–93. Bibcode:1987ASAJ...82..737K. doi:10.1121/1.395275. PMID 2958525.

[6] "Louis Gerstman, 61, a Specialist In Speech Disorders and Processes (Published 1992)" (İngilizce). 21 Mart 1992. 2 Nisan 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[7] "work.caltech.edu/~ling/pub/icslp98lsp.pdf | Ghostarchive". ghostarchive.org. 1 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[ethw.org-8] "Milestones:List of IEEE Milestones". ETHW. 9 Aralık 2020. 10 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[ReferenceA-9] "Oral-History:Fumitada Itakura". ETHW. 26 Ocak 2021. 3 Nisan 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[10] Mordas, G.; Manninen, H. E.; Petäjä, T.; Aalto, P. P.; Hämeri, K.; Kulmala, M. (Ocak 2008). "On Operation of the Ultra-Fine Water-Based CPC TSI 3786 and Comparison with Other TSI Models (TSI 3776, TSI 3772, TSI 3025, TSI 3010, TSI 3007)". Aerosol Science and Technology. 42 (2): 152-158. doi:10.1080/02786820701846252. ISSN 0278-6826.

[11] Gevaryahu, Jonathan, [ "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide".

[12] "Ismenio's chess computer collection". www.ismenio.com. 21 Nisan 2005 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[13] "Ann Syrdal, Who Helped Give Computers a Female Voice, Dies at 74 (Published 2020)" (İngilizce). 20 Ağustos 2020. 16 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]