Konuşma metinleştirici (yazılım): Revizyonlar arasındaki fark

[kontrol edilmemiş revizyon][kontrol edilmiş revizyon]
İçerik silindi İçerik eklendi
Bu geçerli bir silme gerekçesi değil
Anlamsız kısım silindi.Madde yeniden yapılandırılıyor.
1. satır:
{{düzenle|Ocak 2010}}
Sesli'''Konuşma metinleştirici''' ya da '''Konuşma tanıma''', sesli konuşmayı yazıya çeviren bilgisayar yazılımlarıyazılımlarına veyaverilen dahagenel ad. Daha yaygın ve bilinen ingilizceİngilizce adıyla "[[Speech recognition]]"
 
kelime açılımı kök anlamıyla ses kayıt tespiti ; [[Dikte]] - [Türkçe Konuşma Tanıma]
== Kullanım alanları ==
genelde bilinen Konuşma Sentezleyici veya Speech Synthesizer, programlarının aksine
microfon benzeri bir şekilde daha önceden alınan bir konuşma veya dialogun
bilgisayar üzerinde yazılı bir hale getirilmesi için kullanılan programlardır.
 
*Özellikle gazetecilik açısında video ve ses formatında alınan görüşme ve mülakatların bilgisayar ortamında arşivlenmesi ve daha sonraki süreçlerde kişilerin hangi sözü ne zaman söylediğinin ortaya çıkması için kullanılma
== kullanım alanları ==
 
*Ulusal güvenlik açısında yasal zaman aşımı süresince kaydedilen telefon görüşmelerinin
özellikle gazetecilik açısında video ve ses formatında alınan görüşme ve mülakatların
şüpheli konuşma veya anahtar kelimeli arama için dinleme işinin yasal anlamda tarafsız olarak bilgisayar tarafından tanımlama
bilgisayar ortamında arşivlenmesi ve daha sonraki süreçlerde kişilerin hangi sözü ne zaman söylediğini ortaya çıkması açısında kullanıldığı gibi
 
*Gelişmekte olan robot çeviri araçları ile dil farkı gözetmeksizin iletişimi sesli olarak sağlama
ulusal güvenlik açısında yasal zaman aşımı süresince kaydedilen telefon görüşmelerinin
süpeli konuşma veya anahtar kelimeli arama için dinleme işinin yasal anlamda tarafsız olarka
bilgisayar tarafından tanımlanmasıdır.
 
*Duyma yetisini kaybetmiş kişilerle yazılı yol üzerinden daha hızlı iletişim kurma
== Bu hizmeti sunan çeşitli yazılımlar ==
 
http://www.spitall.com/web-spikeri/<br />
http://www.sestek.com.tr/<br />
http://www.dikte.com.tr/<br />
 
{{çeviri}}
 
Modern '''[[konuşma tanıma]] yazılımı'' 'bir [[bilgisayar]] kullanıcı bilgisayarı, büyük ölçüde metin ve / veya komutları konuşmak değil, tamamen [[Klavye (bilgisayar kullanımı yan yol sağlar )|Klavye]] ve [[Klavye (bilgisayar)|fare]] [[Arabirimi (bilgisayar bilimi)|arayüz]].
 
Fikir olarak tasvir edilmiştir [[bilim kurgu]] uzun yıllar, çok sık bile klavye ve fare yok bilgisayarları gösteren. Bu tür bilgisayarlarda da tipik olarak tasvir edilir olursa olsun ayakta tutmaya muktedir olmanın ne kadar hızlı bir kişi, konuşuyor ve hoparlör, dil konuşulan, hatta kaç hoparlör var kim olduğunu bakılmaksızın uygulanır. Diğer bir deyişle, onlar bir [[Multilingualism|dilli]] kişi olarak şekilde de duyar gibi bir bilgisayar gösteren konum.
 
Girişimleri kullanılabilir konuşma tanıma yazılımı geliştirmek için 1900'lerin ortalarında başladı ve çok daha zor olduğunu kanıtladı daha kimsenin hayal etmişti. Bu aynı zamanda sadece en modern bilgisayarların artık fonksiyonları gerçek zamanlı olarak (yani gerekli gerçekleştiremeyebilirsiniz, kadar hızlı konuşmak vardır) çok fazla işlem gücü gerektiren çıktı.
 
İlk ticari pratik ürünler 1.990 civarında, (Ses Gezgin, tek başına bir bilgisayar gibi kullanılabilir oldu konuşma tanıma) 100% adanmış ve makinenin tüm mevcut bilgi işlem gücü olan ikinci bir bilgisayara kendi çıkış göndermek istiyorsunuz harcadım. Özellikle ve doğru sadece bir zaman tek bir kişinin anlayabileceği, yeniden eğitme, operatör değil gerektiren ama makine kendisi, başka bir kişi için çalışma vardı. Bu sınırlamalara rağmen yazabilirsiniz öylesine hızla bile düzeltmeler, engelli bir kişi yapmak için zaman ayırdığınız sonra kolayca olmayanlara göre makine ile daha fazla iş başarmak olabilir. Fiziksel engelli insanlar için, yeteneği sadece bilgisayarınıza konuşmak için paha biçilmez bir varlık olabilir. Örneğin düşünün, bir yazar [[Parkinson hastalığı]] olan ancak ellerini kontrol edebilirsiniz, ama uygun bir makale oluşturmak için yapabiliyor.
 
Başka senaryolara ekipman eksiklikleri kolayca outweighed vardır.
 
Bir tesis aşındırıcı maddeler, veya yüksek voltajlı ekipman, ele ediliyor düşünün ... Masif eldiven işin türü için tipik bir klavye kullanarak engel gereklidir.
 
En modern telefonlar artık kolayca belirli bir kullanıcı için bilgisayar eğitimi olmadan gerçekleştirilir sesle arama - basitleştirilmiş gereksinimleri sesle arama ilişkilendirilen içerir.
 
-Ve mevcut durumu-2008-sanat bir düzgün eğitimli bilgisayar, normal sağlıklı yetişkin tarafından işletilen (hiçbir konuşma engelleri yani), Intel Core Duo 1.5 GHz işlemci (veya daha hızlı), yaklaşık% 99 doğruluk elde edebilirsiniz olduğunu ise dakikada yaklaşık 150 kelime kadar transkripsiyonu (süre) hesaplama gücü mevcut en kullanarak. Yüzeysel bu çok iyi gelebilir. Not ancak, çok istikrarlı bir ses gereklidir. Kötü bir kafa soğuk geliştirilmesi üzerine başarılı bir operatör, birden kendisini tüm onu anlamıyor bulabilirsiniz. Ve yine çoğu insan bu zor durumda bütün anlayış bile hiçbir sorun var.
 
Örneğin düşünün, makineler henüz düzgün bir çocuk sesi süreci için yeterli istihbarat yok. Engel olması çoğu çocuk henüz tam olarak nasıl dile (tam cümle uygun inşaat örneğin kullanılır anlıyorum) ve onların seslerini büyümekte de sürekli değişiyor.
 
Şu anda hem mülkiyet ve açık geliştirme önem piyasada kaynak sistemleri, [[Hukuk|yasal]] ve [[Tıp|sağlık]] pazarlara hizmet üzerine konuyor.
 
== Free software ==
* [[CMU Sphinx]] — open source under a <!--which?-->BSD license
* [[Julius (software)|Julius]] — BSD-style license
 
=== Free speech corpus and acoustic model repositories ===
* [[VoxForge]] — open source, [[GPL]]
 
== Proprietary software ==
* [http://www.research.att.com/viewProject.cfm?prjID=49 AT&T WATSON]
* [[HTK (software)|HTK]] — copyrighted by Microsoft, but altering the software for the Licensee's internal use is allowed.
* [[CSLU Toolkit]]
* [[Dragon NaturallySpeaking]] from [[Nuance Communications]] is the continuous-speech successor to the older [[DragonDictate]] product, and appears to be the focus of all their current development effort (in the dictation area). Since version 10.1 it runs on 64-bit Windows, too.
* [[IBM ViaVoice]] - Control and development as it pertains to embedded processors remain in the hands of [[IBM]]. Linux, Mac OS, and Windows products were [[licensed]] to Nuance Communications (formerly ScanSoft) which has since discontinued the product. The Nuance website provides a list of which legacy systems can run the final versions.
* [[MacSpeech]] Dictate - Mac OS X speech recognition using the Dragon NaturallySpeaking engine. This replaces MacSpeech's former [[iListen]] product which is based on Philips Speech Technology.
* [[Microsoft]] [[Windows Speech Recognition]] - [[Windows Vista]] and [[Windows 7]] includes version 8.0 of the Microsoft speech recognition engine along with a completely new end user speech experience, known as Windows Speech Recognition.
* [[Microsoft]] [[Speech Application Programming Interface|Speech API]] - Speech recognition functionality included as part of Microsoft Office and on [[Tablet PC]]s running Microsoft Windows XP Tablet PC Edition. It may also be downloaded as part of the Speech SDK 5.1 for Windows applications, but since that is aimed at developers building speech applications, the pure SDK form lacks any user interface, and thus is unsuitable for end users.
* [[Philips]] [[SpeechMagic]] - Market leader within the medical industry according to [[Frost & Sullivan]], Philips SpeechMagic is a recognition engine that may be run either as a stand-alone product or integrated into other applications.<ref>http://www.forbes.com/businesswire/feeds/businesswire/2007/12/10/businesswire20071209005015r1.html</ref><ref>[http://www.frost.com/prod/servlet/press-release.pag?docid=54492494 Philips SpeechMagic named European Technology Leader by Frost & Sullivan<!-- Bot generated title -->]</ref>
* [[Proteus Conversational Interface]]
* [[Simmortel Voice]]
* [[Quack.com]] (acquired by [[AOL]])
* [[SpeechWorks]]
* [[Tellme Networks]] (acquired by [[Microsoft]])
 
== Kaynakça ==
{{Kaynakça|1kaynakça}}
 
== Konu hakkında basında yer alan haberler ==
 
* [http://www.habervitrini.com/haber.asp?id=372730 BİLGİSAYAR, KONUŞMAYI YAZIYA DÖKECEK]
* [http://zaman.com.tr/haber.do?haberno=873731 Hakimlerin 'yaz kızım' sözü tarihe karışacak]
 
{{DEFAULTSORT:Ses Konusma Tanimlayici Yazilimlar}}
 
[[Kategori:Ses işleme yazılımları]]
[[Kategori:Yazılımlar]]
 
 
 
 
{{çeviri}}
 
{{Globalize|article|United Kingdom|2name=the United Kingdom|date= May 2011
|discuss=Talk:Speech-to-text reporter#Globalize}}
{{tone|date=August 2009}}
''This article is about '''Speech-to-Text Reporters''' who are human beings reproducing speech into a text format onto a computer screen at [[wikt:verbatim|verbatim]] speeds for deaf or hard of hearing people to read. It is not about [[speech recognition]] or [[predictive text]] which are computer systems.''
 
A '''Speech-to-Text Reporter''' ('''STTR'''), also known as a "captioner", listens to what is being said and inputs it, word for word, onto an electronic shorthand keyboard. The keyboard is linked to a computer which converts the shorthand syllables to properly spelled words.<ref>{{cite web|url=http://www.captions.org/2006/02/captioning-students-thoughts.html |title=Closed Captioning Web |publisher=Captions.org |date=2006-02-13 |accessdate=2009-06-11}}</ref>
 
There are two types of keyboard used in the UK, the Palantype system and the [[Stenograph]] system. Unlike a [[QWERTY]] keyboard, not every letter in a word is pressed, but several keys will be pressed at once which represent whole words, phrases or shortforms. Specially designed [[computer software]] will then convert these [[Phonetics|phonetic]] chords back into English which can then be displayed for someone to read. The text is displayed either on the screen of a laptop for a sole user, or projected onto a large screen or a series of [[plasma screen]]s for a larger number of users. An STTR produces a verbatim account of what is said at speeds in excess of 200 words per minute and also gives extra information, such as {laughter} or {applause}, to keep the user informed of the mood of the hearing, meeting or conference. This system can also be used for subtitling and [[closed captions]] in television broadcasts or [[Webcast]]s.
 
The computer software can use a pre-programmed vocabulary specific to the context, information that matches syllable clusters to written forms, and may suggest alternative captions from which the STTR chooses. Errors occur from the STTR mishearing the words and from the need for the STTR to make a decision before an ambiguous statement is made clear by what is said next.
 
The Professional Association for STTRS is the Association of Verbatim Speech-to-Text Reporters. The Council for Advanced Communication with Deaf People and the Royal National Institute for the Deaf also give more information about STTRs. Speech-to-Text Reporters are also sometimes referred to as Palantypists and Stenographers.
 
== What will a service user see on the screen? ==
Every word that is spoken will appear on the screen in an accessible format, although one can request a change in the colour and font size. As well as every word spoken, the words "NEW SPEAKER:" will appear to denote when the speaker changes. If one sends the STTR the names of people attending your conference or meeting before the event, they, too, can be programmed into the computer, making it easier for one to recognise who is speaking. Other phrases, in curly brackets, may also appear, such as {laughter} or {applause}, to denote relevant events.
 
Occasional [[mondegreen]] errors may be seen in closed-captions when the computer software fails to distinguish where a word break occurs in the syllable stream. For example, a news report of a "grand parade" might be captioned as a "grandpa raid". Mondegreens in this context arise from the need for captions to keep up with the fast pace of live television broadcasts.
 
== History ==
Many STTRs began their careers in the Courts and were known as [[Court reporter|Court Reporters]], where the system was used to record proceedings and provide transcripts when requested. The skills developed in this area have also made them invaluable in the field of communication with deaf people, as they are used to producing work with an extremely high degree of accuracy and acting with complete discretion at all times. An STTR expects to reach consistent levels of accuracy of 98% and above.
 
== Training==
In order to become an STTR one needs extensive training, typically two years, on one of the specially designed keyboards (Palantype/Stenograph) and the associated software, plus at least a further two years of practice, building up speed, accuracy, dictionary/vocabulary and gaining experience. Only then is one ready to undertake the Unitised CACDP Examinations and become a member of the CACDP Register, which will confirm that one has reached the required minimum standard. The majority of Registered STTRs are also Members of the Association of Verbatim Speech-to-Text Reporters.
 
== References ==
<references/>
 
== External links ==
*[http://www.avsttr.org.uk Association of Verbatim Speech-to-Text Reporters (AVSTTR)]
*[http://www.cacdp.org.uk/Directory/Scripts/information__general_index.asp Council for Advanced Communication with Deaf People (CACDP)]
*[http://www.rnid.org.uk/information_resources/factsheets/communication/factsheets_leaflets/working_with_a_speech_to_text_reporter.htm Royal National Institute for the Deaf (RNID)]