Audiovisual methods of automatic speech recognition (ASR)have been wid translation - Audiovisual methods of automatic speech recognition (ASR)have been wid Thai how to say

Audiovisual methods of automatic sp

Audiovisual methods of automatic speech recognition (ASR)
have been widely studied as they o er improved robustness
and accuracy, especially in the presence of noise. Traditional
audio-based ASR systems perform reasonably well in controlled
lab environments. In many environments, however,
such as oces or outdoors, the recognition performance decreases
drastically due to background noise. One way to increase
robustness with respect to acoustic signal distortion is
to consider the visual speech modality jointly with the auditory
modality. Previous studies have shown that in both ASR
and human speech perception, the audio and visual sensory
modalities have di erent strengths and weaknesses, and in
fact to a large extent they complement each other [7]. Visible
speech is usually most informative for just those distinctions
that are most ambiguous auditorily. For example, perceiving
place of articulation, such as the di erence between /b/ and
/d/, is dicult via sound but relatively easy via sight. On
the other hand, voicing information which is dicult to see
visually is relatively easy to resolve via sound. Thus, visible
speech is to a large degree not redundant with auditory
speech.
The primary motivation for using visual information is to improve
the robustness of the system with respect to environ- mental variations. Thus, a ma jor goal is that an audiovisual
system should perform at least as well as its audio subsystem
does, over the entire range of conditions which might
be encountered. This requirement implies that in situations
where the audio subsystem performs accurately, the role of the
visual information should be very limited, and as the audio
subsystem loses accuracy, the role of the visual information
should increase.
Since a system cannot know" whether or not it is performing
accurately, some measure of con dence must accompany the
classi cation. A natural measure of con dence is the ratio of
the highest score (probability estimate) to the nearest competing
score. This con dence measure is easy to exploit such
that when con dence for either subsystem (audio or visual)
is high, then the decision of that subsystem carries a lot of weight, while if it is low, the other subsystem will have a
substantial e ect. Note that, in a phoneme-based HMM, this
con dence and the associated decisions may be connected
with individual states or time steps.
1.2. Integration of Audio and Visual Information
Several methods for integration of audio and visual sources
have been proposed (e.g. [5, 4, 6, 9, 10, 11]). RobertRibes
[4] has proposed a classi cation scheme for integra-
tion strategies. Two broad classes of strategy are early"
and late" integration models. Early integration refers to
strategies which combine evidence from di erent modalities
prior to making any decisions, whereas late integration
strategies perform some sort of independent single-modality
scoring before combining evidence. Although there remains much to be discovered concerning this process, the evidence
suggests that early integration strategies are the most successful
0/5000
From: -
To: -
Results (Thai) 1: [Copy]
Copied!
Audiovisual methods of automatic speech recognition (ASR)have been widely studied as they o er improved robustnessand accuracy, especially in the presence of noise. Traditionalaudio-based ASR systems perform reasonably well in controlledlab environments. In many environments, however,such as oces or outdoors, the recognition performance decreasesdrastically due to background noise. One way to increaserobustness with respect to acoustic signal distortion isto consider the visual speech modality jointly with the auditorymodality. Previous studies have shown that in both ASRand human speech perception, the audio and visual sensorymodalities have di erent strengths and weaknesses, and infact to a large extent they complement each other [7]. Visiblespeech is usually most informative for just those distinctionsthat are most ambiguous auditorily. For example, perceivingplace of articulation, such as the di erence between /b/ and/d/, is dicult via sound but relatively easy via sight. Onthe other hand, voicing information which is dicult to seevisually is relatively easy to resolve via sound. Thus, visiblespeech is to a large degree not redundant with auditoryspeech.The primary motivation for using visual information is to improvethe robustness of the system with respect to environ- mental variations. Thus, a ma jor goal is that an audiovisualsystem should perform at least as well as its audio subsystemdoes, over the entire range of conditions which might
be encountered. This requirement implies that in situations
where the audio subsystem performs accurately, the role of the
visual information should be very limited, and as the audio
subsystem loses accuracy, the role of the visual information
should increase.
Since a system cannot know" whether or not it is performing
accurately, some measure of con dence must accompany the
classi cation. A natural measure of con dence is the ratio of
the highest score (probability estimate) to the nearest competing
score. This con dence measure is easy to exploit such
that when con dence for either subsystem (audio or visual)
is high, then the decision of that subsystem carries a lot of weight, while if it is low, the other subsystem will have a
substantial e ect. Note that, in a phoneme-based HMM, this
con dence and the associated decisions may be connected
with individual states or time steps.
1.2. Integration of Audio and Visual Information
Several methods for integration of audio and visual sources
have been proposed (e.g. [5, 4, 6, 9, 10, 11]). RobertRibes
[4] has proposed a classi cation scheme for integra-
tion strategies. Two broad classes of strategy are early"
and late" integration models. Early integration refers to
strategies which combine evidence from di erent modalities
prior to making any decisions, whereas late integration
strategies perform some sort of independent single-modality
scoring before combining evidence. Although there remains much to be discovered concerning this process, the evidence
suggests that early integration strategies are the most successful
Being translated, please wait..
Results (Thai) 2:[Copy]
Copied!
ภาพและเสียงของวิธีการรู้จำเสียงพูดอัตโนมัติ (ASR)
ได้รับการศึกษาอย่างกว้างขวางในฐานะที่พวกเขา o? เอ้อดีขึ้นความทนทาน
และความถูกต้องโดยเฉพาะอย่างยิ่งในการปรากฏตัวของเสียง แบบดั้งเดิม
เสียงที่ใช้ระบบ ASR ดำเนินการได้ดีพอสมควรในการควบคุม
สภาพแวดล้อมในห้องปฏิบัติการ ในสภาพแวดล้อมจำนวนมาก แต่
เช่น o? CES หรือกลางแจ้งการรับรู้ผลการดำเนินงานลดลง
อย่างมากเนื่องจากเสียงพื้นหลัง วิธีหนึ่งที่จะเพิ่ม
ความทนทานที่เกี่ยวกับการบิดเบือนสัญญาณอะคูสติก
ที่จะต้องพิจารณาคำพูดกิริยาภาพร่วมกับหู
กิริยา การศึกษาก่อนหน้านี้ได้แสดงให้เห็นว่าทั้ง ASR
และการรับรู้การพูดของมนุษย์เสียงและประสาทสัมผัสภาพ
รังสีมีดิ? จุดแข็งและจุดอ่อนต่างกันและใน
ความเป็นจริงในระดับใหญ่ที่พวกเขาเติมเต็มซึ่งกันและกัน [7] ที่มองเห็น
คำพูดมักจะให้ข้อมูลมากที่สุดสำหรับความแตกต่างเพียง แต่ผู้
ที่มีความชัดเจนมากที่สุด auditorily ยกตัวอย่างเช่นการรับรู้
ที่ข้อเช่นดิ? การตั้งระหว่าง / b / และ
/ d / เป็นดิ? ศาสนาผ่านทางเสียง แต่ค่อนข้างง่ายผ่านทางสายตา บน
มืออื่น ๆ ที่ประกาศข้อมูลที่ดิ? ลัทธิที่จะเห็น
สายตาค่อนข้างง่ายที่จะแก้ไขผ่านทางเสียง ดังนั้นมองเห็น
พูดในระดับที่มีขนาดใหญ่ไม่ซ้ำซ้อนกับการได้ยิน
การพูด.
แรงจูงใจหลักในการใช้ข้อมูลภาพคือการปรับปรุง
ความทนทานของระบบที่เกี่ยวกับการเปลี่ยนแปลงสภาพแวดล้อมทางจิต ดังนั้นเป้าหมายจแม่คือว่าภาพและเสียง
ระบบควรดำเนินการอย่างน้อยเช่นเดียวกับระบบย่อยเสียง
ไม่มากกว่าทั้งช่วงของเงื่อนไขที่อาจ
จะพบ ข้อกำหนดนี้แสดงให้เห็นว่าในสถานการณ์
ที่ระบบย่อยเสียงดำเนินการอย่างถูกต้องบทบาทของ
ข้อมูลภาพควรจะ จำกัด มากและเป็นเสียง
ระบบย่อยสูญเสียความถูกต้องบทบาทของข้อมูลภาพ
ควรจะเพิ่มขึ้น.
เนื่องจากระบบไม่สามารถ รู้ "หรือ ไม่ได้มีการดำเนินการ
อย่างถูกต้อง, การวัดความมั่นใจนักโทษบางส่วนต้องมาพร้อมกับ
ไอออนบวกจัดประเภท. วัดตามธรรมชาติของนักโทษมั่นใจเป็นอัตราส่วนของ
คะแนนสูงสุด (น่าจะเป็นประมาณการ) เพื่อการแข่งขันที่ใกล้ที่สุด
คะแนน. มั่นใจมาตรการต่อต้านนี้เป็นเรื่องง่ายที่จะใช้ประโยชน์ดังกล่าว
ว่า เมื่อมั่นใจปรับอากาศสำหรับระบบย่อยทั้ง (เสียงหรือภาพ)
สูงแล้วการตัดสินใจของระบบย่อยที่ดำเนินการมากน้ำหนักในขณะที่ถ้ามันอยู่ในระดับต่ำ, ระบบย่อยอื่น ๆ จะมี
อีมาก? ect. ทราบว่าใน phoneme- based HMM นี้
มั่นใจนักโทษและการตัดสินใจที่เกี่ยวข้องอาจจะเชื่อมต่อ
กับแต่ละรัฐหรือขั้นตอนเวลา.
1.2. บูรณาการของเสียงและข้อมูลภาพ
หลายวิธีสำหรับการรวมของแหล่งที่มาภาพและเสียง
ได้รับการเสนอ (เช่น [5, 4, 6, 9 , 10, 11]) RobertRibes
[4] ได้เสนอโครงการจัดประเภทไอออนบวกรวมกันสำหรับ
กลยุทธ์การ สองชั้นกว้างของกลยุทธ์การมี ต้น "
และ ปลาย "รูปแบบบูรณาการ บูรณาการในช่วงต้นหมายถึง
กลยุทธ์ซึ่งรวมหลักฐานจากดิ? รังสีต่างกัน
ก่อนที่จะมีการตัดสินใจใด ๆ ในขณะที่การรวมปลาย
กลยุทธ์การดำเนินการจัดเรียงของเดี่ยวกิริยาอิสระบาง
คะแนนก่อนที่จะรวมหลักฐาน แม้ว่าจะยังคงมีมากที่จะค้นพบเกี่ยวกับขั้นตอนนี้หลักฐานที่
แสดงให้เห็นว่ากลยุทธ์การรวมต้นที่ประสบความสำเร็จมากที่สุด
Being translated, please wait..
Results (Thai) 3:[Copy]
Copied!
และวิธีการของการรู้จำเสียงพูดอัตโนมัติ ( ASR )
ได้รับการศึกษาอย่างกว้างขวางตามที่พวกเขา o เอ้อปรับปรุงความทนทาน
และความถูกต้องในการปรากฏตัวของเสียงโดยเฉพาะ เสียงจากระบบ ASR ดั้งเดิม

แสดงด้วยดีในการควบคุมสภาพแวดล้อมห้องแล็บ ในสภาพแวดล้อมหลาย อย่างไรก็ตาม
เช่น O  CES หรือกลางแจ้ง การแสดงการรับรู้ลดลง
อย่างมากเนื่องจากเสียงพื้นหลังวิธีหนึ่งที่จะเพิ่มความแข็งแกร่งด้วยความเคารพ

การบิดเบือนสัญญาณอะคูสติก คือพิจารณา กิริยา คำพูด กิริยา การบรรยายภาพร่วมด้วย

การศึกษาก่อนหน้านี้ได้แสดงให้เห็นว่าทั้งสอง ASR
และการรับรู้การพูดของมนุษย์ เสียงและภาพได้ ดิ modalities การ
erent จุดแข็ง และจุดอ่อน และในความเป็นจริงพวกเขา
ขอบเขตขนาดใหญ่กว่ากัน [ 7 ] มองเห็น
การพูดมักจะเป็นข้อมูลมากที่สุดเพื่อเพียงความแตกต่าง
ที่คลุมเครือมากที่สุด auditorily . ตัวอย่างเช่น การ
ฐานออกเสียง เช่น ดิ erence ระหว่าง / B /
/ D / เป็น ดิ  ศาสนาผ่านทางเสียง แต่ค่อนข้างง่ายผ่านทางสายตา บน
มืออื่น ๆ , เสียงข้อมูลที่เป็น ดิ  ศาสนาเห็น
สายตาค่อนข้างง่ายที่จะแก้ปัญหาผ่านทางเสียง จึงมองเห็น
การพูดถึงระดับใหญ่ไม่ซ้ำซ้อนกับการได้ยินคำพูด

. แรงจูงใจหลักสำหรับการใช้ข้อมูลเพื่อปรับปรุง
ทนทานของระบบที่มีต่อสิ่งแวดล้อม - จิต รูปแบบ ดังนั้น มาเจาะเป้าหมายที่ระบบควรจะดำเนินการอย่างน้อยค่า

ของมันเช่นเดียวกับระบบเสียงจะผ่านทั้งช่วงของเงื่อนไขซึ่งอาจ
ถูกพบ .ความต้องการนี้ หมายถึงว่า ในสถานการณ์ที่การใช้เสียงที่ถูกต้อง

บทบาทของข้อมูลภาพควรจะ จำกัด มากและเป็นระบบเสียง
สูญเสียความถูกต้อง บทบาทของข้อมูลควรเพิ่ม
.
เพราะระบบไม่สามารถ N รู้ " หรือไม่ก็เป็นการแสดง
ถูกต้อง บางวัด ของคอน dence ต้องมาพร้อมกับ
การ classi .วัดคอน ธรรมชาติของ dence คืออัตราส่วนของ
คะแนนสูงสุด ( ความน่าจะเป็นประมาณ ) ใกล้แข่งขัน
คะแนน นี้หลอกลวง dence วัดเป็นเรื่องง่ายที่จะใช้ประโยชน์ เช่น
เมื่อคอน dence ทั้งระบบ ( เสียงหรือภาพ )
สูงแล้วการตัดสินใจของที่ระบบมีน้ำหนักลดลงมาก ในขณะที่ถ้ามันต่ำ ระบบอื่น ๆ จะได้
อย่างมากและ ect สังเกตว่าในหน่วยเสียงฮือตามนี้
con dence และที่เกี่ยวข้องในการตัดสินใจอาจจะเกี่ยวข้องกับแต่ละรัฐหรือขั้นตอน
.
1.2 รวมภาพและเสียงข้อมูล
หลายวิธีสำหรับการรวมภาพและเสียงได้มีการเสนอแหล่ง
( เช่น [ 5 , 4 , 6 , 9 , 10 , 11 ) robertribes
[ 4 ] ได้เสนอ classi ไอออนบวกของ Integra -
, กลยุทธ์2 ประเภทกว้างของกลยุทธ์ เป็นต้น "
N และรุ่นดึก " บูรณาการ รวมๆหมายถึง
) ซึ่งรวมหลักฐานจาก ดิ erent modalities
ก่อนที่จะตัดสินใจใด ๆ ในขณะที่กลยุทธ์การบูรณาการ
ดึกแสดงบางอย่างอิสระ กิริยาเดียว
คะแนนก่อนการรวมหลักฐาน แม้ว่ายังคงมีมากที่จะค้นพบเกี่ยวกับกระบวนการนี้ หลักฐาน
แสดงให้เห็นว่ากลยุทธ์การรวมจะประสบความสำเร็จมากที่สุดก่อน
Being translated, please wait..
 
Other languages
The translation tool support: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Chinese, Chinese Traditional, Corsican, Croatian, Czech, Danish, Detect language, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Frisian, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Myanmar (Burmese), Nepali, Norwegian, Odia (Oriya), Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scots Gaelic, Serbian, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Tatar, Telugu, Thai, Turkish, Turkmen, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Welsh, Xhosa, Yiddish, Yoruba, Zulu, Language translation.

Copyright ©2024 I Love Translation. All reserved.

E-mail: