Results (
Vietnamese) 2:
[Copy]Copied!
trong dòng sth,
ωjsm biểu thị giá trị cân, μ và σ là giá trị trung bình và phương sai của Gaussian
phân phối N (.).
Mặc dù SA-MSHMM có thể mô tả sự không đồng bộ âm thanh và dòng trực quan cho một số
phạm vi, Nhưng vấn đề vẫn còn do sự hạn chế cố hữu của cấu trúc HMM. Trên một
mặt, cho các nhiệm vụ nhận vốn từ vựng tiếng nói lớn, điện thoại là các đơn vị mô hình cơ bản,
mô hình này sẽ buộc các dòng âm thanh và dòng hình ảnh sẽ được đồng bộ với thời gian
giới hạn của điện thoại, đó là không nhất quán với thực tế là các hoạt động trực quan thường
đi trước các tín hiệu âm thanh thậm chí 120 ms. Mặt khác, khi một chút giống nhỏ
được thực hiện trên MSHMM, một số lượng lớn các nỗ lực của con người phải được đặt vào làm
thay đổi đáng kể trên phần mềm đã được phức tạp mà không có bất kỳ đảm bảo
về hiệu suất của chúng. Vì vậy, một khuôn khổ mô hình đa luồng mới và thống nhất dự kiến sẽ
để mất giới hạn của sự không đồng bộ của dòng âm thanh và dòng trực quan đến mức thô hơn.
2.2 MS-ADBN mô hình
Một động Bayesian Network (DBN) là một mô hình thống kê rằng có thể đại diện cho bộ sưu tập của
biến ngẫu nhiên và các mối quan hệ phụ thuộc của họ khi họ phát triển theo thời gian. HMM chỉ là
trường hợp đặc biệt của tổng quát hơn nhiều mô hình DBN. So sánh với HMM, DBN mô hình có một
cấu trúc linh hoạt hơn và mở rộng, và mô tả một cách rõ ràng mối quan hệ thứ bậc
của các thành phần chính (e. G từ, điện thoại, nhà nước và quan sát) của nhận dạng giọng nói. Trong
nói chung, các mô hình DBN đáp ứng hai điều kiện: 1) ngoại trừ khung ban đầu, cấu trúc liên kết
cấu trúc là giống nhau trong mỗi khung; 2) mối quan hệ xác suất có điều kiện giữa các khung hình
theo một thứ tự mô hình Markov. Ngoài ra, đào tạo thống nhất và giải mã
thuật toán làm cho thực hiện các mô hình DBN trở nên dễ dàng hơn.
Kể từ DBN mô hình có một số vượt trội trên mô tả cấu trúc mô hình phức tạp,
mô hình DBN đa luồng dự kiến mô hình cơ cấu nhận dạng giọng nói nghe nhìn
bởi mất sự không đồng bộ của các các dòng âm thanh và dòng hình ảnh.
Hình. 2 minh họa cấu trúc công nhận một DBN (MS-ADBN) đa luồng không đồng bộ của
mô hình. Nó bao gồm một phần Prologue (khởi tạo), một phần Chunk được lặp đi lặp lại mỗi
khung thời gian (t), và đóng cửa của câu sau với một phần Epilogue. Tên viết tắt của mỗi nút
được biểu thị trong ngoặc đơn: (W) là đơn vị từ trong câu; (WT) là sự xuất hiện của một
quá trình chuyển đổi từ một từ để nói một lời; (PP1) và (PP2) là vị trí của các dòng
điện thoại trong từ hiện hành; (PT1) và (PT2) là sự xuất hiện của một quá trình chuyển đổi từ điện thoại
đến điện thoại khác; (P1) và (P2) là nút điện thoại; O1 là quan sát âm thanh; O2 là hình ảnh
vector quan sát. Các nút có bóng râm là các biến quan sát, và các nút
mà không màu là các biến trạng thái ẩn.
Trong mô hình MS-ADBN, biến từ và từ biến chuyển đang ở trên cùng của
cấu trúc, khi quá trình chuyển đổi từ xảy ra, nó sẽ thiết lập lại (PP1) và (PP2) với giá trị ban đầu của họ,
do đó dòng âm thanh và dòng visual buộc phải được đồng bộ trong nút cùng một từ.
trong khi giữa các nút chữ, mỗi dòng có nút độc lập riêng của mình và
phân bố xác suất có điều kiện giữa các nút, mỗi từ được cấu tạo của nó
điện thoại sáng tác tương ứng, và mỗi điện thoại được kết hợp với tính năng quan sát.
Cụ thể, nó cho phép hai đại diện độc lập cho quá trình phát âm năng động của một
từ trong mô hình này. Ngoài ra, quá trình chuyển đổi từ được xác định bằng hơi âm thanh và hình ảnh
lại với nhau, để làm cho quá trình chuyển đổi từ xảy ra, chúng ta phải có cả hai PP1 và PP2 là người cuối cùng
điện thoại của từ hiện tại, cũng như cả PT1 và PT2 xảy ra. So sánh với MSHMM, sự
không đồng bộ của các dòng âm thanh và hình ảnh thực sự là thong thả đến mức từ.
Being translated, please wait..
