THUẬT TOÁN NHẬN DẠNG GIỌNG NÓI

Lời nói là phương tiện đi lại giao tiếp cơ phiên bản tốt nhất của bé tín đồ Lúc cứng cáp. Mục tiêu cơ bản của cách xử lý các giọng nói là hỗ trợ sự thúc đẩy thân nhỏ tín đồ cùng trang thiết bị.

Bạn đang xem: Thuật toán nhận dạng giọng nói


Trước hết, nhận dạng các giọng nói chất nhận được máy bắt những trường đoản cú, cụm từ với câu ta nóiThứ đọng nhì, cách xử trí ngôn ngữ tự nhiên nhằm cho phép trang bị gọi đa số gì chúng ta nói vàThứ bố, tổng phù hợp giọng nói để được cho phép đồ vật nói.
Bài này triệu tập vào nhận dạng tiếng nói, quy trình hiểu những từ bỏ mà lại bé fan nói. Hãy hãy nhớ là những biểu lộ giọng nói được lưu lại với việc giúp đỡ của micrô và kế tiếp nó cần được khối hệ thống hiểu.
Nhận dạng các giọng nói hoặc Nhận dạng giọng nói tự động (ASR) là trung trọng tâm của việc chăm chú đối với các dự án công trình AI nlỗi robot. Nếu không có ASR, cần yếu tưởng tượng một robot nhấn thức liên quan cùng với con bạn. Tuy nhiên, vấn đề xuất bản một phương pháp dấn dạng giọng nói không phải là điều hoàn toàn thuận tiện.
Phát triển một khối hệ thống thừa nhận dạng các giọng nói rất chất lượng thực thụ là một trong những bài bác toán thù nặng nề. Khó khnạp năng lượng của technology thừa nhận dạng tiếng nói rất có thể được trình bày phổ biến theo một trong những chu đáo nhỏng được bàn luận bên dưới đây:
Kích thước của tự vựng: ảnh hưởng tới việc thuận tiện của Việc cải cách và phát triển một ASR.(kích thước từ bỏ vựng càng lớn thì việc nhận dạng càng cực nhọc.)Điểm lưu ý của channel - Chất lượng chanel cũng là 1 trong yếu tố quan trọng. Ví dụ, tiếng nói của bé người dân có đường dẫn cao với dải tần không thiếu thốn, trong những lúc lời nói qua điện thoại cảm ứng thông minh bao gồm đường dẫn tốt với dải tần tinh giảm. Lưu ý rằng nó khó khăn hơn vào phần sau.Chế độ nói - Việc cải tiến và phát triển ASR thuận tiện cũng phụ thuộc vào vào chế độ nói, sẽ là liệu bài xích phát biểu tất cả ở cơ chế từ bỏ riêng biệt, hoặc cơ chế tự được liên kết hay sinh hoạt cơ chế nói liên tiếp. Lưu ý rằng một bài xích tuyên bố tiếp tục nặng nề phân biệt rộng.Phong phương pháp nói - Bài phát biểu được gọi rất có thể theo phong cách trọng thể, hoặc trường đoản cú vạc và hội thoại cùng với phong thái bình thường. Cái sau nặng nề nhận ra hơn.

Xem thêm: Phần Mềm Quản Lý Thiết Bị Bằng Access Quản Lý Bán Thiết Bị Máy Tính

Sự nhờ vào người nói - Lời nói có thể dựa vào vào fan nói, sự yêu thích ứng của fan nói hoặc chủ quyền với người nói. Rất khó tuyệt nhất nhằm tạo ra một diễn giả độc lậpLoại tiếng ồn ào - Tiếng ồn là 1 yếu tố không giống phải xem xét lúc phát triển ASR. Tỷ lệ biểu thị bên trên ồn ào hoàn toàn có thể nằm trong tương đối nhiều phạm vi không giống nhau, tùy ở trong vào môi trường âm tkhô cứng quan tiền sát thấp hơn so với nhiều ồn ào xung quanh- Nếu phần trăm bộc lộ bên trên nhiễu to hơn 30dB, nó được xem như là dải cao- Nếu phần trăm biểu hiện trên nhiễu ở trong vòng từ bỏ 30dB mang lại 10db, nó được xem như là SNR trung bình-Nếu tỷ lệ biểu đạt bên trên nhiễu nhỏ rộng 10 dB, nó được coi là dải tần thấpđiểm sáng của micrô - Chất lượng của micrô rất có thể xuất sắc, mức độ vừa phải hoặc bên dưới trung bình. Hình như, khoảng cách giữa miệng cùng micro phone có thể không giống nhau. Các nhân tố này cũng cần phải chăm chú đối với khối hệ thống công nhận.
Bất chấp số đông trở ngại này, những công ty nghiên cứu đã làm việc không ít bên trên những kỹ càng không giống nhau của lời nói nlỗi hiểu biểu thị giọng nói, fan nói và khẳng định những trọng âm.
Đây là bước trước tiên trong vấn đề xây đắp khối hệ thống thừa nhận dạng tiếng nói vày nó cung ứng phát âm biết về kiểu cách một biểu đạt âm tkhô hanh được cấu tạo. Một số bước phổ biến rất có thể tuân theo để triển khai câu hỏi với biểu hiện âm thanh hao như sau:
Recording :

Thứ nhất, khi chúng ta đề xuất đọc biểu thị âm tkhô cứng từ một tệp, tiếp nối ghi lại bởi micrô.
Sampling :
Lúc thu thanh bởi micrô, những biểu đạt được lưu trữ bên dưới dạng số hóa. Nhưng để hoạt động, máy cần chúng sinh sống dạng số tách rộc rạc. Do đó, bọn họ buộc phải triển khai mang mẫu mã ở 1 tần số nhất mực với thay đổi biểu thị thành dạng số tách rốc. Việc lựa chọn tần số cao để đưa chủng loại ý niệm rằng Lúc con fan nghe bộc lộ, họ cảm thấy nó như một biểu lộ âm thanh hao tiếp tục.
lấy ví dụ như sau đây cho biết một phương pháp tiếp cận từng bước một nhằm so sánh bộc lộ âm tkhô nóng, thực hiện Pybé, được lưu trữ vào một tệp. Tần số của biểu thị âm tkhô cứng này là 44.100 HZ.
Bây tiếng, hãy đọc tệp âm tkhô hanh được tàng trữ. Nó vẫn trả về nhị giá bán trị: tần số lấy mẫu mã và biểu hiện âm tkhô giòn. Cung cung cấp băng thông của tệp âm thanh hao chỗ nó được tàng trữ, nhỏng được hiển thị sống đây
Hiển thị các thông số nlỗi tần số mang chủng loại của dấu hiệu âm tkhô giòn, một số loại tài liệu của bộc lộ cùng thời lượng của chính nó, áp dụng các lệnh được hiển thị:
print(" Signal shape:", audio_signal.shape)print("Signal Datatype:", audio_signal.dtype)print("Signal duration:", round(audio_signal.shape<0> / float(frequency_sampling), 2), "seconds")
Trong công đoạn này, tôi đã trích xuất 100 quý hiếm đầu tiên trường đoản cú dấu hiệu này nhằm tưởng tượng. Sử dụng những lệnh sau đến mục tiêu này:
audio_signal = audio_signal <:100>time_axis = 1000 * np.arange(0, len(signal), 1) / float(frequency_sampling)
plt.plot(time_axis, signal, color="blue")plt.xlabel("Time (milliseconds)")plt.ylabel("Amplitude")plt.title("Input audio signal")plt.show()
quý khách hàng sẽ có thể thấy thiết bị thị áp ra output với tài liệu được trích xuất mang đến bộc lộ âm tkhô hanh ngơi nghỉ trên như biểu thị trong hình hình ảnh tại phía trên :
*

khác thường cho một biểu đạt âm tkhô nóng tương quan đến việc biến hóa bộc lộ miền thời hạn thành miền tần số và hiểu các yếu tắc tần số của chính nó. Đây là bước đặc biệt vì chưng nó cho thấy thêm những ban bố về dấu hiệu. Quý Khách rất có thể thực hiện một phương tiện tân oán học tập như Fourier Transsize để triển khai phxay biến hóa này.
lấy ví dụ như sau đây cho biết thêm, từng bước, phương pháp biểu thị đặc tính của tín hiệu, sử dụng Python, được lưu trữ vào một tệp. Lưu ý rằng ở chỗ này mình vẫn thực hiện dụng cụ tân oán học Fourier Transform để chuyển đổi nó thành miền tần số.
Bây giờ, hãy đọc tệp âm thanh được lưu trữ. Nó sẽ trả về nhị giá bán trị: tần số lấy chủng loại và tín hiệu âm thanh khô. Cung cung cấp đường truyền của tệp âm tkhô nóng nơi nó được lưu trữ nhỏng được hiển thị trong lệnh tại đây -
Trong đoạn này, mình vẫn hiển thị các thông số kỹ thuật như tần số lấy mẫu của biểu lộ âm tkhô giòn, một số loại dữ liệu của dấu hiệu và thời lượng của chính nó, bằng phương pháp thực hiện các lệnh được chỉ dẫn mặt dưới:
print(" Signal shape:", audio_signal.shape)print("Signal Datatype:", audio_signal.dtype)print("Signal duration:", round(audio_signal.shape<0> / float(frequency_sampling), 2), "seconds")