Bảo mật bằng giọng nói và lịch sử hơn 70 năm
31/08/2013 10:44
Công nghệ nhận diện giọng nói và bảo mật bằng giọng nói là một trong những công nghệ sinh trắc học quan trọng trong ngành bảo mật nói chung và công nghệ bảo mật thiết bị số nói riêng, trong đó có điện thoại di động.
Những công nghệ về giọng nói
Thuật ngữ “Bảo mật giọng nói” về thực chất không được dùng để chỉ công nghệ bảo mật sinh trắc học sử dụng giọng nói vốn được sử dụng rộng rãi trên điện thoại di động hay các thiết bị số khác. Thuật ngữ “Bảo mật giọng nói” được dùng để diễn giải cho thuật ngữ “Secure voice” (hay “secure speech” hoặc “ciphony”) trong tiếng Anh, một thuật ngữ trong ngành mật mã để chỉ công việc mã hóa các cuộc điện thoại, điện đàm thông qua các giao thức sóng radio, đường dây điện thoại hay IP (kết nối internet).
Thuật ngữ dành cho công nghệ bảo mật sinh trắc học mà chúng ta đề cấp đến là “bảo mật bằng giọng nói”, khái niệm này thường được coi tương đương với khái niệm “nhận diện người nói” (Speaker recognition), khái niệm dùng để chỉ công nghệ cho phép máy móc nhận diện ra người thực sự có quyền được sử dụng thiết bị (mở khóa, truy cập....). Bản thân khái niệm “nhận diện người nói” còn được phân chia tiếp thành hai khai niệm con, “xác định danh tính người nói” (speaker identification) và “xác thực người nói” (speaker verification).
Ngoài ra công nghệ nhận diện người nói, trong nhóm công nghệ nhận diện giọng nói còn có một khái niệm khác, đó là “nhận diện lời nói” – Speech recognition (hay được biết đến cái tên đơn giản hơn là “speech to text”). Công nghệ này cho phép thiết bị có chức năng nhận diện hiểu chính xác được từ ngữ mà người sử dụng phát âm, phiên dịch và chuyển thành mệnh lệnh cho hệ thống máy thực hiện. Công nghệ này được áp dụng cho nhiều ứng dụng như Tìm kiếm bằng giọng nói, Điều khiển bằng giọng nói... vốn thịnh hành trên điện thoại thông minh ngày nay.
Lịch sử hơn 70 năm phát triển
Nhiều người biết công nghệ bảo mật dựa vào giọng nói là một công nghệ có từ lâu đời, chủ yếu qua những bộ phim hành động huyền thoại một thời. Tuy nhiên ít người biết công nghệ bảo mật sử dụng giọng nói mà chúng ta thấy phổ biến hiện nay lại được hình thành và phát triển trên cơ sở công nghệ nhận diện giọng nói có tuổi đời lên đến hơn 70 năm.
Công nghệ nhận diện giọng nói được phát triển vào cuối những năm 1940, tuy nhiên phải đến thời kỳ những năm 50-60 của thế kỷ trước, những cố gắng đầu tiên xây dựng nền móng cho công nghệ nhận diện giọng nói (và chuyển thành ký tự) mới chính thức được thực hiện. Năm 1952, tại phòng thí nghiệm Bell, Davis, Biddulph và Blashek đã xây dựng thành công hệ thống phân lập ký tự từ một người, sử dụng phương pháp đo/ước đoán tần số âm thanh thành tố trong giọng nói để phân lập thành các ký tự. Tiếp theo đó, vào những năm 1956, 1959, các nhà khoa học tiếp tục gặt hái thành công trong việc nâng cấp công nghệ nhận diện giọng nói này.
Vào những năm 1960, con người đạt được bước tiến đáng kể cho việc giải quyết bài toán làm thế nào để nhận diện được giọng nói và chuyển tự với những khoảng thời gian phát âm khác nhau. Nhà khoa học Liên Xô (cũ) Vintsuk lần đầu tiên đưa ra thuật toán cho phép tính toán và ước lượng chính xác các biên độ của từ ngữ được phát âm, song công trình của ông chỉ được biết đến rộng rãi vào những năm 1980.
Sau khi hệ thống nhận diện – chuyển tự giọng nói tự động đầu tiên ra đời được một thập kỷ, những viên gạch xây dựng cho công nghệ tự động nhận diện người nói được bắt đầu. Phòng thí nghiệm Bell lại là nơi đầu tiên đặt nền móng cho công nghệ này, với việc nghiên cứu sử dụng bộ lọc và biểu đồ điện tử, công nghệ này được cải tiến sau đó. Những công nghệ nổi tiếng thời đấy có thể kể đến như Texas Intruments system, Bell Labs system... Những hệ thống này nhanh chóng được áp dụng trong những cơ sở yêu cầu tính bảo mật cao độ thời đấy như ngân hàng, quân đội...
Công nghệ nhận diện giọng nói ngày càng được phát triển từ những năm 1980 đến nay, nhằm tăng cường tính chính xác, bảo mật, cũng như khả năng kết hợp với những công nghệ bảo mật sinh trắc học khác như khuôn mặt, vân tay, mống mắt...
Công nghệ xác nhận giọng nói được phát triển và ứng dụng mạnh mẽ trong việc phối hợp với phương pháp bảo mật truyền thống (mật khẩu, hình vẽ...) và bào mật sinh trắc học (vân tay, gương mặt...) để tăng cường an ninh cho những dữ liệu nhạy cảm chứa trong những thiết bị số đấy, đầu tiên là máy vi tính.
Không rõ thời điểm chính xác và chiếc điện thoại nào là chiếc điện thoại đầu tiên được trang bị công nghệ xác nhận qua giọng nói. Thế nhưng nhiều người có thể thấy rằng một trong những hệ điều hành đi tiên phong về công nghệ này là Android, với một số sản phẩm cao cấp của một số hãng điện thoại Samsung được trang bị tính năng này để mở khóa màn hình. Tất nhiên, với sự hỗ trợ của hệ điều hành điện thoại di động, có một vài ứng dụng của hãng thứ ba cũng có chức năng xác thực giọng nói của người sử dụng để bảo mật cho điện thoại.
Dù vậy, bảo mật bằng giọng nói hay những định thức bảo mật sinh trắc học như vân tay chẳng hạn, đòi hỏi sự chính xác cao độ của thiết bị nhận diện. Điều này gây khó khăn cho các nhà sản xuất trong thời điểm hiện tại khi muốn phổ cập công nghệ này đến mọi mẫu điện thoại hay sản phẩm số thuộc mọi phân khúc, do những thành phần phục vụ cho công việc bảo mật thường có giá chế tạo đắt, cũng như đòi hỏi thuật toán bảo mật chuyên biệt.
Song với bước tiến như vũ bão của loài người trong cuộc cách mạng khoa học – kỹ thuật hiện nay, người ta có thể hy vọng rằng trong tương lai không xa, bảo mật bằng giọng nói hay những hình thức bảo mật sinh trắc học khác sẽ trở thành thành tố kỹ thuật cơ bản của mỗi thiết bị số.
NGUYỄN TIẾN
Thuật ngữ “Bảo mật giọng nói” về thực chất không được dùng để chỉ công nghệ bảo mật sinh trắc học sử dụng giọng nói vốn được sử dụng rộng rãi trên điện thoại di động hay các thiết bị số khác. Thuật ngữ “Bảo mật giọng nói” được dùng để diễn giải cho thuật ngữ “Secure voice” (hay “secure speech” hoặc “ciphony”) trong tiếng Anh, một thuật ngữ trong ngành mật mã để chỉ công việc mã hóa các cuộc điện thoại, điện đàm thông qua các giao thức sóng radio, đường dây điện thoại hay IP (kết nối internet).
Thuật ngữ dành cho công nghệ bảo mật sinh trắc học mà chúng ta đề cấp đến là “bảo mật bằng giọng nói”, khái niệm này thường được coi tương đương với khái niệm “nhận diện người nói” (Speaker recognition), khái niệm dùng để chỉ công nghệ cho phép máy móc nhận diện ra người thực sự có quyền được sử dụng thiết bị (mở khóa, truy cập....). Bản thân khái niệm “nhận diện người nói” còn được phân chia tiếp thành hai khai niệm con, “xác định danh tính người nói” (speaker identification) và “xác thực người nói” (speaker verification).
Ngoài ra công nghệ nhận diện người nói, trong nhóm công nghệ nhận diện giọng nói còn có một khái niệm khác, đó là “nhận diện lời nói” – Speech recognition (hay được biết đến cái tên đơn giản hơn là “speech to text”). Công nghệ này cho phép thiết bị có chức năng nhận diện hiểu chính xác được từ ngữ mà người sử dụng phát âm, phiên dịch và chuyển thành mệnh lệnh cho hệ thống máy thực hiện. Công nghệ này được áp dụng cho nhiều ứng dụng như Tìm kiếm bằng giọng nói, Điều khiển bằng giọng nói... vốn thịnh hành trên điện thoại thông minh ngày nay.
Lịch sử hơn 70 năm phát triển
Nhiều người biết công nghệ bảo mật dựa vào giọng nói là một công nghệ có từ lâu đời, chủ yếu qua những bộ phim hành động huyền thoại một thời. Tuy nhiên ít người biết công nghệ bảo mật sử dụng giọng nói mà chúng ta thấy phổ biến hiện nay lại được hình thành và phát triển trên cơ sở công nghệ nhận diện giọng nói có tuổi đời lên đến hơn 70 năm.
Công nghệ nhận diện giọng nói được phát triển vào cuối những năm 1940, tuy nhiên phải đến thời kỳ những năm 50-60 của thế kỷ trước, những cố gắng đầu tiên xây dựng nền móng cho công nghệ nhận diện giọng nói (và chuyển thành ký tự) mới chính thức được thực hiện. Năm 1952, tại phòng thí nghiệm Bell, Davis, Biddulph và Blashek đã xây dựng thành công hệ thống phân lập ký tự từ một người, sử dụng phương pháp đo/ước đoán tần số âm thanh thành tố trong giọng nói để phân lập thành các ký tự. Tiếp theo đó, vào những năm 1956, 1959, các nhà khoa học tiếp tục gặt hái thành công trong việc nâng cấp công nghệ nhận diện giọng nói này.
Vào những năm 1960, con người đạt được bước tiến đáng kể cho việc giải quyết bài toán làm thế nào để nhận diện được giọng nói và chuyển tự với những khoảng thời gian phát âm khác nhau. Nhà khoa học Liên Xô (cũ) Vintsuk lần đầu tiên đưa ra thuật toán cho phép tính toán và ước lượng chính xác các biên độ của từ ngữ được phát âm, song công trình của ông chỉ được biết đến rộng rãi vào những năm 1980.
Sau khi hệ thống nhận diện – chuyển tự giọng nói tự động đầu tiên ra đời được một thập kỷ, những viên gạch xây dựng cho công nghệ tự động nhận diện người nói được bắt đầu. Phòng thí nghiệm Bell lại là nơi đầu tiên đặt nền móng cho công nghệ này, với việc nghiên cứu sử dụng bộ lọc và biểu đồ điện tử, công nghệ này được cải tiến sau đó. Những công nghệ nổi tiếng thời đấy có thể kể đến như Texas Intruments system, Bell Labs system... Những hệ thống này nhanh chóng được áp dụng trong những cơ sở yêu cầu tính bảo mật cao độ thời đấy như ngân hàng, quân đội...
Công nghệ nhận diện giọng nói ngày càng được phát triển từ những năm 1980 đến nay, nhằm tăng cường tính chính xác, bảo mật, cũng như khả năng kết hợp với những công nghệ bảo mật sinh trắc học khác như khuôn mặt, vân tay, mống mắt...
Công nghệ xác nhận giọng nói được phát triển và ứng dụng mạnh mẽ trong việc phối hợp với phương pháp bảo mật truyền thống (mật khẩu, hình vẽ...) và bào mật sinh trắc học (vân tay, gương mặt...) để tăng cường an ninh cho những dữ liệu nhạy cảm chứa trong những thiết bị số đấy, đầu tiên là máy vi tính.
Không rõ thời điểm chính xác và chiếc điện thoại nào là chiếc điện thoại đầu tiên được trang bị công nghệ xác nhận qua giọng nói. Thế nhưng nhiều người có thể thấy rằng một trong những hệ điều hành đi tiên phong về công nghệ này là Android, với một số sản phẩm cao cấp của một số hãng điện thoại Samsung được trang bị tính năng này để mở khóa màn hình. Tất nhiên, với sự hỗ trợ của hệ điều hành điện thoại di động, có một vài ứng dụng của hãng thứ ba cũng có chức năng xác thực giọng nói của người sử dụng để bảo mật cho điện thoại.
Dù vậy, bảo mật bằng giọng nói hay những định thức bảo mật sinh trắc học như vân tay chẳng hạn, đòi hỏi sự chính xác cao độ của thiết bị nhận diện. Điều này gây khó khăn cho các nhà sản xuất trong thời điểm hiện tại khi muốn phổ cập công nghệ này đến mọi mẫu điện thoại hay sản phẩm số thuộc mọi phân khúc, do những thành phần phục vụ cho công việc bảo mật thường có giá chế tạo đắt, cũng như đòi hỏi thuật toán bảo mật chuyên biệt.
Song với bước tiến như vũ bão của loài người trong cuộc cách mạng khoa học – kỹ thuật hiện nay, người ta có thể hy vọng rằng trong tương lai không xa, bảo mật bằng giọng nói hay những hình thức bảo mật sinh trắc học khác sẽ trở thành thành tố kỹ thuật cơ bản của mỗi thiết bị số.
NGUYỄN TIẾN