Siri là một trong những bất ngờ thú vị nhất được Apple giới thiệu khi hãng ra mắt chiếc điện thoại iPhone 4S vào năm 2011. Với iOS 7, trợ lý ảo Siri tiếp tục được hoàn thiện với khả năng nhận diện tốt và hỗ trợ khối lượng kiến thức phong phú hơn. Song tiền thân của Siri lúc đầu lại là một ứng dụng của bên thứ 3 trên iOS chứ nó không phải là công nghệ gốc của Apple. Nhận thấy những tiềm năng to lớn của công nghệ này, Apple đã mua lại công ty sở hữu Siri với giá 200 triệu USD và biến nó trở thành một công cụ độc quyền của mình.
Ứng dụng Siri cho phép nhận diện giọng nói để làm các công việc mà bình thường bạn phải làm bằng tay ví dụ như: Gọi điện, soạn và gửi tin nhăn, bật đèn flash, mở ứng dụng cài trên máy, kiểm tra thời tiết, tạo các nhắc nhở hoặc note, tìm đường, gửi Email, bật nhạc hay điều chỉnh độ sáng màn hình… Bạn có thể đưa ra câu hỏi và Siri sẽ tìm ra câu trả lời, hoặc bạn có thể ra lệnh để Siri thực hiện. Nói cách khác ở một góc độ nào đó, người dùng hoàn toàn có thể nói chuyện với Siri như một người bạn bình thường. Nó có thể hiểu những gì bạn nói. Ví dụ: Khi bạn hỏi Siri: “Tôi có thể ăn món xúc xích Đức ngon ở đâu?” Siri sẽ tìm vị trí của bạn bằng cách sử dụng chức năng GPS, tìm kiếm các cửa hàng đồ ăn của Đức trên mạng và sau đó đưa thông tin cho bạn theo thứ tự xếp hạng và cuối cùng là chỉ hướng cho bạn tới cửa hàng được chọn.
Tuy nhiên, không nhiều người trong số chúng ta hiểu rõ về cơ chế hoạt động của Siri. Vậy có một câu hỏi đặt ra ở đây là: Làm sao Siri trên các thiết bị iOS có thể hiểu được giọng nói của con người?
Để nhận diện giọng nói, tất nhiên thiết bị của bạn phải có ít nhất một microphone ghi lại âm thanh. Những máy cao cấp thường có thêm 1 đến 2 micro phụ khác. Khi micro chính ghi lại âm thanh từ giọng nói của bạn thì micro phụ sẽ ghi lại môi trường xung quanh, sau đó triệt tiêu chúng nhằm giúp chất lượng âm thanh ở trạng thái tốt nhất trước khi chuyển tới cho phần mềm xử lý, do đó nhiều người gọi đây là micro lọc tạp âm. Cá biệt, Apple còn trang bị một con chip xử lý âm thanh riêng biệt cho Siri trên iPhone 4S và new iPad, làm cho Siri trên các thiết bị cũ hơn (hack) không tốt bằng Siri của iPhone 4S hay iPhone 5. Sau micro tất nhiên là phần mềm, điều quan trọng nhất của một cơ chế nhận diện giọng nói.
1. Biến sự chuyển động của các phân tử trong không khí thành những con số
Sở dĩ âm thanh từ một nguồn khác có thể đi vào tai bạn hay các mic thu âm là do sự thay đổi của áp suất không khí. Thực chất nó là một làn sóng âm liên tục nên bạn có thể nghe mọi thứ một cách liền mạch.
Khi thiết bị di động ghi lại một phép đo sóng tại một thời điểm nhất định, chúng sẽ được lưu giữ lại và sau đó thiết bị thực hiện phép đo lại một lần nữa. Nếu như khoảng thời gian giữa hai lần đo là quá dài, máy sẽ bỏ lỡ những thay đổi quan trọng của các đợt sóng âm dẫn đến việc một số từ ngữ không thể nhận diện được một cách chính xác. Vì vậy để iPhone có thể nhận diện được chuẩn xác từng câu nói, bộ phận thu âm phải tiến hành 8.000 phép đo/giây, và sẽ tốt hơn nữa nếu nó thực hiện được 44.100 phép đo/giây. Có thể gọi quá trình này là số hoá ở tần số 8 kHz hay 44,1 kHz.
2. Lọc âm, tính toán để phát hiện đúng giọng nói của chủ thể
Khi sử dụng tính năng nhận diện giọng nói từ Siri, không phải lúc nào bạn cũng ở trong điều kiện tốt nhất là tiếng ồn bằng 0. Thực tế xung quanh chúng ta tồn tại vô số tạp âm như tiếng xe cộ, chim hót, gió thổi hay tiếng nói của những người khác. Chính vì vậy để có thể chắt lọc và nhận biết chính xác âm thanh nào từ chủ thể sử dụng phát ra, âm thanh nào là các tạp âm không mong muốn, hệ thống phần mềm của Siri sẽ thực hiện một loạt các thuật toán để lọc tạp âm và giữ lại câu lệnh của người dùng. Tất nhiên nếu sử dụng Siri ở khu vực có độ ồn cao, sai số là điều không thể tránh khỏi.
3. Phân tích và chuyển đổi sóng âm
Thông thường những câu hỏi hay mệnh lệnh mà người dùng đưa ra là một tổ hợp phức tạp các sóng âm với nhiều tần số khác nhau. Mỗi một sự thay đổi nhỏ trong tần số đều có thể là những yếu tố rất quan trọng để tạo ra sự khác biệt (đó là lý do thiết bị có thể nhận biết được các âm như "ah" hay âm "ee"). Để làm được điều này, bộ phần mềm của Siri tiếp tục phải thực hiện rất nhiều thuật toán đã được lập trình để có thể chuyển đổi những sóng âm phức tạp trên thành các biểu tượng dạng số học.
4. Nhận biết được từng âm vị
Có tổng cộng khoảng 40 âm vị khác nhau trong Tiếng Anh. Thiết bị sẽ phải đoán được mỗi một âm vị riêng trong từng câu chữ của chúng ta, quá trình này thực sự rất phức tạp và các lập trình viên phải đưa ra hàng loạt ví dụ với nhiều âm vị khác nhau để đưa vào bộ nhận diện chuẩn của thiết bị. Không những vậy, Siri trên iPhone còn được dạy để đoán âm dựa trên sự luyến láy hay các điểm nhấn mạnh từ phía người nói, chẳng hạn chữ "t" trong từ "star" cũng có cách đọc khác với chữ "t" trong "city". Nói cách khác Siri có thể hiểu được nhiều loại âm vị khác nhau trong từng ngữ cảnh cụ thể.
5. Ghép các âm vị thành từ có nghĩa
Siri cũng được trang bị sẵn bên trong một hệ thống danh sách các từ vựng được phát âm theo nhiều cách khác nhau. Nó sẽ dự đoán về những từ đang được nói bằng cách đặt các chuỗi âm vị thành một từ có nghĩa và quan trọng là phù hợp với ngữ cảnh mà người nói đang sử dụng.
6. Xác định trật tự từ trong câu
Khi chúng ta đã có đủ số từ để ghép lại thành một câu hoàn chỉnh thì lúc này trật tự các từ lại trở nên quan trọng. Một câu sẽ trở nên vô nghĩa khi các từ bị sắp xếp lộn xộn. Vậy để tránh sự cố này thiết bị cần phải tính toán để đặt đúng từ vào đúng vị trí, nhằm tạo nên chuỗi âm vị với các từ ngữ hợp lệ. Bên cạnh đó, thiết bị cũng phải được làm quen để dễ dàng đoán được từ tiếp theo là gì.
7. Thi hành lệnh
Sau khi những quá trình như trên kết thúc, chiếc điện thoại iPhone của chúng ta đã nhận diện và hiểu được người dùng muốn làm gì. Bước cuối cùng là thi hành lệnh. Siri sẽ được chuẩn bị sẵn một loạt rất nhiều mã lệnh khác nhau như mở ứng dụng, gửi tin nhắn, gọi điện... Nếu thấy yêu cầu của người dùng trùng khớp với một trong các mã lệnh trên, Siri sẽ thực hiện lệnh một cách nhanh chóng.
Tuy nhiên trong trường hợp người dùng đưa ra các câu hỏi, mọi việc sẽ trở nên phức tạp hơn. Chẳng hạn bạn muốn hỏi: "Tối nay ở Megastar chiếu phim gì?". Lúc này sau khi đã ghi nhận đầy đủ câu hỏi, Siri sẽ phải tìm ra các từ quan trọng, mấu chốt như từ chỉ thời gian, từ chỉ địa điểm và thành tố chính. Một thực tế ít ai biết rằng, khi người dùng đưa ra câu hỏi, Siri sẽ kết nối với kho dữ liệu trên máy chủ của Apple, và khi không tìm được câu trả lời thích hợp, nó sẽ chuyển sang tìm kiếm trên internet, mà ở đây Siri có cả tùy chọn tìm kiếm trên Google và Bing. Tất cả đều được thực hiện trong khoảng thời gian cực kỳ ngắn trước khi đưa ra câu trả lời cuối cùng.
Tạm kết
Trên thực tế, các công nghệ nhận diện giọng nói hiện nay như Siri của Apple, Google Now của Android hay Bing do Microsoft phát triển đều có cách thức hoạt động khá tương đồng. Chỉ có điều sự thông minh, tính chính xác cũng như tốc độ phản hồi sẽ phục thuộc riêng vào các thuật toán cũng như kho dữ liệu cơ sở của mỗi công ty. Dù đang bị Google Now cạnh tranh rất quyết liệt và chưa thể gọi là một trợ lý ảo hoàn hảo nhưng chúng ta đều có thể hy vọng rằng trong tương lai, Siri sẽ chứng tỏ được giá trị cũng như tính hữu ích của mình đối với người dùng nhiều hơn nữa.
Thu Hằng