Trí tuệ nhân tạo đã đạt được những gì ?

Điều ngầu nhất mà Trí tuệ nhân tạo đã đạt được?

Ans: Bryan Walsh, theo ngành Kỹ nghệ Điện tử tại Đại học California

Đây là Speech2Face, một mạng lưới nơ ron nhân tạo có thể tái tạo khuôn mặt một người từ giọng nói của họ.

Tuy kết quả thì không giống 100%, nhưng các nét mặt thì khá rõ ràng.

Nó được phát triển tại MIT và được xuất bản tài liệu vào tháng 5 năm 2019. Hàng triệu đoạn video trên YouTube và các nguồn khác đã được sử dụng để huấn luyện.

tri tue nhan tao

Một khi được cung cấp một nguồn dữ liệu cần thiết, nguồn điện để chạy, và một chút thời gian, một mạng thần kinh nhân tạo có thể “học” cách tạo ra khuôn mặt người từ việc phân tích các đoạn video nói trên, kết nối giọng nói với khuôn mặt, và tìm ra các nét và kiểu cách đi đôi giữa khuôn mặt với giọng nói.

Có một điều là các khuôn mặt tạo ra thì trùng khớp đặc điểm về mũi, môi, má, và cấu trúc xương – ngoại trừ mắt. Điều này cung cấp cái nhìn bên trong cách mà Machine Learning hoạt động. Những đặc điểm khuôn mặt được tạo ra có dựa trên sự tương quan trực tiếp giữa ngoại hình và giọng nói. Ví dụ như người mà có giọng nói trầm có thể có mũi rộng hơn, hoặc xương hàm rộng hơn người có tông giọng cao, trong khi đó thì hình dáng, kích cỡ mắt không liên quan đến giọng nói của một người như thế nào.

tri tue nhan tao

Là các đặc điểm tương đồng mà nhóm tác giả tổng hợp lại. Mức độ tương đồng được thể hiện bằng các số từ -1 cho đến 1, với 0 nghĩa là không có sự tương quan nào, và 1 thì cực kỳ tương quan.

Nhưng làm sao mà điều này xảy ra?

Thử nghĩ đến một lúc bạn nói chuyện trên điện thoại với một người bạn chưa từng gặp mặt, như lúc hỗ trợ khách hàng hoặc văn phòng bác sĩ chẳng hạn. Bạn có thể không ý thức được rằng trong suốt cuộc gọi, bộ não của bạn cố gắng mường tượng hình dáng của vị khách hàng đó dựa trên giọng nói của họ. Nếu bạn từng nghe podcast hay tham dự 1 cuộc hội thảo qua điện thoại, bạn nhận ra ngay người nào đang nói ngay tức khắc mà không cần nghĩ nhiều.

Thử cái này nhé:

1. Tưởng tượng có 2 người đang nói chuyện với nhau trong 1 quán bar

2. Tưởng tượng cuộc hội thoại và tông giọng của từng người

3. Giờ hãy thử gán giọng họ là giọng Úc.

Thế nào? Họ trông ra sao? Màu tóc của họ là gì? Hình ảnh của bạn có thể khác với tôi, nhưng điều quan trọng là chúng ta đều nghĩ đến 1 số đặc điểm chung chung phổ biến, đều là một hình ảnh đặc trưng của 1 người đàn ông nói giọng Anh Úc. Hai người đàn ông bạn mường tượng có thể giống với những người Úc bạn biết, hoặc hòa trộn giữa rất nhiều người Úc bạn từng thấy.

Đây là cách mà Speech2Face hoạt động. Điều hay ho là bộ não của chúng ta chỉ có thể làm được ½ những gì mà Speech2Face làm được, như là xác định bạn bè từ âm thanh giọng nói của họ.

Một số kết quả từ Speech2Face.

*Thông tin thêm về những dấu ấn đạt được:

Giờ hãy kết hợp Speech2Face với Mạng Chống đối Tạo sinh (GAN) của Ndivia

Tất cả các khuôn mặt [Hình 4] đều được tạo ra bởi GAN, không 1 ai trong bức hình tồn tại. Họ là kết quả của 1 mạng nơ rôn đã học hỏi các đặc điểm, hình dạng gương mặt phổ biến của người thật rồi tự tạo ra bởi chính mình. Thậm chí, các khuôn mặt mà nó đã tạo ra sẽ được gửi ngược lại input để tự huấn luyện mình thêm, thành ra lượng thông tin được nạp vào nó là vô tận để tự tăng cơ khả năng nhận diện (với điều kiện output phải gần giống với thực tế đời sống).

GAN thừa sức tạo ra người hư cấu từ hư không, còn Speech2Face thì cần phải nạp dữ liệu vào. WaveNet thì có 1 giọng nói gần giống hệt người thật, đây chỉ là vấn đề thời gian đến khi nó đạt được mức hoàn hảo.

Chúng ta chắc chỉ còn dưới 10 năm chờ đợi công nghệ AI giống con người với giọng nói và tạo hình không khác gì một người, lúc đó sẽ gây nhiều khó khăn để phân biệt.

Bình luận về bài viết

comments