AI có thể tạo ra khuôn mặt chính xác một cách đáng sợ chỉ bằng giọng nói của bạn
Smartphone chỉ có thể biến giọng nói thành văn bản, nhưng AI này biến giọng nói thành khuôn mặt một cách chính xác.
- 08-04-2022Đâu là siêu ứng dụng đứng đầu Việt Nam và Đông Nam Á?
- 08-04-2022Chỉ cần gửi một tin nhắn, các thuê bao có thể chặn hiệu quả các tin nhắn SMS, cuộc gọi rác làm phiền
- 08-04-2022Lộ diện Top 10 tỷ phú tiền điện tử và Blockchain giàu nhất thế giới năm 2022
Những bức ảnh được tạo ra nhờ ánh sáng, nhưng nếu chân dung của mọi người có thể được tạo ra bằng âm thanh giọng nói của họ thì sao? Một AI đang được nghiên cứu để tái tạo lại khuôn mặt một người chỉ bằng đoạn ghi âm giọng nói ngắn của người đó, kết quả thu được rất ấn tượng và có hơi đáng sợ.
Các nhà khoa học trí tuệ nhân tạo tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) lần đầu tiên công bố về thuật toán AI có tên là Speech2Face trong một bài báo vào năm 2019 và tiếp tục hoàn thiện cho đến nay.
Đầu tiên, các nhà nghiên cứu đã thiết kế và đào tạo một mạng neuron sâu (Deep neural Network) bằng cách sử dụng hàng triệu video cảnh mọi người nói chuyện từ YouTube và Internet. Trong quá trình đào tạo này, AI đã học được mối tương quan giữa âm thanh của giọng nói và diện mạo của người nói. Những mối tương quan này cho phép nó đưa ra phỏng đoán tốt nhất về độ tuổi, giới tính và sắc tộc của người nói.
Con người không trực tiếp tham gia vào quá trình đào tạo, vì các nhà nghiên cứu không cần phải phân loại thủ công bất kỳ dữ liệu nào - AI chỉ đơn giản là được cung cấp một lượng lớn video và có nhiệm vụ tìm ra mối tương quan giữa các đặc điểm giọng nói và đặc điểm khuôn mặt.
Sau khi được đào tạo, AI dường như rất giỏi trong việc tạo ra các bức ảnh chân dung giống người thật khi chỉ dựa trên bản ghi âm giọng nói. AI này hoạt động tốt hơn khi các đoạn ghi âm dài hơn.
Bên trái là khuôn mặt thật và bên phải là mặt được AI tạo ra từ giọng nói
Để phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng một "bộ giải mã khuôn mặt" để tạo ra bản tham chiếu từ khuôn mặt gốc, bỏ qua những thứ không liên quan như tư thế và ánh sáng. Điều này cho phép các nhà khoa học dễ dàng so sánh hình ảnh tạo từ giọng nói với ảnh khuôn mặt của người nói.
Một lần nữa, kết quả của AI rất gần với khuôn mặt thật trong phần lớn các trường hợp.
Bên trái là mặt thật, ở giữa là khuôn mặt tham chiếu, bên phải là ảnh tạo ra bởi AI
Có một số trường hợp AI gặp khó khăn trong việc hình dung người nói trông như thế nào. Các yếu tố như trọng âm, ngôn ngữ và cao độ giọng nói là những yếu tố gây ra sự không khớp giữa giọng nói và khuôn mặt, trong đó giới tính, tuổi tác hoặc dân tộc không chính xác.
Những người có giọng cao (bao gồm cả các bé trai) thường được coi là nữ trong khi những người có giọng thấp được coi là nam. Một người đàn ông châu Á nói tiếng Anh dẫn đến ngoại hình không giống người châu Á hơn so với khi anh ta nói tiếng Trung Quốc.
AI đôi khi bị sai giới tính, chủng tộc, độ tuổi
Các nhà nghiên cứu cho biết họ đã có những cân nhắc về quyền riêng tư và đạo đức xung quanh dự án này. Tất cả các kế hoạch sử dụng thực tế (nếu có) cần phải được kiểm tra cẩn thận.
Cơ quan thực thi pháp luật có thể sử dụng AI để tạo chân dung kẻ tình nghi nếu bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, điều này có thể gây ra rất nhiều tranh cãi liên quan đến quyền riêng tư và đạo đức.
Mặt khác, nó có thể có tác động tiêu cực đến các nhà sáng tạo nội dung trên YouTube và TikTok, những người đang cố gắng bảo vệ cuộc sống riêng tư của họ khi chỉ lồng tiếng và không xuất hiện trước ống kính.
Dù một AI có thể tạo ra những chân dung chính xác của mọi người chỉ từ giọng nói của họ là khái niệm hấp dẫn và thứ tưởng như chỉ có trong khoa học viễn tưởng, nhưng đó không phải mục tiêu của các nhà nghiên cứu. Họ cho biết nghiên cứu nhằm cung cấp một cái nhìn toàn diện hơn về mối tương quan giữa khuôn mặt với giọng nói và có thể mở ra các cơ hội nghiên cứu và ứng dụng mới.
Tham khảo: Petapixel
Pháp luật và bạn đọc