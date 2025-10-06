Một buổi sáng mùa thu tại trung tâm London, nhóm kỹ sư của Synthesia – công ty trí tuệ nhân tạo đang khiến thế giới công nghệ Anh quốc dậy sóng – ngồi trước hàng chục màn hình, nơi từng khuôn mặt ảo đang “nói chuyện” bằng ngôn ngữ con người.

Không máy quay, không trường quay, không diễn viên. Chỉ vài dòng chữ, và trong vài phút, một người dẫn chương trình ảo hiện ra, giọng nói tự nhiên, biểu cảm sinh động, kể trọn vẹn câu chuyện bằng 50 thứ tiếng khác nhau. Đây không phải đoạn phim giả tưởng, mà là sản phẩm thật của kỳ lân AI trị giá 2 tỷ USD – cũng là phép thử đầy thách thức cho tương lai công nghệ của nước Anh.

Ra đời năm 2017 bởi nhóm cựu sinh viên Đại học Stanford và Cambridge, Synthesia phát triển công nghệ cho phép tạo video bằng AI chỉ từ một đoạn văn bản. Thay vì thuê đạo diễn, diễn viên hay phòng dựng, việc bạn cần làm chỉ là gõ kịch bản — hệ thống sẽ tạo ra người dẫn chương trình ảo với biểu cảm và ngữ điệu tự nhiên đến mức khó phân biệt. Trong thế giới đang khát nội dung đa ngôn ngữ và tốc độ, công nghệ này được xem là “cú nhảy lượng tử” của ngành truyền thông.

Hiện Synthesia đã có hơn 50.000 khách hàng tại hơn 120 quốc gia, trong đó có những tên tuổi như Zoom, Microsoft, Reuters, BBC và Xerox. Theo Financial Times, vòng gọi vốn gần nhất của công ty đạt 180 triệu USD, nâng định giá lên 2,1 tỷ USD, đưa Synthesia trở thành kỳ lân AI lớn nhất của Anh.

Tuy nhiên, trong khi danh tiếng và doanh thu tăng vọt, Synthesia vẫn đang thua lỗ: báo cáo tài chính cho thấy lỗ sau thuế 23,6 triệu bảng Anh trong năm tài chính gần nhất, phần lớn do chi phí nghiên cứu, phát triển mô hình và hạ tầng điện toán đám mây.

Điều khiến giới quan sát quan tâm không chỉ là chuyện kinh doanh, mà là vị trí chiến lược của Synthesia trong bức tranh AI toàn cầu. Trong khi Mỹ có OpenAI, Anthropic và Stability AI; Trung Quốc có Baidu và SenseTime; nước Anh tự hào sở hữu DeepMind và giờ là Synthesia. Sau khi DeepMind bị Google thâu tóm, câu hỏi lớn được đặt ra: Anh có giữ nổi Synthesia?

Bài toán không chỉ nằm ở tài năng hay ý tưởng, mà ở hệ sinh thái. So với Mỹ, Anh vẫn thiếu các quỹ đầu tư mạo hiểm đủ lớn, thiếu chính sách thuế hấp dẫn và đặc biệt thiếu hạ tầng siêu máy tính cho huấn luyện mô hình AI quy mô lớn. Theo dữ liệu từ Dealroom, tổng vốn đầu tư vào AI của Anh năm 2024 là khoảng 3,4 tỷ USD, trong khi Mỹ thu hút hơn 67 tỷ USD – gấp gần 20 lần. Khoảng cách ấy phản ánh thực tế: nhiều startup AI “made in UK” buộc phải sang San Francisco hoặc New York để huy động vốn, mở rộng quy mô.

Bên cạnh vấn đề vốn, Anh còn phải đối mặt với áp lực pháp lý. Synthesia hoạt động trong vùng xám giữa sáng tạo và đạo đức: công nghệ tạo video bằng AI có thể được dùng để đào tạo nhân viên, nhưng cũng dễ bị lạm dụng để làm deepfake hoặc tuyên truyền sai lệch. Trong khi Liên minh châu Âu đã thông qua AI Act – đạo luật đầu tiên trên thế giới điều chỉnh AI – Anh vẫn chọn cách tiếp cận “mềm”, ưu tiên đổi mới hơn kiểm soát. Đây là con dao hai lưỡi: quá lỏng, sẽ tạo kẽ hở; quá chặt, sẽ bóp nghẹt sáng tạo. Và Synthesia chính là bài kiểm tra sống động nhất cho cách tiếp cận này.

Ở chiều ngược lại, Synthesia vẫn đang khẳng định “AI có thể mang lại giá trị tích cực”. Công ty cho biết, chỉ riêng năm 2024, nền tảng của họ đã giúp khách hàng tiết kiệm hơn 30 triệu giờ quay dựng video và giảm 70% chi phí sản xuất nội dung doanh nghiệp. Hơn 40% video được tạo ra phục vụ cho giáo dục và đào tạo nội bộ, giúp các tập đoàn toàn cầu truyền tải kiến thức nhanh hơn, đa ngôn ngữ hơn. “Chúng tôi không tạo deepfake, chúng tôi tạo sự kết nối”, CEO Victor Riparbelli nói với Reuters.

Tuy nhiên, tương lai của Synthesia không chỉ phụ thuộc vào công nghệ, mà còn vào quyết tâm chính trị của Anh. Trong kỷ nguyên mà AI được ví như “năng lượng hạt nhân của thế kỷ 21”, mỗi quốc gia đều muốn nắm giữ những công ty đầu tàu. Nếu London không thể giữ Synthesia, điều đó sẽ gửi tín hiệu rằng nước Anh, dù giàu trí tuệ và di sản, vẫn chưa đủ hấp dẫn để nuôi dưỡng những kỳ lân công nghệ trong thời đại mới.

Quay trở lại hồi năm 2017.

Câu chuyện của Synthesia, kỳ lân trí tuệ nhân tạo trị giá hơn 2 tỷ USD, bắt đầu từ một nhóm nhà nghiên cứu trẻ mang trong mình cùng một câu hỏi: liệu có thể tạo ra video chỉ bằng văn bản — không cần máy quay, diễn viên hay trường quay?

Khi ấy, tại London, bốn nhà sáng lập – Victor Riparbelli, Lourdes Agapito, Steffen Tjerrild và Matthias Niessner – gặp nhau qua những dự án nghiên cứu về computer vision và deep learning. Họ đều là cựu sinh viên và giảng viên đến từ hai trung tâm trí tuệ nhân tạo hàng đầu thế giới – Đại học Stanford và Đại học Cambridge. Agapito khi ấy là giáo sư Khoa học máy tính tại University College London (UCL), chuyên nghiên cứu mô phỏng khuôn mặt 3D; Niessner từng làm việc tại phòng thí nghiệm AI của Stanford, nơi ông nghiên cứu về 3D reconstruction và synthesis of human avatars. Chính những công trình này đã đặt nền móng cho công nghệ “tái tạo khuôn mặt bằng AI” mà sau này trở thành trái tim của Synthesia.

Theo The Economist, ý tưởng xuất phát từ một thực tế rất đời thường: hàng tỷ giờ video được tạo ra mỗi ngày, nhưng phần lớn lại tốn kém, mất thời gian và không thể tùy biến cho từng ngôn ngữ, từng người dùng. Nhóm sáng lập tin rằng AI có thể thay đổi điều đó – bằng cách “dân chủ hóa video”: để bất kỳ ai, ở bất kỳ đâu, có thể tạo ra nội dung chất lượng cao chỉ bằng vài dòng văn bản. Từ “synthetic” (nhân tạo) và “thesia” (cảm xúc, trình bày), cái tên Synthesia ra đời, mang ý nghĩa “kết hợp giữa trí tuệ nhân tạo và biểu đạt con người”.

Giai đoạn đầu, nhóm khởi nghiệp phải đối mặt với sự hoài nghi và cả nỗi lo đạo đức khi công nghệ deepfake đang bị dư luận gắn liền với tin giả và thao túng hình ảnh. Thay vì chạy theo trào lưu, họ chọn hướng đi ngược: chỉ phát triển công nghệ video AI cho mục đích hợp pháp và kiểm duyệt nghiêm ngặt, tập trung vào các doanh nghiệp, trường học và tổ chức đào tạo. Chính định hướng AI có trách nhiệm này đã giúp Synthesia khác biệt và được các nhà đầu tư chú ý.

Chỉ sau hai năm, nền tảng Synthesia Studio ra mắt, cho phép người dùng tạo video có người dẫn chuyện ảo trong hơn 120 ngôn ngữ. Tất cả diễn viên ảo đều được phát triển từ những người thật có sự đồng ý bản quyền hình ảnh. Video được tạo trong vài phút, với chi phí chỉ bằng 1/50 so với quay truyền thống.

Từ 2021 đến 2024, Synthesia liên tục mở rộng, huy động được hơn 200 triệu USD vốn đầu tư từ các quỹ lớn như Accel, Kleiner Perkins, GV (Google Ventures) và NVentures – quỹ đầu tư AI của Nvidia. Theo The Times, chỉ riêng năm 2023, Synthesia đã tạo ra hơn 15 triệu video AI, giúp các doanh nghiệp tiết kiệm hàng trăm triệu USD chi phí sản xuất.

