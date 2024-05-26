Trong cơn sốt AI hiện tại, cái tên Sora đang nhận được sự chú ý đặc biệt nhờ khả năng tạo nên các đoạn video chân thực chỉ bằng các câu lệnh văn bản – có thể tạo nên một cuộc cách mạng cho công đoạn hiệu ứng hậu kỳ video. Cho đến giờ mới chỉ có một số ít các nghệ sĩ được OpenAI lựa chọn mới có thể tiếp cận và sử dụng nó cho tác phẩm của mình.

Trong khi Sora mới chỉ tạo nên các đoạn video ngắn, nhiều nghệ sĩ đã nghĩ đến việc ghép nối chúng lại để tạo nên các đoạn clip với thời lượng dài hơn, nhiều nội dung hấp dẫn hơn. Paul Trillo, một nghệ sĩ đa ngành, chính là một người như vậy khi sử dụng Sora trong khoảng hai tháng nay. Mới đây anh đã sử dụng chính Sora để tạo nên một video âm nhạc dài gần 4 phút khi hợp tác với một nghệ sĩ indie có tên Ernest Greene Jr.

Video âm nhạc này có tên "The Hardest part" với nội dung nói về sự biến chuyển của các nhân vật từ các học sinh cấp hai vào những năm 1980 đến khi kết hôn và có con. Cả đoạn video chứa hầu hết các hình ảnh được phóng to và máy quay lướt qua nhiều khung cảnh khác nhau trong cuộc sống của cặp đôi này. Thật đáng ngạc nhiên là chúng đều được tạo ra bằng Sora.

MV The Hardest Part của Ernest Greene Jr có nghệ danh Washed Out

Theo Paul Trillo, "the Hardest Part" được thực hiện thông qua tính năng chuyển tiếp hòa trộn đa phương thức từng được nêu ra trong lộ trình công nghệ của Sora. Tuy nhiên hiện tại, cũng như sự hiện diện của Sora, các tính năng này chỉ dành cho một số ít nghệ sĩ và những người được OpenAI lựa chọn. Paul giải thích: "Các quá trình chuyển đổi được thực hiện bằng các câu lệnh AI dài cũng như viết mô tả khung cảnh. Một vài phân đoạn chuyển cảnh được xử lý bằng After Effects."

Paul ước tính, để làm nên đoạn video dài gần 4 phút của The Hardest Part, anh đã phải tạo ra khoảng 700 clip khác nhau – phần lớn trong số chúng chỉ dài gần 20 giây – nghĩa là tổng cộng Paul đã tạo ra khoảng 230 phút video và ước tính anh chỉ "sử dụng khoảng 55 clip trong số chúng". Chúng đều được tạo ra ở độ phân giải 720p và sau đó được upscale lên 2K bằng Topaz.

Sản xuất phim bằng Sora sẽ tiêu tốn bao nhiêu?

Vì dự án này của Trillo được thực hiện hoàn toàn riêng tư nên các thông tin này không hề được tiết lộ. Tuy nhiên trang fxguide đã thực hiện một nghiên cứu để ước tính chi phí cho dự án video có độ dài 5 phút này.

Trong khi việc huấn luyện một mô hình AI tạo sinh như Sora rất đắt đỏ, chi phí sử dụng nó có thể thấp hơn nhiều. Theo ước tính của fxguide, thông thường các nhà cung cấp đám mây tính phí từ 13 đến 15 USD cho một giờ sử dụng GPU 8x L4 (tính trung bình là 14 USD). Ngoài ra, trang này cũng ước tính để tạo ra được 5 phút video bằng Sora sẽ cần đến một giờ vận hành của GPU NVIDIA H100.

Một ví dụ khác về khả năng tạo video của Sora

Do vậy, để tạo ra 230 phút video bằng Sora sẽ cần các GPU NVIDIA H100 vận hành trong 46 giờ. Với chi phí ước tính khoảng 14 USD mỗi giờ, chi phí cho đoạn video dài gần 4 phút này sẽ vào khoảng 644 USD. Tất nhiên đây mới chỉ là chi phí điện toán, chưa bao gồm chi phí upload và download cũng như lưu trữ dữ liệu. Ngoài ra không thể không tính đến các chi phí dành cho sự sáng tạo, thời gian làm việc và đóng góp của con người trong các công đoạn khác, như chỉ đạo, chỉnh sửa, màu sắc và hậu kỳ.

Tất nhiên mức chi phí này chỉ là ước tính riêng của trang fxguide, hoàn toàn không có dữ liệu nào từ OpenAI để đối chiếu. Dù mức giá này có thể quá cao đối với người dùng không chuyên nghiệp, nó lại khá rẻ đối với một nghệ sĩ chuyên nghiệp khi muốn tạo ra một MV âm nhạc với nhiều kỹ xảo hình ảnh như trên.

Ngay cả việc tạo nên câu lệnh cho Sora cũng khá dài dòng và phức tạp. Điều này là vì Sora là một mô hình AI tạo sinh không được huấn luyện cho riêng các thuật ngữ điện ảnh. Do vậy, các nhà làm phim phải diễn đạt câu lệnh của họ không phải bằng ngôn ngữ điện ảnh mà là các từ ngữ thông dụng hơn như "làm mờ chuyển động", "cảnh phim 35mm" hay "màu sắc thập niên 80 và cổ điển".

Ví dụ một trong các câu lệnh được Paul sử dụng trong The Hardest Part là một đoạn văn dài hơn 1.000 từ với các mô tả chi tiết kỹ lưỡng về từng cảnh quay sẽ diễn ra với góc nhìn như thế nào, cảnh vật trong đó diễn biến ra sao, tông màu, tâm trạng biểu hiện, họa tiết, loại phim dùng cho cảnh quay, … Việc hình dung và tạo ra được các cảnh quay cũng như ghép nối chúng lại với nhau để tạo nên một đoạn phim hoàn chỉnh chắc chắn không dễ dàng đối với người không chuyên.

Do vậy, lời khuyên của Paul đó là: "Hãy thử nghiệm, đưa cho nó những thứ kỳ lạ, thất bại, thất bại và thử lại. Hãy sử dụng con mắt tinh thần của bạn để hình dung chính xác những gì bạn muốn thấy và cố gắng chia nhỏ nó ra như thể bạn đang nói chuyện với một đứa trẻ."

Dưới đây là một ví dụ của Paul cho một trong các câu lệnh được sử dụng trong The Hardest Part:

"continuous shot moving forward zooming through time, with a view of 1980s highschool hall corridor with checkered tiled floor, buzzing with students walking around. the scene is captured from a low angle front perspective, showing a door at the end of the corridor getting bigger and closer. the scene is blurred, indicating a high speed movement. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPV, continuous shot moving forward zooming through a time and through the doorway, with a view of a open classroom of students dressed in 80s attire. we zoom through students looking to the front of the class room rushing in front of the lens. the classroom has a distinct 80s feel. the scene is captured from a front perspective, showing the students getting bigger and bigger we see two students, a male student with dark hair and jean jacket making eye contact with a female student also in a jean jacket. the female student is chewing bubblegum and make a bubble from pink bubble gum. the scene is blurred, indicating a high speed movement. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPV, continuous shot moving forward zooming through the classroom, with a 18 year old boy with dark hair and jean jacket making eye contact with a female student also in a jean jacket. the female makes a bubble with pink bubblegum in front of the lens. we zoom through the bubble it pops and we zoom through the bubblegum and enter an open football field. the scene is moving rapidly, showing a front perspective, showing the students getting bigger and faster. the scene is blurred, indicating a high speed movement. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPV, continuous shot moving forward zooming through an open football field overcast, from the 1980s, with the bleachers in the background distance. in the center of the shot is the same guy and girl in jean jackets with their back to camera walking in the field. we see they are holding hands the camera narrows in zooming in toward their hands clutching. the scene is moving rapidly, showing a front perspective of their hands getting bigger and closer. we zoom toward the bleachers in the background, the scene is blurred, indicating a high speed movement. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPV, continuous shot moving forward zooming through the couple's hands holding, we zoom through the bleachers in background of the football field and through a moody forest of trees at night with the neon glow of the city in the background is out of focus with bokeh. the city is out of focus behind the trees at night. the scene is captured by the camera in a fast and smooth movement. the scene is blurred, indicating a high speed movement. the trees have an opening a tunnel at the center that we enter. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPV, continuous shot moving forward zooming through the opening between the dark moody forest trees and we enter to a look out point at the top of a hill with a view of the out of focus city lights shimmering in the background. we zoom in toward an 80s car parked a the top of the hill with it's red taillights illuminated the grassy hill, the the lookout point and car scene is quaint and peaceful. the scene is moving rapidly, showing a front perspective of the town getting smaller and further at night. the scene is blurred, indicating a high speed movement. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPVcontinuous shot moving forward zooming through the nightime lookout point zooming through the back window of an 80s car and into the interior of the 80s car where the young couple are seating in the front seat and are leaning in toward each other, with a view of a out of focus city in the background through the car windshield, the scene is moving rapidly, showing a top view of the city. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPV, continuous shot moving forward zooming through the interior of the 80s backsetat car where the couple are seating in the front seat and lean in to each other, with a view of a out of focus city in the background through the car windshield. the scene is moving rapidly, showing a straight view of the out of focus city outside the car windshield. we zoom between the faces of the young couple as they lean in toward each other. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. • One point perspective FPV,continuous shot moving forward zooming through the front seat of the car toward the young couple leaning in toward each other and we zoom out the windshield into the city at night repeating new york library with large aisles, with a counter, shelves, and products. the library is large and crowded, is in a new york city we zoom into a woman reading a book looking over their shoulder she is holiding a book up, the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. •One point perspective FPV, continuous shot moving forward zooming through infinitely through the windshield into the out of focus city at night, we zoom in and drop down to the city at night zooming through the street, through the street lamps, we zoom into the young couple walking down the middle of the street at night, the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. •One point perspective FPV, continuous shot moving forward zooming through an infinitely down the street at night and we see the couple again laughing and running under the lights at night in a suburban street, looking over their shoulder we land in a close up shot of the book. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is moody and cinematic, with a slight vignette and a warm, vintage tone. the shot is captured on 35mm film, fuji film stock from the 90s with an anamorphic 24mm lens. motion blur as we zoom continuous shot, analog film. 