Cuộc đua công nghệ AI vẫn đang diễn ra với tốc độ cao. Trong những tháng gần đây, sự quan tâm của các công ty khởi nghiệp và các tên tuổi lớn trong ngành dồn vào các công cụ AI tạo video. Nhà sản xuất của ChatGPT đã chính thức gia nhập cuộc đua này thông qua việc ra mắt Sora – công cụ AI tạo video của OpenAI.
Sora được ra mắt vào ngày 16/2 nhưng vẫn chưa được đưa vào sử dụng cho công chúng. Tuy nhiên, từ những video đầu tiên, công cụ này đã gây sốt bởi những thước phim đẹp gần như thật.
Cách hoạt động của công cụ Sora
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
Thay vì cắt ghép nhiều hình ảnh để tạo thành video, Sora dựa trên hiểu biết về chuyển động vật lý để kết xuất các pixel theo thời gian thực.
Theo công ty OpenAI mô tả, Sora sử dụng mô hình khuếch tán để tạo video. Quá trình bắt đầu với một video nhiễu ở độ phân giải thấp, sau đó qua nhiều bước loại bỏ nhiễu cho đến khi đạt được kết quả mong muốn.
Nhờ cách tiếp cận này, Sora có thể tạo toàn bộ video cùng một lúc thay vì phải tạo thành từng đoạn video ngắn rồi ghép lại như các công cụ khác. Thuật toán của nó cho phép dự đoán nhiều khung hình cùng một lúc để bảo đảm chủ thể không bị thay đổi trong khi các chi tiết khác được tái tạo.
Điểm then chốt của Sora nằm ở việc am hiểu văn bản. Từ đó, thuật toán dự đoán dựa trên quy tắc vật lý để điều chỉnh từng pixel trong video đến mức chính xác nhất.
Theo tạp chí Time, trước khi Sora xuất hiện, đã có các mô hình AI khác như Runway và Pika thử sức với video. Tuy nhiên, chất lượng video của chúng thường không tốt và thời gian tạo ra video cũng rất ngắn. Trong khi đó, Sora có khả năng tạo ra video AI dài 60 giây với độ phân giải cao.
Ngoài ra, Sora thông minh đến mức có thể kết xuất các pixel với những chi tiết siêu nhỏ để đảm bảo độ chân thực cũng như logic, mặc dù vẫn còn một số lỗi như trong video trên – người đàn ông chạy ngược chiều trên máy tập thể dục.
Sora là bước nhảy vọt của OpenAI
Sora có sự hiểu biết sâu sắc về ngôn ngữ và khả năng tạo ra những nhân vật và cảnh quan hấp dẫn với độ chi tiết và chân thực phi thường. Từ những con phố đông đúc đến những thế giới huyền ảo được bao phủ bởi những sinh vật kỳ quái, Sora có thể đem đến sự sống cho hầu như bất kỳ khái niệm nào với độ trung thực đáng kinh ngạc.
Một trong những khía cạnh nổi bật nhất của Sora là khả năng tạo ra các video không chỉ đáp ứng được yêu cầu của văn bản đã cho mà còn thể hiện được sự hiểu biết về ngữ pháp điện ảnh và kể chuyện hình ảnh. Điều này cho phép Sora tạo ra những câu chuyện động và hấp dẫn, làm say mê khán giả và đắm chìm họ vào những thế giới chi tiết phong phú.
Sự khác biệt giữa ChatGPT và Sora
@openai Our new model Sora can create realistic and imaginative videos from text, but Sora can also bring static images, like this #dalle3 creation, to life. Prompt: “In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.” What should we make with Sora next? #madewithSora #Sora #openai ♬ Lo-Fi analog beat – Gloveity
Điểm khác biệt chính giữa ChatGPT và Sora nằm ở bản chất của dữ liệu mà những mô hình này xử lý và cách chúng được huấn luyện để phân tích dữ liệu.
Đầu tiên, các mô hình AI dựa trên văn bản như ChatGPT chủ yếu được huấn luyện trên một lượng lớn văn bản đã viết. Những mô hình này học ngôn ngữ của con người thông qua phân tích các tập dữ liệu lớn về văn bản như sách, bài báo, trang web và các nguồn văn bản khác có sẵn trên internet. Chúng được thiết kế để liên tục tạo ra văn bản có tính nhất quán và liên quan, trả lời câu hỏi, hoàn thành câu và thậm chí viết câu chuyện hoàn chỉnh dựa trên thông tin được cung cấp.
Mặt khác, các mô hình AI tạo video như Sora hoạt động với dữ liệu đầu vào rất khác biệt. Thay vì văn bản, các mô hình này xử lý một loạt dữ liệu đa phương tiện bao gồm hình ảnh, video và thậm chí âm thanh. Việc huấn luyện những mô hình này thường liên quan đến việc sử dụng các tập dữ liệu lớn về dữ liệu hình ảnh thực như video và hình ảnh. Chúng học nhận diện các mẫu hình ảnh, hiểu biết về các chuyển động và tương tác vật lý giữa các đối tượng, và cuối cùng tạo ra các video chân thực từ các mô tả văn bản.
Công cụ giúp giảm chi phí sản xuất cho ngành công nghiệp điện ảnh
Một trong những tác động lớn của Sora là nó có thể biến đổi quy trình làm phim. Bằng cách tạo ra các cảnh quay, nhân vật và hiệu ứng qua văn bản mà không cần thiết bị xử lý phim đắt tiền, diễn viên hoặc địa điểm, Sora có thể giảm chi phí và thời gian làm phim.
Hơn nữa, Sora có thể nâng cao khả năng sáng tạo của các nhà làm phim bằng cách cho phép họ thử nghiệm với các kịch bản, thể loại và phong cách khác nhau mà có thể không khả thi trong các phương pháp truyền thống.
@openai Introducing Sora, our first AI model that creates videos from text captions. This video was generated from the following prompt: “animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. the use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image” What would you like to see Sora make next? Let us know in the comments. #madewithSora #Sora #OpenAI ♬ original sound – OpenAI
Qua các video được giới thiệu ở trên, có thể thấy rằng công nghệ Sora chưa thật sự tốt trong việc tạo cảm xúc và gương mặt người thật. Nhưng cho thể loại phim hoạt hình thì Sora lại có thể tạo ra những thước phim AI rất xinh xắn không thua kém các sản phẩm từ những studio chuyên nghiệp.
Chắc chắn điều này sẽ ảnh hưởng đến công việc của những họa sỹ đồ họa. Tuy nhiên sẽ mở ra một thể loại công việc mới là những người có thể viết prompt bằng chữ để tạo ra những cảnh phim đẹp. Ngoài ra, công nghệ AI của Sora cũng sẽ cho phép những người viết kịch bản giỏi tự ra mắt bộ phim ngắn riêng.
Vấn đề đạo đức trong việc sử dụng công nghệ AI
Tuy nhiên, việc sử dụng Sora đặt ra các câu hỏi về đạo đức. Khi những thước phim tưởng như chân thực lại là ảo, ai sẽ chịu trách nhiệm kiểm soát nội dung được tạo ra bởi AI, đặc biệt là liên quan đến tin tức sai lệch và nội dung độc hại?
OpenAI cho biết đã thực hiện các biện pháp để đối phó với những lo ngại này, triển khai các biện pháp an ninh như sử dụng các công cụ kiểm tra phát hiện nội dung sai lệch để giảm thiểu nguy cơ lạm dụng. OpenAI cũng tuyên bố rằng Sora không thể tạo ra các video bạo lực hoặc khiêu dâm.
Ngoài ra, vấn đề quyền sở hữu cũng tiếp tục được thảo luận. Nếu như công cụ MidJourney tạo hình ảnh đã bị giới họa sỹ lên án là ăn cắp phong cách thiết kế của họ, Sora hẳn cũng sẽ gặp phản ứng tương tự từ giới họa sỹ đồ họa.
CÔNG NGHỆ MỚI TRONG LÀNG GIẢI TRÍ:
APPLE VISION PRO MANG LẠI ĐIỀU GÌ CHO NGÀNH THỜI TRANG?
CHỐNG HÀNG GIẢ VỚI BLOCKCHAIN, GIẢI PHÁP CHO CÁC THƯƠNG HIỆU CAO CẤP
LOUIS VUITTON BIẾN NFT THÀNH THẺ HỘI VIÊN CHO CÂU LẠC BỘ ĐỘC QUYỀN
Tạp chí thời trang Harper’s Bazaar