文生視頻“混戰”:騰訊、字節紛紛入局
來源:中國經營報
本報記者 李昆昆 李正豪 北京報道
近日,騰訊混元大模型公布最新進展:正式上線視頻生成能力,這是其繼文生文、文生圖、3D生成之后的又一新的里程碑。其實,就在最近,字節跳動也發布了視頻生成模型PixelDance和Seaweed,在AI創作平臺即夢AI正式上線,面向公眾免費開放使用。
盤古智庫高級研究員江瀚在接受《中國經營報》記者采訪時表示:“從技術進步的角度來看,騰訊和字節跳動在視頻生成大模型領域的投入與成果,展示了AI技術的飛速發展。從市場競爭的角度來看,隨著騰訊、字節跳動等巨頭的加入,視頻生成大模型領域的競爭將更加激烈。”
大廠進軍文生視頻
“用戶只需要輸入一段描述即可生成視頻?!彬v訊混元相關負責人向記者說,目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP,用戶可在AI應用中的“AI視頻”板塊申請試用。企業客戶通過騰訊云提供服務接入,目前API(應用程序接口)同步開放內測申請。
騰訊方面介紹稱,騰訊混元生成視頻大模型可以實現超寫實畫質、生成高度符合提示詞的視頻畫面,畫面流暢不易變形。比如在沖浪、跳舞等大幅度運動畫面的生成中,騰訊混元可以生成流暢、合理的運動鏡頭,物體不易出現變形;光影反射基本符合物理規律,在鏡面或者照鏡子場景中,可以做到鏡面內外動作一致。同時,模型還可以實現在畫面主角保持不變的情況下自動切鏡頭,這是業界大部分模型目前所不具備的能力。
據介紹,混元視頻生產模型基于跟Sora類似的DiT架構,并在架構設計上進行多處升級。混元視頻生成模型適配了新一代文本編碼器來提升語義遵循,其具備強大的語義跟隨能力,更好地應對多個主體描繪,實現更加細致的指令和畫面呈現;采用統一的全注意力機制,使得每幀視頻的銜接更為流暢,并能實現主體一致的多視角鏡頭切換;通過先進的圖像視頻混合VAE(3D變分編碼器),讓模型在細節表現上有明顯提升,特別是人臉、高速鏡頭等場景。
記者采訪字節跳動方面關于其文生視頻產品的最新進展及未來發展相關問題,截至發稿前,對方尚未回復。其公開資料顯示,今年9月底,字節跳動發布豆包模型家族的兩款視頻生成模型Pixeldance和Seaweed,并通過即夢AI、火山引擎分別面向創作者和企業客戶小范圍邀測。當PixelDance生成10秒視頻時,切換鏡頭3—5次的效果最佳,場景和角色能保持很好的一致性。通過小幅度、漸進式的提示詞描述,PixelDance能生成魔術般的特效。此外,用戶還可使用時序提示詞、長鏡頭等技巧,增強視頻的復雜度和表現力,對劇情創作有幫助。
Seaweed模型則在圖生視頻場景體現出較好的首幀一致性,可以保持與用戶輸入圖的一致性、色彩等細節還原,實現大幅度運動畫面流暢自然,具有視覺美感和真實感。
據了解,字節跳動在文生視頻方面也是采用了DiT架構,在大幅度運動畫面表現流暢自然。經過剪映、即夢AI等業務場景打磨和持續迭代,豆包視頻生成模型具備專業級的光影布局及色彩調和能力,畫面視覺具有美感和真實感。
已成“混戰”局面
東吳證券在今年8月發布的研報里提到,在AI滲透率為15%的中性假設下,中國AI視頻生成行業的潛在空間為3178億元;在全AI模式下,電影、長劇、動畫片和短劇的制作成本,相較傳統模式將下降超95%。
除了騰訊、字節跳動,國內其他一些公司也在發力文生視頻。比如在10月舉行的“2024中國計算機大會”上,快手副總裁、大模型團隊負責人張迪透露,自今年6月發布以來,快手可靈AI已有超過360萬用戶,累計生成3700萬個視頻以及超過1億張圖片。11月8日,“AI六小龍”之一的智譜AI對其視頻生成工具清影進行升級。更早之前,8月31日,MiniMax發布了其首款AI高清視頻生成模型技術abab-video-1。
國外方面,12月10日凌晨,OpenAI宣布旗下視頻生成模型Sora正式面向大眾推出。自今年2月首次預告以來,Sora僅向一些藝術家、知名演員和導演提供試用服務,但遲遲未上線,吊足大眾胃口。如今正式落地,引發關注。
與上一個版本相比,此次的Sora Turbo支持生成1080p分辨率、最長20秒的視頻,在時長上有明顯增長。更大的亮點在于它提供“編輯”服務,除了單純的文生視頻、圖生視頻、視頻生視頻外,用戶還可以通過指令實現視頻重混、重新剪輯、循環、混合等功能,更像是一個加強版的視頻編輯器。
早在Sora發布之前,2023年1月起,Runway、Genmo、英偉達、Pika等海外公司都發布了AI 視頻生成和多模態技術產品。而隨著Sora爆火,AI+視頻技術和產品正在迅猛升級迭代,諸如電影、廣告、視頻剪輯、視頻流媒體平臺、UGC(用戶生成內容)創作平臺、短視頻綜合平臺等眾多行業有望受益。
業內人士認為,與創業公司相比,騰訊、字節跳動這種大廠數據等資源比較豐富,又有流量支持,商業化進程會比較快一些。
江瀚向記者說,這種競爭不僅體現在技術層面,還體現在應用場景的拓展和商業化模式的探索上。目前,雖然視頻生成技術還未到大規模商用的階段,但騰訊、字節跳動已經看到了其在工業級商業場景中的應用潛力,如廣告宣傳、動畫制作、創意視頻生成等。隨著技術的不斷成熟和應用場景的拓展,視頻生成大模型將成為企業數字化轉型和智能化升級的重要工具,市場前景廣闊。
今年6月,繼好萊塢編劇在大罷工中要求限制AI撰寫劇本之后,代表好萊塢演員權益的美國電視和廣播藝人聯合會(SAG-AFTRA)表示,AI在影視行業確有用武之地,但必須在演員同意并付費的前提下使用,譬如在計算機生成的動作、表情捕捉畫面上,“AI應該是輔助、增強人類,而不是取代人類”。
文生視頻技術的進步,為內容創作、產業升級帶來了積極影響,同時也為市場發展提供了巨大的空間。隨著產品的進一步迭代升級,文生視頻有望在細分領域內容創作過程中大大提升效率,加速優質供給產出,為各細分行業帶來新的機會。
轉載原創文章請注明,轉載自山東天桓計量檢測有限公司,原文地址:http://www.coderstalk.cn/post/9970.html