人工智能技術公司 Sync Labs 近日通過 Twitter 宣布推出其最新產(chǎn)品 Lipsync-2,這款模型被譽為“全球首個零-shot嘴型同步模型”,無需額外訓練或微調即可保留演講者的獨特風格。這一突破性技術在真實感、表現(xiàn)力、控制力、質量和速度方面均實現(xiàn)了顯著提升,適用于真人視頻、動畫以及AI生成的內(nèi)容。
Lipsync-2的創(chuàng)新特性
根據(jù) Sync Labs 在4月1日發(fā)布的 Twitter 消息,Lipsync-2的核心亮點在于其“零-shot”能力,即無需針對特定演講者進行預訓練,模型便可即時學習并生成符合其獨特說話風格的嘴型同步效果。這一特性顛覆了傳統(tǒng)嘴型同步技術對大量訓練數(shù)據(jù)的需求,使得內(nèi)容創(chuàng)作者能夠更高效地應用該技術。
此外,Sync Labs 還透露,Lipsync-2在多個維度上實現(xiàn)了技術飛躍。無論是真人視頻、動畫角色,還是AI生成的人物,Lipsync-2都能提供更高的真實感和表現(xiàn)力。
新增控制功能:溫度參數(shù)
除了零-shot能力,Lipsync-2引入了一項名為“溫度”(temperature)的控制功能。這一參數(shù)允許用戶調節(jié)嘴型同步的表現(xiàn)程度,從簡潔自然的同步效果到更具夸張表現(xiàn)力的生成效果,滿足不同場景的需求。目前,這一功能處于私人測試階段,僅逐步向付費用戶開放。
應用前景:多語言教育與內(nèi)容創(chuàng)作
Sync Labs 在4月3日的 Twitter 帖子中進一步展示了 Lipsync-2的潛在應用場景,稱其“在準確性、風格和表現(xiàn)力上表現(xiàn)出色”,并提出“讓每場講座都能以每種語言呈現(xiàn)”的愿景。這一技術不僅可用于視頻翻譯和字級編輯,還能助力角色重新動畫化,甚至支持逼真的AI用戶生成內(nèi)容(UGC),為教育、娛樂和營銷領域帶來革命性變化。
行業(yè)反響與未來期待
Lipsync-2的發(fā)布迅速引發(fā)了行業(yè)關注。Sync Labs 表示,該模型已在 fal 平臺上開放體驗,用戶可通過訪問 fal 的模型庫一探究竟。自4月1日宣布以來,Twitter 上關于 Lipsync-2的討論持續(xù)升溫,許多用戶對其跨領域應用的潛力表示期待。
作為人工智能視頻技術的先鋒企業(yè),Sync Labs 通過 Lipsync-2再次證明了其在創(chuàng)新領域的領導地位。隨著該技術的逐步推廣,內(nèi)容創(chuàng)作的門檻或將進一步降低,而觀眾也將享受到更加自然、沉浸式的視聽體驗。