為Sora氪金200美元后,AI創(chuàng)作者們后悔嗎?

“還記得2024年2月16日,大過年的,大家興奮得一夜沒睡,被Sora放出來的Demo震驚??煲荒赀^去了,奧爾特曼終于放出了Sora,眼前一黑的是,訂閱可以無限生成1080p視頻的pro模式高達(dá)200刀!”AIGC創(chuàng)作者陳微感慨。

陳微(@尾鰭Vicky)畢業(yè)于北京電影學(xué)院,是一名青年導(dǎo)演兼編劇,同時(shí)也是AIGC創(chuàng)作領(lǐng)域的KOL,與多個(gè)視頻生成平臺(tái)都有合作。12月10日,Sora發(fā)布的第一時(shí)間陳微就“殺”進(jìn)了網(wǎng)址注冊(cè),盡管價(jià)格昂貴,但畢竟Sora是第一個(gè)放出產(chǎn)品樣片的DiT產(chǎn)品,“硬著頭皮都在下單”。

在剛放出網(wǎng)址的那晚,Sora訪問量暴增,官方在10日凌晨停止注冊(cè),而在臨關(guān)閉之前,與陳微一樣成功注冊(cè)的還有AI Talk主理人、AIGC創(chuàng)作者汗青和AI博主@秋芝2046,這些創(chuàng)作者群體是未來視頻生成的主流客戶。為Sora“氪”近1500元,能出什么樣的效果,錢花得值不值?

在經(jīng)歷了將近一年DiT技術(shù)井噴式爆發(fā)之后,創(chuàng)作者們對(duì)Sora的期待值已經(jīng)沒有那么高,國內(nèi)的可靈、即夢(mèng)、海螺以及國外的Runway、Luma等各種DiT架構(gòu)的視頻模型效果已經(jīng)不差。盡管如此,Sora也未達(dá)到很多人的預(yù)期,雖然產(chǎn)品體驗(yàn)上有亮點(diǎn),但底層能力和同類產(chǎn)品沒有拉開差距,肢體消失、東西亂飛的畫面仍然存在,也和所有的AI視頻一樣需要“抽卡”。

上海交通大學(xué)電子系教授、博導(dǎo)倪冰冰也體驗(yàn)了Sora,他對(duì)第一財(cái)經(jīng)表示,團(tuán)隊(duì)從幾個(gè)維度對(duì)Sora以及幾個(gè)頭部的國產(chǎn)視頻生成工具進(jìn)行對(duì)比,發(fā)現(xiàn)這次的Sora版本并不表現(xiàn)得比國產(chǎn)模型好,甚至在一些方面如一致性上,顯著不如國產(chǎn)模型。

視頻生成賽道還在繼續(xù)卷,一年里國內(nèi)外已經(jīng)發(fā)布了數(shù)十個(gè)產(chǎn)品,在年末這一趨勢(shì)仍未停止,谷歌剛剛迭代推出了Veo2,不少人覺得在物理規(guī)律的模擬上比Sora更好。但未來誰能留在牌桌,現(xiàn)在還無法下定論。

起大早趕晚集

年初Sora推出時(shí)大家驚呼“現(xiàn)實(shí)不存在了”,年末,“難產(chǎn)”10個(gè)月的Sora終于正式向用戶開放。開放初期不少關(guān)鍵詞還是 “王者歸來”,但隨著更多用戶氪金體驗(yàn)后,評(píng)價(jià)很快反轉(zhuǎn),失望、不及預(yù)期是更多人的反饋。

“那天晚上發(fā)布之后,部分媒體是為了趕早,加上當(dāng)時(shí)很卡頓,沒有真正測試它的效果。第二天我們真正去測試的人刷完了積分,體驗(yàn)了每個(gè)功能點(diǎn)后,我們認(rèn)為它生成失敗率很高,并沒有之前預(yù)期的驚艷。”陳微體驗(yàn)后認(rèn)為,Sora的故事板功能和文生視頻確實(shí)很好,然而,其圖生視頻和整體模型并未達(dá)到預(yù)期,“畢竟國內(nèi)這類AI視頻模型平臺(tái)大家都已經(jīng)用了這么久了”。

視頻生成模型往往需要生成多次才能得到一個(gè)可用的片段,業(yè)內(nèi)將此稱之為“抽卡”。 陳微發(fā)現(xiàn),Sora的抽卡頻次仍然很高,“我的Demo中可以看到它無法區(qū)分物理方向,例如讓一只狐貍向前行走,它會(huì)向后跑,女孩子頭發(fā)飄動(dòng)的物理識(shí)別不佳”。

秋芝對(duì)記者表示,年初出來時(shí)Sora帶來的震撼幾乎是全民知曉的,放出的素材也是之前沒有見過的,OpenAI將大家的期待值拉得非常高,但發(fā)布后卻發(fā)現(xiàn),底層模型能力并未拉開差距,此前提出的世界模型、真正理解物理規(guī)律等方面的能力都還沒有。

“Sora的不及預(yù)期是可以預(yù)見的。”某AI公司產(chǎn)品經(jīng)理布萊恩表示,Sora的問題在于,文生視頻能理解的概念有限,整體出片率低,復(fù)雜場景生成的東西基本用不了,而圖生視頻會(huì)嚴(yán)重偏離原始圖片的風(fēng)格,場景之間連貫性不足。商業(yè)化是所有產(chǎn)品都需要考量的因素,布萊恩認(rèn)為,Sora目前的文生視頻也還不具備商業(yè)化的條件。

Sora之所以引來使用者如此多的吐槽,更大原因是其“錯(cuò)誤的時(shí)間,并不領(lǐng)先的效果”,Sora推遲發(fā)布的這10個(gè)月,國內(nèi)外一批視頻大模型相繼跟隨DiT架構(gòu)路線發(fā)布新產(chǎn)品,甚至經(jīng)歷了多輪快速迭代,而此時(shí)趕了個(gè)晚集的Sora,并沒有取得領(lǐng)先。

今年AI圈的視頻生成大戰(zhàn)從Sora開始,4月國內(nèi)生數(shù)科技發(fā)布視頻大模型Vidu,6月快手發(fā)布視頻生成模型可靈,Luma AI發(fā)布Dream Machine,Runway在7月宣布Gen-3 Alpha向所有用戶開放,同月愛詩科技發(fā)布PixVerse V2,隨后智譜正式發(fā)布清影視頻……短短一年行業(yè)目睹了幾十款視頻生成模型的問世。

在眾多競爭者中,目前國內(nèi)創(chuàng)作者用得較多的頭部產(chǎn)品包括字節(jié)跳動(dòng)的即夢(mèng)、快手的可靈、Minimax的海螺,在國外則有Runway、Luma等。

倪冰冰是國內(nèi)最早開展視覺內(nèi)容智能生成研究的學(xué)者之一。他告訴記者,團(tuán)隊(duì)從細(xì)節(jié)保留、物理規(guī)律遵守、語義正確性、轉(zhuǎn)場一致性等幾個(gè)維度對(duì)Sora以及幾個(gè)頭部的國產(chǎn)視頻生成工具進(jìn)行對(duì)比,得出的結(jié)論是在這些維度上,這次的Sora版本并不表現(xiàn)得比國產(chǎn)模型好,甚至在一些方面比如一致性上,比國產(chǎn)模型顯著不如。

“當(dāng)下國內(nèi)的AI視頻產(chǎn)品追得很緊、也很卷,大家已經(jīng)看過太多好的效果了,隨手應(yīng)付的4秒時(shí)代已經(jīng)回不去了?!标愇⒈硎?,除了模型能力,用戶也很在乎抽卡率、交互、套餐性價(jià)比等等,Sora目前不管從哪個(gè)角度來對(duì)比,都沒有足夠優(yōu)勢(shì)。她對(duì)記者表示,如果純粹只是為了做AI視頻,200美元?jiǎng)e買,20美元也不太有必要買。

智譜CEO張鵬在一場論壇上評(píng)估Sora時(shí)指出,Sora的效果離自己的預(yù)期有一點(diǎn)偏差。如果看技術(shù)指標(biāo),國內(nèi)有的視頻生成模型不比Sora差。但視頻模型的比拼不是簡單地對(duì)比參數(shù),而是如何產(chǎn)生實(shí)際的應(yīng)用、產(chǎn)生生產(chǎn)力。張鵬認(rèn)為,Sora這次發(fā)布把很大的精力放在了產(chǎn)品而非模型上,比如視頻編輯能力、工作流,這是面向用戶需求的轉(zhuǎn)變。

此次Sora展示了一些新功能,包括用戶普遍反饋好用的故事板功能,可以用文字、圖片、視頻更精準(zhǔn)地控制同段時(shí)間內(nèi)的鏡頭運(yùn)動(dòng),以及可以用recut(重新剪輯)功能修整視頻重新擴(kuò)展生成,Remix工具可以替換、刪除或重新設(shè)計(jì)視頻中的元素,Loop工具則可以生成無縫銜接的重復(fù)視頻等等。

這些新功能讓Sora生成的視頻方向更加可控。不過,陳微認(rèn)為,在圖生模型能力這么差的前提下,這些功能對(duì)她來說“都是白搭”。她提到,目前大家的工作流仍然是依靠圖生視頻,因?yàn)樯虡I(yè)化必須畫面可控、穩(wěn)定和一致,Sora費(fèi)勁心思將功能和交互設(shè)計(jì)得很有新意,但核心的圖生模型能力這么差是很大一個(gè)問題。

200美元值不值

“腸子都悔青了,還我200刀。”有用戶體驗(yàn)Sora后在社交媒體反饋??紤]到Sora并沒有大幅領(lǐng)先競品,有從業(yè)者認(rèn)為,這個(gè)價(jià)格設(shè)計(jì)過于昂貴了。

“如果不是剛需,月費(fèi)近1500元確實(shí)有些昂貴?!标愇⒈硎?,但行業(yè)其他同類競品的價(jià)格也并不便宜,作為商業(yè)化團(tuán)隊(duì)是能負(fù)擔(dān)這一支出的。此外,200美元是一個(gè)ChatGPT Pro會(huì)員入場券,除了能無限生成視頻外,還能無限制體驗(yàn)OpenAI推出的GPT-4o和o1、新推出的通話功能等。

“作為AI重度使用者的創(chuàng)作者來說,200美元是劃算的?!鼻镏ヒ舱J(rèn)為。

此次Sora并沒有單獨(dú)作為產(chǎn)品定價(jià),OpenAI給出的方案是,Sora Turbo將免費(fèi)提供給ChatGPT Plus和Pro用戶,每月20美元(約合人民幣145元)的Plus用戶,每月最多可以生成50個(gè)480P分辨率的優(yōu)先視頻;Pro訂閱者則最多可生成500個(gè)1080p的優(yōu)先視頻,此外慢速視頻無限量生成,可下載無水印版視頻,對(duì)應(yīng)每月費(fèi)用為200美元(約合1450元)。

不過,創(chuàng)作者告訴記者,500個(gè)優(yōu)先視頻是保守估計(jì),由于Sora采用的是積分制定價(jià)策略,需要耗費(fèi)的積分因分辨率和持續(xù)時(shí)間而異,如果都是生成較高質(zhì)量的情況下,大概只能生成幾十條視頻。不過,在優(yōu)先視頻用完之后,創(chuàng)作者普遍認(rèn)為,慢速視頻目前也并不慢,2-3分鐘即可生成結(jié)果,影響并不大。

陳微經(jīng)歷了近兩年視頻模型的發(fā)展,她對(duì)價(jià)格已經(jīng)有了預(yù)期,例如,國外頭部視頻模型Runway的無限訂閱一個(gè)月費(fèi)用是95美元(約692人民幣),國內(nèi)視頻模型海螺的無限生成高級(jí)會(huì)員價(jià)格是每月666元,快手的可靈最高檔會(huì)員是666元,包含800個(gè)視頻生成,沒有無限生成的套餐。

陳微此前從事的是傳統(tǒng)影視,“以前拍攝時(shí)制作費(fèi)很高,例如租攝影機(jī)的費(fèi)用、人員工資以及場景費(fèi)等,制作視頻動(dòng)輒花費(fèi)幾千甚至上萬元?!彼J(rèn)為,對(duì)于非專業(yè)用戶而言,只是為新鮮購買完之后就會(huì)感覺價(jià)格偏貴,但對(duì)于從事專業(yè)視頻制作的人來說,從各個(gè)平臺(tái)購買會(huì)員也是正常費(fèi)用支出,制作商業(yè)作品都會(huì)承擔(dān)相應(yīng)的費(fèi)用。

AI Talk是國內(nèi)第一批使用AI制作視頻的公司,背后的主理人汗青畢業(yè)于清華美院,在互聯(lián)網(wǎng)大廠經(jīng)歷了跌宕起伏的十年后,他選擇加入這一輪AI創(chuàng)業(yè)潮流,從事AI數(shù)字藝術(shù)創(chuàng)作。

談及Sora的價(jià)格,汗青對(duì)記者表示,作為一個(gè)有相對(duì)健康現(xiàn)金流的團(tuán)隊(duì),對(duì)這些商品的價(jià)格并不敏感,“只要有一個(gè)商業(yè)合作,成本就能覆蓋住,最終依靠AI工具賺取的肯定不止200美元。它會(huì)成為我的成本,比我招一位員工的價(jià)格便宜很多?!?/p>

在Sora開放第一天,汗青就充值了Pro會(huì)員,在充分體驗(yàn)后他認(rèn)為,Sora確實(shí)有做得很糟糕的地方,但是同時(shí)他也看到了模型的潛力。在他用Sora完成的一支視頻中,有兩段畫面讓他印象深刻。

“其中一部分是獨(dú)角獸展翅往上飛的那一段,還有一個(gè)小朋友坐在購物車?yán)锿斑M(jìn)的特寫畫面,跑了20秒人物表情都很真實(shí)?!痹谶@兩段畫面里,汗青看到了Sora模型更大的潛力,他認(rèn)為,如果能夠有更多時(shí)間優(yōu)化一些點(diǎn),Sora的模型或許會(huì)有更大提升。

盡管OpenAI這家公司最近所做的一系列事情都不靠譜,但汗青認(rèn)為,它在技術(shù)上的累積確實(shí)不能小覷。另一點(diǎn)是美學(xué)問題,Sora文生視頻的畫面質(zhì)量在美學(xué)上是較為突出的,如果對(duì)畫面美感要求較高,“開卡”的成功率會(huì)遠(yuǎn)大于其他模型,這是汗青目前體驗(yàn)到的Sora的優(yōu)勢(shì)。

一片吐槽之聲中,Sora也并不是沒有優(yōu)點(diǎn),在此次推出的眾多產(chǎn)品功能中,創(chuàng)作者們不少都提到了recut(重新剪輯)功能和故事板功能在行業(yè)里的創(chuàng)新。

重新剪輯并非是以往影視創(chuàng)作中的后期剪輯,“以一段7秒的視頻為例,Sora可以刪除視頻中的第1秒和第5秒,僅保留中間的4秒,并進(jìn)行一個(gè)平滑的延展視頻?!焙骨啾硎荆瑢?shí)際應(yīng)用非常方便,能解決本來需要圖生視頻做視頻連接的問題。

秋芝在Sora出來的那一晚上就用完了快速視頻的積分,充分測試后她認(rèn)為,在本身的模型上沒有太多突出的點(diǎn),但意外的點(diǎn)是產(chǎn)品和功能做得較多。秋芝認(rèn)為,最大的亮點(diǎn)是故事板,這在其他同類競品上暫時(shí)沒有,是一種完全創(chuàng)新的模式。

以往一個(gè)視頻模型生成5-10秒鏡頭,只能用提示詞來“假裝”控制鏡頭運(yùn)動(dòng),但Sora的故事板功能可以精確到創(chuàng)作者需要控制的秒數(shù)。以一段10秒的視頻為例,創(chuàng)作者可以精確到第2秒、第4秒和第6秒要出現(xiàn)什么畫面,并填寫需要的提示詞,由此創(chuàng)作者可以在10秒內(nèi)控制這個(gè)視頻大致走向。

陳微介紹,對(duì)于傳統(tǒng)電影而言,最重要的兩點(diǎn)一是畫面中演員的表演,其次就是場面調(diào)度,即鏡頭如何變化?!叭绻茉?0秒內(nèi)的每個(gè)點(diǎn)都寫清楚我需要什么畫面和鏡頭運(yùn)動(dòng),這一故事板就在某種程度上實(shí)現(xiàn)了傳統(tǒng)電影制作中的場面調(diào)度功能,實(shí)現(xiàn)場景的可控。”

但遺憾的是,陳微提到,Sora目前只擅長通過文生視頻完成,而圖生視頻效果差強(qiáng)人意,且用戶給出的提示詞,模型不一定會(huì)完全遵守。

汗青認(rèn)為,Sora還值得肯定的一點(diǎn)是生成速度,即便優(yōu)先積分用完,Sora目前的慢速無限視頻生成的時(shí)間也并不算慢,“一條約15秒的視頻,大約一兩分鐘。”對(duì)于汗青這樣的商業(yè)創(chuàng)作者來說,這是一個(gè)值得付費(fèi)的點(diǎn),國內(nèi)部分平臺(tái)最高出現(xiàn)過需要等待超過20分鐘的情況。

“一般用戶可能不會(huì)介意快慢的事情,但我們的主要工作是不斷開卡,因此我非常介意開卡的效率。你不能讓我等待太久,時(shí)間成本較高,其次,創(chuàng)作想法會(huì)被消耗,靈感轉(zhuǎn)瞬即逝?!焙骨嗾f。

還未拉開差距

在眾多視頻模型中,創(chuàng)作者們未來會(huì)選擇哪些軟件?這一問題,大家目前都還無法回答,海內(nèi)外的頭部模型產(chǎn)品,創(chuàng)作者們都同時(shí)在接觸和嘗試,目前誰也無法確定幾十家模型大廠,最終哪個(gè)能取得勝利。

在創(chuàng)作者經(jīng)常使用的頭部產(chǎn)品中,陳微發(fā)現(xiàn),部分產(chǎn)品在某些細(xì)節(jié)上能表現(xiàn)得較好,但作為使用者而言,他們無法拉開本質(zhì)的差距,“原因在于他們使用的底層模型都是DiT或類DiT技術(shù),而細(xì)微差別可以通過抽卡來解決”。

目前國內(nèi)外更新的AI視頻模型大部分使用的都是DiT架構(gòu),核心問題在于,這一架構(gòu)下AI無法真正識(shí)別物理空間,會(huì)導(dǎo)致運(yùn)動(dòng)效果有誤差。陳微認(rèn)為,DiT架構(gòu)可能會(huì)比早期第一代視頻模型的運(yùn)動(dòng)效果更好,但實(shí)際上仍無法理解物理規(guī)律,圈內(nèi)經(jīng)常討論,如果AI視頻需要進(jìn)一步發(fā)展,可能還需要新的技術(shù)突破。

倪冰冰告訴第一財(cái)經(jīng)記者,目前基于DiT的方案,通過Scaling law(尺度定律)的思路去提升生成視頻的質(zhì)量,天花板是很明顯的。因?yàn)橐曨l空間維度太高,無法做到我們所期望的那種高精度、準(zhǔn)確性,也無法精確操控生成過程。

“解決這個(gè)問題的辦法還是要建立一個(gè)對(duì)視頻中所有對(duì)象實(shí)例及其屬性解耦的內(nèi)容表征方式,這也可以認(rèn)為是世界模型框架下的一種實(shí)現(xiàn)。在這種非像素的新表達(dá)下,可以訓(xùn)練高效的與對(duì)象和屬性對(duì)齊的生成式計(jì)算網(wǎng)絡(luò),才能從本質(zhì)上解決精度、可操控性和物理規(guī)律正確性的問題?!蹦弑岬?,自己的團(tuán)隊(duì)一直在做新的表征和計(jì)算形式。

在年中Minimax推出海螺視頻時(shí),創(chuàng)始人閆俊杰曾對(duì)記者表示,做視頻模型“這件事還挺難的”。視頻的工作復(fù)雜度比做文本更難,因?yàn)橐曨l的上下文文本天然很長,一個(gè)5秒的視頻就有幾M。

“挑戰(zhàn)在于,之前基于文本建的這套底層基礎(chǔ)設(shè)施怎么來處理數(shù)據(jù),怎么來清洗數(shù)據(jù),以及怎么來標(biāo)注?!遍Z俊杰認(rèn)為,基礎(chǔ)設(shè)施需要升級(jí),其次就是耐心,視頻開源內(nèi)容沒那么多,需要付出的耐心更大。

過去一年對(duì)于AI視頻生成來說是一個(gè)歷史性的時(shí)刻,但未來,視頻模型廠家需要解決的問題還有很多。行業(yè)判斷,視頻生成還處于一個(gè)早期階段,類比大語言模型,視頻生成還處在GPT-3左右的時(shí)代。

在未來,哪些廠商能堅(jiān)持下來,用什么樣的技術(shù)生態(tài)走到最后?誰都不知道。

汗青的一個(gè)判斷是,未來的模型市場或許會(huì)是百花齊放的,并不會(huì)像互聯(lián)網(wǎng)大戰(zhàn)那樣,只有少數(shù)一兩家能夠留下。他發(fā)現(xiàn),每家模型的“性格”是不同的,就像不同的人有內(nèi)向、外向,有的可以多講一些,有些人講太多不好,模型也是一樣。

“如果我需要高寫實(shí)、高動(dòng)態(tài)時(shí)可靈是一個(gè)優(yōu)勢(shì),但當(dāng)我們制作采訪視頻時(shí),不希望機(jī)位動(dòng)作過大,這時(shí)它的高動(dòng)態(tài)效果反而是負(fù)擔(dān)?!焙骨嗾J(rèn)為,不同模型有它所擅長的東西,未來可能創(chuàng)作者不是要甩掉哪一家,而是如何與這些模型共同相處。

(本文來自第一財(cái)經(jīng))

標(biāo)題:為Sora氪金200美元后,AI創(chuàng)作者們后悔嗎?

地址:http://liuxuerexian.com/ranqizao/12757.html