写完一篇空间智能文章,发到群里,聊它如何用虚拟空间数据训练机器人,帮人类理解世界。
结果有朋友提出个问题:
文生视频算不算空间智能?它也能生成虚拟场景,为什么不是最佳途径?
这问题挺有意思,我第一反应就想到了Sora。
文生视频“新星”崛起速度太快,几句话能生成一个视频,两年内字节、腾讯、甚至其他模型厂商纷纷压住该赛道。
不过,两年过去,有人发现它没那么完美,生成人像总带着“恐怖谷”的诡异,连Facebook首席人工智能科学家Yann LeCun也点评说:Sora不过是画得好看,压根不懂物理规律。
于是,我带着疑问研究了一下:看似强大的Sora,为什么不能成为真正的世界模拟器?它和空间智能的差距到底在哪?
|