Page 1 of 1

我们告诉别人这个

Posted: Thu Dec 26, 2024 4:46 am
by ritu2000
类似于文本-图像生成器我们现在已经有了文本-视频生成器——输入一张图像或一段视频系统就能生成一个两秒钟的惊人片段。但我认为我们可以将这一体验提升到 3 世界。 我们可以想象空间智能未来帮助我们将这些体验提升到 3 不仅仅生成一张图片或一段视频而是生成一个完整的、模拟的、丰富的互动 3 世界。也许用于游戏也许用于虚拟摄影应用领域广泛得令人难以想象。 我觉得这项技术会随着时间的推移逐渐进步。构建这些东西非常困难所以静态问题可能会相对简单一些但从长远来看我们希望它是完全动态的、可交互的正如你刚才所描述的一切。


是的这正是空间智能的定义。我们会从更多 沙特阿拉伯电话号码列表 的静态问题开始但你提到的所有内容都在空间智能的未来规划中。 这也体现在我们公司“W ”的名字上——这个名字的含义是关于构建和理解世界。起初名字时他们并不总是能理解因为在计算机视觉、重建和生成领域我们通常会对所能做的事情进行区分。第一级是识别物体比如麦克风、椅子等这些世界上的离散物体。许多 的工作都与识别物体有关。 但接下来我们提升到了场景的层次——场景是由物体组成的。


例如现在我们有一个录音室里面有桌子、麦克风和坐在椅子上的人这是物体的组合。但我们想象的“世界”是超越场景的。场景可能是单一的东西但我们希望打破这些界限走出门外走到街上看到车流穿梭看到树叶在风中摇动并能够与这些东西互动。 另一件非常令人兴奋的事情是关于“新媒体”这个词。借助这项技术现实世界、虚拟想象世界或增强世界、预测世界之间的界限变得模糊。真实世界是 3 的所以在数字世界中必须有 3 表示才能与真实世界融合。