2023年1月9日,诺亦腾科技联合创始人CTO戴李若博士在“腾讯科技创新周2023”上发表了题为《为什么我们仍然需要Metaverse?》的演讲。
以下是戴博士的演讲全文:
我很高兴今天有机会和大家谈论几个话题:元宇宙、AR/VR、AIGC(人工智能生成的内容)以及科技为善。
为了准备今天的演讲,我在网上查阅了自己近十年来参加的一些活动、讨论和痕迹。很有意思。现在它看起来像历史,但我们都在谈论未来。
2013年,我在网络社区回答了一个问题:AR/VR领域最需要研究什么;2015年4月,我在硅谷的一次活动上和大家讨论AR/VR领域最缺什么。同年12月,我在国内的一个行业论坛上讨论AR/VR的未来发展。
当时我们讨论的是晕车,人机交互,力反馈,内容的定义,交互的定义,内容的生成,一体机和PC-VR之间最后谁会赢。在过去的十年中,一些问题已经解决,还有许多问题人们仍在努力解决。
一元宇宙描述了一种状态。
这是数字化和数字化的终结。
我来自诺易腾,一家致力于动作捕捉技术的公司。简单来说,就是把人的动作数字化,然后把数字化的动作用在不同的领域,包括元宇宙和AR/VR。
我们利用光学技术、计算机视觉技术、传感器技术,将高精度跟踪定位与人体动力学相结合,最终实现数字人、数字人的行动。
既然我们今天要谈论元宇宙,那就从它的起源和定义开始吧。首先推荐你看两本正在数字化的书(《数字化生存》)。20年前大家都看过这本书,甚至认为这是一部科幻小说,因为它讲的是未来会发生什么。但现在看来,这也是历史了。
另一个是《冰雪奇缘》(《雪崩》),给出了元宇宙和阿凡达的定义。这两本书很有助于给元宇宙一个正确的定义,因为我一直认为元宇宙其实描述的是一种状态,是数字化和数字化的最终状态,是阶段的状态。
每个阶段都有不同的技术能力和人类需求。有了不同的技术、工具和手段,可以实现的数字端就是那个时间点的元宇宙。
成为数字《数字化生存》给出了一个非常令人兴奋的预测:计算不再是计算。是关于生活的。那就是,计算和计算机技术不仅仅是计算,它将渗透到我们生活的方方面面。
这一点我很赞同。在过去的三四十年里,数字化一直在不断发生。当它发展到最后,也就是我们能看到元宇宙的那一天。
而动作捕捉,也就是诺亦腾做的技术,在元宇宙中非常重要。这是因为人和人的动作的数字化,不仅可以赋予每个人一个头像、一个数字化身和一种视觉表达,而且可以成为现实世界和虚拟世界、现实世界和数字生活之间人机交互的载体。
真正的元宇宙不避实就虚。
而是数字世界和现实世界混合体。
我们所说的自然人机交互,依赖于人的动作表达、人的表情、自然语言表达。这也和我们后面要讲的AIGC和AR/VR密切相关。
我想给你们看两张照片:
左边是我的女儿,八岁。她在玩一个玩具,是一个古董,一个立体玩具,夸张点说,是一个100年前的VR设备。这个设备前面有一张卡。通过双目镜,你可以看到立体视觉。
右边是Quest在2022年10月发布的Quest Pro,目前最先进的VR设备。
我们来对比一下这两张图。我们用了一百年的时间,从左边的这个玩具,走到了右边先进的VR设备。好像没什么区别吧?
但实际上,经过大量的科技投入和各领域大量的金钱、时间和人力资源,人类可以从左边的一个玩具走向右边的一个VR设备,赋予它真正的三维渲染、全角度FOV(视野)和高清显示,赋予它强大的连接能力和计算能力,赋予它人机交互,赋予它人与数字世界真正的全彩沉浸式连接。
从玩具到生产力工具,再到进入沉浸式数字世界的大门,需要一百年的时间。让我们考虑一下。如果要追求科技向善,解决问题,提升人的能力,走向数字世界,需要一百年。你会参与这件事吗?
我会参加,因为这是一件非常令人兴奋的事情。
在我看来,这张图清楚地说明了未来的元宇宙。它来自于2016年Magic Leap一位高管的演讲《Magic Leap》。
有两个关键信息点:
第一个关键点在图表的底部。
真正的元宇宙,它不应该是一个虚拟的、数字的世界;应该是混合现实,数字世界和现实世界的混合。
为什么?因为我们现实世界的信息密度和信息量太大,如果要走向纯数字世界,创造一个纯虚拟的世界,在经济上太难太不合理,可能是我们这一代人无法解决的。
然而,混合现实是可以实现的。基于现实世界和物理世界,叠加数字资产,增强和丰富信息,给予人额外的帮助,解决人的问题,增强人的能力。以人为本,以物质世界为导向,这才是我认为的真正的元宇宙。一个混合现实的元宇宙,我和当年的Magic Leap高度一致。
在这张图的右手边,每一层都有不同的垂直领域,比如交通、娱乐、能源和教育。正如我们所说,元宇宙太难了,无法一次性给出一个完整的状态,完全数字化所有行业,解决所有问题。也许没有人知道如何开始。即使拥有无限的资源和人力,也很难一次性将所有问题数字化,实现数字增强和混合现实。
但如果我们把它切割成不同的领域,一个一个去征服,每个领域的企业、从业者、专家、用户都会提出需求,解决问题,找到实现这一点的方式方法,一层一层地解决问题。解决出行问题的解决出行,解决连接问题的解决连接,解决能源问题的解决能源,解决娱乐教育的层层解决问题。
基于现实世界,这才是我们能够真正实现元宇宙,把AR/VR等技术交给普通人的路径。
3 AR/VR可能是下一代
人机交互平台
先说我为什么这么关注AR/VR和元宇宙,愿意花十几年的时间在行业里做一些有意思有价值的事情。
这是因为AR/VR很可能是下一代人机交互平台,很可能是继个人电脑、智能手机之后的下一代主要计算设备。这将是一件大事。
我是70后,有幸经历过个人电脑的两次革命。从我的小学和初中开始,我经历了第一次计算革命的结束,这也是一个快速成长的时期。从初中开始,我就有了自己的个人电脑。我花了很多时间学打字,后来又学编程。
2007年,更不用说智能手机的出现了。2007年,我看了史蒂夫乔布斯召开新闻发布会。当时觉得智能手机就跟科幻小说一样。2008年,我在香港买了第一代iPhone。当时在香港的地铁上,我很激动。我不停地刷屏,翻看图片,放大缩小。我旁边的人都以为我拿着什么像魔术一样的东西,问我是不是最新的索尼PDA。
这两次革命给我们的生活带来了巨大的变化。这两次革命既是工具迭代,也是工具革命。未来的第三次革命,我可能会经历和参与AR/VR和超宇宙革命,这将超出工具的范畴。
为什么这么说?因为AR/VR设备不再是一个需要拔出来激活的工具,而是一个可能整天戴着,整天亮着,无时无刻不在帮助你,提升你能力的电子琴。
举个简单的例子,先说翻译。假设我去卡塔尔看世界杯,不懂阿拉伯语就去餐厅点餐。通常的做法是拿出我的手机,点亮屏幕,点击谷歌翻译,拍照,翻译成中文。然后我指着这张图跟服务员说我要这道菜。
这是一个典型的工具使用逻辑和过程:激活一个外部工具,操作它,让它帮助我提高个人能力,解决一个实际问题。
如果我戴上增强现实眼镜会怎么样?首先,它一直开着。当我看到任何一种我不懂的外语,都可以直接翻译成中文。我直接看完,然后拿起菜单点菜。这是个人能力的增强,也是一个电子琴的逻辑。从工具到电子器官的逻辑变化是巨大的。所以,在向下一代平台的革命中,一些在上一代平台上价值不高的工具,在新平台上可能会爆发出巨大的价值。
比如导航,虽然导航可以在PC上完成,但是在我们出去玩之前,会用谷歌地图做一个路径规划,打印出来,然后开车出去玩。但是进入智能手机时代后,人们使用实时导航,把手放在手架上看它行驶,已经成为大家都会做的事情,车上也有很好的导航系统。
翻译等工作场景和应用场景也会让Google Translator等使用频率极低的翻译软件工具成为高频且更有价值的工具。
因为平台的使用状态的改变,比如从需要打开个人电脑到智能手机的即时开启,带来了碎片化的一切可能,再从即时开启到永远开启,一个整天佩戴,整天开启,不断增强你能力的电子琴。
平台的革命让很多应用、软件、功能点从低价值变成高价值,从无价值变成有价值,这也是我特别关注AR/VR的原因。因为AR/VR不仅仅是一个玩具和工具,它可能会成为下一代的一个平台,一个人类的增强器和我们的电子琴。
这是一个巨大的业务,也是一件非常有趣的事情。
4 AIGC可能是
下一代平台的“救世主”
最近,有一个非常热的概念叫做AIGC。我们经常说UGC和PGC,现在变成了AIGC,也就是人工智能内容生成。
AI生成戴的头像
最近有些概念或者解决方案,比如文圣图,图腾图,很抢眼,让人觉得效果特别好。比如Midjourney等平台已经非常成熟,给出的作品让人惊喜。
在这个领域,甚至可以说实现了能力的平权,也就是像我这样不会画画,没有受过专业训练的人,可以和专业画家、画师、插画师的能力平权,我们之间的差距缩小了。这就是能力的平权,很有意思。
还有就是要识字,或者聊天。最近很流行ChatGPT。我的朋友圈是极客和科研人员的朋友圈,所以我的朋友圈已经爆炸了。大家都在玩ChatGPT。在这个平台上和它聊天,让它帮忙写词,很有意思。也是一种能力平等的权利,或者说个人能力的提升。
首先,它可以是搜索引擎的高级版本,但比搜索引擎更有趣。因为可以提问,可以展开,所有的回答都可以组织正确,所以更有逻辑性,像和一个人聊天。而且据说ChatGPT有一部分通过了图灵测试,很多和它聊天的人都会认为对面是真人。
ChatGPT生成内容图片
另一方面,它可以是一个小助手。如果语音助手能催生智能音箱行业,那我们就想想ChatGPT这样更智能更有逻辑的平台,在语言组织和文本生成上远远优于上一代语音助手。在这个基础上还能有更大更多的场景吗?
AIGC与超宇宙、AR/VR有什么关系?
从两个角度来说,由于现实世界的信息密度非常高,AR/VR和元宇宙必须建立在现实世界的基础上。生成和创建一个纯粹的虚拟世界,投入产出比太难计算,工作量太大。
AIGC可能是救世主。现在已经有人在研究立体3D资产的AI生成,很多学术机构和企业都做得很好。比如英伟达这样的公司,在这个研究上投入了大量的资源和精力。无论是通过文字、简单的笔画还是图片,都可以生成3D数字资产,质量也在逐步提升。
在AR/VR行业,大量定制化内容的开发和制作所需的人力、物力和时间远远高于传统互联网中的视频、图像、文字、语音这些二维甚至一维的线性资产。这些内容的制作和准备对于普通人来说相对简单高效。普通人写一段话,画一幅画,投入产出比是可以计算出来的,所以可以产生巨大的数字资产来支撑这一代人的整个平台。
如果下一代平台是基于立体视觉,如何高效地生产高质量的立体数字资产,更具沉浸感、更有价值的东西?3D数字资产的AIGC将是一个非常重要的话题。
如果AIGC能够被业界所重视,提出一个低成本、高效率、高质量地辅助普通人生产3D数字资产的解决方案,那么AIGC将成为AR/VR和元宇宙的基础设施,也可以说是下一代平台的“救世主”。
如果下一代平台不再是手机、PC等工具逻辑,而是整天戴着的人体增强器、电子琴、随身工具,可以随时随地增强人的能力、改善人的体验、增强信息挖掘和交流能力的电子琴,谁不想要呢?如果你有一个像J.A.R.V.I.S这样无所不能的小助手随时陪伴你,会有人拒绝吗?
当然,从成熟程度来看,ChatGPT更像是一个擅长聊天的北京出租车司机。他什么都能说,就是经不起质疑和推敲。有时候他会胡说八道,但是没关系,他会进步的。
甚至像百事通一样,对很多事情略知一二,善于聊天的能力,如果能依附在普通人身上,也是非常可贵的。当你需要一些信息的时候,它可以以提问和聊天的形式快速帮助你,而不是搜索,就像一个随时随地的智能助手。
ChatGPT、图生成图、文生成图、文生成图以及AIGC等解决方案,都与我们今天所说的元宇宙、AR/VR密切相关,非常有价值。
5通过科技解决“现实问题”
才是真正的科技为善。
回到今天的话题,为什么我们还需要元宇宙?为什么我们今天花这么多时间谈论超宇宙、AR/VR技术和AIGC?这些都是手段,不是我们的目标和需求。真正需要做的是解决每个领域的现实问题,需要提升人的能力。
我们需要用这些手段、工具和技术来帮助人,改善人与世界的联系,提高人类获取和表达信息的效率和能力。我们需要增强人的基本能力,比如记忆力和字符识别能力,这才是真正的目标。
只有通过工具和技术,解决了人最基本的需求,解决了行业和领域真正要解决的问题,才是真正的科技向善。