2022年,在集群与融合的科技革命中,AI生成的内容(AIGC)后来居上,以超出人们预期的速度成为科技革命史上的重大事件,迅速催生了全新的科技革命体系、格局和生态,进而深刻改变了思想、经济、政治和社会的演进模式。
首先,AIGC的意义在于实现了人工智能“内容”的生成。人的主观感受、认知、思想、创造和表达,以及人文、艺术和自然科学,都要以实质性的内容为基础。所以,没有内容就没有人类文明。进入互联网时代后,出现了所谓的专业制作内容(PGC)和作为职业付费的专业制作内容(OGC)。与此同时,“用户生成内容”(UGC)的概念和技术也逐渐发展起来,从而形成了用户内容生态系统。
内容生产赋予了Web 2.0的成熟和Web 3.0时代的到来。与PGC、OGC、UGC相比,AIGC通过人工智能技术实现内容生成,为生成注入“创造”,意味着自然智能研究所写作、绘画、音乐、教育等“独一无二”和“垄断”创造性工作的历史即将结束。内容生成的四个阶段(见下图):
第二,AIGC的核心技术价值是“自然语言”和人工智能的融合。自然语言是一个包括词法、词性、句法和语义的系统,也是一个不断进化的动态系统。AIGC的最新发展以OpenAI开发的ChatGPT(生成式预训练)为代表。它完成了机器学习算法发展在自然语言处理领域的历史性跨越,即通过大规模的预训练模型,形成人工智能技术理解自然语言和文本生成的能力,能够完成脚本编写、文案撰写、翻译等任务。
这是人类文明史上一场翻天覆地的革命,它开启了任何阶层、任何职业都可以用任何自然语言与人工智能交流,产生从艺术作品到学术论文的多元化内容产品。在这个过程中,AIGC的“异化”是一个理解、超越和生成各种自然语言文本的超级“系统”。
第三,AIGC的绝对优势是它的逻辑能力。是否有可以逐步发展的逻辑推理能力,是人工智能与生俱来的挑战。AIGC的快速发展,得益于AIGC实现了基于语言模型提示学习的推理,甚至是知识增强的推理,构建了基于代码、云计算、数据的技术操纵、模式识别,以及机器对文本内容的描述、判别、分类和解释的坚实“底层逻辑”。而且,AIGC有能力根据基于精准大规模数据的环境反馈来学习、选择、尝试、修正、推理,甚至调整和修正自己的行为;它可以突破线性思维框架,实现非线性推理,也可以通过归纳、演绎、分析来描述复杂的逻辑关系。毫不夸张地说,AIGC已经改变并将继续改变21世纪的逻辑面貌。
第四,AIGC实现了机器学习的泛化。21世纪的机器学习已经进化到深度学习阶段。深度学习可以更有效地利用数据特征,形成深度学习算法,解决更复杂的场景挑战。2014年生成拮抗网络(GAN)的出现加速了深度学习在AIGC的应用。AIGC已经实现了机器学习的泛化(见下图):
第五,AIGC开创了“模型”引领内容生成的时代。人类将会跑进一个传统人类内容创作和人工智能内容生成并行的时代,然后进入一个后者逐渐走向主导地位的时代。这意味着人类内容创作的传统互动模式转变为AIGC模式的互动模式。2022年是一个重要的历史转折点(见下图):
在自然语言处理(NLP)系统中,“Transformer”是融入注意机制和神经网络模型领域的主流模型和关键技术。Transformer有能力对其处理的任何单词、句子进行“矢量”或“向量化”,最大限度地反映精确的意思。
总之,没有Transformer,就没有NLP的突破;没有大规模的AIGC,ChatGPT升级是不可能的。重要而高效的变压器的集合(见下图):
第六,AIGC开放创造力的重要来源是扩散模式。扩散模型的概念是2015年在论文《利用非均衡热力学的深度非监督学习》(使用非平衡热力学的深度无支持学习)中首次提出的。在2020年,论文《去噪扩散概率模型》(去噪难度概率模型)提出了用于图像生成的DDPM模型。从技术角度看,扩散模型是一个潜变量模型,通过马尔可夫链映射到潜在空间。
【注:马尔可夫链的名称来源于俄罗斯数学家安德烈耶维奇马尔可夫(Andreyevich Markov,1856-1922),在概率论和数理统计中定义为具有马尔可夫性质,存在于离散指数集和状态空间中的随机过程。马氏链可能具有不可约性、递归性、周期性和遍历性。】
总的来说,AIGC具有开放的创造力,因为它吸收和依赖扩散模式。
2021年8月,斯坦福大学联合众多学者写了一篇论文,将基于Transformer架构的等效模型称为“基础模型”,在翻译中常译为大模型。Transformer推动了AI整个范式的变革(见下图):
第七,AIGC的进化是基于几何级数的展开。AIGC的训练过程就是调整变量、优化参数的过程。因此,参数的规模是一个重要的先决条件。ChatGPT聊天机器人的出现,标志着AIGC已经形成了基于Transformer的大语言模式(LLM)机器学习系统。通过自主学习数据,在训练了大量文本数据集后,可以输出复杂的、类似人类的作品。
AIGC形成的学习能力依赖于参数的规模。GPT-2有大约15亿个参数,而GPT-3的最大模型有1750亿个参数,增加了两个数量级。而且它不仅参数较大,还需要更多的数据进行训练。据媒体报道但未经证实的消息,GPT-4的参数可能达到100万亿(见下图):
根据学术经验,深度神经网络的学习能力与模型的参数规模正相关。人类大脑皮层有超过140亿个神经细胞,每个神经细胞有超过3万个突触。所以大脑皮层的突触总数超过100万亿。所谓的神经细胞通过这些突触相互连接。假设GPT-4达到100万亿的参数规模,与人脑相当,就意味着达到了与人脑的神经接触规模相同的水平。
第八,AIGC的计算能力需求大幅增加。数据、算法和计算能力是人工智能的三大稳定要素。根据OpenAI分析,从2012年开始,过去6年对AI计算能力的需求增长了约30万倍(见下图):
在可预见的未来,在摩尔定律将失效的条件下,预测AI模型所需的计算能力每100天翻一番,即“5年内AI所需的计算能力将超过100万次”。产生这种需求的根本原因是,AI的计算能力不再是传统的计算能力,而是“智能计算能力”,多维度的“向量”集合是计算能力的基本单位。
第九,AIGC和硬技术相辅相成。广义来说,AIGC的硬技术是AI芯片,而且是专门设计定制的。AI芯片需要实现CPU、GPU、FPGA、DSP的共存。随着AIGC的发展,计算技术的发展不再仅仅依赖于通用芯片在工艺技术上的创新,而是结合各种创新方式,形成智能计算和计算智能技术。例如,根据应用需求重新审视芯片、硬件和软件的协同创新,即思考和探索新的计算架构,以满足日益庞大、复杂和多样的计算场景。在此期间,量子计算将获得突破性发展。
第十,AIGC将给区块链、NFT、Web3.0和元宇宙带来深刻的变化。AIGC取之不尽的创作资源和能力将从根本上改变当前NFT的观念生态。Web3.0结合了区块链、智能合约、加密货币等技术来实现去中心化的概念,而AIGC是满足这一目标的最佳工具和模式。
毫无悬念。在Web3.0环境下,AIGC内容将呈指数级增长。元宇宙的本质是社会系统、信息系统、物理环境通过数字形成一个动态耦合的大系统,需要大量的数字内容来支撑,手工设计开发根本无法满足需求。AIGC最终可以改善超宇宙生态的基础设施。
随着AIGC技术的逐渐成熟,传统的人类形态已经不可能进入超宇宙这样的虚拟世界。未来超宇宙的主体将是一个虚拟人,即通过AIGC技术,尤其是ChatGPT技术,以代码形式呈现的模型化虚拟人。
简而言之,区块链、NFT和Web3.0将给AIGC一个发展的机会。AIGC的进化将加速广义数字孪生形态和物理形态的平行世界的形成。
第十一,AIGC诞生了全新的工业体系和商业特色。AIGC利用人工智能学习各种数据来自动生成内容,不仅可以帮助提高内容生成的效率,还可以提高内容的多样性。文本生成、图片绘制、视频编辑和游戏内容生成都可以被AI取代,并且正在加速,这使得AIGC渗透并改造了传统的产业结构。“在产业生态方面,AIGC正在加速形成三层产业生态并持续创新发展,正在走向模型即服务(MaaS)的未来”(见下图):
随着AIGC生成算法的优化和完善,AIGC不再是普通人高不可攀的尖端技术。AIGC的商业模式在文字、图像、音频、游戏和代码的生成中逐渐显现。2b(2B(to B)的简称)将是AIGC的主要商业模式,因为它将帮助B端提高效率,降低成本,以弥合数字鸿沟。
但可以预见的是,由于AIGC“原住民”的壮大,2C(简称2C(to C))的商业模式也会随之而来。据相关机构预测,2030年AIGC市场规模将超过万亿元,产业规模生态化(见下图):
现在,AIGC,尤其是在语言模型领域,已经开始了全方位的竞争。所以才有了微软对OpenAI的大规模投入,因为有一句话:“微软未来十年的想象力就藏在ChatGPT里。”近日,Google Watch宣布推出基于“对话应用语言模型”(LaMDA)的Bard,其搜索引擎将包含人工智能驾驶功能。
ChatGPT刺激谷歌突破“创新者困境”。未来很可能会出现Bard和ChatGPT的对抗或者共存,也就是LaMDA和GPT-3.5的对抗和共存,构成AIGC竞争和自然垄断的新生态。
在这样一种新的产业结构和商业模式下,就业市场将发生根本性的变化:首先,职业职场将被重组,相当一部分职业可能会衰落和消亡;第二,原本支撑IT和AI行业的码农团队面临严重萎缩。因为AIGC大大刺激了全球外包模式,取代了码农。
第十二,AIGC的法律影响和监督。尽管像AIGC这样的新技术带来了很多希望,但它们也会带来法律、社会和监管方面的挑战。在国内,继2022年1月国家互联网信息办公室、工信部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》后,2022年11月,国家互联网信息办公室再次与工信部、公安部联合发布《互联网信息服务深度合成管理规定》。该规定第五章第二十三条规定了“深度合成技术”的内涵:“利用深度学习、虚拟现实等合成算法产生文本、图像、音频、视频、虚拟场景等网络信息的技术。”但可以预见的是,由于AIGC技术的日益复杂和快速发展,国家很难避免专业性的缺失和监管的滞后。
第十三,AIGC正带领人类加速接近“科技奇点”。现在,人工智能已经接管了世界;世界正在经历一场由人工智能驱动的全球意识形态、文化、经济、社会和政治变革浪潮。AIGC呈现指数级增长速度,开始重塑各行业乃至世界的“数字化转型”。归根结底,这就是以AIGC为代表、以查特普特为标志的转变。这一切都将在2023年取得巨大进步,尤其是在资本和财富效率领域。
【注:2022年AI产业将接近3874.5亿美元,预计2029年将超过13943亿美元,这是一个巨大的市场机会。2023年,全球企业在人工智能上的支出将超过5000亿美元。】
如果说2022年8月的AI画《太空歌剧院》(thAtre d ' opra Spatial)把AIGC推向了公众视野,那么ChatGPT的底模GPT-3.5就是一个划时代的产品。它和通用语言模型(BERT/BART/T5)的区别几乎就是导弹和弓箭的区别。现在,蓄势待发的GPT 4号很有可能通过图灵测试。
【注:据韩国IT媒体报道,从2022年11月中旬开始,业界就传出GPT-4全面通过图灵测试的消息。】
如果是这样的话,不仅意味着GPT-4系统可以改造人类的思维和创造能力,形成人工智能超越专业化族群和大众化的趋势,还意味着这个系统开始具备人类的思维能力,并可能在某些方面和越来越多的方面取代人类。
【注:据《元宇宙邮报》报道,ChatGPT通过了宾夕法尼亚大学沃顿商学院的MBA考试。如果消息属实,图灵测试就快完成了。】
特别值得关注的是BLOOM(大规模开放科学获取多语言模型)的诞生,它被称为“人工智能彻底变革的先驱”。2021年3月11日至2022年7月6日,来自60个国家、250多个机构的1000多名研究人员在法国巴黎南部的超级计算机上进行了117天的训练,创造了BLOOM。这无疑是一场影响深远的历史变革的前奏。
斯坦福大学心理学和计算机科学助理教授丹尼尔亚明斯(Daniel Yamins)说:“人工智能网络没有直接模仿大脑,但它最终看起来像大脑,这在某种意义上表明人工智能和自然之间似乎存在某种趋同和进化。”
2005年,雷库兹韦尔(Ray Kurzweil,1948—)的代表作《奇点临近:当计算机智能超越人类》(《奇点临近:人类传递生物学的时候》)出版。通过计算奇点指数方程,该书得出了这样的结论:“2045年左右,世界上将出现一个奇点。
这一事件必将是一项重要科学技术的爆炸性突破,这项技术将彻底颠覆现有的人类社会。它不是手机那样的小奇点,而是可以相当于人类诞生的巨大奇点,甚至大到足以改变整个地球上所有生命的运行模式。\”
现在正处于快速发展状态的AIGC,一方面开始呈指数级扩张,另一方面其“溢出效应”也在改变着人类自身。在这个过程中,所有原本看似离散、随机的科技创新和科技革命成果,开始向AIGC技术汇聚。人工智能正在形成自我发展和完善的内在机制,加速人类社会超越数字时代,进入智能数字时代,逼近2045年可能出现的“技术奇点”。
参考资料:
1.Sohl-Dickstein等人(2015),“使用非平衡热力学的深度无监督学习”,doi:https://doi.org/10.48550/arXiv.1503.03585.
2.何等(2020),“去噪声扩散概率模型”,doi:10.48550/arXiv.2006.11239
3.安妮特拉弗顿(2021),“人工智能揭示了大脑如何处理语言”,https://news . MIT . edu/2021/人工智能-大脑-语言-1025。
4.新智元《5年后AI所需算力超100万倍》,2023年1月31日出版。
作者是横琴新区数字金融研究院经济学家、学术技术委员会主席。
本文是作者为《AIGC:智能创作时代》(中文译文出版社2023年2月出版)写的“序言”,原题《AIGC和智能数字化新时代——媲美新石器时代的文明范式转型》。