区块链网站|NFTS 区块链技术 区块链行业专题研究:AIGC时代的生产力工具~Web3

区块链行业专题研究:AIGC时代的生产力工具~Web3

广告位

区块链行业专题研究:AIGC~Web3时代的生产力工具

(报告监制/作者:郭盛证券、宋佳吉、金宇鑫)

1.2022:AIGC崛起之年最近,硅谷很多一线风投开始将目光投向AI创业公司,尤其是生成式AI艺术领域,今年9月23日,红杉官网发表了一篇名为《生成式 AI:一个创造性的新世 界》的文章,认为AIGC(AI-Generated Content人工智能生成内容)将代表一个新范式转变的开始。2022年10月,英国开源人工智能公司Stability AI宣布获得1.01亿美元融资,估值高达10亿美元。它是独角兽之一,Coatue,Lightspeed Venture Partners和O'Shaughnessy Ventures LLC参与了投资。今年,Stability AI发布了稳定扩散模型,主要用于根据用户输入的文字描述自动生成图像。稳定扩散的诞生,让AI绘画领域越来越火爆。近日,巴比特官方宣布全面拥抱AIGC,开始大规模采用AI地图,其中头条图片由AI打造。包括但不限于巴比特网站和APP,微信微信官方账号、百家号、网易等自媒体平台,微博等社交媒体账号。

除了绘画,文字、音频、视频都可以由AI生成。

正文:以Jasper为例,AI文本生成是主要产品。通过其文本生成功能,用户可以通过生成Instagram标题来编写抖音视频脚本、广告营销文本、电子邮件内容等作品。到2021年,Japer拥有超过70,000名客户,并创造了4,000万美元的收入。

音频:以Podcast.ai为例。作为AI生成的博客,每周讨论一个话题。在第一期节目中,通过乔布斯的传记和收集网络上所有关于他的录音,对Play.ht的语音模型进行了大量训练,最终生成了一个假的乔罗根(Joe Rogan)采访乔布斯的播客内容。

视频:现在的AI技术不仅可以生成图片,还可以序列帧,比如:《幻觉东京》。160个小时,完成3万多张独立插画,然后手动微调。目前,画面生成只是在原始剧本和视频的基础上,通过AI一帧一帧地完成,但AIGC有可能参与视频创作。但在很多垂直应用中,比如体育、财经,对应的短视频已经可以直接用文字生成,如果再配上虚拟人,就可以自动播放了。相对于单一的虚拟人阅读稿件,基于AIGC制作的内容在镜头转换、表情动作组合等方面更加真实。

随着NLP(自然语言处理)技术和扩散模型的发展,AI创造和生成内容成为可能。以前,主要通过使用GAN(生成对抗网络)来实现内容生成。与扩散模型不同,GAN依赖于超大规模的语言模型,因此难以实现对文字的描述、独立理解内容以及创建图像和视频。近年来,随着扩散模型的成熟,生成模式更接近人脑的联想,AIGC完成了从内容创作的辅助工具到内容创作主体的角色转换。

2.什么是AIGC?AIGC是一种通过人工智能技术自动生成内容的制作方法。从Web 1.0单向信息传递的“只读”模式,到Web 2.0人与人双向交流的“互动”模式,人们对内容的需求不断增加。为了满足这种需求,也因为互联网的发展,内容的生成从单一的PGC发展到现在的UGC并占据了主要市场。Youtube、Instagram、Tik Tok、Aauto Quicker和B都有大量来自UGC创作者的内容。当我们进入Web3.0时代,人工智能、关联数据和语义网络被构建,形成了人机网络的全面链接,内容消费需求快速增长。像UGC\\PGC这样的内容生成方式将很难匹配不断膨胀的需求。

我们相信,AIGC将是Web3时代全新的内容生成工具,也将对现有的短视频、游戏和广告行业产生巨大的冲击。AIGC的产生是利用人工智能来学习知识图谱并自动生成。内容的创建为人类提供帮助,或者内容完全由AI生成。它不仅可以帮助提高内容生成的效率,还可以提高内容的多样性。

2.1 Brief发展简史

AIGC的发展大致可分为以下三个阶段:早期萌芽阶段:20世纪50年代至90年代中期,AIGC因技术水平所限,仅限于小规模实验;沉积阶段:90年代中期到1910年代中期,AIGC从实验转向实践,受限于算法,无法直接生成内容;快速发展阶段:21世纪10年代中期—现在,深度学习算法不断迭代,AI生成的内容多样丰富,效果逼真。近年来,AIGC发展迅速,从原来作为边缘方服务企事业单位的角色,发展成为可以被C端零基础用户使用的创作工具。在开发重点上,AIGC也从原来的用于翻译、语音合成、重复性工作,向更注重应用层面、让用户操作方便的方向转变。

2.2技术

随着NLP(自然语言处理)技术和扩散模型的发展,AI不再仅仅作为内容创作的辅助工具,创造和生成内容成为可能。

自然语言处理技术

自然语言处理是通过自然语言实现人与计算机交互的一种手段。结合语言学、计算机科学和数学,计算机可以理解自然语言,提取信息并自动翻译、分析和处理。

在自然语言处理技术发展之前,人类只能通过一些固定模式的指令与计算机交流,这是人工智能发展的重大突破。自然语言处理可以追溯到1950年。图灵发表了他的论文《计算机器与智能》,提出了“图灵测试”的概念,作为判断智能的条件。这个测试包括自动语义翻译和自然语言生成。

自然语言处理技术可以分为两个核心任务:

自然语言理解NLU:我希望计算机能像人一样,拥有正常人的语言理解能力。过去计算机只能处理结构化数据,NLU使计算机能够识别和提取语言意图,实现对自然语言的理解。由于自然语言的多样性、模糊性、知识依赖性和上下文,计算机在理解上有很多困难,所以NLU仍然远远落后于人类的表现。自然语言理解类似于人工智能的整个发展史,有三次迭代:基于规则的方法、基于统计的方法和基于深度学习的方法。

NLG(自然语言生成):将非语言格式的数据转换成人类能够理解的语言格式,如文章、报告等。NLG的发展经历了三个阶段,从早期简单的数据合并到模板驱动模式,再到现在先进的NLG,使计算机能够理解意图,考虑上下文,并将结果以用户易于阅读和理解的叙述形式呈现。自然语言生成可以分为以下六个步骤:内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现。

NLP主要用在四个方面:情感分析:网络上的信息很多,表达的内容五花八门,但表达的感受大致可以分为正面和负面,可以用来快速了解用户的舆情。聊天机器人:近年来,智能家居的发展和普及,扩大了聊天机器人的价值。语音识别:微信可以语音输入或者直接把语音转换成文字,车载导航可以直接说出目的地,大大提高了便捷性。机器翻译:机器翻译的准确率近年来有了很大的提高。youtube和网飞甚至可以做视频机器翻译。

在商业上,NLP主要应用于以下领域:在金融、医疗、零售、政府等部门用于处理手写或机器构建的文件。字处理任务,如命名实体识别(NER)、分类、摘要和关联检索。这可以使捕获、识别和分析文档信息的过程自动化。语义搜索、信息检索和知识图构建。面向零售、金融、旅游等行业客户的交互式AI系统等。

神经网络,尤其是递归神经网络(RNN),是自然语言处理的核心。其中,Google在2017年开发的Transformer模型已经逐渐取代了长时和短时记忆(LSTM)等RNN模型,成为NLP问题的首选模型。Transformer的并行化优势允许它在更大的数据集上进行训练。这也有助于发展预培训模式,如伯特和GPT。这些系统使用维基百科、通用抓取和其他大型语料库进行训练,并可以针对特定任务进行微调。

Transformer模型是一种使用自我注意机制的深度学习模型,可以根据输入数据各部分的重要性分配不同的权重。除了NLP,它还用于计算机视觉领域。与RNN一样,Transformer模型旨在处理自然语言等顺序输入数据,并可应用于翻译、文本摘要和其他任务。与RNN不同,Transformer model可以一次处理所有输入数据。注意机制可以为输入序列中的任何位置提供上下文。如果输入数据是自然语言,那么Transformer不必像RNN那样一次只处理一个单词。这种架构允许更多的并行计算,从而减少了训练时间。

AIGC世代模型

近年来,AIGC的快速发展归功于在生成算法领域的技术积累,包括:生成对抗网络(GAN)、可变差分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型。可见,大模型、大数据、大计算力是未来的发展趋势。我们认为算法模式的突破是AIGC近年来快速突破的催化剂。这里,我们将介绍两种常用的模型,即对抗网络的生成和扩散模型。

对抗网络的生成

2014年,Ian J.Goodfellow提出了GAN,这是一种深度神经网络架构,由生成网络和判别网络组成。网络生成“虚假”数据,试图欺骗和歧视网络;判别网络判别生成数据的真实性,试图正确识别所有“假”数据。在训练迭代的过程中,两个网络不断进化,相互对抗,直到达到平衡状态,判别网络不再能识别“虚假”数据,训练结束。

GAN广泛应用于广告、游戏、娱乐、传媒、医药等行业。它可以用来创建虚构的人物和场景,模拟面部老化,改变图像风格,并生成化学分子式等。

本发明优点在于能够更好地对数据分布进行建模。不需要使用马尔可夫链重复采样,学习过程中不需要推理,没有复杂的变分下界,避免了概率近似计算的难题:难以训练,不稳定。而且发生器和鉴别器需要很好的同步,但是在实际训练中容易出现鉴别器收敛,发生器发散的情况。两者的训练都需要精心设计。模式崩溃问题。在GANs的学习过程中,可能会出现模式丢失,生成器开始退化,总是生成相同的样本点,无法继续学习。

模型扩散模型

扩散模型是新一代模型,可以生成各种高分辨率图像。在OpenAI,Nvidia和Google成功训练大模型后,他们吸引了很多关注。基于扩散模型的示例架构包括GLIDE、DALLE-2、Imagen和完全开源的稳定扩散。扩散模型有潜力成为下一代图像生成模型的代表。以DALL-E为例,它可以通过文字描述直接生成图像,让计算机具备了人类的创造力。

扩散模型的生成逻辑比其他模型更接近人类的思维方式,这也是AIGC近来具有开放性创造力的原因。本质上,扩散模型的工作原理是通过不断加入高斯噪声来破坏训练数据,然后通过逆转这个噪声过程来学习恢复数据。在训练之后,我们可以通过简单地将随机采样的噪声转移到学习去噪过程来生成数据。

与其他模型相比,扩散模型的优点是生成的图像质量更高,不需要进行对抗性训练,提高了训练效率。同时,扩散模型具有可扩展性和并行性。

高斯噪声是概率密度函数符合正态分布的函数。当AIGC使用扩散模型来生成内容时,它会逐渐去噪一个纯白画布(随机白噪声),以生成最终的目标绘画。即用户给出的文字描述形容词,来逐渐具体化一个模糊的概念。我们可以将其简化为多个正态分布函数的叠加,模型选取重叠的区间输出,也是一个逐渐缩小范围的过程。这和人类的思维模式非常相似。简而言之,在AI训练阶段,我们在数据集中训练上亿对图文,提取特征值;在制作过程中,通过添加文本描述,引入不同特征值进行去噪,制作出一部AI理解下的内容作品。举个例子,当我们在脑海中想象一个画面,比如:一只柯基犬通过小号玩着火焰。我们的思维模式是先有一只柯基,再想象小号和火焰,最后把这些元素叠加在柯基上。

简单描述了原理后,我们可以用目前非常先进的AI图像生成应用DALL-E2为例来说明具体的工作过程:将文本提示输入一个经过训练的文本编码器,将提示映射到表示空间;通过称为“先验”的模型,文本编码被映射到图像编码器中。该图像编码器将捕获包含在文本编码中的信息和语义;编码器随机生成图像,该图像是语义信息的视觉表示。这个过程类似于人类的思维模式。在生成过程中,涉及到文本编码器的概念。目前主流的文本编码器是来自OpenAI的Clip模型,通过4亿组文本-图片对进行训练。当然,模特培训是以英语为基础的,语言的差异会给AIGC带来另一个挑战。

除了上面提到的自然语言处理技术和AIGC生成算法模型,超级计算机和计算能力也是不可或缺的基础设施。在机器学习的过程中,需要大量的训练才能达到更准确的结果。这种计算量是普通计算机做不到的。目前主要由Nvidia A100搭建的计算集群来完成,国内外初创企业也会通过云端来实现。

2.3当我们开始探索AIGC——的商业模式时

AIGC已经广泛应用于文字、图像、音频、游戏、代码的生成,一些创立较早的企业也取得了不错的商业化。特别是在一些重复性任务高、精度要求低的领域,更加成熟。随着AIGC技术的发展,其应用将逐步扩大。大多数时候,这种AIGC服务的提供者将通过提供SaaS服务来实现。

写作创作

目前,AIGC生成词主要用于新闻写作、特定格式写作和文体改写。其中,成立不到两年的独角兽公司Jasper在最新一轮融资中获得1.25亿美元,目前估值15亿美元。Jasper成立于2021年,是一个AI内容平台,允许个人和团队使用AI创建内容,主要用于商业。在Jasper的帮助下,用户可以生成关键词丰富、搜索引擎优化的原创博客,并可以请Jasper帮助完成文章的创作,通过文字描述来打造广告修辞。通过Jasper,用户可以找到创意,高效完成文案,突破语言障碍,没有抄袭的嫌疑。目前,Jasper拥有超过7万名客户,包括Airbnb、Ibm等企业。仅在2021年,它就创造了4000万美元的收入,今年的预计收入为9000万美元。

用户可以输入目标文章的描述或需求,系统会自动抓取数据,根据我们描述的指令进行创建。笔者进行了如下实验,输入描述为【写一章关于AIGC,应包括AIGC的定义、发展历史、应用、发展现状以及对未来发展趋势的看法,同时包括细节和实例】。同时在风格上选择了“专业”。贾斯珀很快生成了一篇AIGC写的AIGC文章(如下图所示)。可以看出这篇文章语义通顺,根据我们的描述逐段讲解,并包含了一些例子。这种世代效应无疑会大大提高人类的写作效率。而且在Jasper的web APP上,给出了上百个模板,可以更好的按照要求完成作品。

图像创建

中途降低了艺术绘画创作的门槛。用户只需要输入文字描述,计算机就会自动生成一幅作品。这背后的逻辑在于,计算机通过NLP识别语义并翻译成计算机语言,结合后台数据集(这些数据集主要是通过自身素材或机器人抓取公开版权的内容获得的)创作出一部全新的作品。此类作品原则上属于AI创作,因此被广泛应用于新闻媒体等平台,既降低了成本,又避免了潜在的版权纠纷风险。此外,在Tik Tok、微信和其他社交平台上,一些数据集博主通过AIGC创作素材,并结合其私人领域流量进行商业变现。

近日,OpenAI与全球最大的版权图片供应商之一Shutterstock达成深度合作。Shutterstock将开始销售OpenAI的DALL-E生成的图片,禁止销售非DALL-E生成的图片,完成深度专属绑定。除了众所周知的代画,AIGC还可以利用该功能完成文字和图片的相互转换,在撰写专利时可以使用。

视频创作

除了绘画,AIGC还可以用于视频创作。谷歌引入了AI视频生成模型Phenaki可以根据文本内容生成可变长度视频的技术。在公布的演示中,Phenaki只需要两分钟,就可以在数百个单词的基础上形成一个逻辑连贯的视频。相对于imagen原始衍生的Imagenvideo针对短视频,Phenaki针对长视频。随着AIGC视频的应用,我们可以看到虚拟人在未来也可以作为演员在电视剧中扮演不同的角色,以提高内容输出的效率和多样性。

音频剪辑

AIGC制作的音频早已在我们的日常生活中使用。我们常用的手机导航可以切换不同明星甚至动漫人物的语音提示。这是通过要求明星或动漫人物的配音提前朗读到音标库中,然后通过反复训练学习,用指定的声音说什么都可以。我们还可以通过高德地图录制自己的语音导航包。更深层次的应用将是虚拟人领域。AIGC不仅能生成虚拟人的声音,还能创造口语内容。虚拟人未来有望像我们一样表达思想,灵魂也会逐渐显现。

游戏开发

AIGC在游戏中的应用可以分为两个方面。一方面用来搭建场景和故事。开放世界游戏越来越受欢迎。通过AIGC创造场景和NPC将大大提高效率,降低成本。另一方面,玩家可以通过AIGC的平台工具创建自己的虚拟人,用于游戏中的打金等活动。一款名为Delysium的游戏已经开始引入这一功能。或许在未来的开放世界游戏中,不同的玩家会对应不同的游戏剧情和副本,这无疑会是一个令人兴奋的应用。

代码生成

GitHub Copilot是GitHub和OpenAI联合出品的AI代码生成工具,可以根据命名或编辑的代码上下文,向开发者提供代码建议。官方上,它已经被GitHub上公开可用的存储库中的数十亿行代码训练过,并支持大多数编程语言。

3.AIGC AIGC的未来发展趋势是继PGC和UGC之后的一种全新的内容生产模式。它不仅可以提高内容生产的效率,满足我们快速增长的内容需求,还可以丰富内容的多样性。在2022年百度世界大会上,李彦宏提到:“AIGC将经历三个发展阶段:第一个阶段是“辅助阶段”,AIGC用于辅助人类进行内容生产;第二阶段是“协作阶段”,AIGC以虚拟人的形式出现,虚拟现实与虚拟现实并存,形成人机共生的局面;第三阶段是“原创阶段”,AIGC将独立完成内容创作。未来十年,AIGC将颠覆现有的内容生产模式,可以十分之一的成本、百倍的生产速度生成AI原创内容。”

3.1面临的挑战

从技术上来说,虽然目前生成的图片和文字已经可以用于商业用途,但仍然存在一些问题,无法满足更高的质量要求。我们可以发现,AIGC在生成二次或抽象图像方面表现出色。但是,对于更具体、更详细的内容,生成的效果并不理想。下图是作者通过AIGC生成的“美女与布偶猫”图片。从这张图中可以发现两个存在的问题:其中两张图中的猫眼非常奇怪,在这些细节上无法与真正的画家相比。输入的关键词是“美女”和“布偶猫”,但生成的“美女”都有一张猫脸,反映出AIGC画作在空间位置和数量上会有一些偏差。究其原因,主要来自语义理解和处理的问题。

同时参考上面的图表23可以发现,不同的应用平台输入信息点几乎完全相同的文字,生成的图片质量和内容差异巨大。那么造成以上问题和差距的原因是什么呢?我们还是可以从AIGC的工作原理来分析:对自然语义的理解在处理一些空间关系上还是有一些误差的,这也是空间位置和数量存在不精确问题的原因。目前,当文本生成图像时,需要使用文本编码器来将文本映射到图像。目前主流且训练良好的Clip模型来自OpenAI,其功能是开源的,但训练数据集是封闭的。AIGC需要大量具有良好图像质量的文本-图片对来训练到剪辑的水平。从Clip自己透露的信息来看,它使用了超过4亿个文本-图片对来完成训练,所有这些都是基于英文的。那么就有以下问题:1。获取其他语言上亿高质量文图对的难度大大增加,这也是为什么除了英语之外的其他语言大部分AIGC都需要在整个流程之前增加一个翻译步骤。这一步不仅涉及语义理解,还涉及文化、语言习惯等潜在因素。很难做到准确翻译,这对翻译模式提出了很大的挑战。2.这种剪辑模式很难复制。即使使用Clip的开源功能,基于不同数据库的训练结果也是不一样的。据我们了解,海外团队已经用了20亿个文图对近乎复制剪辑;使用不同的AIGC生成算法也会导致生成内容的差距;数据集的质量、合规性和风格偏好都将决定生成内容的质量。

3.2未来发展方向

从上面我们知道应用软件还有很大的改进空间,比如自然语言处理,翻译模型,生成算法,数据集。进一步说,以上的发展需要计算能力和数据的支持。所以未来的发展重点会更加集中在大模型、大数据、大计算力的方向。同时,为了让功能更加精准,还会开发更多的垂直应用。毕竟垂直应用可以更有针对性的针对具体功能进行培训,成本也相对较低。

4.投资分析:AIGC的软件、硬件和数据集从PGC到UGC再到AIGC。AIGC可以让人类突破内容生产力的束缚,高效生成优质内容,让人类进入真正的元宇宙。如果AIGC能够满足元宇宙的要求,独立完成高质量、高精度的内容,AIGC的技术水平还需要一定的发展。我们可以将其分为两个维度:软件层面主要包括自然语言处理技术、AIGC生成算法模型和数据集,硬件层面主要包括计算能力和通信网络。从商业角度,结合国内外的发展,AIGC知识产权的归属仍然存在法律空缺,创作的伦理问题也没有得到有效解决。因此,高质量和干净的数据集对模型训练和内容生成具有至关重要的影响,无论是在技术方面还是商业方面。同时,随着AIGC的逐步落地,其对计算能力的需求将大大增加。未来相关企业除了云计算之外,还会组建自己的计算能力集群。考虑到NVIDIA A100和H100出口有限,相关国产计算能力芯片将有机会获得增量市场。

从主题投资的角度来看,区块链、元宇宙、Web3都描述了数字经济时代的宏大应用场景,虚拟人、NFT等。去年被资本市场关注的,只是其中一个具体应用。我们认为,AIGC将是推动数字经济从Web2向Web3升级的重要生产力工具:一方面,它将对现有的杀手级应用,如3354短视频、游戏等产生颠覆性的影响,或进一步拓展内容,改善成瘾,为社交和广告提供新的工具;另一方面,在Web3的开放和共建价值观下,UGC和AIGC的内容将更具吸引力,二次创作和开放想象的浪潮将会到来。目前,AIGC已经成为硅谷最新的热门方向,国内一级市场、互联网厂商等都更加关注AIGC应用。

(本文仅供参考,不代表我们的任何投资建议。有关信息,请参阅原始报告。)

精选报告来源:【未来智库】。出现系统错误。

广告位
本文来自网络,不代表区块链网站|NFTS立场,转载请注明出处:https://www.qklwz.com/qkl/jishu/35402.html
上一篇
下一篇

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

返回顶部