本文由李硕淼Frank撰写,作者意在作为发行伙伴为节奏BlockBeats贡献一份力量。李硕是ParallelVC的投资副总裁,曾供职于Node Capital。
本文分为六个阶段:
1.大家都在谈论的Web3.0到底是什么?
什么是Web3.0?分布式存储的发展过程及其在web3.0中的作用是怎样的?传统云存储的现状及分散存储的发展。Filecoin项目介绍Filecoin分析和未来发展预测。1.大家都在谈论的Web3.0是什么?
互联网的发展经历了Web1.0和Web2.0两个阶段。Web1.0阶段的网站多为静态网站,没有网络用户与网络信息的交互过程。用户只能获取网络上显示的信息,信息获取的有效性和效率相对较低。
随着网速和带宽的提高,人和互联网逐渐开始互动。2003年,奥莱利传媒副总裁戴尔多尔蒂(Dell Doherty)提出了web2.0的概念,Web2.0被称为读写网络。在web2.0的早期,与web1.0相比,所有网络用户都可以创建自己的内容并上传到网络,而不仅仅是从网络上获取信息,这大大增加了网络信息的丰富性。随着近年来AI、大数据等技术的进一步发展,人机交互被提升到一个新的阶段。捕捉并记录用户在互联网上产生的浏览信息、点击、搜索等在线行为数据。技术后台可以通过用户的实时数据结合其过往信息,分析出更加精准的用户画像,并根据用户画像为用户推荐相应的产品或信息。这样既提高了商家的购买转化效率,又能让用户更快的找到自己可能想要购买的商品,让用户体验更好。
但是,信息集中化在方便的同时,也有一个很大的弊端,那就是用户的所有数据都被平台手机在不知情的情况下使用,甚至数据的归属都是模糊的。
在web1.0和web2.0的早期,由于用户数据量小,数据维度相对较少,用户的个人数据无法产生太大的价值。然而,随着近年来人们使用网络的比重越来越大,网络上个人信息的价值也变得引人注目。近两年出现了互联网公司侵犯个人隐私数据,用户数据被窃取的案例。未来,随着人工智能物联网(AIoT)和5G网络的发展,个人网络数据的维度将更加全面和有价值,使得数据安全和数据隐私变得更加重要。
Web3.0的出现就是为了解决web2.0目前面临的问题。区块链网络由于其去信任、不可篡改、可确认的功能和性质,很好地满足了作为Web3.0底层技术的需求,同时由于网络架构的改变,数据不再是简单的数字,而是具有价值属性的商品,我们现有的数据网络慢慢转变为价值网络。
2.Web3.0需要分散存储
如前所述,如果你想构建一个去中心化的网络来保证数据的安全性和隐私性,你需要保证数据只能由它的所有者(数据生产者)控制,这包括获取或授权他人使用的权利。遗憾的是,目前互联网所有的存储方案都是集中式存储,主要的存储提供商是亚马逊、阿里云、谷歌云等中心组织。与此同时,互联网上产生的用户个人数据,现在也被各种平台和app占据。即使未来可以将个人数据的所有权归还给用户自己,用户也无法保证在集中存储的情况下,自己的数据不会被APP平台甚至存储提供商使用或修改。
此外,5G、AIoT等前沿技术发展迅速。未来,网络中个人数据的维度将进一步增加,数据的价值也将快速提升。只有使用分散存储,才能进一步保证数据的安全性和私密性。
如果没有分散存储技术作为分散网络的底层技术支撑,即使实现了分散信息传输和分散计算,也无法真正保证数据分散。因此,去中心化存储将是未来web3.0生态系统中不可或缺的技术组成部分。
三。传统云存储的现状
目前传统云存储领域可以分为公有云、私有云、混合云三种形式。公共云是目前最常见的云服务形式,由技术提供商拥有和管理,服务于多个客户端。同时,公有云可以分为三种技术形态:SaaS、PaaS和IaaS。
SaaS是“软件即服务”的缩写。这种服务将应用程序作为服务提供给用户。主要客户是个人、家庭和中小企业。国内主要的服务商是百度网盘和腾讯魏云,国外主要是Dropbox和iCloud。
PaaS是“平台即服务”的缩写。这种服务将开发平台作为服务提供给用户,主要客户是中小企业和个人开发者。中国的PaaS平台有百度云,国外开发的Openshift平台主要是针对Google App Engine和Red Hat。
IaaS是“基础设施即服务”的简称,主要是将虚拟机、云存储原件等云计算资源作为服务网络提供给用户。国内头部企业有阿里云、华为云,国外主要由亚马逊EC2提供此类服务。
与公有云不同,私有云、混合云更多服务于大型企业用户。私有云由一个企业或组织使用和维护,用户在个性化方面有更多的控制权,而混合云则是将公有云和私有云混合搭配的解决方案,以达到相对较高的性价比。
首先可以分析一下国内个人用户使用云存储的数据:根据极光2019年9月MAU份额数据,前四名分别是百度网盘、腾讯魏云、蔡赟、天翼云盘。
其中,百度网盘活跃用户份额达到82.9%。通过继续观察用户对百度网盘的兴趣爱好TGI,可以得出用户存储的主要数据是电影、动漫、体育相关内容。
在公司层面,数据显示目前有39%的企业在使用云存储相关的服务(如AWS、Azure、Google Cloud等。).根据预测,到2022年,使用云存储相关服务的企业数量将达到60%左右。在美国三大云存储公司中,微软Azure的市场份额为44%,AWS的市场份额约为32%,谷歌云的市场份额仅为19%。在Spiceworks2019公有云报告中,Azure也被评为最具竞争力的云服务提供商。同时,通过调查得知,79%的企业主在业务中主要使用Windows系统,微软的Azure云存储服务使用Windows系统的产品体验更好。
目前云存储服务架构已经比较成熟,用户可以根据自己的需求选择使用公有云、私有云或者混合云服务。其中,在公有云服务中,用户可以根据数据调用的频率选择不同的存储方式,在不影响使用的情况下,最大限度地节约成本。
与云存储相比,近81%的企业仍在使用传统存储矩阵,即硬件存储。目前,戴尔EMC的市场份额最高,为42%。据调查,80%的企业选择传统存储矩阵是因为其可靠性更高,他们还认为与云存储相比,传统硬件存储具有更高的隐私性和安全性。
在技术层面,传统云存储经历了三个阶段的迭代。第一阶段是基于NAS(网络附加存储)和SAN(存储区域网络)的存储架构方案。这种架构已经初步形成了云存储方案,但是由于服务器的地理位置较高,很难灵活调用不同的存储集群,因此在容量和性能的扩展上存在很大的瓶颈。
第二阶段的开始以EMC VPLEX体系结构的出现为标志。VPLEX在原有存储架构的基础上,实现了虚拟存储和异构存储的功能,解放了存储硬件的地域限制,解决了跨集群操作的问题。通过集成智能分布式缓存,可以跨主机、集群、数据中心访问和共享数据,大大提高了云存储的容量和可扩展性。它的服务类似于IAAS现在提供的服务。
第三个阶段是云存储的现阶段。目前云存储的底层架构是类云结构,多个存储设备互联,硬件设备根据不同需求智能切换。同时,多副本的一致性、容灾性和弹性扩展在原有基础上有了很大的提高。目前的云存储SaaS和PaaS平台可以为用户提供简单易用的存储服务。
四。分散存储的发展
在当前的云存储基础架构中,分布式架构由于其高性能、分布一致、支持分层存储等优势,已经成为一种标准。分散存储实际上可以归为分布式存储的一种。
与其他分布式存储方案相比,分散存储架构中的数据中心不会完全归云提供商所有,而是由网络中的多个节点共同提供,数据以加密的方式存储。这样,即使数据中心或存储硬件提供商无法获得保存的数据,也能更好地解决数据的隐私和安全问题。
目前,分散存储最具代表性的项目是IPFS和Filecoin。IPFS全称“星际文件系统”,中文称为“星际文件系统”。IPFS是一种底层网络传输协议,相当于当前互联网世界中的HTTP(超文本)协议。HTTP是一种相对简单的请求-响应协议,用于用户和服务器之间的交互。
IPFS的功能类似于HTTP,但是加入了p2p网络的架构特征。与HTTP协议相比,IPFS协议效率更高。HTTP是单线程通信,一个服务器上一次只能执行一个任务,而IPFS采用p2p进行多线程下载,可以节省50%以上的带宽成本。同时,由于目前互联网服务器的集中式,网络中的信息完全可以控制,难以保存。然而,如果使用诸如IPFS的分散协议,只要信息为网络中的任何用户所拥有,整个网络都可以获得该信息。
在分散存储生态系统中,IPFS主要承担底层技术协议的角色,其他具体的业务端解决方案将由layer2项目实现。目前,最有可能基于IPFS协议首次登陆的是IPFS团队开发的激励层Filecoin。这个项目已经启动了试验网,最快今年就会启动主网。
除了IPFS,还有很多项目在尝试分散存储,但目前没有实际进展,不想过多介绍。
5.读取Filecoin
Filecoin是基于IPFS协议的去中心化存储项目,通过协议在用户和存储服务提供商之间搭建桥梁,为用户提供去中心化存储服务。
Filecoin网络的参与者可以分为三部分:存储矿工、检索矿工和用户。存储矿工为去中心化的存储网络提供存储空间,同时在网络中抵押一些代币,防止矿工作恶。存储挖掘者需要向网络证明他们在特定时间内存储了用户的目标数据。如果不能,他们会扣除一定比例的抵押代币作为惩罚。
搜索挖掘者主要负责为用户提供网络中的数据检索服务。当用户发起需求时,搜索矿工需要在网络中找到相应的信息并发送给用户。同时也没有要求矿工参加网络。矿工可以同时成为存储矿工和检索矿工,也可以只参与其中一项。
用户在使用Filecoin时也有了更大的灵活性。一方面,用户可以将Filecoin网络作为网盘使用。用户只需注明想要存储的数据和报价,系统会将用户的报价与矿工的报价进行匹配。价格统一后,系统将用户的数据发送给存储矿工。
存储挖掘器根据数据的大小将数据放入不同的扇区(存储单元),然后对扇区进行封装和切片,交易信息将存储在网络中的哈希表中。在连续的命令过程中,节点会不断地挑战挖掘者,检查挖掘者是否保存了这个文件。这样就完成了整个存储的过程。
在数据隐私方面,用户可以在创建存储订阅时选择自己存储的数据是只支持个人查看还是对全网开放。如果对全网开放,那么全网每个人都可以通过搜索矿工来查询这个数据。用户将数据存储在几个不同的节点中。
共识算法方面,Filecoin使用了三种不同的共识算法:预期共识、复制证明和时空证明。
期望共识是Filecoin中用于指定块规则的共识算法,是一种基于概率的拜占庭容错算法。按照预期的共识,每生成一个新的区块,就要选出一个领导者来造区块。类似于BTC矿业,被选中的概率与整个网络中计算能力的比例成正比,但是在Filecoin网络中,是按照矿工提供的有效存储空间来计算的,而不是按照BTC网络中的计算能力来计算的。在网络的每个区块生成之前,矿工会根据前一个区块的票值,通过VRF和VDF的线性过程生成一个newticket,然后通过比较newticket的值和有效计算能力与整个网络总能力的比值,确认自己是否有资格走出该区块。如果新票证小于其有效计算能力/总网络计算能力,则该挖掘器被选为集总挖掘器。
与BTC网不同的是,Filecoin的选举方式可能会出现没有人出块或者很多人一起出块当领袖的情况。当没有人在区块之外时,网络中的高度显示为空白区块。因为也有可能多人同时阻塞,所以Filecoin团队将tipset——tipset设计为阻塞集合。像BTC网络,因为网络延时,可能同时存在两个tipset,但最终网络会根据权重选出一个唯一的tipset,向下发展链式机制。每个块的重量计算公式如下:
重量=父母重量ECV ECPrM *比率
目前ECV设为10,ECPrM设为100,比值就是当前节点的存储效率(本节点的存储容量/所有节点的存储容量)。换句话说,在目前的算法下,节点比例越高,权重越高。当权重相同时,票值小的tipset将被选中。由于这种技术设计,filecoin的底层架构更倾向于DAG结构。
复制证明一致性算法用于证明挖掘者确实完成了指定的工作。在Filecoin网络中,矿工的主要工作是存储用户的数据。矿工需要将用户的数据封存在一个扇区内,在封存的过程中,系统会生成一个DRG(Depth-Robust-Graph),也称为副本值。只有对应于产生的副本值的存储空间才能被认为是有效存储空间。
空间证明共识最终负责验证步骤。每生成一个新块,网络都会随机挑战挖掘者,挖掘者需要提供副本值进行验证,通过零知识证明进行验证。如果结果正确,说明矿工已经正常存储了封装的数据,其有效存储份额保持不变。如果副本值之一不能被正确验证,则与该副本值对应的存储空间将从有效存储空间中移除。
6.Filecoin的发展前景如何?
目前Filecoin的技术方案与传统成熟的云存储方案还有较大差距。下面就对Filecoin目前存在的问题做一个简单的分析。
1.信息安全问题
与传统的集中式存储相比,分散式存储最大的优势在于可以更好地保护数据安全的隐私性。然而,Filecoin目前的设计让人对数据的安全性和隐私性产生了质疑。
具体来看用户存储的流程:订单匹配成功后,用户会将原始数据直接发送给矿工,此时用户的数据没有加密分段。矿工可以直接访问完整的用户数据,而不会被网络或用户检测到。按照这种技术方案,Filecoin中用户个人数据的隐私安全将受到极大威胁,其安全性和隐私性甚至弱于传统的云存储方案。同时,在存储过程的前期存在导致数据直接泄露的漏洞,因此在后续过程中加密、分段等保证数据隐私的方法也变得毫无意义。
另一方面,由于用户的所有数据都存储在矿工的硬盘中,如果矿工因为某种原因放弃挖掘,用户存储在这里的数据将从网络中完全丢失,并且在矿工发射前,网络中没有相关机制供用户检索自己的数据。诸如此类不可预测的事件也大大降低了存储在Filecoin网络中的数据的安全性和可靠性。
同时,根据本项目AMA提到的信息,Filecoin只是一个协调存储提供商和用户需求的协议,并不能要求存储提供商做指定的操作。虽然这降低了分散化的风险和平台对用户数据的操纵,但它降低了存储提供商的邪恶成本。即使存储应用方要求存储提供方删除或销毁其存储的数据,存储提供方也可以欺骗用户私自复制用户数据甚至强行不执行用户的要求。目前传统云存储的技术设备或服务提供商都是大公司,出现问题后可以立即确定责任方,开始解决问题。而Filecoin等去中心化网络中的矿工相对分散且不为人知,这也给问题发生后的后续解决造成了很大的障碍,使得其综合安全性弱于集中存储。
2.用户体验问题
根据白皮书中的整体描述,Filecoin的用户体验应该是差的。首先,Filecoin项目除了最简单的存储功能,并没有为用户提供任何额外的技术服务,比如灾难恢复解决方案。用户只能将自己的文件保存到几个不同的节点,以应对存储单元断开连接、损坏,导致数据无法访问甚至数据丢失的问题。对于不懂技术和容灾的用户来说,可能会导致用户数据的永久丢失。
另外,因为上面提到的信息安全问题,用户如果想进一步保证自己数据的安全,需要对文件进行加密后再存储。这对用户的操作要求更高,用户体验更差。
3.存储技术方案不完整。
目前Filecoin的技术方案并不完备,这是影响用户使用其存储网络的一个重要原因,比如上面提到的容灾。按照Filecoin目前的设计方案,用户每次存储的数据都会由一个矿工独立存储,其他矿工不会主动存储这个文件的备份。这比传统云存储需要更多的容灾技术,因为传统云存储主要是设备本身的技术原因,而Filecoin需要在防止设备本身技术故障的同时,防止存储矿工因各种主要原因停止提供服务。造成这种情况的因素会远远多于造成简单技术故障的因素,解决方法也会复杂很多。
目前Filecoin解决容灾问题的方法是让用户将数据存储在多个矿工中进行主动备份。但是在网络初期,由于矿工自身的不稳定性,不排除会出现多次备份数据甚至全部备份丢失的情况,这对用户和网络的运行都会是很大的打击。
同时,由于纯主动备份,无法解决存储网络的冗余问题。在传统存储中,由于存储是集中式的,系统可以在后台对所有数据进行分析、处理和优化,去除重复数据,提高存储网络的效率。虽然用户存储的非公开数据因为去中心化不能这样处理,但是对于用户存储的公开数据,如何结合IPFS网络的特点优化数据存储结构,是团队需要认真研究的一个方向。
上面提到的三个问题在不同程度上制约了Filecoin未来的发展。从文章开头对传统存储市场的分析可以看出,目前的存储市场基本分为两类:第一类主要服务于个人和小型企业用户,主要以SaaS平台的技术形态存在。经过多年的发展,SaaS平台的用户体验和产品种类已经相对成熟。同时百度等云盘应用。com和Google Drive在文件传输、文件搜索或协同办公方面各有特色和优势,Filecoin本身在竞争中并无优势。如果数据安全还存在漏洞,那么filecoin将无法在这场竞争中生存。
即使解决了数据安全问题,从真实的存储需求来看,Filecoin的发展目前也不容易乐观。根据文章开头提供的中国网盘用户存储数据可以看出,云盘TGI用户前三名主要是电影、体育、动漫。这些类型的相关视频或图片数据更注重交流而非隐私,比分散存储更有优势,用户可以分享或查询。
真正需要分散存储的数据大致可以分为两类:一是个人照片、私人文件等类型的数据对分散存储的需求较大,但这类数据在目前的股票市场中相对较少。二是未来个人物联网配置产生的个人数据。但由于现在小米等头部物联网设备公司都将用户数据视为重要资产,并能通过其产生巨大价值,所以头部公司不会在没有具体规定的情况下将用户数据返还给客人。如果头部企业不愿意归还个人数量,分散存储不适用,那么即使个人用户愿意使用也没有意义,因为没有达到其根本目的。
第二类用户是大中型企业。大中型企业使用云存储主要是为了存储公司相关的数据,因此对存储方案的可靠性、安全性和私密性有很高的要求。目前传统的解决方案有公有云、私有云、混合云和传统存储矩阵。私有云与传统存储硬件的结合,解决了企业客户对公有云数据隐私的担忧,也能满足客户对存储解决方案可靠性和安全性的需求。目前Filecoin在三个方面落后于传统云存储方案,无法与之竞争。与传统存储矩阵相比,分散存储带来的好处并不是传统存储矩阵的用户所追求的,因此很难在这些用户中进行转化。对于去中心化存储,未来有可能开始开发ToB相关的服务,既能保证数据的可靠性、安全性和隐私性,又能使价格低于传统的云存储方案。
除了技术因素,Filecoin项目还有很多不确定性。
首先是团队因素。2018年,两大线上承诺均未兑现。挖掘从CPU挖掘变成了GPU挖掘,同时在试网阶段改变了挖掘规则。虽然后来的改动是为了防止矿工恶意刷垃圾数据,但这样频繁的改动降低了用户和网络参与者的信任度。
此外,到目前为止,Filecoin挖矿激励机制和分配规则尚未确定,进一步增加了项目的不确定性。
最后,Filecoin的挖掘逻辑不同于其他类型的POW挖掘。该项目需要矿工长期参与,不能中途退出,因为矿工退出时数据可能会永远丢失。但Filecoin挖掘的具体细节过于复杂,收入情况难以预算,也增加了不可控因素。届时能否有足够的矿工参与并顺利留下来,是一个值得关注的问题。同时也只能判断中间矿工离开后会对网络产生十几个影响。
价格方面,因为上面提到的各种技术和产品问题,Filecoin需要一个相对于传统云存储有吸引力的价格来降低用户的使用成本。
通过以上分析,我们可以知道,现阶段Filecoin的主要竞争对手将是传统云存储系统中的Saas应用,因此以下将对市场上主流的toB和toC的SaaS服务收费方案进行梳理,以供读者参考:
Dropbox:
个人版免费提供2G存储空间,加版提供2T存储空间并提供文字搜索、手机离线存储等服务。专业版每月提供3T存储空间,同时在Plus的基础上提供AutoOCR、文件协同编辑、文件锁定等服务,月服务130元人民币。
ToB版,plus每月81元提供5T存储空间和2G文件传输容量,3人起。专业版是每人每月130元,提供无线数据空间和300G文件传输容量,也是三个人卖。
方框:
个人版免费提供10G存储空间,单个文件上传大小限制在250M。收费版本分为5美元/月、15美元/月、25美元/月和35美元/月。5美元计划提供100G存储空间,单个文件上传大小限制为2gb;15美元的机会提供无线存储空间,单个文件上传大小限制在5GB。同时盒子可以连接一个app,app数据可以直接存储在盒子里。25美元的计划允许连接三个应用程序,而35美元的计划允许连接无限个应用程序。
百度网盘:
百度个人网盘付费计划如上图所示。svip每月18元,普通会员每月8元。非会员在完成任务前拥有15G存储空间,完成一系列分享任务后将获得2T存储空间。
上图是百度企业网盘的介绍和价格。
与上面列出的三家集中式存储提供商相比,Filecoin很难在企业级服务上与他们竞争。在个人服务方面,Filecoin只能通过定制更灵活的支付方案和更低的价格与之竞争。同时,Filecoin等分布式存储项目也需要尽力丰富附加功能,以提高竞争力。
七。分散存储的未来发展分析
相对于集中式云存储行业,无论是技术架构还是运营模式都相对成熟,而分散存储的概念也是近两年才提出来的,无论是技术设计还是运营模式都有很大的提升空间。分散存储的发展应充分借鉴成熟的云存储方案,并根据自身特点对方案进行改进。
完全否定之前所有集中存储的技术方案过于草率,试图用新的不完善的方案直接替代原方案也难以得到市场的认可。只有在创新和传统之间找到良好的平衡,才能创造出符合市场需求的产品。
目前像ipfs这样重新建立底层网络协议是非常好的尝试,但是可用性比较差,很难满足存储用户的根本需求。相对而言,利用区块链技术在当前公有云上搭建夹层可能是更好的选择,因为这种方案既能全面调度高性能存储资源,又能保证用户信息的私密性,同时还能充分享受传统云存储完整的存储技术体系。这样的落地方案可以相对快速的实现去中心化需求,保证数据的安全性和私密性,同时给去中心化存储技术足够的发展时间。它不仅给了用户充分了解集中式存储的时间和机会,也有利于将来去中心化技术的大规模实现。但不可否认的是,只有不断创新,尝试去中心化的生态存储,才能开辟出一条适合自己的道路。