摘要:我们不需要知道现象背后的因果,我们只想让数据自己说话。那么,在区块链时代,如何让端到端的加密数据发声呢?
大数据时代,我们不需要知道现象背后的原因,我们只需要让数据自己说话。
—— 《大数据时代》维克多迈尔-勋伯格
随着移动互联网和大数据技术的发展,我们可以享受数据带来的红利。购物、打车、理财等应用或服务收集用户信息,提供精准、个性化的服务,给人们的生活带来了极大的便利。
然而,在这些便利的背后,数据分析师放弃了对数据“结果”的追求,而选择追求一种“连接”,来寻找数据之间的关联性,洞察我们的需求,提供更有针对性的服务。
在区块链网络中,数据呈现端到端加密的特点,远比互联网数据更加严谨,更难发现这些数据背后的“结果”;但对于从业者来说,找到这些数据之间的关联,提供“定制服务”,判断发展趋势,同样重要。
一、市场刚需,加密数据怎么用?大数据分析的本质在于挖掘数据与真实信息之间的关系。通过海量的数据分析,甚至一个特殊事件的数据解读,我不再热衷于追求数据分析的准确性。只需让数据听起来合理,并提供行动指南。
但区块链数据由于其匿名性,不容易被发现,但通过对过去某一现象背后的数据进行综合分析,可以为未来类似事件提供前瞻性的建议或预警。
区块链大数据技术已经广泛应用于交易所、钱包、安全机构等业务场景。通过分析交易信息的特征,可以得到交易与潜在风险之间的关联,避免黑客偷钱、洗钱等违法犯罪行为,帮助用户追回受损资产。
Chaindigg创始人茅野举例说,一些黑客盗取数字货币后,有时会开出远高于市场标准的手续费,让挖矿者率先确认自己的交易,从而快速实现资金转移的目的。那么面对一些不合理的手续费,交易所可以区分这类地址,降低风险。
区块链大数据可以说是当前市场的刚需。互联网中可以诞生的大数据技术,还需要做一些改变,以适应区块链数据的特点。
与互联网上的数据构成相比,区块链的数据更有规律。所有信息按照区块组织排列,每个区块包含的交易数据按照公链设定的逻辑排列,大部分区块在时间上有先后顺序,因此在数据挖掘和数据搜索的过程中可以精确指定某个时间节点;而互联网大数据由于没有一致的标准和时序,往往会产生大量的异构数据,只有统一处理后才能进行分析。
区块链数据比互联网数据相对简单。区块链大数据可以分为相对较少的维度,一般分为交易发起方、交易接收方、交易时间、交易金额、交易频率等维度。简单的要素将有助于更好地分类和分析数据。
处理区块链大数据,了解数据特征只是基础,更重要的是要保证两个关键因素:准确率和召回率。
二、数据处理,如何保证数据分析的准确性?区块链大数据不仅要考虑数据的特性,还要考虑数据的准确性和信息在相关维度上的关联性。核心难点是准确率和召回率的提高。
准确性可以理解为真实性,即数据的真实性。以比特币网络为例。在可以抓取的上亿个地址中,有一些洗钱地址和诈骗地址。如果在分析数据的时候能够发现这些数据,无疑会提高安全性,降低风险。只有准确率足够高,才能发挥数据的真正作用。
但仅仅保证高准确率是不够的,召回率同样重要。庞大的精确数据中只有一部分仍然可以分析,而一些特征不明确的数据则无法解读。以比特币网络为例。有些地址有频繁的交易记录,可以从时间、数量、交易费用等方面进行分析。这部分数据无疑更便于解读。但同时也有一些地址,可以分析的特征维度很少,甚至只有一条或者没有交易记录。这部分“硬骨头”无法啃,数据召回率无法提升,导致区块链大数据难以使用。
Chaindigg创始人茅野在接受链德采访时指出,虽然准确率和召回率的维度不同,但同样重要。只有两者完备,才能真正分析区块链大数据,单项很难起到决定性作用。
理论上,提高准确率和召回率可以提高区块链大数据的使用能力,但区块链大数据仍面临诸多困难。
相对于互联网数据,同一公链中的内容更加规范,但目前主流数字货币基数较多,部分公链生成的数字货币具有较强的特殊性;此外,联盟链中的数据具有更强的商业价值,甚至涉及商业机密,对企业的后续规划起到指导作用,这也对数据分析的普适性提出了更高的要求。
换句话说,如果你想分析区块链数据,你必须开发一种通用的技术来处理这些差异。以比特币和以太坊为例。后者相比前者增加了智能合约的功能,因此在数据收集和分析过程中要考虑智能合约地址的特点,提高数据分析的准确率和召回率。
互联网背景下大数据分析常用的很多技术和策略,比如机器学习、数据标注、模型分析、交叉验证等。移植到区块链语境中同样有效。
区块链大数据或许可以理解为大数据技术在区块链领域的延伸。尽管区块链数据已经被层层加密,但它仍需要为其发展找到指导。(本文有独家首发链获取App;作者/阿昌)