本帖最后由 七里香 于 2022-12-13 09:30 编辑
数据是每个应用程序、流程和业务决策的核心,也是几乎每个组织数字化转型的基石。
通常将数据管理环境分为两类,一类是联机事务处理 (OLTP),另一类是联机分析处理 (OLAP)。
OLTP的特点是大量的联机事务,如创建、替换、更新、删除等操作。这些交易发生得非常快,因此在OLTP数据库上运行的应用程序通常需要即时响应。
另一方面,OLAP更关注需要运行复杂分析过程的历史数据。与OLTP相比,事务量要低得多,但事务通常复杂并且涉及大量数据。OLAP应用通常使用机器学习技术,数据存储在多维架构或星型架构中。
今天,OLTP产品已经成熟,各类TP类型数据库早已在各行各业中支撑着业务系统的高速发展。然而,当前的解决方案却无法满足实时分析的需求,并且在进行分析时会占用大量的计算资源和I/O资源,从而影响到TP性能。
混合事务/分析处理(HTAP)就出现了,即Hybrid Transaction/Analytical Processing,一套系统可以同时处理OLTP和OLAP两种工作负载。
HTAP被预言是数据库发展一大方向,将带领数据库进入新融合时代,也成为目前行业竞争的一大焦点。虽然不同的企业技术路线或许有所不同,但是在云计算环境下,HTAP走得比较快。
最近亚马逊云科技推出了零提取、转换和加载 (ELT),将事务处理的Amazon Aurora 与承担分析负载的 Amazon Redshift集成,实现HTAP的新服务,被称为行业一大看点。
1.亚马逊云科技HTAP的巧劲
Amazon Aurora是典型的OLTP系统,Amazon Redshift则是OLAP系统。
Amazon Aurora是亚马逊云科技完全托管的关系型数据库引擎,与开源数据库MySQL和 PostgreSQL兼容。它比标准MySQL数据库快五倍,比标准PostgreSQL数据库快三倍。同时Aurora有分布式容错和自我修复存储系统。
Amazon Redshift是一个用于商业智能工具的大规模数据仓库服务,用于收集和存储用户所有数据,并使用户能够对其进行分析。Amazon Redshift的功能是快速、简单、经济、高效。
为了满足用户对TP和AP应用融合的需求,AWS在上周的AWS re:Invent 上发布了一项新功能,使客户能够近乎实时地使用 Amazon Redshift分析Amazon Aurora数据,无需在服务之间提取、转换和加载 (ETL)数据。
虽然AWS没有称其为一种HTAP方案,但是其核心就是利用两个系统实现HTAP。借助Amazon Aurora与Amazon Redshift的零ETL集成,借助Amazon Redshift近乎实时地对 Amazon Aurora 中的事务数据运行PB级分析变得更加容易。
因为Amazon Aurora与Amazon Redshift都是托管在AWS云上,如果再利用其无服务器技术,用户就可以在低门槛的情况下,将TP与AP融合。
2.无ETL,无需构建或维护复杂的数据管道
许多组织都依靠由三部分组成的解决方案来分析其事务数据:用于存储数据的关系数据库、用于执行分析的数据仓库,以及关系数据库和数据仓库之间的提取、转换和加载ETL数据的数据管道。
多年来,随着企业数据库类型、数据格式和数据大小的范围呈指数级增长,执行 ETL 变得更加复杂,并且是最难自动化的工作负载之一。
一方面,数据管道的构建成本可能很高,管理起来也具有挑战性,这需要开发人员编写自定义代码,并不断管理基础结构,以确保其可扩展。
此外,数据可能需要数天时间才能准备好进行分析,间歇性数据传输错误可能会进一步延迟对时间敏感型分析的访问,从而导致错失商机。
作为一种解决方案,在过去几年中,AWS 一直致力于简化服务之间的集成,旨在完全消除用于分析和机器学习的 ETL。
通过零ETL将Amazon Aurora与 Amazon Redshift 集成,事务数据在写入 Amazon Aurora 并在Amazon Redshift 中无缝可用后几秒钟内自动连续复制。
一旦数据在Amazon Redshift 中可用,客户就可以立即开始分析数据,并应用数据共享和 Amazon Redshift ML等高级功能来获得全面的预测性分析。
另一个优势是客户可以将数据从多个Amazon Aurora数据库集群复制到同一个Amazon Redshift实例中,以获得跨多个应用的分析。
这样,客户就可以使用 Amazon Aurora 来支持其事务数据库需求,并使用 Amazon Redshift 来支持其分析,而无需构建或维护复杂的数据管道。
3.数据库进入新的融合时代
近这几年,HTAP在国内外已经从概念走向具体的产品落地。国内的星环科技、TiDB、OceanBase、StoneDB 等都推出了其各自的HTAP产品,并且在积极地落地到生产系统。
国外的 SnowFlake(Unistore)、Google(AlloyDB)、Oracle(HeatWave)等企业声势浩大,允许一个系统支持连接OLTP和OLAP工作负载两个处理集。
始终站在行业前沿的Gartner就预计在2024年左右,HTAP 市场将会走向成熟。从最早 2014 年概念的提出,到最早期炒炒概念,显而易见,现在的市场越来越明确地走向产品质量和方案落地的竞争。
专家认为,现有 HTAP 产品从技术实现路线上,基本可以分为这么两类路线:
路线一是以成熟的TP系统为基础,在其上进行AP能力的扩展。现有大部分 HTAP 数据库产品均采用该种策略。
原因是显而易见的,TP系统发展到现在其相较于AP系统,更加成熟。如国内外的OceanBase、StoneDB、TiDB、Oracle MySQL Heatwave、Google AlloyDB、Azure Synapse Link for Azure Cosmos DB 等。
路线二是在AP系统的基础上扩展其处理TP的能力。如Snowflake等。这种路线,比较困难,但是成熟的科技公司可以利用更多的资源,也会有所建树。
看几个例子:
星环科技基于自研的KunDB+ArgoDB分布式数据库的统一数据库解决方案,以及分析增强事务处理(AETP)分布式在线交易分布式数据库技术,在国内落地HTAP数据库理念,给用户一个选择,实际应用也给用户带来更佳的体验。
KunDB采用了基于分析引擎增强分布式事务处理引擎技术(AETP),在TP引擎中嵌入AP引擎,通过一个系统就可以同时提供高性能AP和TP服务能力。对于已经部署了星环科技ArgoDB或KunDB的用户,可以直接升级到HTAP数据库,无需改造业务和数据库的交互方式,实现快速平滑升级。
Azure Synapse Link for Azure Cosmos DB是一种云原生混合事务和分析处理(HTAP)功能,可对Azure Cosmos DB中的操作数据进行近乎实时的分析。Azure Synapse Link在Azure Cosmos DB和Azure Synapse Analytics之间创建了紧密的无缝集成。
Snowflake的Unistore由数据云提供混合支持的支持。Unistore 简化了事务性应用开发,使开发人员能够以数据云提供的简单性、性能、易用性和近乎无限的规模构建企业事务应用。借助单个数据集,企业可以为新型开发提供动力,立即对交易数据采取行动,构建更好的客户体验,并通过将事务和分析数据集成到单个数据集中获得新的见解。
4.HTAP规划的“优势”蓝图
几十年来,OLTP和OLAP工作负载由不同的数据库系统单独处理,两种工作负载在设计因素(如时延、吞吐量和数据一致性)方面有所不同,这已经成为常态。
以时延为例,操作型数据库通常需要非常短的时延,但数据仓库或数据湖系统可以容忍更长的时延。
在实际应用中,为了面对各种需求,能够统一支持事务处理和工作负载分析的融合数据库成为众多企业的需求。
Gartner提出的HTAP基于创新的计算存储框架,在一份数据上同时支撑业务系统运行和 OLAP场景,避免在传统架构中在线与离线数据库之间大量的数据交互。此外,HTAP基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。
目前来看,HTAP的优势日渐凸显。
第一,统一事务和分析数据为从数据存储中提取价值提供了许多新机会。当OLTP和OLAP数据库分开运行时,组织必须应对两个不同的系统。OLTP系统中保存的事务数据不能立即用于分析处理,因此很难利用时间敏感型机会。当数据加载到 OLAP系统时,它可能是几天或几周前的。预测分析等用例通常依赖于对实时或近实时数据的访问。
第二,无需ETL。HTAP可以最大限度地减少创建ETL管道以将数据从 OLTP 复制到 OLAP 数据库的需要。移动数据可能成本高昂且占用大量资源。由于事务和分析数据在 HTAP 系统中一起处理,因此不需要ETL管道来使此数据可用于分析。
第三,即时对新的事务数据运行分析查询。HTAP 数据库在创建数据后立即可用于分析查询,因此组织可以从暂时性机会中捕获价值,这些机会在将数据从OLTP传输到OLAP数据库所需的时间中会丢失。
最后,简化的数据架构降低了运营成本。HTAP只需管理一个系统,即可降低操作复杂性和成本。HTAP 数据库架构简化了数据管理,使IT和数据专业人员能够专注于更高级别的增值任务。
(文章来自 Hadoop大数据应用,如有违权请联系删除!) |