本方案整合企业级大数据平台和数据库,面向企业应用做了定制化研发,实现批流一体化开发和统一运维管控,满足大中型企业数据分析需求。 一、应用场景 实现企业级统一数据门户,是数据统一对外展示平台,里面整合管理驾驶舱、历史数据查询、数据灵活查询、探索式分析等数据分析场景,整合多款数据分析工具实现多方位、多渠道、多场景、多形式的数据应用场景。 实现对业务贴源数据的全历史保留,采用高性价比的自主研发的MPP数据库实现对结构化数据的存储,并提供高效查询能力,便于对历史数据的多种应用场景。 基于数据仓库建设理论实现企业级金融数据模型构建,形成企业级标准化数据,统一数据口径,提供标准数据服务。 提供标准的数据加工工具,可基于自动化配置脚本、在线编辑等多种形式实现统一的数据加工工作,将数据加工过程标准化、规范化、配置化,并对调度流程统一管理、统一配置。 基于数据湖和仓库中的数据对外提供统一服务,包括可实时调用的API服务方式、文件服务方式,也包括实时推送的消息方式,还包括异步处理的大文件服务方式。 统一数据服务平台不仅面向分析类应用提供数据服务,还可以对业务类系统提供数据服务,将分析、查询类功能整合到业务系统中,增加数据的使用价值。 除了湖仓中的数据外,加工的企业级维度模型数据、统一指标库、统一标签体系中的数据也是数据服务平台的主要对外服务内容,实现企业内的业务统一口径。 基于kafka、Flink实现实时数据接入和加工处理,并对外提供实时数据服务。实时数据是湖仓一体平台中的实时数仓部分,需要基于内存数据库(组件)建立实时数仓模型,实现复杂指标的数据接入、处理加工和对外服务。 面向企业内分析人员、数据挖掘人员提供独立的数据沙箱服务,以租户的形式面向不同团队划分独立资源,支持个分析团队在自主资源内订阅湖仓中的数据、对这些数据进行加工处理,并调用通用的数据处理、分析和挖掘组件进行特定场景运算最终形成复杂分析模型或数据挖掘模型,验证成果后最后将模型打包发布到生产环境,实现将专业分析纳入常规管理。 企业级数据沙箱提供了从数据订阅、数据接入、数据加工处理、数据展现到模型发布的全部功能。并实现资源物理隔离,既满足了分析人员的分析工作的灵活性,又进行了资源的整体控制,真正做到按需分配,发掘优秀的数据模型和分析团队。 对湖仓一体平台实现统一运维管理,包括资源的统一云化管理、统一安装部署、软件升级、监控预警等。 二、应用示范效果 技术上实现了数据的集中统一,而且避免了在多个组件中的冗余存放,即使部分数据冗余存放以达到某些效果,也是单向同步保证了数据的一致性。 基于CirroData数据库和BEH企业级大数据平台基础产品面向某城商行定向研发,解决了历史系统平滑迁移和性能优化等问题。 增加了数据分析场景,包括各类复杂查询、各类分析场景,提升传统查询性能,扩展查询功能。 从管理上完成了一系列平台建设,包括数据服务平台、实施数据平台、数据沙箱、统一调度平台、统一开发平台、统一资产管理平台、统一运维平台等。 三、技术路线 本方案采用海光芯片+麒麟操作系统+数据湖产品。 其中数据湖产品是指东方国信企业级数据湖产品BELAKE,该产品整合了东方国信大数据发行版BEH和自主研发的MPP数据库CirroData两大重量级产品,并面向企业应用做了定制化研发,在实现批流一体化开发和统一运维管控的基础上,满足多种企业级复合场景需求。 四、解决的痛点、难点问题 CirroData数据库和BEH企业级大数据平台可以统一部署,使用一套分布式文件系统,可以按需部署,避免了传统的数据库和Hadoop必须独立部署,数据底层共享,大大减少处理环节,增加数据共享能力。 避免了企业内数据在多个组件中冗余存放,以解决不同场景问题,结构化数据主要存储在CirroData数据库中,非结构化数据主要存储在大数据组件中,如ES、Solr或OSS等,在企业内形成标准化规范,而CirroData数据库的处理性能和联机查询性能也保证了企业内的大部分应用场景,只有针对特定数据的特定应用场景才需要使用特定组件进行数据缓存,而且是单向处理,大大简化了企业内数据管理的复杂度和冗余存放。 由于大部分操作尤其90%以上是对结构化数据处理,均可基于CirroData数据库产品完成,因此大部分开发人员只需掌握这一个产品,且以SQL操作为主,并可基于开发平台进行统一开发和管理,大大降低了企业的学习成本。 CirroData数据库支持X86服务器和信创服务器,并有多个实际案例,整体使用成本大大降低,完全可以以最优性价比在全企业推广,支持多种场景。 除了产品以外,东方国信湖仓一体解决方案包含咨询规划能力、专业开发实施、专业运维服务和配套产品,提供全面服务,保证了湖仓一体平台的持续建设。 五、应用案例 某城商行数据湖建设项目 本方案中部署了替换了多个传统数据库产品,集中使用BELAKE数据湖产品。在关键举措上采用了包括资源的统一规划、系统持续建设、明确各产品优势界限、形成主次梯队、借助战略合作形成定向研发、系统建设与咨询和运维并行等。方案支持了数据应用的多种场景,包括数据整合场景、数据查询场景、数据服务场景、高性能处理场景、实时场景、数据沙箱场景、非结构化处理场景等,并扩展了传统技术不支持的场景。 目前本方案支持面向全行的用户,20节点的复合并发量支持为10TPS到10000TPS,并支持横向扩展。方案实施为周期性持续建设,建设周期以年为单位,每期的实施过程包括需求、设计、开发、测试等过程,并以业务目标为单位划分为多个独立项目进行独立管理。 某国有政策性银行大数据平台建设项目 本方案中部署了替换了多个传统数据库产品,集中使用BELAKE数据湖产品。在关键举措上采用了包括资源的统一规划、系统持续建设、明确各产品优势界限、形成主次梯队、借助战略合作形成定向研发、系统建设与咨询和运维并行等。方案支持了数据应用的多种场景,包括数据整合场景、数据查询场景、高性能处理场景、非结构化处理场景等,并扩展了传统技术不支持的场景。 目前本方案支持面向全行的用户,10节点的复合并发量支持为10TPS到1000TPS,并支持横向扩展。方案实施为周期性持续建设,建设周期以年为单位,每期的实施过程包括需求、设计、开发、测试等过程,并以业务目标为单位划分为多个独立项目进行独立管理。 六、基础环境 1、某城商行 分类
| 分项
| 子项
| 品牌/产品名称
| 型号/版本
| 芯片
| 操作系统
| 数量
| 基础
硬件
| 服务器
| 服务器
| 海光
| H620-G30A
| Hygon
Genuine
| 麒麟
| 15
| 存储
| 分布式存储
| 海光
| H620-G30A
| Hygon
Genuine
| 麒麟
| 15
|
基础
软件
| 数据库
| 分布式
数据库
| cirrodata
| V2.13
| —
| 麒麟
| 15
| 相关工具
| 数据湖产品
| BELAKE
| V1.0
| —
| 麒麟
| 1
| 数据服务
平台
| BELAKE
| V1.0
| —
| 麒麟
| 1
| 实时数据
平台
| BELAKE
| V1.0
| —
| 麒麟
| 1
| 非结构化
数据平台
| BELAKE
| V1.0
| —
| 麒麟
| 1
| 数据沙箱
| BELAKE
| V1.0
| —
| 麒麟
| 1
|
2、某国有银行 分类
| 分项
| 子项
| 品牌/产品名称
| 型号/版本
| 芯片
| 操作系统
| 数量
| 基础
硬件
| 服务器
| 服务器
| 海光
| H620-G30A
| Hygon
Genuine
| 麒麟
| 50
| 存储
| 分布式存储
| 海光
| H620-G30A
| Hygon
Genuine
| 麒麟
| 50
|
基础
软件
| 数据库
| 分布式
数据库
| cirrodata
| V2.13
| —
| 麒麟
| 15
| 相关工具
| 大数据平台
| BELAKE
| V1.0
| —
| 麒麟
| 1
| 数据服务
平台
| BELAKE
| V1.0
| —
| 麒麟
| 1
|
七、企业能力介绍 北京东方国信科技股份有限公司成立于1997年,并于2011年上市。公司注重基础研发能力,研发了包括MPP数据库、Hadoop发行版、数据湖产品、数据云平台、数据挖掘平台、数据治理平台、数据开发平台、数据分析平台等全系列数据产品,研发团队超过2000人。其中企业级数据湖产品BELAKE是我公司研发的一个重量级产品。
|