1.先进的混合计算架构。
采用改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运行多种计算框架,包括:批处理MapReduce、内存计算Spark、实时流处理Storm和大规模并行计算MPP等;对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询功能;对结构化数据采用MPP列存储,支持分布式计算、智能索引、数据深度分析、数据深度挖掘、完善的SQL等功能,实现高性能结构化数据分析处理。
2.高性价比的计算集群。
基于x86服务器本地的计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本; 同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。
3.数据分层和分级存储
把数据按照不同阶段分为ODS(Operational Data Store)数据、轻度汇总数据、信息子层数据和应用数据,分别存储在Hadoop平台、MPP分布式数据库、主数据仓库和应用数据库,满足不同阶段的计算需求;按照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能存储的需求;将核心模型数据通过改造融入到主数据仓库的核心模型中,减少数据冗余,提升数据质量;将主数据仓库中的历史数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。
4.BDaaS大数据即服务
大数据即服务交付,提供多维分析、机器学习、数据挖掘、数据共享、数据检索、数据可视化等模块化数据服务功能,以及统一的计算资源调度, 减少数据迁移,提升整体IT效率,上层应用开发聚焦业务数据的分析利用。