痛点
传统数据库Oracle/DB2等
痛点:
1、适合处理1TB以内数据量,性能随着数据量增长衰减很快;
2、纵向扩容(提升单机性能)成本高,上限低;
3、横向扩容难以设置和管理,成本高,集群性能不能线性扩展,且扩容规模有限;
4、主要为结构化数据,半结构化、非结构化数据支持度较差。
Teradata
痛点:
1、扩容成本问题:TD存储、扩容的费用成本高;
2、设备型号不兼容问题:新旧型号无法共存,一再演绎生产设备下线了需要再开发,测试,UAT之间流转的故事;
3、支撑场景有限:TD属于传统的数据仓库,对半结构化、非结构化数据支持不好;对实时数据场景也无法支持;
4、处理性能不足:TD采用MPP架构,架构存在的木桶效应,空间问题、设计问题,优化问题,造成性能越来越差。
CDH开源大数据解决方案
痛点:
1、为满足不同的业务需求,需要不同的组件支撑,搭建与维护成本较高,需要有更多的节点支撑不同组件的部署
2、需要开发人员熟悉多个组件,且不同组件提供的访问入口不同,增加了开发对接成本
2、Impala
稳定性较差,无法支撑复杂任务,数据量>500GB或者中间结果比内存容量大时,容易崩溃
业务加工能力有限,只支持SQL92,不支持存储过程;TPCDS 99个Query只支持其中77个Query
3、Hive
性能较差
对分布式事务性支持度较差,无法处理复杂的跑批加工作业,如拉链数据更新等
4、软件许可问题:Cloudera从2020年的产品开始,都不再推开源版本,6.x的CDH是最后一代开源产品。
MPP(PostgreSQL/Greenplum/GuassDB)
痛点:
稳定性
1、故障恢复会引起集群性能下降:最小恢复粒度一般为1/4节点;在故障恢复时,承载故障节点业务的节点会负载加大,由于木桶效应的存在,会导致集群性能下降;
2、 容错机制不完善,失败任务需要从头执行,无法从中断处重试。
3、 因稳定性原因,导致晚上跑批作业无法在第二天开业前完成,影响第二天营业。
集群规模与扩展
1、建议停机扩展:集群扩缩容时会引起数据重分布,索引重建,对集群性能影响很大,基本无法对外提供服务,建议停机扩展。
2、单物理集群规模受限,256节点(部分MPP数据库近期已扩展至2048节点,但尚无稳定生产落地),针对大型集群支撑的业务场景,会出现跨集群查询的情况,严重影响查询性能。
混合负载
混合负载场景支持较弱:大负载作业可能占满整个集群,导致即席查询业务无法运行。
服务开放能力
由于稳定性,集群规模与扩展能力有限,混合负载能力的缺失,导致MPP集群无法对大规模业务人员开放其查询分析服务能力。
ArgoDB 数仓数集方案优势
核心优势:
京ICP备09015132号-996 | 网络文化经营许可证京网文[2017]4225-497号 | 违法和不良信息举报电话:4006561155
© Copyright 2000-2023 北京哲想软件有限公司版权所有 | 地址:北京市海淀区西三环北路50号豪柏大厦C2座11层1105室