Oracle许可政策推动Hadoop上的分析

大型企业和血腥企业长期以来一直在寻找DWH和分析的成人rdbds替代品。 DWH正在大规模转向DataLake和Hadoop。 看来,小公司不再需要对严重的rsbd进行分析。 随着甚至对于小型企业可用的内核数量的不断增长,试图授权成人版本的完整版本(如Oracle)也变得毫无意义。 标准版Oracle,虽然已为套接字授权,但同时却删除了最重要的功能。 首先,在标准版中没有分区 ,只有一个分区视图-以Postgres的方式共享表,仅在某些情况下可以提供帮助。 其次,没有成熟的备用数据库,无法进行并行操作。 RAC群集仅限于四个插槽。 结果,随着现代数据的增长,您很快就会遇到标准版的限制,而企业版的许可价格使此任务毫无意义。 在Oracle中,不仅必须许可战斗服务器,还必须许可备用服务器,而企业版则由核心许可。 群集,分区和DataGuard / Standby选项需要单独的许可和核心。 结果,即使是具有16核的入门级服务器及其已经获得EE许可证的斯坦比服务器也要花费数十万美元,甚至是血腥的企业管理问题。

我们必须在哈杜波夫寻找替代方案。 我试图比较一些关于在备份中基于镶木地板文件构建数据展示的请求,将这些请求与基于8 xeon内核,196 GB帧的Oracle Standard,具有HDD和SSD缓存的某些企业级存储的Oracle Standard进行比较,这可能会在更多系统中被使用。 第一个查询影响4个表,在Oracle中它们占据了62、12、6.5和3.5 GB。 在一个大于8.8亿行的板块中。 在请求计划中是这样的:

图片

在计划中,我特别希望看到分析查询中常见的全扫描和哈希联接。 实际上,对Oracle标准版本的请求大约需要7分钟。 通过spark2提交给具有4个内核/ 16 GB帧的14个执行程序的Spark 2.3,可以在一分钟内回答来自10k HDD磁盘的几乎相同的请求。 Cloudera Impala在同一个集群(8个节点上的impalad,相当于14个具有4个核心的执行程序的资源)上使用纱线和火花推动,在11到12秒内稳定给出了答案。 同时,Impala不断与负载并行运行,该负载应清洗缓存的数据。

具有块大小的游戏,具有并行性和成人分区的Oracle EE版本可能会使执行时间减少数倍,但是我有点怀疑该时间是否与我在Spark中获得的时间相当。 另一方面,实际上免费的Cloudera Hadoop中只有3-4个节点实际上允许您使用普通的SQL,这是Oracle拥有巨额资金的速度。

如果像我这样的忠实拥护者没有理由为企业版付费,Oracle应该认真考虑许可政策。

Source: https://habr.com/ru/post/zh-CN415045/


All Articles