لطالما وجدت الشركات الكبرى والمؤسسات الدموية بديلاً عن rdbds للبالغين عن DWH والتحليلات. DWH تتحرك بشكل كبير نحو DataLake و Hadoop. يبدو أن الشركات الصغيرة لم تعد منطقية لإطلاق التحليلات على rsbd خطيرة. مع العدد المتزايد من النوى المتاحة حتى للشركات الصغيرة ، فإن محاولة ترخيص إصدار كامل من نوع فرعي للبالغين مثل Oracle ليس له معنى. الإصدار القياسي من Oracle ، على الرغم من أنه مرخص للمقابس ، ولكنه في نفس الوقت يقطع الوظائف الأكثر أهمية. أولاً ، في الإصدار القياسي لا يوجد تقسيم
، لا يوجد سوى طريقة عرض التقسيم - مشاركة الجدول بطريقة Postgres ، والتي يمكن أن تساعد فقط في بعض المواقف. ثانيًا ، لا يوجد وضع احتياطي كامل ، يتم قطع العمليات المتوازية. تقتصر كتلة RAC على أربعة مآخذ. ونتيجة لذلك ، مع نمو البيانات الحديثة ، تبدأ بسرعة في مواجهة قيود الإصدار القياسي ، وسعر الترخيص لإصدار Enterprise يجعل هذه المهمة لا طائل من ورائها. في Oracle ، من الضروري ترخيص ليس فقط خادم المعركة ، ولكن أيضًا خادم الاستعداد ، في حين أن إصدار Enterprise مرخص من قبل Core. تتطلب خيارات الكتلة والتقسيم و DataGuard / Standby ترخيصًا منفصلاً وأيضًا أساسيًا. ونتيجة لذلك ، حتى خادم مستوى الدخول مع 16 نواة و stanby الخاص به بالفعل للحصول على تراخيص EE يسحب لمئات الآلاف من الدولارات ، وحتى أعطال إدارة المشاريع الدموية.
علينا أن نبحث عن بديل في خدوبوف. لقد حاولت مقارنة بعض الطلبات لعرض بيانات مبنية على ملفات الباركيه في نسخة احتياطية ، مقابل Oracle Standard على 8 xeon core ، وإطارات 196 غيغابايت ، ومتجر مؤسسي معين مع HDD وذاكرة التخزين المؤقت SSD ، والتي يمكن تفكيكها مع العديد من الأنظمة الأخرى. يؤثر الاستعلام الأول على 4 جداول ، في Oracle احتلوا 62 و 12 و 6.5 و 3.5 غيغابايت. في طبق أكبر من حوالي 880 مليون خط. في خطة الطلب كان مثل:

في الخطة ، أردت على وجه التحديد أن أرى الشاشات الكاملة وعلامات التجزئة التي هي نموذجية في استفساراتي التحليلية. في الواقع ، يستغرق طلب إصدار قياسي من Oracle حوالي 7 دقائق. تم إطلاق Spark 2.3 من خلال spark2-Submit إلى 14 منفذاً مع 4 نوى / إطارات 16 غيغابايت يعطي إجابة على نفس الطلب تقريبًا من أقراص HDD 10k في غضون دقيقة. Cloudera Impala يدفع بواسطة الغزل والشرر على نفس المجموعة (impalad على 8 عقد ، والموارد المماثلة لـ 14 منفذاً مع 4 نوى) يعطي إجابة ثابتة في 11-12 ثانية. في الوقت نفسه ، يعمل Impala باستمرار بالتوازي مع الحمل ، والذي يجب أن يغسل البيانات المخزنة مؤقتًا.
من المحتمل أن تؤدي الألعاب ذات حجم الكتلة ، والانتقال إلى إصدار Oracle EE مع التوازي وتقسيم الكبار إلى تقليل وقت التنفيذ عدة مرات ، لكني أشك قليلاً في أن الوقت سيكون قابلاً للمقارنة حتى ما حصلت عليه في Spark. من ناحية أخرى ، تسمح لك 3-4 عقد فقط من Cloudera Hadoop المجانية عمليًا بشكل أساسي بالحصول على SQL المعتاد ، وهي السرعة التي ستحصل بها Oracle على أموال كبيرة لا مثيل لها.
يجب أن تفكر أوراكل بجدية في سياسة الترخيص ، إذا لم يجد المشجعون مثلي مثلي أي سبب للدفع مقابل إصدار Enterprise.