🎖️ 🤐 ✊🏽 حول العالم في 4 ثوانٍ في Columnstore (الجزء الأول) 🧓🏾 🧦 👩🏾‍🌾

في هذه المقالة ، سوف أفكر في زيادة سرعة التقارير. بواسطة تقرير ، أقصد أي استعلام إلى قاعدة بيانات تستخدم الدالات التجميعية. أيضًا ، سأتطرق إلى القضايا المتعلقة بالموارد التي يتم إنفاقها على إنتاج ودعم التقارير ، سواء البشرية أو الآلية.

في الأمثلة ، سأستخدم مجموعة بيانات تحتوي على 52608000 سجل.

باستخدام مثال الاحتياطيات التحليلية غير الصعبة ، سأثبت أنه حتى الكمبيوتر الضعيف يمكن تحويله إلى أداة جيدة لتحليل كمية "لائقة" من البيانات دون بذل الكثير من الجهد.

بعد إعداد تجارب غير معقدة ، سنرى أن الجدول العادي ليس مصدرًا مناسبًا للاستعلامات التحليلية.

إذا تمكن القارئ من فك رموز الاختصارات OLTP و OLAP بسهولة ، فقد يكون من المنطقي الانتقال مباشرة إلى قسم Columnstore

طريقتان للعمل مع البيانات

هنا سأكون موجزا ، لأنه يوجد أكثر من معلومات كافية حول هذا الموضوع على الإنترنت.

لذلك ، على أعلى مستوى ، هناك طريقتان فقط للعمل مع البيانات: OLTP و OLAP.

OLTP - يمكن ترجمتها على أنها معالجة المعاملات الفورية. في الواقع ، نحن نتحدث عن المعالجة عبر الإنترنت للمعاملات القصيرة التي تعمل مع كمية صغيرة من البيانات. على سبيل المثال ، تسجيل أو تحديث أو حذف طلب. في الغالبية العظمى من الحالات ، يكون الطلب عبارة عن كمية صغيرة جدًا من البيانات ، وخلالها لا يمكنك أن تخاف من الأقفال الطويلة التي تفرضها RDBMS الحديثة.

OLAP - يمكن ترجمتها على أنها معالجة تحليلية لعدد كبير من المعاملات في وقت واحد. يستخدم أي تقرير هذا النهج بعينه ، لأنه في الغالبية العظمى من الحالات ، ينتج التقرير أرقامًا مجمعة وموجزة لأقسام معينة.

كل نهج له التكنولوجيا الخاصة به. على سبيل المثال ، بالنسبة لـ OLTP ، يعد PostgreSQL ، أما بالنسبة لـ OLAP فهو خدمات تحليل Microsoft SQL Server. بينما يستخدم PostgresSQL تنسيقًا معروفًا لتخزين البيانات في الجداول ، تم اختراع العديد من التنسيقات المختلفة لـ OLAP. هذه هي جداول متعددة الأبعاد ، دلو مملوءة بأزواج ذات قيمة أساسية ومكتبتي المفضلة. حول هذا الأخير بمزيد من التفاصيل أدناه.

لماذا هناك حاجة إلى نهجين؟

وقد لوحظ أن أي مستودع بيانات عاجلاً أم آجلاً يواجه نوعين من التحميل: القراءة المتكررة (الكتابة والتحديث ، بالطبع ، أيضًا) لكميات صغيرة للغاية من البيانات وقراءة نادرة ، لكن كميات كبيرة جدًا من البيانات. في الواقع ، هذا نشاط ، على سبيل المثال ، شباك التذاكر والرأس. يملأ مكتب النقد الذي يعمل طوال اليوم التخزين بقطع صغيرة من البيانات ، في حين أن حجم المتراكمة في نهاية اليوم ، إذا كان العمل يسير على ما يرام ، يصل إلى حجم مثير للإعجاب. بدوره ، يريد المدير في نهاية اليوم معرفة مقدار الأموال التي يكسبها شباك التذاكر في اليوم.

لذلك ، في OLTP لدينا الجداول والفهارس. هاتان الأداتان رائعتان لتسجيل نشاط شباك التذاكر مع كل التفاصيل. توفر الفهارس بحثًا سريعًا عن طلب مسجل مسبقًا ، لذا فإن تغيير الطلب أمر سهل. ولكن من أجل تلبية احتياجات القائد ، نحتاج إلى النظر في كامل كمية البيانات المتراكمة يوميًا. بالإضافة إلى ذلك ، كقاعدة عامة ، لا يحتاج المدير إلى جميع تفاصيل جميع الطلبات. ما يحتاج حقًا إلى معرفته هو مقدار الأموال التي حققها شباك التذاكر بشكل عام. لا يهم أين كان مكتب التذاكر ، وعندما كان هناك استراحة غداء ، الذي كان يعمل من أجله ، إلخ. يوجد OLAP بعد ذلك ، بحيث يتمكن النظام في فترة زمنية قصيرة من الإجابة على السؤال - مقدار ما حققته الشركة ككل دون قراءة متسلسلة لكل طلب وكل تفاصيله. يمكن OLAP استخدام نفس الجداول والفهارس مثل OLTP؟ الجواب لا ، على الأقل لا ينبغي. أولاً ، لأن OLAP لا يحتاج فقط إلى جميع التفاصيل المسجلة في الجداول. يتم حل هذه المشكلة عن طريق تخزين البيانات في تنسيقات أخرى غير الجداول ثنائية الأبعاد. ثانياً ، تنتشر المعلومات التي يتم تحليلها غالبًا عبر جداول مختلفة ، مما يستلزم ارتباطات متعددة ، بما في ذلك الارتباطات من نوع الانضمام الذاتي. لحل هذه المشكلة ، كقاعدة عامة ، يقومون بتطوير مخطط قاعدة بيانات خاص. تم تحسين هذا المخطط لتحميل OLAP ، بالإضافة إلى المخطط العادي العادي لتحميل OLTP.

ماذا يحدث عندما يستخدم OLAP مخطط OLTP

في الواقع ، قمت بتقديم هذا القسم بحيث تفي هذه المقالة بوضوح بمتطلباتي الخاصة بتنسيق هذه المواد ، أي المشكلة ، الحل ، الاستنتاج.

ندرج عددًا من عيوب استخدام مخططات OLTP لتحليل البيانات.

فهارس كثيرة جدًا

في كثير من الأحيان ، عليك إنشاء فهارس خاصة لدعم التقارير. تطبيق هذه الفهارس نظام تخزين بيانات OLAP. لا يتم استخدامها من قبل جزء OLTP من التطبيق ، بينما يمارسون عبءًا عليه ، مما يتطلب دعمًا ثابتًا ويشغلون مساحة على القرص.
يتجاوز مقدار البيانات المقروءة المطلوبة.
عدم وجود مخطط بيانات واضح.

والحقيقة هي أنه في كثير من الأحيان يتم نشر المعلومات المقدمة من التقارير في شكل واحد في جداول مختلفة. هذه المعلومات تتطلب تحول مستمر على الطاير. أبسط مثال على ذلك هو مقدار الإيرادات ، والتي تتكون من أموال نقدية وغير نقدية. ومن الأمثلة الصارخة الأخرى التسلسل الهرمي للبيانات. لأن تطوير التطبيق هو تقدم وليس من المعروف دائمًا ما ستكون هناك حاجة إليه في المستقبل ، ويمكن تخزين التسلسل الهرمي نفسه في المعنى في جداول مختلفة. وعلى الرغم من استخدام عملية الاستحواذ على الإنترنت بنشاط في OLAP ، فهذه أشياء مختلفة قليلاً.
استعلام مفرط التعقيد.

لأن يختلف نظام OLTP عن نظام OLAP ، وهناك حاجة إلى طبقة برمجية مرتبطة بشدة تنقل نظام بيانات OLTP إلى النموذج الصحيح.
تعقيد الدعم والتصحيح والتطوير.

بشكل عام ، يمكننا القول أنه كلما كانت قاعدة الشفرات أكثر تعقيدًا ، زادت صعوبة الحفاظ عليها في حالة صحية. هذه بديهية.
تعقيد تغطية الاختبار.

تم كسر الكثير من النسخ بسبب المناقشات التي دارت حول كيفية الحصول على قاعدة بيانات مليئة بجميع البرامج النصية للاختبار ، ولكن من الأفضل القول أن وجود نظام أبسط للبيانات قد تم تبسيط مهمة التغطية مع الاختبارات عدة مرات.
لا نهاية لها تصحيح الأداء.

هناك احتمال كبير بأن يقوم المستخدم بطلب تقرير "كبير" لخادم قاعدة البيانات. يزيد هذا الاحتمال بمرور الوقت. تجدر الإشارة إلى أن OLAP عرضة أيضًا لهذه المشكلة ، ولكن على عكس OLTP ، يكون مورد OLAP في هذه المسألة أعلى من ذلك بكثير.

Columnstore

سوف تركز هذه المقالة على تنسيق تخزين أعمدة ، ولكن دون تفاصيل منخفضة المستوى. الأشكال الأخرى المذكورة أعلاه تستحق الاهتمام أيضًا ، ولكن هذا موضوع لمقال آخر.

في الواقع ، كان معروفًا بتنسيق مكتبة العمود منذ 30 عامًا ، لكن لم يتم تطبيقه في RDBMS حتى وقت قريب. جوهر متجر الأعمدة هو أن البيانات لا يتم تخزينها في الصفوف ، ولكن في الأعمدة. أي على صفحة واحدة (كل 8 كيلو بايت المعروفة) يسجل الخادم بيانات حقل واحد فقط. وهكذا مع كل حقل في الجدول بدوره. هذا ضروري حتى لا تضطر إلى قراءة معلومات إضافية. دعنا نتخيل جدولًا يحتوي على 10 حقول واستعلام يحتوي على حقل واحد فقط محدد في عبارة SELECT. إذا كان جدولًا عاديًا تم حفظه بتنسيق يستند إلى الصف ، فسيضطر الخادم إلى قراءة جميع الحقول العشرة ، ولكن في نفس الوقت يتم إرجاع حقل واحد فقط. اتضح أن الخادم قرأ 9 مرات معلومات أكثر مما كان ضروريًا. Columnstore يحل تماما هذه المشكلة ، ل يسمح لك تنسيق التخزين بقراءة حقل واحد تم طلبه كل هذا يحدث لأن وحدة التخزين في RDBMS هي صفحة. أي يقوم الخادم دائمًا بكتابة وقراءة صفحة واحدة على الأقل. والسؤال الوحيد هو عدد الحقول الموجودة عليه.

كيف Columnstore يمكن أن تساعد حقا

للإجابة على هذا يجب أن يكون لديك أرقام دقيقة. هيا بنا. ولكن ما هي الأرقام التي يمكن أن تعطي صورة دقيقة؟

مقدار مساحة القرص.
أداء الاستعلام.
خطأ التسامح.
سهولة التنفيذ.
ما هي المهارات الجديدة التي يجب على المطور أن يعملها مع هياكل جديدة.

مساحة القرص

دعنا ننشئ جدولًا بسيطًا ، ونملأه بالبيانات وتحقق من المساحة التي يستغرقها.

create foreign table cstore_table ( trd date, org int, op int, it int, wh int, m1 numeric(32, 2), m2 numeric(32, 2), m3 numeric(32, 2), m4 numeric(32, 2), m5 numeric(32, 2) ) server cstore_server options(compression 'pglz');

كما لاحظت ، قمت بإنشاء جدول خارجي. الحقيقة هي أن PostgreSQL ليس لديه دعم مدمج في متجر الكتب. لكن PostgreSQL لديه نظام قوي للامتدادات. واحد منهم يجعل من الممكن إنشاء جداول أعمدة. الروابط في نهاية المقال.

pglz - يخبر الامتداد بأنه يجب ضغط البيانات باستخدام الخوارزمية المدمجة في PostgreSQL ؛
وقت المعاملة
المرجع ، ذلك ، wh - المقاطع التحليلية أو القياسات ؛
m1 ، m2 ، m3 ، m4 ، m5 - مؤشرات أو مقاييس رقمية ؛

دعنا نضيف كمية "لائقة" من البيانات ونرى مقدار المساحة التي تأخذها على القرص. في الوقت نفسه ، نتحقق من أداء الإدراج. لأن أضع تجاربي على كمبيوتر محمول منزلي ، فأنا عضو في كمية البيانات. بالإضافة إلى ذلك ، وهو أمر جيد ، سأستخدم HDD الذي يشغل الضيف OS Fedora 30. مضيف OS - Windows 10 Home Edition. المعالج Intel Core 7. تلقى Guest OS 4 جيجابايت من ذاكرة الوصول العشوائي. إصدار PostgreSQL - PostgreSQL 10.10 على x86_64-pc-linux-gnu ، تم تجميعه بواسطة gcc (GCC) 9.1.1 20190503 (Red Hat 9.1.1-1) ، 64 بت. سأختبر مجموعة بيانات تحتوي على عدد السجلات 52 608 000.

 explain (analyze) insert into cstore_table select '2010-01-01'::date + make_interval(days => d) as trd , op , org , wh , it , 100 as m1 , 100 as m2 , 100 as m3 , 100 as m4 , 100 as m5 from generate_series(0, 1) as op cross join generate_series(1, 2) as org cross join generate_series(1, 3) as wh cross join generate_series(1, 4000) as it cross join generate_series(0, 1095) as d;