"رواية القصص بالبيانات" بقلم كول نوسباومر كنافلك: خلاصة وافية لكتاب غير رسمي

"لقد أنشأ علماءنا مجموعة من الرسوم البيانية ، ولا ندري مطلقًا أين نضعها. دعونا نحاول إرفاقها بطريقة أو بأخرى. " (ج) سمع

"رسومات سيئة في كل مكان. في عملي ، أواجه باستمرار تصورات بيانات مشكوك فيها للغاية. لا أحد يصنع رسومات سيئة عمدا. لكن هذا يحدث. مرارا وتكرارا. في كل شركة في جميع قطاعات الاقتصاد موظفين من جميع المستويات. يحدث هذا في وسائل الإعلام. يحدث هذا حيث تتوقع أن يتمكن الناس من تصور البيانات ". (ج) مؤلف الكتاب

يحدث هذا هنا ، على حبري : بالنظر إلى المقالات في دفق "تصور البيانات" ، أجد نفسي غالبًا أفكر في أنني لا أفهم ولا أستطيع فهم جوهر ما يتم عرضه. ستنظر المقالة في بعض الأمثلة. وما هو الأكثر إزعاجًا بالنسبة لي ، يحدث هذا في عملي أيضًا. ليس باستمرار ، ولكن في كثير من الأحيان نود.



عنوان الكتاب ، رواية القصص مع البيانات ، بدا مقنعا. اخترته للقراءة المسائية ولم أندم عليه. لا يحتوي الكتاب على صيغ ورسومات ماكرة وغير عادية وحالات معقدة. مسح اللغة الإنجليزية. طباعة عالية الجودة. يتم قراءتها على أنها خيال. سيكون الكتاب مفيدًا لكل من يتعين عليه تقديم عروض تقديمية بناءً على البيانات. أعتقد أنه سيحقق فائدة خاصة لأولئك المشاركين في تحليلات البيانات.

هذه المراجعة غير رسمية للغاية: تم خلط مؤلف الكتاب ، أفكاري ، مواقف من عملي ، بالإضافة إلى أوراق الغش matplotlib للروابط. سيكون هناك العديد من الصور. تمت إعادة رسم جميع الرسوم التوضيحية تقريبًا من كتاب في Python.

لقد درست الإحصائيات في الجامعة ، والآن يتم تعليم الطلاب التعلم الآلي ، وقد ظهرت مدارس البيانات من الشركات الكبيرة. ولكن حتى الآن لم أسمع أن محللي البيانات يتم تعليمهم بشكل جدي "لسرد القصص" بناءً على البيانات. لكن هذه خطوة ضرورية لتحويل البيانات إلى معلومات ومعرفة. من المهم أن تخبر العميل عن النتائج بطريقة جيدة. وأن نقول بطريقة كانت واضحة ومسلية له ، إنه يريد على الفور تحسين شيء ما في مجال الأعمال (ربما بمساعدتنا) ، ولم يقل فقط: "حسنًا ، حسنًا ، يبدو ذلك مثيرًا للاهتمام" وذهب للقيام بشؤون عمله اليومية .

زوجان من الاقتباسات من هبر:
في محادثة مع جوناثان نوليس ، أحد محللي البيانات الرائدين في سياتل والذي يعمل مع شركات Fortune 500 ، ناقشنا السؤال التالي: "أي من هاتين المهارتين أكثر أهمية لمحترف البيانات هو القدرة على استخدام نماذج معقدة من العمق التدريب أو القدرة على رسم شرائح جيدة في PowerPoint؟ " جادل نوليس لصالح الأخير ، معتقدًا أن التفسير الذي يمكن الوصول إليه لنتائج التحليل يبقى عنصرًا رئيسيًا للعمل مع المعلومات.
ماذا يفعل محللو البيانات في الواقع؟ نتائج 35 مقابلة
وفيما يلي الاقتباس الثاني عن المهارات الشخصية:
- لنبدأ بالمهارات الخفيفة - لأنها ليست كافية. على الرغم من حقيقة أن عالم البيانات هو مهنة فنية ، فمن المهم للغاية أن تكون قادرًا على تقديم نتيجة عملك بشكل صحيح / جميل. يتحدث تقريبًا ، مثل iPhone - فهو لا يمتلك فقط الحشوة ، ولكن أيضًا المظهر والتعبئة والتاريخ. يحتاج الناس إلى معرفة كيفية تقديم نتائجهم: كتابة مشاركات المدونة ، والتحدث ، ومشاركة التعليمات البرمجية. أفضل علماء البيانات يفهمون ذلك جيدًا ، ويفهمون ذلك. خلاف ذلك ، يمكنك أن تعلق في الحفرة ، وحتى مع نتيجة رائعة ، لا يلاحظها أحد.
"من الصعب بالنسبة لي أن أفهم دوافع عالم البيانات الذي لا يرى الجمال في الرياضيات" - كيريل دانيليوك ، عالم البيانات

مقدمة


يبدأ الكتاب بأمثلة لتحويل التصورات الفاشلة إلى تصورات مفهومة. هنا واحد منهم

كان:




أصبح:




مفكرة جوبيتر على جيثب

إذا كانت ردة فعلي في الرسم البياني في الحالة الأولى: "ما هذا؟" ، ثم في الحالة الثانية ، استغرق الأمر بضع ثوانٍ لفهم جوهر المعلومات ، ثم الدخول في التفاصيل.

تقريبا كل تصور للعرض التقديمي هو جزء من العمل. أقوم بإنشاء رسوم بيانية باستخدام matplotlib ، ومؤلف الكتاب يستخدم Excel. لتسهيل العمل في المستقبل ، أدركت بنفسي إنشاء بعض الرسوم البيانية من كتاب في Python. يحتوي الرمز على مجموعة من "ضبط الملف" (الضبط الدقيق). اتضح نوعًا من ورقة الغش مع التعليقات. متوفر هنا .

دعونا نلقي نظرة سريعة على محتويات أجزاء الكتاب.

الجزء الأول: أهمية السياق


استكشافي مقابل توضيحي. يشبه تحليل البيانات البحث عن اللآلئ: في بعض الأحيان تحتاج إلى فتح 100 محار (اختبار 100 فرضية) للعثور على زوج من اللآلئ. في عملية مثل هذا العمل ، نتصور البيانات لأنفسنا. عندما يحين الوقت للحديث عن النتائج ، غالبًا ما تكون هناك رغبة في استخدام نفس الرسوم البيانية والتحدث عن كل العمل المنجز: "افتح المحار الأول. إنه فارغ. لكن لا بأس ، لا يزال لدينا 99 محار. نفتح الثانية ". لا حاجة للقيام بذلك. من الضروري فصل التحليل الاستكشافي عن التوضيح . في مرحلة التحليل التوضيحي ، يجب تحديد الوقت ، لذلك ، يجب عمل تصورات أخرى اعتمادًا على السياق: إلى من وماذا وكيف.

أحد الأمثلة المثيرة للاهتمام حيث أود أن أرى تحليلًا توضيحيًا بدلاً من البحث هو مقال " تحليل المقالات من قبل Habrahabr و Geektimes ". قدم المؤلف مجموعة من الرسوم البيانية والجداول ، لكني لم أر أي استنتاجات منها. سيكون من المثير للاهتمام للغاية معرفة متى تنشر المقالات من أجل الحصول على أقصى عدد من المشاهدات. وفقًا لأحد الجداول ، هذا هو الأحد ، وفقًا لجدول آخر - 6 صباحًا. ولكن هل سيكون يوم الأحد 6 صباحًا وقتًا مناسبًا للنشر؟ لست متأكدا. أحد التعليقات:



إلى. من الواضح أن المحتوى والتفاصيل تعتمد على الجمهور. ولكن هنا يمكنك أن تفوت. قال لي أحد المستمعين المزعجين ذات مرة: "10 مهندسون يجلسون أمامك ، والذين كانوا يعملون على إنتاج النفط طوال حياتهم ، وكنت تخبرنا بكيفية تحليل منحنيات انخفاض الإنتاج لمدة 20 دقيقة؟ !!" ومن الجيد أنه قال هذا ، حيث كان لدي محتوى مماثل لمدة 20 دقيقة أخرى.

ماذا. فكرة غير واضحة بالنسبة لي. من المهم أن تحدد بوضوح الإجراءات التي تتوقعها من جمهورك. على سبيل المثال ، لتخصيص 10 ملايين روبل أخرى ، قم بتوظيف 5 مطورين ، وخفض الإدارة ، ورفع درجة حرارة الغلاية إلى 700 درجة مئوية ، وابدأ المشروع في التنبؤ بالديون التشغيلية. هذا غير مريح. هناك دائمًا شعور بأن "العمل" يعرف بشكل أفضل بكثير ، ومن المخيف تقديم عرض مجنون. ولكن إذا لم يفهم الجمهور ما يريدونه في الواقع ، فكل شيء يمكن وسيقتصر على التقرير المستمع. إنهم يستمعون ويقولون الشكر ويواصلون القيام بأعمالهم بشكل أكبر.

ربما تكون "الأعمال" تعرف بشكل أفضل ، ولكن "الأعمال" في هذه اللحظة يمكن شغلها بأشياء مختلفة تمامًا: المصنع مشتعل بالنار أو قام المتسللون بمسح جزء لا يتجزأ من البيانات التاريخية من أجهزة الاستشعار. (كل هذه مواقف حقيقية). تصرف كخبير في مجال الموضوع: لقد قمت بتحليل البيانات ، ونظرت إلى العملية من الداخل. على أي حال ، حتى الاقتراح الخاطئ يمكن أن يؤدي إلى مناقشة بناءة.

لقد قمت مؤخرًا بعمل رائع لأحد العملاء: لقد قمت بتحليل البيانات لمدة 3 سنوات من عدة مصادر. قام بتجميع الاكتشافات في العديد من جداول Excel الضخمة ومستندات Word ، وأرسلها عبر البريد الإلكتروني ، على أمل أن يتم إطلاق العديد من المشاريع. ورداً على ذلك ، قال: "نعم ، إنه أمر ممتع للغاية!". هذا كل ما في الأمر. الآن أفهم أنه لا يمكن أن يكون هناك إجابة أخرى.

كيف. تختلف مخططات العروض التقديمية عن مخططات الأحرف. في الحالة الأولى ، نرى رد فعل الجمهور ، في أي وقت يمكننا الإجابة على الأسئلة ، وتقديم تفسيرات. لذلك ، يجب أن يكون مستوى التفاصيل في المخططات للحروف أعلى.

الجزء 2: اختيار التصور الفعال


يقدم المؤلف قائمة بالطرق الجيدة لتصور البيانات. من غير المعتاد بالنسبة لي: التصور باستخدام نص بسيط ومخططات.

نص بسيط. إذا كان يمكن التعبير عن شيء ما في رقم واحد ، فقد لا تكون هناك حاجة للجدول الزمني.


مفكرة جوبيتر على جيثب

استخدمت هذه الفكرة مؤخرًا لتقديم مشروع لرصد وتوقع المستوطنات مع الوكلاء: " 7،000،000 روبل من الديون المتراكمة في وقت إفلاس الوكيل". كان التأثير رائعًا ، وقام الجمهور بضبطه على الفور بالطريقة الصحيحة.

مخطط المنحدر. ذات مرة ، استخدمت مؤامرات متوازية من SAS JMP. شيء مشابه. لسوء الحظ ، في العديد من البيئات لا توجد طريقة تصور مثل هذه ، ولكنها مثالية للمقارنة متعددة العوامل:


مفكرة جوبيتر على جيثب

في الآونة الأخيرة على حبري كان هناك مقال " أفضل أرباب العمل في مجال تكنولوجيا المعلومات: النتائج الأولى لخدمة الدرجات على" دائرتي ". كان هناك جدول زمني أدى إلى مناقشة في التعليقات:



يتم تصنيف الشركات الصغيرة في المتوسط ​​من جميع النواحي تقريبًا أعلى من الشركات الكبيرة. كنت أتساءل ، ولكن هل يعقل أن يتحول من شركة صغيرة متوسطة إلى شركة كبيرة جيدة؟ نتيجة المقارنة باستخدام الرسم البياني للمنحدر:



طرق التصور السيئة. يحذر مؤلف الكتاب من استخدام المخططات الدائرية والمخططات المجوفة ، وينصح أيضًا بعدم استخدام الأبعاد الثلاثية.

مخططات دائرية. أعرف بنفسي: عندما أرى مخططًا دائريًا ، أبدأ فورًا في البحث عن أرقام (النسبة المئوية) عليه. وإذا لم تكن هناك أرقام ، فقم بتخطيها. من الصعب على الناس مقارنة الزوايا بدون منقلة. الشيء الوحيد الذي يضيع عند الانتقال من مخطط دائري هو تصور حقيقة أن جميع الأجزاء معًا تشكل وحدة واحدة كاملة (100٪). ولكن إذا لم يعمل المخطط الدائري ككل ، فهذا لم يعد مهمًا.

المخططات الدائرية المجوفة. أسوأ من التعميم ، لأنه بدلاً من مقارنة الزوايا ، يجب عليك مقارنة أطوال الأقواس.

ثلاثي الأبعاد زوجان من الأمثلة باستخدام Excel.

ما رأيك يساوي D؟



ليس ذلك فحسب ، فأنت بحاجة إلى تتبع بإصبعك إلى قيمة 35 (من الصعب القيام بدور في عينيك) ، لذا فإن 35 غير صحيحة. القيمة الصحيحة هي 40!

3D مجتمعة مع المخططات الدائرية يعمل المعجزات بشكل عام. كيف C أكبر من B؟ على الأقل؟



في الواقع ، C هي 5٪ أقل من B وهي 30٪ و 35٪ على التوالي! فقط لا تستخدم 3D لتصور البيانات.

الجزء 3: القمامة هي عدوك!


يحمل كل عنصر في الرسم البياني حملًا إدراكيًا. كلما زادت نسبة الإشارة إلى الضوضاء في التصور ، كان ذلك أفضل. ليس على حساب المفهوم بالطبع. العناصر الإضافية تجعل الرسم البياني للوهلة الأولى أكثر تعقيدًا بصريًا مما هو عليه في الواقع. ونتيجة لذلك ، قرر جزء من الجمهور عدم بذل جهد وقضاء بعض الوقت لفهم التصور. كثيرا ما يحدث لي على حبري: "أوه! يبدو هذا الرسم البياني مثيرًا للاهتمام ، ولكنه بطريقة ما معقد للغاية. ربما سأترك إشارة مرجعية ، وسأفهم في المرة القادمة ". لا يخسر مؤلفو مقالات حبري شيئًا من هذا القرار. لكن العميل المحتمل أو المستثمر أو الموظف أو صاحب العمل كان يمكن أن يظهر في مكاني.

يشرح مؤلف الكتاب ما هو القمامة على الرسوم البيانية ، وكيفية التعامل معها. فقط اعط مثالا واحدا.

كان:




على الرغم من حقيقة أن الرسم البياني يتصور "اكتشاف" بسيط للغاية ، فإن فكرتي الأولى هي: "اه؟". يرفض الدماغ إضاعة القوة للتعمق في المعلومات.

أصبح:



مفكرة جوبيتر على جيثب

الدماغ لم يعد مذعورا. كانت هناك رغبة في الفهم.

الجزء 4: تركيز جمهورك


تمرين قليل. احسب عدد الخانات "3" في الصورة التالية.



بالتأكيد لن أقوم بهذه المهمة ، على الأرجح أنك لم تفعلها أيضًا. الطريقة الوحيدة للأداء لشخص عادي (وليس عبقريًا) هي النظر إلى جميع الأرقام في صف من أعلى إلى أسفل من اليسار إلى اليمين. الجواب الصحيح هو 6.

الآن انظر إلى الصورة التالية. ما مدى سهولة إكمال المهمة الآن:



وفقًا للدراسات ، يقرر الشخص في فترة تتراوح من 8 إلى 10 ثوانٍ من عرض الرسم البياني ما إذا كان ينبغي عليه قضاء المزيد من الوقت أم أنه من الأفضل تحويل انتباهه إلى شيء آخر. الرسوم البيانية بدون سمات تجذب الانتباه تشبه الصورة الأولى. على الأرجح ، سيكون الجمهور كسولًا جدًا لفهمه ، وبعد 8 ثوانٍ سيفقدون اهتمامهم ، دون تلقي أي معلومات. إذا كان الرسم البياني يبدو كصورة ثانية ، فسيأخذ الجمهور المعلومات المحددة بلمحة. أسرع مما يدرك. وحتى إذا تحول القراء بعد 8 ثوانٍ إلى شيء آخر ، فسيتم تلقي الجزء الأكثر أهمية من المعلومات.

الطريقة الوحيدة للحصول على معلومات من هذا المخطط هي قراءتها بالكامل:



يلفت الجدول الزمني المنقح انتباه الجمهور على الفور إلى "اكتشاف" معين: شيء ما يجب القيام به مع عزل الصوت.


مفكرة جوبيتر على جيثب

الجزء 5: فكر كمصمم


بالنسبة لي ، المصممون هم الأشخاص الذين يرسمون صورًا جميلة. أنا لست مصممًا ، لم أحصل أبدًا على صور جميلة. لحسن الحظ ، تصور البيانات أسهل. من الضروري تطوير الرسومات ، مع مراعاة النقاط التالية: القدرة على تحمل التكاليف ، وإمكانية الوصول ، والجماليات.

الفرص. عندما نأخذ مقص الخياط ، يتضح على الفور مكان وضع الإبهام ، وأين - بعض الأصابع الأخرى. مع الجداول الزمنية أيضًا: يجب أن يفهم الجمهور على الفور مكان البحث وما يجب القيام به مع هذا الجدول الزمني. للقيام بذلك:

  1. قم بتمييز النقاط المهمة. يوصى بتحديد ما لا يزيد عن 10٪ من عناصر التصور ، وإلا يتم فقد التأثير. "من السهل العثور على الصقور بين الحمام ، لكنه يصبح أكثر صعوبة وأصعب عندما يكون هناك المزيد من أنواع الطيور."
  2. تخلص من عوامل التشتيت. "يتحقق الكمال ليس عندما لا يوجد شيء نضيفه ، ولكن عندما لا يكون هناك شيء لإزالته" - أنطوان دي سان اكسوبيري.
    أ. ليست كل البيانات بنفس القدر من الأهمية. تخلص من المكونات غير الحرجة.
    ب. عندما لا تكون هناك حاجة إلى أجزاء ، تجميع.
    ج. اسأل نفسك بشكل دوري: إذا تم التخلص من ذلك ، فهل يتغير شيء ما؟ لا يتغير - ارميه بعيدا.
    د. إرسال عناصر الخلفية إلى الخلفية. استخدم اللون الرمادي لهذا الغرض.
  3. إنشاء تسلسل هرمي واضح للمعلومات. باستخدام سمات مختلفة تجذب الانتباه ، أظهر للجمهور التسلسل الذي يحتاجون إليه لتلقي المعلومات. على سبيل المثال ، كما في الرسم البياني التالي:


مفكرة جوبيتر على جيثب

التوفر يشير مفهوم إمكانية الوصول إلى أن التصميم يجب أن يكون مناسبًا للأشخاص ذوي القدرات المختلفة. وهذا يشمل الأشخاص ذوي الخبرة والمعرفة والمهارات التقنية المختلفة ودرجة المشاركة في مجال الموضوع. يمكنك أن تكون مهندسًا ، ولكن لا تحتاج إلى جمهور من التعليم التقني العالي لفهم جداولك:

  1. لا تبالغ في التعقيد. إذا أمكن ، استخدم الخطوط النظيفة بصريًا (Arial) ، والكلمات الواضحة ، والجمل القصيرة.
  2. النص صديقك. كحد أدنى ، يجب أن يحتوي الرسم البياني على أسماء عناوين ومحور. دعونا نرى كيف يمكن للنص البسيط أن يغير تصور الرسم:

لا يوجد نص


ما هو هذا الرسم البياني؟



الحد الأدنى من النص المطلوب


لقد بدأ رسم شيء ما: هناك بعض الطلبات التي تمت معالجتها بأقل من المتلقاة منذ مايو.



الكثير من النص


الآن كل شيء واضح: رحل الناس ، الفريق لا يتكيف ، نحن بحاجة إلى توظيف اثنين آخرين من المتخصصين.



مفكرة جوبيتر على جيثب

جماليات. في الآونة الأخيرة على حبري كان هناك مقال بعنوان " تصور التعليقات على قنوات يوتيوب لمجتمعات touhou الدولية والمحلية ". بصراحة ، ما زلت لا أفهم سبب حاجتي إليها ، وما هي المعلومات التي يمكنني الحصول عليها من الرسوم البيانية على الإطلاق ... ولكن كم هي جميلة! نظرت إليها بسرور (دون فهم أي شيء). من خلال قضاء وقت وجهد إضافيين على جماليات جداولك ، فإنك تزيد من فرصة أن يكون الجمهور أكثر صبرًا واهتمامًا بها. وبناءً على ذلك ، من المحتمل أن يفهم الجمهور ما تريد نقله.

للقيام بذلك:

  1. استخدم اللون بحكمة.
  2. انتبه إلى المحاذاة.
  3. جعل المزيد من المساحات (مساحات فارغة).

مثال على كيفية جلب رسم بياني إلى مظهر جمالي:

كان




أصبح



مفكرة جوبيتر على جيثب

الجزء 6: التحليل النقدي للمرئيات


يقدم المؤلف 5 أمثلة على تصورات جيدة ويفحص بالتفصيل سبب صنعها بهذه الطريقة.

أعجبني هذا المثال:


مفكرة جوبيتر على جيثب

  1. تسلسل مرئي واضح: نقرأ العنوان ، نذهب إلى الأرقام الغامقة ، ننتقل منها من اليمين إلى اليسار إلى النص "الحاجة غير الملباة (الفجوة)". في ثوانٍ قليلة ، ندرك: إذا لم يتم فعل أي شيء ، فستزداد الحاجة غير الملباة.
  2. من "الحاجة غير الملباة (الفجوة)" نقرأ جميع التسميات. نحن نتفهم أين يضيع المخرجون والمصادر الرئيسية للمديرين الجدد بسبب حقيقة أن الأعمدة موقعة مباشرة.
  3. فكرة مثيرة جدا للاهتمام للأعمدة السلبية.

الجزء السابع: الدروس السردية


القصة الجيدة مثيرة. استنادًا إلى تجربة الأدب والسينما ، يوضح المؤلف كيفية سرد القصص المثيرة للاهتمام باستخدام البيانات. إحدى النصائح: قبل إعداد العرض التقديمي ، اكتب "فكرة كبيرة" (عبر عن الأفكار الرئيسية في جملة واحدة) و "قصة مدتها ثلاث دقائق" (صف النتائج الرئيسية في نصف صفحة من النص).

تحتوي كل قصة على 3 أجزاء رئيسية: البداية والوسط والنهاية.

  1. ابدأ. يشير إلى مشكلة. إذا لم تكن هناك مشكلة واضحة ، فربما لن تكون هناك حاجة أيضًا إلى عرض تقديمي. "لماذا يجب أن أهتم بهذا؟"
  2. الوسط . يوضح كيف يمكن حل المشكلة. "لماذا يمكنني اتخاذ القرار المقترح؟"
  3. النهاية. دعوة للعمل. "ما الذي أحتاجه لبدء العمل الآن لحل المشكلة؟"

هناك استراتيجيتان رئيسيتان لرواية القصص:

1. بالترتيب الزمني:

أ. حدد المشكلة
ب. البيانات التي تم جمعها لفهم الوضع بشكل أفضل.
ج. قمنا بتحليل البيانات (فحصنا الموقف من زوايا مختلفة ، مع مراعاة عوامل أخرى)
د. وجدت حلا
ه. بناءً على كل هذا ، نوصيك باتخاذ الإجراءات التالية

2. ابدأ من النهاية:

أ. أوصت للقيام بذلك فلان
ب. نحن ندعم هذه التوصية بالبيانات.

الجزء 8: وضع كل شيء معًا


يقود المؤلف القارئ من خلال مثال من خلال جميع خطوات ودروس الكتاب:

  • يظهر جدولًا سيئًا ،
  • يصف ما قد يكون سياق العرض التقديمي ،
  • يختار طريقة تصور جيدة ،
  • يزيل كل القمامة
  • يحدد مكان تركيز انتباه الجمهور ، ويستخدم سمات جذب لهذا ،
  • يقود الجدول الزمني إلى نظرة جمالية ،
  • يعد عرضا كاملا.

ويمكنك رؤية المثال في الكتاب. أوصي بقراءته.

Source: https://habr.com/ru/post/ar422093/


All Articles