गलत चार्ट: हमारा अनुभव

हम द इकोनॉमिस्ट डेटा विज़ुअलाइज़ेशन को बहुत गंभीरता से लेते हैं। हर हफ्ते हम प्रिंट और ऑनलाइन संस्करणों में और साथ ही अनुप्रयोगों में लगभग 40 चार्ट प्रकाशित करते हैं। हर जगह हम संख्याओं का सही ढंग से प्रतिनिधित्व करने का प्रयास करते हैं ताकि वे विषय का सबसे अच्छा वर्णन करें। लेकिन कभी-कभी हम गलती करते हैं। इन पाठों को सीखना महत्वपूर्ण है ताकि आप भविष्य में गलतियाँ न करें। निश्चित रूप से हमारा अनुभव आपके लिए उपयोगी होगा।

अभिलेखागार में गिरते हुए, मुझे कुछ शिक्षाप्रद उदाहरण मिले। डेटा विज़ुअलाइज़ेशन के खिलाफ अपराध को तीन श्रेणियों में बांटा गया है। ये ग्राफ़ हैं:

  1. भ्रामक;
  2. भ्रमित;
  3. समझ में नहीं आता।

प्रत्येक के लिए, एक संशोधित संस्करण दिखाया गया है, जो अंतरिक्ष की समान मात्रा लेता है - प्रिंट प्रकाशन के लिए एक महत्वपूर्ण कारक।

(नोट: अधिकांश "मूल" चार्ट रीडिज़ाइन से पहले प्रकाशित किए गए हैं। बेहतर चार्ट नए विनिर्देशों के अनुसार संकलित किए गए हैं। डेटा समान हैं)

भ्रामक चार्ट


आइए सबसे बुरे अपराधों से शुरू करें: डेटा को इस तरह से पेश करना कि यह भ्रामक हो। हम कभी भी ऐसा नहीं करते हैं! लेकिन कभी-कभी ऐसा होता है। आइए हमारे संग्रह से तीन उदाहरणों पर विचार करें।

त्रुटि: ट्रंकेशन



( सीएसवी में डेटा )

यह ग्राफ बाएं हाथ के पन्नों पर औसत फेसबुक लाइक दिखाता है। चार्ट का उद्देश्य श्री कॉर्बिन और अन्य के पदों की पसंद में अंतर दिखाना था।

मूल अनुसूची न केवल कॉर्बिन की पसंद की संख्या को कम करती है, बल्कि अन्य प्रतिभागियों के लिए प्रदर्शन को बढ़ाती है (यहां ऐसी त्रुटि का एक और उदाहरण है )। संशोधित संस्करण में, श्री कॉर्बिन का कॉलम पूरी तरह से निर्दिष्ट है। अन्य सभी कॉलम अभी भी दिखाई दे रहे हैं।

एक और विषमता रंग की पसंद है। लेबर कलर स्कीम की नकल करने की कोशिश में, हमने ऑरेंज / रेड के तीन शेड्स 1) कोरिबिन, 2) को अन्य डिपो और 3) पार्टियों / ग्रुप्स को दिए। यह कहीं भी नहीं समझाया गया है। यद्यपि तर्क कई लोगों के लिए स्पष्ट हो सकते हैं, यह उन लोगों के लिए बहुत कम समझ में आता है जो ब्रिटिश राजनीति से बहुत परिचित नहीं हैं।

त्रुटि: तराजू के समायोजन के कारण रिश्ते का प्रभाव



सही सहसंबंध का एक दुर्लभ उदाहरण? वास्तव में नहीं ( सीएसवी में डेटा )

उपरोक्त चार्ट एक कुत्ते के वजन घटाने के लेख से है। पहली नज़र में, ऐसा लगता है कि कुत्ते की गर्दन का वजन और परिधि पूरी तरह से परस्पर संबंधित हैं। लेकिन क्या यह सच है? केवल कुछ हद तक।

ग्राफ पर, दोनों तराजू को तीन इकाइयों (21 से 18 से बाईं ओर, दाईं ओर 45 से 42) तक कम किया जाता है। लेकिन प्रतिशत के संदर्भ में, बाएं पैमाने को 14% तक कम किया जाता है, और दाएं - 7% तक। संशोधित चार्ट में, मैंने दोहरे पैमाने को रखा, लेकिन तुलनात्मक आनुपातिक परिवर्तन को प्रतिबिंबित करने के लिए श्रेणियों को समायोजित किया।

इस आरेख के मजेदार विषय को देखते हुए, त्रुटि अपेक्षाकृत मामूली लग सकती है। अंत में, दोनों संस्करणों में अर्थ समान है। लेकिन निष्कर्ष महत्वपूर्ण है: यदि दो रेखांकन एक-दूसरे के बहुत करीब हैं, तो आपको संभवतः तराजू पर करीब से देखने की आवश्यकता है।

त्रुटि: गलत दृश्य विधि



ब्रेक्सिट के बारे में राय लगभग अस्थिर हैं क्योंकि इसके बारे में बातचीत ( सीएसवी में डेटा )

हमने अपने एस्प्रेसो समाचार ऐप में इस सर्वेक्षण चार्ट को प्रकाशित किया। यह यूरोपीय संघ के जनमत संग्रह के परिणामों को एक रेखाचित्र के रूप में दर्शाता है। आंकड़ों को देखते हुए, उत्तरदाता अपने विचारों में बहुत उतार-चढ़ाव करते हैं: परिणाम कुछ प्रतिशत अंकों तक उछल जाते हैं।

प्रवृत्ति प्रदर्शन के लिए एक चिकनी वक्र के बजाय, हमने प्रत्येक सर्वेक्षण के वास्तविक मूल्यों का संकेत दिया। यह मुख्य रूप से हुआ क्योंकि हमारे चार्टिंग टूल को यह नहीं पता था कि चिकनी लाइनों का निर्माण कैसे किया जाता है। हाल ही में हमने सांख्यिकीय डेटा को संसाधित करने के लिए और अधिक उन्नत कार्यक्रमों में महारत हासिल की है (उदाहरण के लिए, आर) अधिक परिष्कृत दृश्य तरीकों के साथ। आज, कोई भी चुनाव के लिए एक चिकनी वक्र का निर्माण कर सकता है, शीर्ष पर एक बेहतर विकल्प के रूप में।

अभी भी पैमाने का उल्लंघन है। स्रोत चार्ट डेटा को जितना चाहिए उससे अधिक व्यापक बनाता है। संशोधित संस्करण में, मैंने पैमाने की शुरुआत और न्यूनतम डेटा बिंदु के बीच थोड़ा सा स्थान जोड़ा। फ्रांसिस गगनोन ऐसी स्थितियों के लिए एक अच्छा सूत्र प्रदान करता है: लाइन ग्राफ के तहत कम से कम 33% क्षेत्र छोड़ दें, जो खरोंच से शुरू नहीं होता है।

चार्ट जो भ्रमित कर रहे हैं


भ्रामक के रूप में ऐसा गंभीर अपराध नहीं है, लेकिन अगर अनुसूची को समझना मुश्किल है, तो यह खराब तरीके से किए गए दृश्य काम का संकेत है।

त्रुटि: बहुत अधिक मात्रा में चार्ट



... क्या? ( सीएसवी में डेटा )

द इकोनॉमिस्ट के पत्रकार, अच्छे तरीके से, पाठक को भ्रमित करने की कोशिश करते हैं। लेकिन कभी-कभी हम बहुत दूर चले जाते हैं। उपरोक्त चार्ट माल में अमेरिकी व्यापार घाटे और विनिर्माण में कार्यरत लोगों की संख्या को दर्शाता है।

यह चार्ट समझने में अविश्वसनीय रूप से कठिन है। उसकी दो मुख्य समस्याएं हैं। पहला, एक श्रृंखला (व्यापार घाटा) के मूल्य पूरी तरह से नकारात्मक हैं, जबकि अन्य (विनिर्माण में रोजगार) सकारात्मक हैं। ऐसे विभिन्न डेटा को एक आरेख में संयोजित करना मुश्किल है। स्पष्ट "समाधान" एक दूसरी समस्या की ओर जाता है: डेटा की दो पंक्तियों में एक सामान्य आधार रेखा नहीं होती है। व्यापार घाटे की आधार रेखा चार्ट के शीर्ष पर है (लाल रंग में हाइलाइट किया गया है, आधे चार्ट से गुजरता है)। सही पैमाने की आधार रेखा सबसे नीचे है।

संशोधित चार्ट से पता चलता है कि दो डेटा श्रृंखलाओं को संयोजित करने की कोई आवश्यकता नहीं थी। व्यापार घाटे और विनिर्माण रोजगार के बीच संबंध स्पष्ट रहता है और इसमें थोड़ी अधिक जगह होती है।

त्रुटि: पेचीदा रंग



नीले रंग के 50 शेड ( सीएसवी में डेटा )

यह चार्ट ब्राजील में विशेष रूप से जोर देने के साथ कई देशों में 65 से अधिक लोगों के अनुपात से सेवानिवृत्ति लाभों पर सरकारी खर्च की तुलना करता है। चार्ट को नहीं बढ़ाने के लिए, विज़ुअलाइज़र ने केवल कुछ देशों पर हस्ताक्षर किए और उन्हें नीले रंग में उजागर किया। ओईसीडी औसत हल्के नीले रंग में हाइलाइट किया गया है।

विज़ुअलाइज़र (यह मैं था!) ​​इस तथ्य को नज़रअंदाज़ कर दिया कि रंग परिवर्तन अक्सर श्रेणी परिवर्तन का अर्थ है। यहाँ भी, पाठक को ऐसा विचार हो सकता है कि सभी नीले देश नीले लोगों की तुलना में एक अलग समूह के हैं। ऐसा नहीं है। अंतर केवल इतना है कि वे केवल हस्ताक्षरित नहीं हैं।

संशोधित संस्करण में, रंग सभी के लिए समान है। मैंने केवल हस्ताक्षरित देशों के लिए तीव्रता को बदल दिया। टाइपोग्राफी बाकी है: ब्राजील, ध्यान का देश, बोल्ड में है, और ओईसीडी औसत इटैलिक में है।

चार्ट जो समझ में नहीं आता है


इस अंतिम श्रेणी में त्रुटियां कम स्पष्ट हैं। ऐसे चित्र भ्रामक नहीं हैं और बहुत भ्रामक नहीं हैं। वे बस अपने अस्तित्व को सही नहीं ठहरा सकते। या तो वे गलत तरीके से बनाए गए थे, या हमने बहुत अधिक जानकारी को बहुत कम जगह में निचोड़ने की कोशिश की।

त्रुटि: बहुत अधिक विवरण।



"अधिक फूल, बेहतर!" ( सीएसवी में डेटा )

एक असली इंद्रधनुष! हमने इस चार्ट को जर्मन बजट अधिशेष कॉलम में प्रकाशित किया है। यह यूरो क्षेत्र में बजट संतुलन और दस देशों के वर्तमान संतुलन को दर्शाता है। बहुत सारे रंगों के साथ - जिनमें से कुछ को भेद करना या यहां तक ​​कि देखने के लिए बहुत मुश्किल है क्योंकि मूल्य बहुत छोटे हैं - चार्ट का अर्थ समझना मुश्किल है। यह लगभग मस्तिष्क को अवरुद्ध करता है, जिससे पाठक चार्ट को छोड़ कर आगे बढ़ सकता है। और, इससे भी महत्वपूर्ण बात यह है कि चूंकि हम यूरोज़ोन में सभी देशों के लिए आंकड़े नहीं देते हैं, इसलिए डेटा जोड़ने का कोई मतलब नहीं है।

मैंने आरेख को सरल बनाने का एक तरीका खोजने के लिए लेख को फिर से पढ़ा। पाठ जर्मनी, ग्रीस, नीदरलैंड, स्पेन और यूरोजोन को संदर्भित करता है। चार्ट के संशोधित संस्करण में, मैंने केवल उन्हें चुनने का फैसला किया, और बाकी को "अन्य" श्रेणी में रखा (संसाधित चार्ट पर कुल चालू खाता शेष यूरोस्टैट डेटा के संशोधन के कारण मूल चार्ट की तुलना में कम है)।

त्रुटि: बहुत सारा डेटा, पर्याप्त स्थान नहीं



मैं हार गया ( सीएसवी में डेटा )

पृष्ठ पर स्थान के आधार पर, हम अक्सर सभी डेटा को एक स्लॉट में बहुत छोटा करने के लिए लुभाते हैं। यद्यपि यह पृष्ठ पर मूल्यवान स्थान बचाता है, परिणाम हैं, जैसा कि मार्च 2017 से इस ग्राफ पर देखा जा सकता है। यह एक लेख के लिए एक ग्राफ है जिसमें कहा गया है कि पुरुष विज्ञान पर हावी हैं। सभी पद समान रूप से दिलचस्प और लेख के लिए प्रासंगिक हैं। लेकिन, डेटा की इतनी मात्रा को आत्मसात करना मुश्किल है: यहां शोध क्षेत्रों की चार श्रेणियां हैं, साथ ही प्रत्येक देश में पेटेंट लेखकों का अनुपात भी है।

प्रतिबिंब के बाद, मैंने इस चित्र को नहीं बदलने का फैसला किया। यदि आप सभी डेटा सहेजते हैं, तो चार्ट एक छोटे से लेख के लिए बहुत बड़ा होगा। ऐसे मामलों में, कुछ काटना बेहतर होता है। वैकल्पिक रूप से, आप एक निश्चित औसत संकेतक दिखा सकते हैं: उदाहरण के लिए, सभी क्षेत्रों में महिलाओं के लेखों का औसत हिस्सा। (कृपया मुझे बताएं कि क्या आपके पास एक सीमित स्थान में यह कल्पना करने के बारे में विचार हैं!)



सर्वोत्तम प्रथाओं का तेजी से विकास हो रहा है: जो आज स्वीकार्य है, कल उसकी निंदा की जाएगी। नए और अधिक उन्नत तरीके हर समय दिखाई देते हैं। क्या आपने कभी एक "इन्फोग्राफिक अपराध" किया है जिसे आसानी से तय किया जा सकता है?

Source: https://habr.com/ru/post/hi446880/


All Articles