Bagan yang salah: pengalaman kami

Kami di The Economist memperlakukan visualisasi data dengan sangat serius. Setiap minggu kami menerbitkan sekitar 40 grafik dalam versi cetak dan online, serta dalam aplikasi. Di mana-mana kami berusaha keras untuk secara akurat mewakili angka-angka sehingga mereka dapat menggambarkan topik tersebut. Namun terkadang kita melakukan kesalahan. Penting untuk mempelajari pelajaran ini sehingga Anda tidak membuat kesalahan di masa depan. Tentunya pengalaman kami akan bermanfaat bagi Anda.

Ketika terjun ke dalam arsip, saya menemukan beberapa contoh instruktif. Kejahatan terhadap visualisasi data dikelompokkan ke dalam tiga kategori. Ini adalah grafik yang:

  1. menyesatkan;
  2. bingung;
  3. tidak masuk akal.

Untuk masing-masing, versi revisi ditampilkan, yang mengambil jumlah ruang yang sama - faktor penting untuk publikasi cetak.

(Catatan: sebagian besar bagan "asli" diterbitkan sebelum pendesainan ulang. Bagan yang disempurnakan dikompilasi sesuai dengan spesifikasi baru. Data-datanya sama).

Bagan Menyesatkan


Mari kita mulai dengan kejahatan terburuk: menyajikan data sedemikian rupa sehingga menyesatkan. Kami tidak pernah melakukan ini dengan sengaja! Tetapi terkadang ini terjadi. Mari kita perhatikan tiga contoh dari arsip kami.

Kesalahan: pemotongan



( data dalam csv )

Grafik ini menunjukkan jumlah rata-rata suka Facebook di halaman sebelah kiri. Tujuan dari bagan ini adalah untuk menunjukkan perbedaan dalam hal suka dari posting Mr Corbin dan lain-lain.

Jadwal asli tidak hanya meremehkan jumlah suka dari Corbin, tetapi juga melebih-lebihkan kinerja untuk peserta lain (di sini adalah contoh lain dari kesalahan seperti itu). Dalam versi revisi, kolom Mr. Corbin sepenuhnya ditentukan. Semua kolom lainnya masih terlihat.

Keanehan lain adalah pilihan warna. Dalam upaya untuk meniru skema warna Buruh, kami menggunakan tiga warna oranye / merah yang ditugaskan untuk 1) Corbin, 2) untuk deputi lainnya dan 3) ke pesta / kelompok. Ini tidak dijelaskan di mana pun. Meskipun logika mungkin jelas bagi banyak orang, itu tidak masuk akal bagi mereka yang tidak terlalu mengenal politik Inggris.

Kesalahan: efek hubungan karena penyesuaian skala



Contoh langka korelasi sempurna? Sebenarnya tidak ( data dalam csv )

Grafik di atas adalah dari artikel penurunan berat badan anjing. Pada pandangan pertama, tampaknya berat dan keliling leher anjing berkorelasi sempurna. Tetapi apakah itu benar? Hanya sampai batas tertentu.

Pada grafik, kedua skala dikurangi tiga unit (dari 21 menjadi 18 di sebelah kiri; dari 45 ke 42 di sebelah kanan). Namun dalam persentase, skala kiri berkurang 14%, dan kanan - 7%. Dalam bagan yang direvisi, saya mempertahankan skala ganda, tetapi menyesuaikan rentang untuk mencerminkan perubahan proporsional yang sebanding.

Mengingat tema diagram ini yang menyenangkan, kesalahannya mungkin tampak relatif kecil. Pada akhirnya, artinya sama di kedua versi. Tapi kesimpulannya penting: jika kedua grafik terlalu dekat satu sama lain, Anda mungkin perlu melihat lebih dekat pada skala.

Kesalahan: metode visualisasi yang salah



Pendapat tentang Brexit hampir tidak stabil seperti halnya negosiasi tentang hal itu ( data dalam csv )

Kami menerbitkan grafik survei ini di aplikasi berita Espresso kami. Ini menunjukkan hubungan dengan hasil referendum UE dalam bentuk grafik garis. Dilihat oleh data, responden sangat berfluktuasi dalam pandangan mereka: hasilnya melonjak beberapa poin persentase.

Alih-alih kurva yang halus untuk tampilan tren, kami menunjukkan nilai aktual dari setiap survei. Ini terjadi terutama karena alat charting kami tidak tahu bagaimana membangun garis yang halus. Hanya baru-baru ini kami menguasai program yang lebih maju untuk memproses data statistik (misalnya, R) dengan metode visualisasi yang lebih canggih. Hari ini, siapa pun dapat membangun kurva yang mulus untuk pemilihan, sebagai opsi yang disempurnakan di bagian atas.

Masih ada pelanggaran skala. Grafik sumber menyebarkan data lebih luas dari yang seharusnya. Dalam versi revisi, saya menambahkan sedikit ruang antara awal skala dan titik data minimum. Francis Gagnon menawarkan formula yang baik untuk situasi seperti itu: biarkan bebas setidaknya 33% dari area di bawah grafik garis, yang tidak dimulai dari awal.

Bagan yang membingungkan


Bukan kejahatan serius yang menyesatkan, tetapi jika jadwalnya sulit dipahami, ini adalah pertanda dari pekerjaan visualisasi yang dilakukan dengan buruk.

Galat: bagan terlalu muskil



... apa? ( data dalam csv )

Wartawan di The Economist mencari, dengan cara yang baik, untuk membingungkan pembaca. Tapi terkadang kita melangkah terlalu jauh. Grafik di atas menunjukkan defisit perdagangan AS dalam barang dan jumlah orang yang bekerja di bidang manufaktur.

Bagan ini sangat sulit untuk dipahami. Dia memiliki dua masalah utama. Pertama, nilai-nilai satu seri (defisit perdagangan) benar-benar negatif, sementara yang lain (lapangan kerja di bidang manufaktur) positif. Sulit untuk menggabungkan data yang berbeda seperti itu dalam satu diagram. "Solusi" yang jelas mengarah ke masalah kedua: dua baris data tidak memiliki garis dasar yang sama. Garis dasar dari defisit perdagangan adalah di bagian atas grafik (disorot dengan warna merah, melewati setengah grafik). Baseline skala yang tepat ada di bagian bawah.

Grafik yang direvisi menunjukkan bahwa tidak perlu menggabungkan dua seri data. Hubungan antara defisit perdagangan dan pekerjaan manufaktur tetap jelas dan hanya memakan sedikit ruang.

Kesalahan: warna kusut



50 warna biru ( data dalam csv )

Bagan ini membandingkan pengeluaran pemerintah untuk tunjangan pensiun dengan proporsi orang di atas 65 tahun di sejumlah negara, dengan penekanan khusus pada Brasil. Agar tidak mengembang grafik, visualisator hanya menandatangani beberapa negara dan menyorotnya dengan warna biru. Rata-rata OECD disorot dengan warna biru muda.

Visualisator (itu saya!) Mengabaikan fakta bahwa perubahan warna sering menyiratkan perubahan kategori. Di sini, pembaca juga dapat memperoleh gagasan bahwa semua negara biru tampaknya termasuk kelompok yang berbeda dengan negara biru. Ini tidak benar. Satu-satunya perbedaan adalah bahwa mereka tidak ditandatangani.

Dalam versi revisi, warnanya sama untuk semua orang. Saya hanya mengubah intensitas untuk negara-negara yang ditandatangani. Tipografi melakukan sisanya: Brasil, negara fokus, dicetak tebal, dan rata-rata OECD dicetak miring.

Bagan yang tidak masuk akal


Kesalahan dalam kategori terakhir ini kurang jelas. Diagram seperti itu tidak menyesatkan dan tidak terlalu membingungkan. Mereka tidak bisa membenarkan keberadaan mereka. Entah itu dibangun secara tidak benar, atau kami mencoba memasukkan terlalu banyak informasi ke dalam ruang yang terlalu kecil.

Kesalahan: Terlalu banyak detail.



"Semakin banyak bunga, semakin baik!" ( data dalam csv )

Pelangi asli! Kami menerbitkan bagan ini di kolom surplus anggaran Jerman. Ini menunjukkan saldo anggaran dan saldo saat ini dari sepuluh negara di kawasan euro. Dengan begitu banyak warna - beberapa di antaranya cukup sulit untuk dibedakan atau bahkan dilihat karena nilainya terlalu kecil - arti bagan itu sulit dipahami. Ini hampir menghalangi otak, menyebabkan pembaca melewati grafik dan melanjutkan. Dan, yang lebih penting, karena kami tidak memberikan angka untuk semua negara di Zona Euro, tidak ada gunanya menambahkan data.

Saya membaca kembali artikel untuk menemukan cara menyederhanakan diagram. Teks tersebut merujuk ke Jerman, Yunani, Belanda, Spanyol, dan Zona Euro. Dalam versi revisi bagan, saya memutuskan untuk memilih hanya mereka, dan menempatkan sisanya dalam kategori β€œLainnya” (total saldo akun lancar pada grafik yang diproses kurang dari pada grafik asli, karena revisi data Eurostat).

Kesalahan: banyak data, tidak cukup ruang



Saya menyerah ( data dalam csv )

Terbatas oleh ruang di halaman, kita sering tergoda untuk mendorong semua data ke dalam slot yang terlalu kecil. Meskipun ini menghemat ruang yang berharga pada halaman, ada konsekuensinya, seperti dapat dilihat pada grafik ini dari Maret 2017 . Ini adalah grafik untuk artikel yang menyatakan bahwa pria mendominasi sains. Semua posisi sama menarik dan relevan dengan artikel. Tetapi, jumlah data seperti itu sulit untuk berasimilasi: di sini ada empat kategori bidang penelitian, serta proporsi penulis paten di setiap negara.

Setelah refleksi, saya memutuskan untuk tidak mengubah diagram ini. Jika Anda menyimpan semua data, bagan akan terlalu besar untuk sebuah artikel kecil. Dalam kasus seperti itu, lebih baik memotong sesuatu. Atau, Anda dapat menampilkan indikator rata-rata tertentu: misalnya, rata-rata pangsa artikel wanita di semua area. (Tolong beri tahu saya jika Anda memiliki ide tentang cara memvisualisasikan ini di ruang terbatas!)



Praktik terbaik berkembang pesat: apa yang dapat diterima hari ini, akan dikutuk besok. Setiap saat, metode baru dan lebih maju muncul. Pernahkah Anda melakukan "kejahatan infografis" yang dapat dengan mudah diperbaiki?

Source: https://habr.com/ru/post/id446880/


All Articles