Menghindari berbohong dengan statistik: dasar-dasar visualisasi data



Saya sering mendengar pendapat bahwa tugas analis adalah menunjukkan angka-angka “sedih” yang jujur ​​sedemikian rupa seolah-olah semuanya berjalan sesuai rencana. Mungkin ini terjadi di suatu tempat, tetapi di gamedev yang terjadi adalah sebaliknya. Kita perlu memberikan data yang paling objektif sehingga keputusan yang tepat dibuat dalam proyek. Dan membuat data ini dapat dimengerti.

Ini seringkali lebih sulit daripada memikat dengan grafis yang indah.

Oleh karena itu, saya telah menyusun beberapa prinsip dasar visualisasi yang saya terapkan dalam pekerjaan saya (daftar sumber di akhir). Ini berguna jika Anda menulis laporan, mempersiapkan presentasi atau hanya ingin menyampaikan arti dari beberapa angka. Hal utama: untuk membuat jadwal yang baik, Anda tidak perlu menjadi artis yang berbakat atau memiliki matplotlib / ggplot2. Ayo pergi.

Mengapa Excel sederhana (dan terkadang pensil dan kertas) cukup untuk grafik yang baik?

Ini berasal dari satu-satunya tujuan visualisasi - untuk menyampaikan ide Anda. Karena itu, segera: tidak ada jadwal "indah" atau "benar" - baik itu membantu menyampaikan ide atau tidak. Dan jika tidak, tidak peduli seberapa indah jadwalnya, itu tidak diperlukan.

Proses membuat jadwal yang akan mencapai tujuannya dapat dibagi menjadi 4 langkah [1]:



Semuanya dimulai dengan sebuah ide. Apa yang Anda ingin pembaca atau pemirsa mengerti? Berdasarkan hal ini, jenis diagram dipilih, maka perhatian diarahkan ke tempat-tempat penting dan segala sesuatu yang mengganggu penyampaian pemikiran dihapus.

Sekarang, lebih banyak tentang setiap item.

Ide


Mari kita mulai dengan merumuskan ide dan bagaimana hal itu mempengaruhi grafik. Lihatlah contoh kanonik: tanda "Penjualan berdasarkan Wilayah" dengan kumpulan data yang sangat sederhana (8 digit, 2 perusahaan) [2].

Dalam bentuk ini, sulit untuk dipahami dan tidak ada ide yang langsung mengikuti darinya:



Untuk menunjukkan koneksi penting dengan lebih mudah dan lebih jelas - kita memerlukan diagram. Dan tergantung pada jenis grafik yang dipilih, pemikiran yang sama sekali berbeda akan muncul ke depan.



Sebagai contoh, satu-satunya hal yang dapat kita pertimbangkan pada pandangan pertama pada grafik di atas adalah bahwa struktur penjualan kedua perusahaan berbeda. Untuk membaca informasi lain, Anda harus memahami lebih dalam, dan ini tidak membantu untuk menyampaikan ide tersebut.

Grafik lain, data yang sama:



Di sini, di samping perbedaan dalam struktur, kami telah menunjukkan bagaimana perusahaan berbagi saham penjualan di berbagai daerah. Jika Anda membacanya dari kiri ke kanan (seperti yang dilakukan kebanyakan orang), pemikirannya adalah sebagai berikut: perusahaan B (kiri) memiliki pangsa penjualan terkecil di selatan, dan perusahaan A (kanan) memiliki pangsa terbesar. Dan sebaliknya di utara.

Grafik lain:



Jika kita menggunakan histogram jenis ini, maka perhatian terutama akan diambil untuk membandingkan perusahaan satu sama lain: dalam hal pendapatan di utara, perusahaan B di depan perusahaan A, di timur dan barat mereka bersaing, dan di selatan, perusahaan B berada di belakang perusahaan A.

Data yang sama, hanya 8 digit, tetapi tergantung pada presentasi, mereka mengekspresikan ide yang berbeda.

Oleh karena itu - pertama kita merumuskan pemikiran, dan kemudian memilih jenis diagram yang sesuai.

Jenis bagan


Mari kita telusuri jenis-jenis diagram yang paling umum (yang dapat Anda temukan di Excel, BI apa pun, atau alat analitik lainnya) dan lihat jenis perbandingan apa (dan gagasan mana) yang paling baik digunakan untuk mereka [2].

Pie chart

Mari kita mulai dengan diagram lingkaran "favorit" dan variasi (donat grafik). Dalam interpretasi klasik, tujuan utamanya adalah untuk membandingkan saham ketika menunjukkan struktur statis.


Komponen permainan yang bagus

Namun ada juga yang berpendapat bahwa tujuan utama diagram ini adalah iklan dan gambar yang indah.

Dalam banyak hal, Pie Charts yang memungkinkan konsultan bisnis menjual presentasi 30 halaman selama beberapa juta tahun yang lalu. Tidak Berikut adalah gambar pertama atas permintaan "konsultasi", "analitik", "BI":


Pie chart, mereka ada di mana-mana

Hampir tidak ada gambar iklan yang dapat dilakukan tanpa diagram lingkaran (atau varietasnya). Ini bukan alat sebagai simbol.

Dan untuk visualisasi data nyata, itu tidak cocok.

Pertama, ruang lingkup diagram ini sangat sempit. Struktur statis perlu diperlihatkan tidak terlalu sering - sejumlah kecil kasus. Dan kedua, banyak orang tidak membaca dengan baik bagian dalam diagram lingkaran, terutama jika seseorang membuat mereka banyak (kegilaan). Dan ketiga, jenis perbandingan yang sama dapat diekspresikan dalam diagram lain dan itu hanya akan menjadi lebih baik.

Oleh karena itu - lebih baik melupakan grafik pie. Nah, jika Anda melakukan iklan atau ingin menambah soliditas pada presentasi Anda, maka pilihannya tidak terlalu buruk.

Bagan batang (horizontal)

Dia adalah grafik batang dan berfungsi untuk perbandingan posisi. Ini jelas menunjukkan alternatif mana yang lebih baik, siapa yang mengambil tempat dan bagaimana mereka berhubungan dalam peringkat.


Perbandingan posisi

Bagan batang sangat ideal untuk peringkat. Dan yang sangat nyaman - nama panjang mudah masuk ke dalam legenda. Di jenis grafik lain, ini dapat mengganggu.

Bagan garis

Tipe selanjutnya adalah klasik. Line Chart dalam bahasa Rusia sering disebut hanya "grafik".

Ini digunakan untuk perbandingan sementara, ketika Anda perlu menampilkan bagaimana indikator berubah seiring waktu, apakah dinamika berbeda untuk indikator yang berbeda dan sebagainya.


Perbandingan indikator kinerja

Apa yang harus dicari ketika membuat Bagan Garis:

  1. Kecukupan periode waktu. Jika tidak, bagan akan berubah menjadi kekacauan yang tidak dapat dibaca.
  2. Jumlah garis. Lebih dari lima atau tujuh baris - tabu, tidak ada yang akan memahaminya.

    Di sebelah kiri adalah periode waktu yang terlalu lama, di sebelah kanan adalah "mie" garis
  3. Skala. Hati-hati, Line Chart disukai oleh mereka yang akan menipu dengan bantuan data [3].

    Lies Klasik - Game Skala

    Misalnya, jika Anda menunjukkan jadwal di sebelah kiri pada presentasi dewan direksi dan menyebutnya retensi, proyek mungkin akan ditutup. Faktanya, semuanya tidak terlalu buruk: di sebelah kanan adalah bagan yang sama, tetapi dengan skala yang masuk akal, menjadi jelas bahwa "jatuhnya" indikator hanyalah fluktuasi. Di arah yang berlawanan, ini juga berfungsi, dengan meningkatkan skala, Anda dapat menyembunyikan penurunan nyata dari indikator.

Singkatnya, Bagan Garis adalah jenis bagan yang sangat berguna. Khususnya dalam pengembangan game, di mana perlu untuk terus memantau indikator, menunjukkan perubahan dinamika dan memantau pengembangan proyek.

Bagan area

Tipe berikutnya, Area Chart, berfungsi untuk menunjukkan struktur dalam dinamika. Apa yang harus diperhatikan? Lagi - jika kita melakukan banyak lapisan, maka grafik menjadi tidak dapat dibaca. Hapus lapisan tambahan dan hanya meninggalkan yang paling penting (bagaimana melakukan ini, kami akan berbicara sedikit lebih jauh):



Histogram

Histogram adalah "palu universal." Jenis bagan ini memiliki banyak variasi yang dapat digunakan dalam berbagai situasi:

  1. perbandingan sementara;
  2. distribusi frekuensi;
  3. perbandingan saham (hello to pie charts);
  4. kontribusi terhadap dinamika keseluruhan;
  5. perbandingan alternatif dan banyak lagi.




Untuk keserbagunaan ini, histogram membayar batasan - hanya sejumlah kecil periode atau perbandingan yang dapat ditampilkan di dalamnya. Jika tidak, jadwal menjadi tidak dapat dibaca dan berhenti untuk memenuhi tugasnya.

Intinya: bagan batang, Bagan Area dan Bagan Garis dapat mencakup 90% dari kebutuhan visualisasi data. Cukup mempelajari tiga alat ini dan mengikuti 4 langkah yang sama untuk membuat diagram yang luar biasa yang akan membantu menyampaikan pemikiran Anda kepada audiens.

Bagan pencar

Untuk hidangan penutup, pertimbangkan sebar grafik atau "peta". Kelebihan dari tipe ini adalah mengandung banyak indikator. Ini memiliki dua sumbu, ukuran titik, warna, dan simbol - yang semuanya berpotensi menampilkan dimensi tambahan. Tetapi semakin banyak pengukuran yang dijejalkan, semakin sulit untuk dibaca. Dalam dokumen cetak, ketika orang bisa duduk dan mencari tahu, ini diperbolehkan, tetapi ketika berbicara, lebih baik menggunakan tidak lebih dari 2-3 pengukuran.


Opsi yang tersedia: posisi titik, warna, ukuran dan simbol

Penekanan dan manajemen perhatian


Gagasan yang dirumuskan dan jenis bagan yang tepat adalah setengah dari keberhasilan. Tapi selain itu, kami ingin pembaca atau pemirsa untuk segera melihat tempat yang tepat. Bagaimana cara menekankan?

Panah

Cara paling sederhana yang sering diabaikan adalah panah. Murah dan ceria, tetapi sepenuhnya memenuhi tugasnya. Hampir semua alat tangkapan layar dapat mengatur panah. Dengannya Anda selalu dapat menarik perhatian pengunjung ke elemen grafik yang diinginkan.



Bingkai

Pilihan lain dari "murah" - menyoroti bingkai. Ini digunakan ketika mereka berbicara tentang periode waktu tertentu dan ingin menyoroti dinamika indikator.



Contoh yang baik adalah grafik dari awal artikel ketika saya berbicara tentang game dengan skala - Anda dapat berbicara tentang perubahan kecil dan gambaran besar.



Pembatas

Pada dasarnya, garis pemisah adalah variasi di perbatasan. Mereka berguna ketika kita ingin menyoroti periode "sebelum / sesudah" ketika menunjukkan dinamika. Atau, misalnya, "koridor" nilai-nilai menarik dalam sebaran plot.



Warna

Upaya lebih banyak membutuhkan penyorotan warna. Tapi itu terlihat "lebih rapi."


Dinamika indikator dalam periode tertentu

Variasi lain dalam penyorotan warna adalah ketika kami menyorot bagian-bagian dari bagan yang menarik bagi kami dengan warna yang lebih cerah:



Hapus kelebihan


Langkah terakhir adalah menghapus elemen berlebih. Segala sesuatu yang akan mengalihkan perhatian dan mengganggu penyampaian gagasan utama.

Kembali ke contoh Bagan Area. Dalam jenis ini kami menghapus lapisan yang tidak perlu. Jika Anda ingin menyoroti bahwa penghasilan menunjukkan peningkatan hanya dalam satu kategori, maka semua lapisan lainnya dapat disembunyikan.


Tutup lapisan

Banyak alat analisis default membuat grafik dengan garis dan skala. Alih-alih memaksa pemirsa untuk mengkorelasikan ketinggian kolom dan skala, kita dapat menentukan angka pada setiap kolom secara terpisah dan menghapus garis yang tidak lagi diperlukan. Akan terlihat lebih rapi.



Selalu kurangi satuan dan bulatkan ke angka signifikan. Jika kita berbicara tentang jutaan, maka ratusan dan lusinan jelas tidak diperlukan. Pertama, itu akan kurang mengganggu bagi pemirsa, dan kedua, akan lebih mudah untuk mencocokkan angka-angka pada grafik.

Dan akhirnya, jika tiba-tiba jadwal yang dihasilkan masih tidak membantu Anda menyampaikan pesan, maka hapus semuanya. Mengapa membanjiri presentasi atau laporan dengan pemberat yang tidak berguna?

Sumber


Sejauh ini, mungkin untuk secara singkat berjalan melalui prinsip-prinsip yang paling dasar, tetapi topik visualisasi data jauh lebih luas. Jika dia tertarik, maka saya sarankan Anda membiasakan diri dengan sumber-sumber yang tanpanya artikel ini tidak akan:

[1] Alexander Bogachev, "Grafik yang meyakinkan semua orang . " Buku ini masih dalam proses, bab-bab secara bertahap disusun oleh penulis di situs, tetapi apa yang sudah ada sangat berguna.

[2] Gene Zhelyazny, "Bicaralah dalam bahasa diagram . " Klasik visualisasi data, yang menulis buku ini ketika grafik masih digambar dengan tangan dan Anda harus segera berpikir bagaimana memperbaikinya.

[3] Darrell Huff, "Cara Berbohong Menggunakan Statistik . " Tidak kalah klasik tentang manipulasi data.

Source: https://habr.com/ru/post/id453828/


All Articles