"Mendongeng dengan Data," oleh Cole Nussbaumer Knaflic: ringkasan buku informal

“Ilmuwan kita menghasilkan banyak grafik, dan kita sama sekali tidak tahu di mana harus meletakkannya. Mari kita coba melampirkannya entah bagaimana. ” (c) tidak sengaja

“Grafik buruk di mana-mana. Dalam pekerjaan saya, saya terus-menerus menghadapi visualisasi data yang sangat meragukan. Tidak ada yang sengaja membuat grafik yang buruk. Tetapi ini sedang terjadi. Lagi dan lagi. Di setiap perusahaan di semua sektor ekonomi, karyawan dari semua tingkatan. Ini terjadi di media. Ini terjadi ketika Anda mengharapkan orang dapat memvisualisasikan data. " (c) penulis buku

Ini terjadi di sini, di Habré : melihat artikel dalam aliran "Visualisasi Data", saya sering mendapati diri saya berpikir bahwa saya tidak mengerti dan tidak dapat memahami esensi dari apa yang ditampilkan. Artikel ini akan membahas beberapa contoh. Dan apa yang paling tidak menyenangkan bagi saya, ini terjadi dalam pekerjaan saya juga. Tidak terus-menerus, tetapi lebih sering dari yang kita inginkan.



Judul buku itu, Bercerita dengan Data, terdengar meyakinkan. Saya memilihnya untuk membaca malam hari dan tidak menyesalinya. Buku ini tidak memiliki formula, grafik yang rumit dan tidak biasa, kasing yang rumit. Bahasa Inggris yang jelas. Pencetakan berkualitas. Itu dibaca sebagai fiksi. Buku ini akan bermanfaat bagi semua orang yang harus membuat presentasi berdasarkan data. Saya pikir itu akan membawa manfaat khusus bagi mereka yang terlibat dalam analisis data.

Ulasan ini sangat informal: penulis buku, pikiran saya, situasi dari pekerjaan saya, serta lembar contekan matplotlib untuk tautan digabungkan. Akan ada banyak gambar. Hampir semua ilustrasi digambar ulang dari sebuah buku dengan Python.

Saya diajar statistik di universitas, sekarang siswa diajar pembelajaran mesin, sekolah data dari perusahaan besar telah muncul. Namun sejauh ini saya belum mendengar bahwa analis data secara serius diajarkan untuk "menceritakan kisah" berdasarkan data. Tetapi ini adalah langkah penting dalam mengubah data menjadi informasi dan pengetahuan. Penting untuk memberi tahu klien tentang temuan dengan cara yang berkualitas. Dan untuk mengatakan dengan cara yang jelas dan menghibur kepadanya, bahwa ia segera ingin meningkatkan sesuatu dalam bisnis (mungkin dengan bantuan kami), dan tidak hanya mengatakan: "Baiklah, oke, itu terdengar menarik" dan pergi untuk melakukan urusan bisnis sehari-hari .

Beberapa kutipan dari Habr:
Dalam percakapan dengan Jonathan Nolis, salah satu analis data terkemuka Seattle yang bekerja dengan perusahaan-perusahaan Fortune 500, kami membahas pertanyaan berikut: "Manakah dari dua keterampilan yang lebih penting bagi seorang profesional data adalah kemampuan untuk menggunakan model rumit yang mendalam pelatihan atau kemampuan untuk menggambar slide yang baik di PowerPoint? " Nolis berpendapat mendukung yang terakhir, percaya bahwa penjelasan yang dapat diakses dari hasil analisis tetap menjadi elemen kunci dari bekerja dengan informasi.
Apa yang sebenarnya dilakukan analis data? Temuan dari 35 Wawancara
Dan inilah kutipan kedua tentang soft skill:
- Mari kita mulai dengan soft skill - karena mereka tidak cukup. Terlepas dari kenyataan bahwa seorang ilmuwan data adalah profesi teknis, sangat penting untuk dapat menyajikan hasil pekerjaan Anda dengan benar / indah. Secara kasar, seperti iPhone - ia tidak hanya memiliki isian yang bagus, tetapi juga penampilan, kemasan, sejarah. Orang perlu belajar bagaimana mempresentasikan hasil mereka: menulis posting blog, berbicara, berbagi kode. Para ilmuwan data terbaik memahami ini dengan sangat baik, dan mereka melakukannya. Kalau tidak, Anda bisa terjebak di lubang Anda, dan bahkan dengan hasil yang keren, luput dari perhatian.
“Sulit bagi saya untuk memahami motivasi seorang ilmuwan data yang tidak melihat keindahan dalam matematika” - Kirill Danilyuk, Data Scientist

Pendahuluan


Buku ini dimulai dengan contoh-contoh mengubah visualisasi yang gagal menjadi yang dapat dimengerti. Ini salah satunya.

Itu:




Itu menjadi:




Notebook Jupyter di GitHub

Jika dalam kasus pertama reaksi saya terhadap grafik adalah: "Apa ini?", Kemudian dalam kasus kedua, butuh beberapa detik untuk memahami esensi informasi, dan kemudian masuk ke detail.

Hampir setiap visualisasi untuk presentasi adalah karya. Saya membuat grafik menggunakan matplotlib, dan penulis buku ini menggunakan Excel. Untuk memudahkan pekerjaan di masa depan, saya menyadari sendiri pembuatan beberapa grafik dari sebuah buku dengan Python. Kode berisi sekelompok "penyetelan file" (fine tuning). Ternyata semacam lembar contekan dengan komentar. Tersedia di sini

Mari kita cepat melihat isi bagian-bagian buku ini.

Bagian 1: Pentingnya Konteks


Eksplorasi vs jelas. Analisis data seperti mencari mutiara: kadang-kadang Anda perlu membuka 100 tiram (uji 100 hipotesis) untuk menemukan sepasang mutiara. Dalam proses kerja seperti itu, kami memvisualisasikan data untuk diri kita sendiri. Ketika tiba saatnya untuk berbicara tentang hasilnya, sangat sering ada keinginan untuk menggunakan grafik yang sama dan berbicara tentang semua pekerjaan yang dilakukan: “Buka tiram pertama. Itu kosong. Tapi tidak apa-apa, kita masih memiliki 99 tiram. Kami membuka yang kedua. " Tidak perlu melakukan ini. Penting untuk memisahkan analisis eksplorasi dari penjelasan . Pada tahap analisis penjelas, perlu untuk menentukan waktu, karena itu perlu untuk melakukan visualisasi lain tergantung pada konteksnya: kepada siapa, apa dan bagaimana.

Salah satu contoh menarik di mana saya ingin melihat analisis penjelas alih-alih penelitian, adalah artikel " Analisis artikel oleh Habrahabr dan Geektimes ". Penulis memberikan banyak grafik dan tabel, tetapi saya tidak melihat kesimpulan dari mereka. Akan sangat menarik untuk mengetahui kapan harus mempublikasikan artikel untuk mendapatkan tampilan maksimal. Menurut satu jadwal, ini adalah hari Minggu, menurut jadwal yang lain - jam 6 pagi. Tetapi apakah hari Minggu jam 6 pagi akan menjadi waktu yang tepat untuk menerbitkan? Tidak yakin Salah satu komentar:



Untuk. Jelas bahwa konten dan detail tergantung pada audiens. Tapi di sini kamu bisa ketinggalan. Suatu kali, salah satu pendengar yang kesal memberi tahu saya: "10 insinyur duduk di depan Anda, yang telah bekerja pada produksi minyak untuk sebagian besar hidup mereka, dan Anda telah memberi tahu kami bagaimana menganalisis kurva penurunan produksi selama 20 menit? !!" Dan bagus dia mengatakan ini, karena saya memiliki konten serupa selama 20 menit.

Apa Pikiran yang tidak jelas bagi saya. Penting untuk menyatakan dengan jelas tindakan apa yang Anda harapkan dari audiens Anda. Misalnya, untuk mengalokasikan 10 juta rubel lainnya, merekrut 5 pengembang, mengurangi departemen, meningkatkan suhu dalam boiler menjadi 700C, memulai proyek dengan memperkirakan utang operasional. Ini tidak nyaman. Selalu ada perasaan bahwa "bisnis" tahu lebih baik, dan menakutkan untuk membuat penawaran gila. Tetapi jika audiens tidak mengerti apa yang mereka inginkan darinya, maka semuanya dapat dan akan terbatas pada laporan yang didengarkan. Mereka mendengarkan, mengucapkan terima kasih, dan melanjutkan bisnis mereka lebih jauh.

"Bisnis" mungkin tahu yang lebih baik, tetapi "bisnis" pada saat ini dapat disibukkan dengan hal-hal yang sama sekali berbeda: pabrik terbakar atau peretas menghapus sebagian data historis dari sensor. (Semua ini adalah situasi nyata). Berperilaku sebagai ahli dalam bidang subjek: Anda menganalisis data, melihat proses dari dalam. Dalam kasus apa pun, bahkan proposal yang keliru dapat memunculkan diskusi yang konstruktif.

Baru-baru ini, saya melakukan pekerjaan yang bagus untuk salah satu pelanggan: Saya menganalisis data selama 3 tahun dari beberapa sumber. Dia mengkompilasi temuan itu ke dalam beberapa tabel Excel dan dokumen Word, mengirimnya melalui email, berharap beberapa proyek akan diluncurkan. Sebagai tanggapan, ia menerima: "Ya, itu sangat menarik!". Dan itu dia. Sekarang saya mengerti bahwa tidak ada jawaban lain.

Bagaimana Grafik presentasi berbeda dari grafik huruf. Dalam kasus pertama, kita melihat reaksi audiens, kapan saja kita bisa menjawab pertanyaan, memberikan penjelasan. Oleh karena itu, tingkat detail dalam bagan untuk surat harus lebih tinggi.

Bagian 2: Memilih Visualisasi yang Efektif


Penulis memberikan daftar cara yang baik untuk memvisualisasikan data. Dari yang tidak biasa bagi saya: visualisasi menggunakan teks dan slopegraph sederhana.

Teks sederhana. Jika sesuatu dapat dinyatakan dalam satu digit, maka jadwal mungkin tidak diperlukan.


Notebook Jupyter di GitHub

Baru-baru ini saya menggunakan ide ini untuk mempresentasikan proyek untuk memantau dan memperkirakan penyelesaian dengan agen: " 7.000.000 rubel akumulasi utang pada saat kebangkrutan agen." Efeknya luar biasa, para penonton segera mendengarkan dengan cara yang benar.

Grafik kemiringan. Sekali waktu, saya menggunakan plot paralel dari SAS JMP. Sesuatu yang serupa. Sayangnya, di banyak lingkungan tidak ada metode visualisasi seperti itu, tetapi sangat ideal untuk perbandingan multi-faktor:


Notebook Jupyter di GitHub

Baru-baru ini di Habré ada sebuah artikel " Pengusaha terbaik di IT: hasil pertama dari layanan nilai pada" My Circle ". Ada garis waktu yang mengarah ke diskusi di komentar:



Perusahaan kecil rata-rata dalam hampir semua hal dinilai lebih tinggi daripada perusahaan besar. Saya bertanya-tanya, tetapi apakah masuk akal untuk beralih dari perusahaan kecil rata-rata ke perusahaan besar yang bagus? Hasil perbandingan menggunakan grafik kemiringan:



Metode visualisasi yang buruk. Penulis buku ini memperingatkan penggunaan pie, diagram donat, dan juga menyarankan untuk tidak menggunakan 3D.

Pie Charts. Saya tahu sendiri: ketika saya melihat diagram lingkaran, saya segera mulai mencari angka (persen) di atasnya. Dan jika tidak ada angka, maka lewati saja. Sulit bagi orang untuk membandingkan sudut tanpa busur derajat. Satu-satunya hal yang hilang ketika pindah dari diagram lingkaran adalah visualisasi fakta bahwa semua bagian bersama-sama membentuk satu kesatuan (100%). Tetapi jika diagram lingkaran secara keseluruhan tidak berfungsi, maka ini tidak lagi penting.

Grafik donat. Lebih buruk daripada melingkar, karena alih-alih membandingkan sudut, Anda harus membandingkan panjang busur.

3D Beberapa contoh dibuat menggunakan Excel.

Menurut Anda apa yang setara dengan D?



Tidak hanya itu, Anda perlu melacak dengan jari Anda ke nilai 35 (sulit untuk berbelok dengan mata Anda), jadi 35 itu tidak benar. Nilai yang benar adalah 40!

3D yang dikombinasikan dengan bagan pai bekerja secara menakjubkan. Bagaimana C Lebih Besar dari B? Setidaknya tentang?



Faktanya, C adalah 5% kurang dari B dan mereka masing-masing 30% dan 35%! Hanya saja, jangan gunakan 3D untuk memvisualisasikan data.

Bagian 3: Sampah adalah musuhmu!


Setiap elemen pada grafik membawa beban kognitif. Semakin tinggi rasio signal-to-noise dari visualisasi, semakin baik. Tentu saja tidak merugikan. Elemen-elemen ekstra membuat grafik pada pandangan pertama secara visual jauh lebih rumit daripada yang sebenarnya. Akibatnya, bagian dari audiens memutuskan untuk tidak berusaha dan menghabiskan waktu untuk memahami visualisasi. Ini sering terjadi pada saya di Habré: "Oh! Grafik ini tampaknya menarik, tetapi entah bagaimana terlalu rumit. Mungkin saya akan meninggalkan bookmark, dan saya akan mengerti lain kali. " Penulis artikel tentang Habré tidak kehilangan apa pun dari keputusan tersebut. Tetapi klien potensial, investor, karyawan atau majikan bisa muncul di tempat saya.

Penulis buku ini menjelaskan apa yang ada di sampah pada grafik, dan bagaimana cara mengatasinya. Berikan satu contoh saja.

Itu:




Terlepas dari kenyataan bahwa grafik memvisualisasikan "menemukan" yang sangat sederhana, pikiran pertama saya adalah: "Uh?". Otak menolak membuang-buang kekuatan untuk menggali informasi.

Itu menjadi:



Notebook Jupyter di GitHub

Otak tidak lagi panik. Ada keinginan untuk mengerti.

Bagian 4: Fokuskan Audiens Anda


Sedikit latihan. Hitung jumlah digit "3" pada gambar berikut.



Saya pasti tidak akan melakukan tugas ini, kemungkinan besar Anda juga tidak melakukannya. Satu-satunya cara untuk tampil bagi orang biasa (bukan genius) adalah dengan melihat semua angka dalam satu baris dari atas ke bawah dari kiri ke kanan. Jawaban yang benar adalah 6.

Sekarang lihat gambar berikut. Seberapa mudah sekarang untuk menyelesaikan tugas:



Menurut penelitian, seseorang dalam 8-10 detik melihat grafik memutuskan apakah ia harus menghabiskan lebih banyak waktu atau lebih baik mengalihkan perhatiannya ke hal lain. Bagan tanpa atribut yang menarik perhatian mirip dengan gambar pertama. Kemungkinan besar, penonton akan terlalu malas untuk mengerti, dan setelah 8 detik, mereka akan kehilangan minat, tanpa menerima informasi apa pun. Jika grafik tampak seperti gambar kedua, penonton akan langsung mengambil informasi yang dipilih. Lebih cepat dari yang disadari. Dan bahkan jika setelah 8 detik pembaca mengalihkan perhatian mereka ke sesuatu yang lain, bagian terpenting dari informasi akan diterima.

Satu-satunya cara untuk mendapatkan informasi dari bagan ini adalah dengan membacanya secara lengkap:



Jadwal yang direvisi segera menarik perhatian audiens ke "menemukan" tertentu: sesuatu harus dilakukan dengan isolasi suara.


Notebook Jupyter di GitHub

Bagian 5: Berpikir Seperti Desainer


Bagi saya, desainer adalah orang yang melukis gambar yang indah. Saya bukan seorang desainer, saya tidak pernah mendapatkan gambar yang indah. Untungnya, visualisasi data lebih mudah. Penting untuk mengembangkan grafik, dengan mempertimbangkan poin-poin berikut: keterjangkauan, aksesibilitas dan estetika.

Peluang. Ketika kita mengambil gunting penjahit, segera menjadi jelas di mana harus meletakkan ibu jari, dan di mana - beberapa jari lainnya. Dengan jadwal juga: audiens harus segera memahami ke mana harus mencari dan apa yang harus dilakukan dengan jadwal ini. Untuk melakukan ini:

  1. Sorot poin-poin penting. Disarankan untuk memilih tidak lebih dari 10% elemen visualisasi, jika tidak efeknya hilang. "Sangat mudah untuk menemukan elang di antara merpati, tetapi semakin sulit ketika semakin banyak spesies burung."
  2. Hilangkan gangguan. "Kesempurnaan dicapai bukan ketika tidak ada yang ditambahkan, tetapi ketika tidak ada yang dihapus", - Antoine de Saint-Exupery.
    a. Tidak semua data sama pentingnya. Singkirkan komponen yang tidak penting.
    b. Ketika bagian tidak diperlukan, agregat.
    c. Tanyakan kepada diri Anda secara berkala: jika ini dibuang, akankah sesuatu berubah? Tidak berubah - buang saja.
    d. Kirim item latar belakang ke latar belakang. Gunakan warna abu-abu untuk ini.
  3. Buat hierarki informasi yang jelas. Dengan menggunakan berbagai atribut yang menarik perhatian, perlihatkan audiens Anda urutan di mana mereka perlu menerima informasi. Misalnya, seperti pada grafik berikut:


Notebook Jupyter di GitHub

Ketersediaan Konsep aksesibilitas menunjukkan bahwa desain harus sesuai untuk orang dengan kemampuan berbeda. Ini termasuk orang-orang dengan pengalaman, pengetahuan, keterampilan teknis yang berbeda, dan tingkat keterlibatan dalam bidang subjek. Anda bisa menjadi insinyur, tetapi tidak memerlukan audiensi pendidikan teknis yang lebih tinggi untuk memahami jadwal Anda:

  1. Jangan terlalu rumit. Jika memungkinkan, gunakan font bersih visual (Arial), kata-kata yang jelas, kalimat pendek.
  2. Teks adalah teman Anda. Paling tidak, grafik harus memiliki judul dan nama sumbu. Mari kita lihat bagaimana teks sederhana dapat mengubah persepsi grafik:

Tidak ada teks


Tentang apa grafik ini?



Teks wajib minimum


Sesuatu mulai ditarik: ada beberapa aplikasi yang telah diproses kurang dari yang diterima sejak Mei.



Banyak teks


Sekarang semuanya jelas: orang-orang pergi, tim tidak mengatasi, perlu untuk menyewa dua spesialis lagi.



Notebook Jupyter di GitHub

Estetika. Baru-baru ini di Habré ada sebuah artikel " Visualisasi komentar dari saluran YouTube dari komunitas touhou internasional dan lokal ". Jujur, saya masih tidak mengerti mengapa saya membutuhkannya, dan informasi apa yang bisa saya dapatkan dari grafik sama sekali ... Tapi betapa indahnya mereka! Saya melihatnya dengan senang hati (tanpa mengerti apa-apa). Menghabiskan waktu dan usaha ekstra pada estetika jadwal Anda, Anda meningkatkan kesempatan bahwa audiensi akan lebih sabar dan memperhatikan mereka. Dengan demikian, kemungkinan audiens akan memahami apa yang ingin Anda sampaikan.

Untuk melakukan ini:

  1. Gunakan warna dengan bijak.
  2. Perhatikan perataan.
  3. Buat lebih banyak ruang (ruang kosong).

Contoh cara membawa grafik ke tampilan estetika:

Apakah




Telah menjadi



Notebook Jupyter di GitHub

Bagian 6: Analisis Kritis Visualisasi


Penulis memberikan 5 contoh visualisasi yang baik dan memeriksa secara terperinci mengapa mereka dibuat seperti itu.

Saya menyukai contoh ini:


Notebook Jupyter di GitHub

  1. Hirarki visual yang berbeda: kita membaca judul, pergi ke angka tebal, dari mereka kita pergi dari kanan ke kiri ke teks "Kebutuhan tidak terpenuhi (kesenjangan)". Dalam beberapa detik kami memahami: jika tidak ada yang dilakukan, maka kebutuhan yang tidak terpenuhi akan meningkat.
  2. Dari "Unmet need (gap)" kami membaca semua label. Kami memahami di mana direktur dan sumber utama dari direktur baru hilang karena fakta bahwa kolom ditandatangani secara langsung.
  3. Ide kolom negatif sangat menarik.

Bagian 7: Pelajaran Naratif


Cerita yang bagus sangat menarik. Berdasarkan pengalaman sastra dan film, penulis menunjukkan bagaimana cara menceritakan kisah menarik menggunakan data. Salah satu tips: sebelum menyiapkan presentasi, tulis "ide besar" (ungkapkan pemikiran utama dalam satu kalimat) dan "cerita tiga menit" (jelaskan temuan utama dalam setengah halaman teks).

Setiap cerita memiliki 3 bagian utama: awal, tengah dan akhir.

  1. Mulai. Mengindikasikan masalah. Jika tidak ada masalah yang jelas, maka mungkin presentasi juga tidak diperlukan. "Kenapa aku harus tertarik dengan ini?"
  2. Tengah . Memperlihatkan bagaimana masalah dapat diselesaikan. "Mengapa saya bisa membuat keputusan yang diusulkan?"
  3. Akhirnya Ajakan untuk bertindak. "Apa yang harus saya mulai lakukan sekarang untuk menyelesaikan masalah?"

Ada dua strategi pendongeng utama:

1. Dalam urutan kronologis:

a. Identifikasi masalahnya
b. Mengumpulkan data untuk lebih memahami situasi.
c. Kami menganalisis data (memeriksa situasi dari sudut yang berbeda, memperhitungkan faktor-faktor lain)
d. Menemukan solusi
e. Berdasarkan semua ini, kami menyarankan Anda mengambil tindakan berikut

2. Mulai dari akhir:

a. Disarankan untuk melakukan ini dan itu
b. Kami mendukung rekomendasi ini dengan data.

Bagian 8: Menyatukan Semuanya


Penulis membimbing pembaca melalui contoh melalui semua langkah dan pelajaran dari buku ini:

  • Menunjukkan jadwal yang buruk,
  • Menjelaskan apa konteks presentasi itu,
  • Memilih metode visualisasi yang baik,
  • Buang semua sampah
  • Menentukan tempat untuk memfokuskan perhatian audiens, dan menggunakan atribut menarik untuk ini,
  • Memimpin jadwal ke tampilan estetika,
  • Mempersiapkan presentasi lengkap.

Dan Anda bisa melihat contohnya di buku. Saya sarankan membacanya.

Source: https://habr.com/ru/post/id422093/


All Articles