
Big Data adalah bisnis besar hari ini. Informasi mengendalikan hidup kita, dan memanfaatkannya adalah pusat pekerjaan organisasi modern. Tidak peduli siapa Anda - seorang pebisnis yang bekerja dengan analitik, programmer pemula atau pengembang, "Big Data Theoretical Minimum" akan memungkinkan Anda untuk tidak tenggelam di lautan badai teknologi modern dan memahami dasar-dasar industri pengolahan data besar yang baru dan berkembang pesat.
Ingin belajar tentang data besar dan bagaimana cara mengatasinya? Bab terpisah dikhususkan untuk masing-masing algoritma, yang tidak hanya menjelaskan prinsip-prinsip dasar kerja, tetapi juga memberikan contoh penggunaan dalam masalah nyata. Sejumlah besar ilustrasi dan komentar sederhana membuatnya mudah untuk memahami aspek paling rumit dari Big Data.
Kami menawarkan Anda untuk membiasakan diri dengan bagian "Komponen utama"
Metode Principal Component Analysis (CIM) adalah cara untuk menemukan variabel mendasar (dikenal sebagai komponen utama) yang membedakan elemen data Anda secara optimal. Komponen utama ini memberikan sebaran data terbesar (Gbr. 2).
Komponen utama dapat mengekspresikan satu atau lebih variabel. Sebagai contoh, kita dapat menggunakan variabel tunggal "Vitamin C". Karena vitamin C ditemukan dalam sayuran tetapi tidak ditemukan dalam daging, grafik terakhir (kolom kiri pada Gambar. 3) akan mendistribusikan sayuran, tetapi semua daging akan berada dalam satu tumpukan.
Untuk distribusi produk daging, kita bisa menggunakan lemak sebagai variabel kedua, karena ada dalam daging, tetapi hampir tidak ada dalam sayuran. Namun, karena lemak dan vitamin C diukur dalam unit yang berbeda, kita harus membakukannya sebelum menggabungkannya.
Standarisasi adalah ekspresi dari setiap variabel dalam persentil, yang mengubah variabel-variabel ini menjadi skala tunggal, memungkinkan kami untuk menggabungkan mereka untuk menghitung variabel baru:
Vitamin C - Lemak
Karena vitamin C telah menyebarkan sayuran ke atas, kami mengurangi lemak untuk mendistribusikan daging. Kombinasi dari dua variabel ini akan membantu kita untuk mendistribusikan sayuran dan produk daging (kolom di tengah pada Gambar. 3).
Kita dapat meningkatkan penyebaran dengan memperhitungkan serat makanan, yang kandungannya dalam sayuran bervariasi:
(Vitamin C + serat makanan) - lemak.
Variabel baru ini memberi kita pencar data yang optimal (kolom kanan pada Gambar 3).
Meskipun kami mendapatkan komponen utama dalam contoh ini dengan coba-coba, CIM dapat melakukan ini secara sistematis. Kita akan melihat bagaimana ini bekerja dalam contoh berikut.
Contoh: analisis kelompok makanan
Menggunakan data dari Departemen Pertanian AS, kami menganalisis sifat gizi dari serangkaian makanan acak dengan melihat empat variabel makanan: lemak, protein, serat makanan, dan vitamin C. Seperti yang dapat dilihat pada Gambar. 4, nutrisi tertentu sering ditemukan dalam makanan bersama.
Secara khusus, kadar lemak dan protein meningkat satu arah yang berlawanan dengan peningkatan kadar serat dan vitamin C. Kita dapat mengkonfirmasi asumsi kita dengan memeriksa variabel mana yang berkorelasi (lihat bagian 6.5). Memang, kami menemukan korelasi positif yang signifikan antara tingkat protein dan lemak (r = 0,56), dan antara tingkat serat makanan dan vitamin C (r = 0,57).
Jadi, alih-alih menganalisis empat variabel makanan secara individual, kita bisa menggabungkan yang sangat berkorelasi, hanya mendapatkan dua untuk dipertimbangkan. Oleh karena itu, metode komponen utama disebut sebagai teknik
reduksi dimensi .
Menerapkannya ke dataset makanan kami, kami mendapatkan komponen utama yang ditunjukkan pada Gambar. 5.Setiap komponen utama adalah kombinasi dari variabel makanan, yang nilainya bisa positif, negatif atau mendekati nol. Misalnya, untuk mendapatkan komponen 1 untuk produk individual, kami dapat menghitung yang berikut:
.55 (serat makanan) + .44 (Vitamin C) - .45 (lemak) -
0,55 (protein)
Artinya, alih-alih menggabungkan variabel dengan cara coba-coba, seperti yang kami lakukan sebelumnya, metode komponen utama itu sendiri menghitung formula yang tepat yang dengannya kami dapat membedakan posisi kami.
Harap dicatat bahwa komponen utama kami 1 (PC1) segera menggabungkan lemak dengan protein, dan serat makanan dengan vitamin C, dan pasangan ini berbanding terbalik.
Sementara PC1 membedakan daging dari sayuran, komponen 2 (PC2) mengidentifikasi secara lebih rinci subkategori internal daging (berdasarkan kadar lemak) dan sayuran (berdasarkan kandungan vitamin C). Kami akan mendapatkan pencar data terbaik menggunakan kedua komponen untuk grafik (Gbr. 6).
Produk daging memiliki nilai komponen 1 yang rendah, sehingga terkonsentrasi di sisi kiri grafik, di sisi yang berlawanan dari sayuran. Terlihat juga bahwa di antara produk-produk nabati, kandungan makanan laut yang rendah lemak, oleh karena itu, nilai komponen 2 untuk mereka lebih sedikit, dan mereka sendiri cenderung ke bagian bawah grafik. Demikian pula, sayuran yang bukan sayuran memiliki nilai komponen 2 yang rendah, yang dapat dilihat di bagian bawah grafik di sebelah kanan.
Pilihan jumlah komponen . Dalam contoh ini, empat komponen utama dibuat oleh jumlah variabel awal dalam kumpulan data. Karena komponen utama dibuat berdasarkan variabel biasa, informasi untuk distribusi elemen data terbatas pada set awal mereka.
Pada saat yang sama, untuk menjaga kesederhanaan dan skalabilitas hasil, kita harus memilih hanya beberapa komponen utama pertama untuk analisis dan visualisasi. Komponen utama berbeda dalam efisiensi distribusi elemen data, dan yang pertama melakukan ini secara maksimal. Jumlah komponen utama yang perlu dipertimbangkan ditentukan menggunakan grafik scree, yang kami periksa pada bab sebelumnya.
Grafik menunjukkan penurunan efisiensi komponen utama berikutnya dalam membedakan elemen data. Sebagai aturan, sejumlah komponen utama digunakan yang sesuai dengan posisi fraktur akut dalam plot scree.
Dalam gbr. 7 fraktur terletak di sekitar dua komponen. Ini berarti bahwa walaupun tiga atau lebih komponen utama dapat membedakan elemen data dengan lebih baik, informasi tambahan ini mungkin tidak membenarkan kerumitan solusi akhir. Seperti yang dapat dilihat dari grafik scree, dua komponen utama pertama telah memberikan spread 70%. Menggunakan sejumlah kecil komponen utama untuk analisis data memastikan bahwa skema tersebut cocok untuk informasi di masa mendatang.
Keterbatasan
Metode komponen utama adalah cara yang berguna untuk menganalisis set data dengan beberapa variabel. Namun, itu juga memiliki kekurangan.
Maksimalkan distribusi . CIM berasal dari asumsi penting bahwa pengukuran yang memberikan hamburan terbesar adalah yang paling berguna. Namun, ini tidak selalu terjadi. Contoh tandingan yang terkenal adalah masalah menghitung pancake dalam tumpukan.
Untuk menghitung pancake, kami memisahkan satu dari yang lain di sepanjang sumbu vertikal (yaitu, ketinggian tumpukan). Namun, jika tumpukan kecil, MHC akan keliru memutuskan bahwa sumbu horizontal (diameter pancake) akan menjadi komponen utama terbaik, karena pada kenyataan bahwa dalam pengukuran ini Anda dapat menemukan berbagai nilai.
Interpretasi komponen. Kesulitan utama dengan CIM adalah bahwa perlu untuk menafsirkan komponen yang dihasilkan, dan kadang-kadang Anda perlu berusaha keras untuk menjelaskan mengapa variabel harus dikombinasikan dengan cara yang dipilih.
Namun demikian, informasi umum awal dapat membantu kami. Dalam contoh kami, variabel makanan untuk komponen utama menggabungkan produk dengan bantuan pengetahuan awal tentang kategorinya.
»Informasi lebih lanjut tentang buku ini dapat ditemukan di
situs web penerbit»
Isi»
KutipanKupon diskon 20% untuk
penjaja -
BigData