Masalah Analisis Data Besar

Apa saja tantangan Analisis Data Besar


Big Data menciptakan fitur yang tidak dibagikan oleh set data tradisional. Fitur-fitur ini menciptakan masalah yang signifikan untuk analisis data dan memotivasi pengembangan metode statistik baru. Tidak seperti kumpulan data tradisional, di mana ukuran sampel biasanya lebih besar dari pengukuran, Big Data dicirikan oleh ukuran sampel besar dan dimensi tinggi. Pertama, kita akan membahas pengaruh ukuran sampel besar pada pemahaman heterogenitas: di satu sisi, ukuran sampel besar memungkinkan kita untuk mengungkap pola tersembunyi yang terkait dengan subkelompok kecil populasi dan umum yang buruk di antara seluruh populasi. Di sisi lain, pemodelan heterogenitas internal Big Data memerlukan metode statistik yang lebih canggih. Kedua, kita akan membahas beberapa fenomena unik yang terkait dengan dimensi tinggi, termasuk akumulasi kebisingan, korelasi salah, dan endogenitas acak. Fitur unik ini membatalkan prosedur statistik tradisional.

Heterogenitas


Big Data sering dibuat dengan menggabungkan beberapa sumber data yang sesuai dengan berbagai subkelompok. Setiap subkelompok dapat memperlihatkan beberapa fitur unik yang tidak dibagikan oleh orang lain. Dalam kondisi klasik, ketika ukuran sampel kecil atau sedang, titik data dari subpopulasi kecil biasanya diklasifikasikan sebagai "penyimpangan", dan secara sistematis sulit untuk dimodelkan karena jumlah pengamatan yang tidak mencukupi. Namun, di era Big Data, ukuran sampel besar memungkinkan kita untuk lebih memahami heterogenitas dengan menyoroti studi seperti mempelajari hubungan antara kovariat tertentu (mis. Gen atau SNP) dan hasil yang jarang terjadi (mis. Penyakit langka atau penyakit dalam populasi kecil) dan pemahaman mengapa perawatan tertentu (seperti kemoterapi) bermanfaat bagi satu populasi dan membahayakan yang lain. Untuk menggambarkan hal ini dengan lebih baik, kami memperkenalkan model berikut untuk populasi:

$$ menampilkan $$ λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), λ1p1 (y; θ1 (x)) + ⋯ + λmpm (y; θm (x)), ( 1) $$ menampilkan $$


Di mana λj ≥ 0 mewakili fraksi dari jg subkelompok, pj (y; θj (x)) adalah distribusi probabilitas dari respons dari subkelompok j, diberikan kovariat x dengan θj (x) sebagai vektor parameter. Dalam praktiknya, banyak subpopulasi yang jarang diamati, yaitu, λj sangat kecil. Ketika ukuran sampel n sedang, nλj bisa kecil, yang membuatnya tidak mungkin untuk mendapatkan parameter yang tergantung kovariat θj (x) karena kurangnya informasi. Namun, karena Big Data memiliki ukuran sampel besar n, ukuran sampel nλj untuk kelompok populasi ke-j dapat cukup besar, bahkan jika λj sangat kecil. Ini memungkinkan kita untuk menarik kesimpulan yang lebih akurat tentang parameter subpopulasi θj (·). Singkatnya, keunggulan utama Big Data adalah pemahaman tentang heterogenitas subpopulasi, seperti manfaat perawatan khusus tertentu yang tidak mungkin dilakukan dengan ukuran sampel kecil atau sedang.

Big Data juga memungkinkan kami, karena ukuran sampel yang besar, untuk mengidentifikasi komunitas yang lemah di antara seluruh populasi. Misalnya, menilai manfaat jantung dari satu gelas anggur merah per hari bisa sulit tanpa ukuran sampel yang besar. Demikian pula, risiko kesehatan yang terkait dengan paparan faktor lingkungan tertentu hanya dapat lebih meyakinkan dievaluasi ketika ukuran sampel cukup besar.

Selain manfaat di atas, heterogenitas Big Data juga menimbulkan tantangan signifikan untuk inferensi statistik. Derivasi model campuran dalam (1) untuk set data besar membutuhkan metode statistik dan komputasi yang kompleks. Dalam pengukuran kecil, metode standar seperti algoritma tunggu-maksimisasi untuk model campuran akhir dapat digunakan. Namun, dalam skala besar, kita perlu merampingkan prosedur penilaian dengan hati-hati untuk menghindari overfitting atau akumulasi noise dan untuk mengembangkan algoritma komputasi yang baik.

Akumulasi kebisingan


Analisis Data Besar mengharuskan kami untuk mengevaluasi dan memverifikasi banyak parameter secara bersamaan. Kesalahan estimasi menumpuk ketika aturan keputusan atau prediksi bergantung pada sejumlah besar parameter tersebut. Efek akumulasi kebisingan ini sangat serius dalam dimensi besar dan bahkan mungkin mendominasi sinyal sebenarnya. Ini biasanya ditangani dengan asumsi jarang.

Ambil contoh, klasifikasi multidimensi. Klasifikasi yang buruk disebabkan oleh adanya banyak kelemahan yang tidak berkontribusi pada pengurangan kesalahan klasifikasi. Sebagai contoh, pertimbangkan masalah klasifikasi ketika data berasal dari dua kelas:

$$ menampilkan $$ X1, dan Y1, ........ Xn∼Nd (μ1, Id), Yn∼Nd (μ2, Id) .X1, ..., Xn∼Nd (μ1, Id) dan Y1, ..., Yn∼ Nd (μ2, Id). (2) $$ menampilkan $$


Kami ingin membangun aturan klasifikasi yang mengklasifikasikan pengamatan Z∈RdZ∈Rd baru di kelas pertama atau kedua. Untuk menggambarkan efek akumulasi noise dalam klasifikasi, kami menetapkan n = 100 dan d = 1000. Kami menetapkan μ1 = 0μ1 = 0 dan μ2 sebagai jarang, yaitu. hanya 10 catatan pertama μ2 yang bukan nol dengan nilai 3, dan semua catatan lainnya nol. Gambar 1 menunjukkan dua komponen utama pertama menggunakan m pertama = 2, 40, 200 elemen dan sebanyak 1000 elemen. Seperti yang ditunjukkan dalam grafik ini, ketika m = 2, kita mendapatkan tingkat diskriminasi yang tinggi. Namun, daya pembeda menjadi sangat rendah ketika m terlalu besar karena akumulasi kebisingan. 10 fungsi pertama berkontribusi pada klasifikasi, sedangkan sisanya tidak. Oleh karena itu, ketika m> 10, prosedur tidak menerima sinyal tambahan, tetapi mengakumulasikan noise: semakin banyak m, semakin banyak noise menumpuk, yang memperburuk prosedur klasifikasi karena dimensionalitas. Pada m = 40, sinyal yang terakumulasi mengkompensasi kebisingan yang terakumulasi, sehingga dua komponen utama pertama masih memiliki kemampuan pengenalan yang baik. Ketika m = 200, noise yang terakumulasi melebihi penguatan sinyal.

Diskusi di atas memotivasi penggunaan model jarang dan pilihan variabel untuk mengatasi efek akumulasi kebisingan. Misalnya, dalam model klasifikasi (2), alih-alih menggunakan semua fungsi, kita dapat memilih subset fitur yang mencapai rasio signal-to-noise terbaik. Model yang jarang memberikan efisiensi klasifikasi yang lebih tinggi. Dengan kata lain, pilihan variabel memainkan peran kunci dalam mengatasi akumulasi kebisingan dalam klasifikasi dan prediksi regresi. Namun, pemilihan variabel dalam dimensi besar menantang karena korelasi yang salah, endogenitas acak, heterogenitas, dan kesalahan pengukuran.

Korelasi salah


Dimensi tinggi juga mengandung korelasi palsu, mengutip fakta bahwa banyak variabel acak yang tidak berkorelasi dapat memiliki korelasi sampel tinggi dalam dimensi besar. Korelasi yang salah dapat menyebabkan penemuan ilmiah yang salah dan kesimpulan statistik yang salah.

Pertimbangkan masalah estimasi koefisien vektor β dari model linier

$$ menampilkan $$ y = Xβ + ϵ, Var (ϵ) = σ2Id, y = Xβ + ϵ, Var (ϵ) = σ2Id, (3) $$ menampilkan $$


di mana y∈Rny∈Rn mewakili vektor respons, X = [x1, ..., xn] T∈Rn × dX = [x1, ..., xn] T∈Rn × d mewakili matriks proyeksi ,, ∈Rnϵ∈Rn mewakili vektor acak independen noise dan Id adalah matriks identitas dxd. Untuk mengatasi masalah akumulasi kebisingan, ketika ukuran d sebanding dengan atau lebih besar dari ukuran sampel n, diasumsikan bahwa jawabannya hanya memberikan sejumlah kecil variabel, mis. Β adalah vektor jarang. Sesuai dengan asumsi sparseness ini, variabel dapat dipilih untuk menghindari akumulasi kebisingan, meningkatkan kinerja prediksi, dan meningkatkan interpretabilitas model dengan representasi konservatif.

Untuk ukuran besar, bahkan untuk model sederhana seperti (3), pilihan variabel sulit karena adanya korelasi yang salah. Secara khusus, dengan dimensi tinggi, variabel penting dapat sangat berkorelasi dengan beberapa variabel salah yang tidak terkait secara ilmiah. Pertimbangkan contoh sederhana yang menggambarkan fenomena ini. Misalkan x1, ..., xn menjadi pengamatan independen dari vektor acak Gaussian d-dimensional X = (X1, ..., Xd) T∼Nd (0, Id) X = (X1, ..., Xd) T∼Nd (0, Id) ⁠ . Kami berulang kali mensimulasikan data dengan n = 60 dan d = 800 dan 6400 1000 kali. Gambar 2a menunjukkan distribusi empiris dari koefisien korelasi sampel absolut maksimum antara variabel pertama, dan sisanya didefinisikan sebagai

$$ menampilkan $$ rˆ = maxj≥2 | Corrˆ (X1, Xj) |, r ^ = maxj≥2 | Corr ^ (X1, Xj) |, (4) $$ menampilkan $$


di mana Corr ^ (X1, Xj) Corr ^ (X1, Xj) adalah korelasi sampel antara variabel X1 dan Xj. Kami melihat bahwa korelasi absolut maksimum sampel menjadi lebih tinggi dengan meningkatnya dimensi.

Selain itu, kita dapat menghitung korelasi ganda absolut maksimum antara X1 dan kombinasi linear dari beberapa variabel sisi yang tidak relevan:

$$ menampilkan $$ Rˆ = maks | S | = 4max {βj} 4j = 1∣∣∣∣Corrˆ (X1, βj∈SβjXj) ∣∣∣∣.R ^ = maks | S | = 4max {βj} j = 14 | Kor ^ (X1, ∑j∈SβjXj) |. (5) $$ menampilkan $$


Dengan menggunakan konfigurasi standar, distribusi empiris dari koefisien absolut maksimum korelasi sampel antara X1 dan βj ∈ SβjXj diberikan, di mana S adalah setiap himpunan bagian dari ukuran keempat dari {2, ..., d} dan βj adalah koefisien regresi kuadrat terkecil Xj ketika X1 regresi pada {Xj} j ∈ S. Sekali lagi, kita melihat bahwa meskipun X1 sepenuhnya independen dari X2, ..., Xd, korelasi antara X1 dan kombinasi linear terdekat dari empat variabel dari {Xj} j j 1 hingga X1 bisa sangat tinggi.

Korelasi palsu memiliki efek signifikan pada pilihan variabel dan dapat menyebabkan penemuan ilmiah yang salah. Misalkan XS = (Xj) j ∈ S menjadi vektor acak yang diindeks oleh S, dan misalkan SˆS ^ adalah himpunan terpilih yang memiliki korelasi parasit lebih tinggi dengan X1, seperti pada Gambar. 2. Sebagai contoh, ketika n = 60 dan d = 6400, kita melihat bahwa X1 praktis tidak dapat dibedakan dari XSXS ^ untuk set SS ^ | Sˆ | = 4 | S ^ | = 4⁠. Jika X1 mewakili tingkat ekspresi gen yang bertanggung jawab atas penyakit, kita tidak dapat membedakannya dari empat gen lain dalam SS ^, yang memiliki kekuatan prognostik yang serupa, meskipun mereka, dari sudut pandang ilmiah, tidak masalah.

Selain pilihan variabel, korelasi yang salah juga dapat menyebabkan kesimpulan statistik yang salah. Kami menjelaskan ini dengan mempertimbangkan lagi model linier yang sama seperti pada (3). Di sini, kami ingin memperkirakan kesalahan standar σ dari sisanya, yang terlihat nyata dalam kesimpulan statistik dari koefisien regresi, pemilihan model, uji korespondensi, dan regresi marginal. Biarkan SˆS ^ menjadi himpunan variabel yang dipilih, dan PSˆPS ^ menjadi matriks proyeksi ke ruang kolom XSˆXS ^ ⁠. Estimasi standar varian residual berdasarkan variabel yang dipilih:

$$ menampilkan $$ σˆ2 = yT (In-PSˆ) yn− | Sˆ | .σ ^ 2 = yT (In-PS ^) yn− | S ^ |. (6) $$ menampilkan $$


Evaluator (6) tidak memihak ketika variabel tidak dipilih dari data dan model itu benar. Namun, situasinya sangat berbeda ketika variabel dipilih berdasarkan data. Secara khusus, penulis menunjukkan bahwa ketika ada banyak variabel salah, σ2 secara serius diremehkan, ini mengarah pada kesimpulan statistik yang salah, termasuk pilihan model atau tes signifikansi, dan penemuan ilmiah yang salah, seperti pencarian gen yang salah untuk mekanisme molekuler. Mereka juga menawarkan metode validasi silang lanjutan untuk meringankan masalah.

Endogenitas acak


Endogenousness acak adalah masalah halus lain yang timbul dari dimensi tinggi. Dalam pengaturan regresi, Y = ∑dj = 1βjXj + εY = ∑j = 1dβjXj + ε⁠, istilah "endogenitas" berarti bahwa beberapa prediktor {Xj} berkorelasi dengan kebisingan residual ε. Model jarang yang biasanya diasumsikan

$$ menampilkan $$ Y = βjβjXj + ε, dan E (εXj) = 0 untuk j = 1, ..., d, Y = βjβjXJ + ε, dan E (εXj) = 0 untuk j = 1, ..., d , (7) $$ menampilkan $$


dengan set kecil S = {j: βj ≠ 0}. Asumsi eksogen (7) bahwa kebisingan residual ε tidak berkorelasi dengan semua prediktor sangat penting untuk keandalan sebagian besar metode statistik yang ada, termasuk konsistensi dalam pemilihan variabel. Meskipun asumsi ini tampaknya tidak bersalah, mudah untuk melanggarnya dalam dimensi besar, karena beberapa variabel {Xj} secara acak berkorelasi dengan ε, yang membuat sebagian besar prosedur multidimensi secara statistik tidak valid.

Untuk menjelaskan masalah endogenitas lebih terinci, anggaplah bahwa jawaban Y yang tidak diketahui dikaitkan dengan tiga kovariat sebagai berikut:

$$ menampilkan $$ Y = X1 + X2 + X3 + ε, denganEεXj = 0, untuk j = 1, 2, 3.Y = X1 + X2 + X3 + ε, denganEεXj = 0, untuk j = 1, 2, 3 . $$ menampilkan $$


Pada tahap pengumpulan data, kami tidak tahu model sebenarnya dan oleh karena itu kami mengumpulkan kovariat sebanyak yang berpotensi terkait dengan Y dengan harapan memasukkan semua istilah dalam S dalam (7). By the way, beberapa Xj ini (untuk jj 1, 2, 3) dapat dikaitkan dengan kebisingan residual ε. Ini membantah asumsi pemodelan eksogen dalam (7). Faktanya, semakin banyak kovariat yang dikumpulkan atau diukur, semakin kompleks asumsi ini.

Berbeda dengan korelasi yang salah, endogenitas acak mengacu pada keberadaan nyata korelasi antara variabel yang tidak diinginkan. Yang pertama mirip dengan kenyataan bahwa dua orang mirip satu sama lain, tetapi tidak memiliki hubungan genetik, dan yang kedua adalah seperti seorang kenalan yang mudah terjadi di kota besar. Dalam arti yang lebih umum, hasil endogenitas dari bias pilihan, kesalahan pengukuran dan variabel yang hilang. Fenomena ini sering muncul ketika menganalisis Big Data, terutama karena dua alasan:

  • Berkat metode pengukuran kinerja tinggi yang baru, para ilmuwan dapat mengumpulkan sebanyak mungkin fungsi dan berusaha untuk ini. Ini, karenanya, meningkatkan kemungkinan bahwa beberapa dari mereka mungkin berkorelasi dengan kebisingan residual.
  • Big Data biasanya digabungkan dari beberapa sumber dengan skema pembuatan data yang berpotensi berbeda. Ini meningkatkan kemungkinan bias dalam kesalahan pemilihan dan pengukuran, yang juga menyebabkan potensi endogenitas acak.

Apakah endogenitas acak muncul dalam set data nyata dan bagaimana kita dapat menguji ini dalam praktik? Kami sedang mempertimbangkan studi genomik di mana 148 sampel microarray diunduh dari database GEO dan ArrayExpress. Sampel-sampel ini dibuat pada platform Affymetrix HGU133a untuk orang dengan kanker prostat. Set data yang diperoleh berisi 22.283 probe, yang sesuai dengan 12.719 gen. Dalam contoh ini, kami tertarik pada gen yang disebut "anggota keluarga reseptor domain discoidin 1" (disingkat DDR1). DDR1 mengkode reseptor tirosin kinase, yang memainkan peran penting dalam hubungan sel dengan lingkungan mikro mereka. DDR1 diketahui berhubungan erat dengan kanker prostat, dan kami ingin mempelajari hubungannya dengan gen lain pada pasien dengan kanker. Kami mengambil ekspresi gen DDR1 sebagai variabel respon Y, dan ekspresi semua 12.718 gen yang tersisa sebagai prediktor. Di panel kiri, gbr. Gambar 3 menunjukkan distribusi empiris korelasi antara respons dan prediktor individu.

Untuk menggambarkan keberadaan endogenitas, kami mencocokkan L1 least squares regression (Lasso) dengan data, dan penalti dipilih secara otomatis menggunakan validasi silang 10 kali lipat (37 gen dipilih). Kemudian kita akan mengembalikan regresi kuadrat terkecil biasa untuk model yang dipilih untuk menghitung vektor residual. Di panel kanan, gbr. 3, kami membangun distribusi korelasi empiris antara prediktor dan residu. Kami melihat bahwa noise residual berkorelasi kuat dengan banyak prediktor. Untuk memastikan bahwa korelasi ini tidak disebabkan oleh korelasi yang sepenuhnya salah, kami memperkenalkan "distribusi nol" dari korelasi palsu dengan secara acak menata ulang urutan baris dalam matriks proyek, sehingga prediktor benar-benar independen dari kebisingan residual. Membandingkan kedua distribusi ini, kita melihat bahwa distribusi korelasi antara prediktor dan kebisingan residual dalam data mentah (ditandai sebagai "data mentah") memiliki ekor yang lebih berat daripada data yang disusun ulang (ditandai sebagai "data yang disusun ulang"). Hasil ini memberikan bukti kuat untuk endogen.

Source: https://habr.com/ru/post/id456088/


All Articles