
Istilah "data besar" telah lama dikenal, dan banyak yang bahkan mengerti apa itu sebenarnya dan bagaimana menggunakannya. Pada saat yang sama, spesialis analisis data muncul dengan banyak gradasi informasi lain yang dikumpulkan, tergantung pada ukuran, relevansi, relevansi, dan sebagainya. Anehnya, data bisa "cepat", "panas", "panjang" dan "lambat", bahkan "kotor". Meskipun seluruh kebun binatang analitik ini tidak membantu banyak analis dengan benar memprediksi keputusan Inggris untuk meninggalkan UE dan kemenangan Trump.
Data besar bukan hanya jumlah informasi yang sangat besar, tetapi kombinasi pendekatan, metode, dan alat untuk memproses berbagai data volume kolosal.
Big data bukan hanya informasi, ini adalah fenomena sosial-ekonomi, yang muncul karena kebutuhan untuk menganalisis sejumlah besar informasi pada skala global.
Big Data bergantung pada tiga V: volume (volume), variasi (variasi) dan kecepatan (kecepatan). Dengan volume, semuanya jelas. Keragaman tergantung pada luasnya spektrum sumber yang memberi makan basis data. Dan kecepatan umumnya merupakan indikator utama dunia modern, yang tidak berhenti bahkan untuk sedetik pun.
Tapi bisakah, misalnya, dianggap sebagai jajak pendapat "data besar", bahkan jika mencakup ribuan orang? Jumlah informasi yang dapat diperoleh dari berbagai jajak pendapat cukup besar, tetapi masih tidak begitu banyak, sehingga dapat dikaitkan dengan "
data rata-rata ". Mungkin, jika analisis pra-pemilihan mencakup jutaan responden, maka ini sudah menjadi "data besar". Data Besar juga dapat terdiri dari batu bata
data kecil .
Salah satu tren saat ini adalah "
data cepat ". Di dunia modern, semuanya terjadi dengan kecepatan kilat. Dalam aplikasi dan jejaring sosial, informasi yang berumur 1-2 jam tidak lagi relevan, setiap detik dipertaruhkan. Data cepat penting untuk aplikasi perbankan, dan untuk aplikasi jejaring sosial, dan terutama untuk pengirim pesan instan. Setiap detik, pengguna menerima pemberitahuan baru, berdasarkan pada mana mereka membuat keputusan penting.
Untuk mengakumulasi "
data lambat ", itu akan memakan banyak waktu. Tidak seperti data cepat, yang dapat diperoleh menggunakan polling instan, lambat mengakumulasi secara harfiah sedikit demi sedikit. Misalnya, Anda mewawancarai peserta dalam konferensi pengembangan. Setiap peserta diwawancarai sebelum, selama dan setelah acara. Kemudian semua informasi diproses dan dirangkum dengan sangat hati-hati.
Dan ketika durasi akumulasi mulai diukur selama berabad-abad, data yang lambat akan berubah menjadi "
panjang ". Sejak era Big Data dimulai relatif baru-baru ini, data lama hari ini perlu dicari bukan di Internet, tetapi dalam buku, manuskrip, di dinding monumen arsitektur dan selama penggalian arkeologi. Aspek historis bisa sangat penting untuk studi tertentu!
Meskipun datanya bukan kue, mereka bisa
βpanasβ dan βdinginβ . Prinsip "kesegaran" bekerja di sini: lebih banyak "segar" - panas - data memiliki nilai lebih besar. Untuk pengguna sederhana, komentar yang telah lama ditunggu di messenger dengan "kesegaran" 10 detik lebih penting daripada komentar yang sudah "dingin" dibuat 2 jam yang lalu. Tentu saja, masih bisa bermanfaat, misalnya, untuk mengklarifikasi fakta dari korespondensi: ingat nama buku atau film yang diajukan oleh seorang teman, sebutkan waktu pertemuan, dan sebagainya. Akses ke data panas harus permanen. Kami tidak terlalu membutuhkan data dingin, oleh karena itu akses konstan kepada mereka sama sekali bukan kebutuhan pertama.
Selain mengkarakterisasi ukuran, kecepatan atau suhu, data juga dapat diklasifikasikan berdasarkan kemurniannya. "
Kotor " mengacu pada data yang salah atau mengandung informasi yang tidak lengkap atau tidak konsisten, dan biasanya praktis tidak berguna. Data kotor merupakan sebagian besar informasi yang terakumulasi di banyak perusahaan. Pada saat yang sama, harta informasi yang sebenarnya - ide-ide jangka panjang yang berharga dapat ditemukan di sini. Tetapi ada cukup banyak masalah dari data kotor. Menurut GovTechWorks, informasi yang tidak terstruktur dan tidak relevan seperti itu membebani perusahaan AS $ 6 miliar per tahun!

Istilah "
data yang bertanggung jawab " menggambarkan situasi di mana hanya informasi yang dapat dikumpulkan, yang diambil dari sumber yang diverifikasi, disimpan dan dikirim sesuai dengan langkah-langkah keamanan yang ketat.
"
Data tebal " adalah langkah berikutnya setelah kami bermain-main dengan data besar: selain karakteristik kuantitatif, data kualitatif juga diperhitungkan. Artinya, angka kering saja dalam volume raksasa tidak lagi cukup untuk pemahaman yang mendalam tentang tren dan proses yang sedang berlangsung, untuk kelengkapan analisis perlu memperhitungkan hal-hal seperti, misalnya, emosi manusia.
Data besar menguasai dunia
Dengan berbagai definisi, muncul pertanyaan: apa, sebenarnya, data ini? Pertama-tama, besar, raksasa! Data Besar berkumpul di dekat kita, di sekitar kita, dan bahkan tentang kita masing-masing. Butir pasir kecil perlahan dan pasti membentuknya.
Ungkapan populer "Kakak memperhatikanmu" segera muncul di benak. Basis data tertentu dibentuk dari potongan-potongan informasi yang dikumpulkan di mana-mana dan digunakan untuk berbagai studi dan manipulasi opini publik. Selanjutnya, semua informasi yang diterima dianalisis, dan apa yang disebut peramalan tentang hasil peristiwa penting terjadi. Peramalan ini menghasilkan semua jenis prediksi tentang kemenangan pemilu, perubahan situasi politik di negara ini, atau fluktuasi popularitas grup musik di kalangan anak muda.

Tiga Paus Besar seperti Google, Facebook dan Amazon telah mendapatkan gelar Big Data. Perusahaan-perusahaan ini menangkap klik mouse terkecil dari setiap pengguna portal mereka. Dan semua ini demi pengumpulan informasi global. Ada harapan besar untuk data besar. Para peneliti memprediksi dampak besar mereka pada semua sektor kehidupan dan aktivitas manusia. Nasib ini belum melewati kedokteran dan sains.
Bagaimana Big Data berguna dalam kedokteran? Intinya di sini bukan hanya jumlah akumulasi informasi, tetapi metode pemrosesan dan analisisnya. Volume data medis di sejumlah daerah telah lama mencapai ukuran yang bermasalah tidak hanya untuk diproses, tetapi bahkan untuk disimpan. Contoh yang paling mencolok adalah decoding genom manusia, yang terdiri dari lebih dari 3 miliar karakter. Pekerjaan ini, di bawah naungan Organisasi Kesehatan Nasional AS, memakan waktu 13 tahun (dari 1990 hingga 2003). Pada 2017, berkat pertumbuhan kekuatan komputer dan pengembangan perangkat teori dan perangkat lunak, tugas serupa akan memakan waktu berminggu-minggu, atau bahkan berhari-hari.
Tugas utama big data dalam kedokteran adalah membuat register informasi medis yang paling lengkap dan nyaman dengan kemungkinan pertukaran timbal balik, yang akan memungkinkan di mana-mana untuk memperkenalkan catatan pasien elektronik lengkap yang berisi seluruh riwayat medis sejak lahir. Ini secara signifikan akan mengoptimalkan pekerjaan fasilitas kesehatan.
Tapi mari kita kembali ke peristiwa sensasional terbaru yang dalam arti harfiah mengubah dunia Internet menjadi terbalik - kemenangan Donald Trump dalam pemilihan. Meskipun kemenangannya merupakan kejutan bagi banyak orang, termasuk analis dan ahli strategi politik, itu mungkin sebagian besar merupakan hasil logis dari penggunaan data besar yang kompeten.
Majalah Swiss
Das Magazin mengklaim bahwa kemenangan ini diberikan oleh sepasang ilmuwan, Big Data dan teknologi modern. Seseorang Michal Kosinski telah mengembangkan sistem unik yang memungkinkan Anda untuk mengetahui informasi maksimum tentang seseorang hanya oleh orang-orangnya di jejaring sosial - yang disebut "penargetan mikro". Belakangan, perkembangan Kosinski, yang bertentangan dengan kehendaknya, mulai digunakan dalam permainan politik besar. Kemudian, sistem yang sama bekerja dalam kampanye pemilihan pebisnis Amerika. Tidak ada yang tahu tentang hubungan politisi dengan perusahaan analitis, karena di meja Donald bahkan tidak ada komputer. Tetapi presiden AS saat ini telah mengkhianati dirinya sendiri. Dia mentweet di akunnya bahwa mereka akan segera memanggilnya Mr. Brexit.
Dalam kampanye pemilihannya, Hillary Clinton bertindak secara tradisional - ia berbicara kepada berbagai kelompok populasi di negara itu, menyusun permohonan terpisah untuk penduduk kulit hitam dan perempuan. Cambridge Analytica bertindak berbeda. Setelah membeli basis data penduduk dewasa AS, mereka mempelajari masing-masing menggunakan metode OCEAN, dengan mempertimbangkan preferensi dan minat pribadi. Bergantung pada karakter dan mentalitas mereka, pesan dikirim ke setiap orang dari database yang mendesak mereka untuk memilih klien Cambridge Analytica, dan alasannya dipilih tergantung pada profil masing-masing penerima yang dibuat sebelumnya. Beberapa pesan bahkan dibangun berdasarkan prinsip kontroversi, dan menyarankan untuk memilih Hillary.
Kosinski, seorang ilmuwan yang datang dengan sistem penargetan mikro, sejauh ini hanya mengamati penggunaan perkembangannya dari luar. Menurut Michael, bukan salahnya bahwa penemuan itu adalah bom di tangan yang salah. Harus ditekankan bahwa penerbitan majalah Swiss dikritik oleh banyak media Eropa, yang mengklaim sebagai informasi yang tidak terbukti.
Sementara berdebat apakah big data benar-benar mempengaruhi pemilihan AS, data ini terus dipelajari dan disistematisasikan. Waspadalah terhadap jejaring sosial - siapa yang tahu siapa lagi yang akan Anda pilih atau jalankan untuk membeli setelah mengalami dampak data besar?