Data sebagai Layanan: apa itu, kesulitan teknis, dan cara menyiasatinya menggunakan proxy penduduk



Data sebagai Layanan (DaaS) adalah model distribusi data yang relatif baru, yang menyiratkan bahwa informasi tidak dikumpulkan, dikelola dan disimpan oleh perusahaan dan pengguna secara independen, tetapi didelegasikan ke penyedia khusus.

Hari ini kita akan berbicara tentang kelebihan model ini, kesulitan teknis yang ada dan bagaimana menyelesaikannya.

Mengapa itu perlu?


Cara termudah adalah pentingnya data dan, dengan demikian, layanan layanan yang memberikannya kepada perusahaan, dapat dipahami dengan bantuan angka. Jadi menurut statistik , jumlah permintaan pencarian dengan penambahan frasa "dekat saya" (dekat saya) meningkat sebesar 900%. Ini menunjukkan meningkatnya permintaan untuk personalisasi di antara pengguna. Dan untuk menyediakan layanan yang dipersonalisasi, Anda perlu tempat untuk mengambil data tentang pengguna, preferensi mereka, pengalaman sebelumnya, jika tidak maka akan tetap menjadi bagian dari "massa abu-abu". Tapi ini tidak sesederhana itu.

Menurut berbagai penelitian , daftar masalah umum saat menggunakan Big Data terdiri dari:

  • kurangnya pengetahuan dan keterampilan dalam bekerja dengan mereka dan penataannya (46% kasus),
  • kurangnya kemampuan teknis (56%),
  • throughput terbatas dari sistem analitik yang tidak dapat mengatasi volume data (38%),
  • kurangnya pemahaman tentang cara menerapkan data setelah menerimanya (25%).

Penyedia DaaS memungkinkan perusahaan untuk menyelesaikan semua masalah ini. Mereka memberi mereka set data siap pakai yang dibuat sesuai dengan persyaratan yang telah ditentukan. Tentu saja, data biasanya "disesuaikan" untuk industri tertentu, menjawab pertanyaan bisnis tertentu. Idealnya, kumpulan data semacam itu cukup mudah untuk ditafsirkan dan membuat keputusan bisnis yang penting berdasarkan informasi ini.



Gambar: rocketsource.co

Kedengarannya menggoda - perusahaan yang dapat bekerja dengan data dan memiliki infrastruktur yang sesuai, membantu mereka yang membutuhkan informasi, dan menghasilkan uang. Tetapi tidak semuanya begitu sederhana, dan masalah utama untuk layanan DaaS di sini adalah tidak cukup hanya memiliki infrastruktur untuk mengumpulkan data, Anda juga harus dapat mengumpulkan data yang benar. Mari kita bicarakan masalah ini secara lebih rinci.

Masalah utama DaaS


Bagaimana cara perusahaan DaaS mengumpulkan data? Pada umumnya, mereka hanya memiliki infrastruktur dan skrip yang kuat untuk mengumpulkan data di Internet - apakah itu situs atau mesin pencari. Script tersebut disebut crawler (dari bahasa Inggris merangkak) atau scrappers (goresan bahasa Inggris).

Misalnya, jika perusahaan pelanggan membutuhkan informasi untuk bekerja pada optimisasi mesin pencari dari situs webnya, maka itu mungkin memerlukan informasi di situs pesaing (kata-kata target apa yang mereka gunakan, seperti apa tampilan mesin pencari untuk kata-kata ini, dll.). Untuk mengumpulkan data ini, bot-scraper mengunjungi situs-situs yang diperlukan dari daftar dan menjelajahinya, mengunduh informasi yang diperlukan.

Pada tahap ini, mungkin ternyata pemilik situs, seperti mesin pencari, sama sekali tidak senang dengan kenyataan bahwa seseorang sedang mencoba mengunduh data. Mereka mungkin akan mencoba untuk memblokir aktivitas bot semacam itu. Biasanya, scrappers ini menggunakan alamat IP server tanpa penggunaan reguler mereka. Tidak sulit untuk menghitung dan memblokir bot dalam situasi seperti itu - dan ada banyak antibot untuk ini.

Dan ini adalah pilihan terbaik, karena ada kasus di mana pemilik bisnis cenderung menyesatkan pesaing dan "menyelipkan" data mereka ke penipuan bot. Akibatnya, kumpulan data yang dirangkai demikian mungkin berisi data yang sengaja salah. Sangat mudah untuk membayangkan konsekuensi dari kenyataan bahwa keputusan bisnis penting akan dibuat berdasarkan informasi yang salah - dalam kasus terbaik, mereka tidak akan berguna, dalam terburuk, perusahaan mungkin menderita kerugian besar.

Solusi: Proxy Penduduk


Anda dapat memecahkan masalah utama layanan DaaS dengan menggunakan proxy penduduk untuk mengikis data. Tidak seperti IP server yang disediakan oleh penyedia hosting, yang dapat dengan mudah dilacak secara otomatis menggunakan nomor ASN khusus, itu tidak begitu sederhana dengan proxy penduduk.

IP penduduk dikeluarkan untuk pemilik rumah oleh penyedia Internet. Tanda yang sesuai ditempatkan di semua database terkait. Ada layanan khusus dari proxy penduduk yang memungkinkan Anda untuk menggunakan alamat penduduk. Infatica hanyalah layanan seperti itu.

Permintaan yang dikirim perayap situs agregator dari IP penduduk sepertinya berasal dari pengguna reguler dari wilayah tertentu. Dan tidak ada yang menghalangi pengunjung biasa - dalam hal toko online, ini adalah pelanggan potensial.

Akibatnya, penggunaan proxy yang diputar dari Infatica memungkinkan kami untuk menjamin kualitas data yang dikumpulkan - setelah semua, tidak ada yang akan memblokir permintaan dari pencakar dari alamat penduduk.

Artikel lain tentang penggunaan proxy penduduk untuk bisnis:


Source: https://habr.com/ru/post/id472944/


All Articles