Pada artikel ini saya akan mencoba untuk berbicara tentang situs parsing dan nuansa utamanya. Perusahaan saya telah mengurai situs selama lebih dari tiga tahun dan setiap hari kami mem-parsing sekitar 300 situs. Saya biasanya secara terbuka menulis tentang ini di jejaring sosial (ditambah kami menempatkan banyak hasil penguraian toko terbesar di Rusia secara gratis - terbuka), yang menyebabkan diskusi yang panas dan ketidaksetujuan dari pengguna. Setelah membaca komentar, lucu melihat PM Anda dan membaca pesan dengan tawaran kerjasama dari orang yang sama yang baru saja mengutuk kami dalam komentar di bawah pos :) Seluruh artikel akan dalam format pertanyaan yang paling sering ditanyakan dan jawaban jujur ββ(materi pemasaran, bukan teknis )
1. Apa itu parsing?
Menurut definisi, penguraian adalah kumpulan otomatis informasi yang tidak terstruktur, transformasi dan hasilnya dalam bentuk terstruktur. Cukup tidak berbahaya, bukan? Namun, masyarakat memperlakukan ini secara khusus sebagai masturbasi remaja - banyak yang melakukannya :), tetapi tidak ada yang membicarakannya secara terbuka. Selain itu, penguraian sering disukai dan dianggap agak memalukan. Alasannya, seperti dalam kebanyakan kasus serupa, adalah dalam persepsi yang salah.
Saya akan memberi tahu Anda sebuah rahasia: semua orang terlibat dalam parsing ... Setidaknya, semua pemain utama di pasar. Beberapa tahun yang lalu di salah satu artikel di Vedomosti, perwakilan dari M-video, Svyaznoy dan Citylink bahkan berbicara secara terbuka tentang ini sebagai tanggapan terhadap kepentingan FAS (lihat di
sini ).
2. Untuk apa penguraian?
Pertama-tama, tujuan penguraian adalah "kecerdasan" harga, analisis bermacam-macam, dan pelacakan stok komoditas. "Siapa, apa, berapa banyak dan dalam jumlah berapa yang dijual?" - Pertanyaan utama yang harus dijawab parsing. Secara lebih rinci, menguraikan berbagai pesaing atau Yandex.Market yang sama menjawab tiga pertanyaan pertama.
Dengan peredaran barang yang agak lebih rumit. Namun, perusahaan-perusahaan seperti Wildberries, Lamoda, dan Leroy Merlin secara terbuka memberikan informasi tentang penjualan harian (pesanan) atau saldo produk, berdasarkan pada itu tidak sulit untuk membentuk ide umum penjualan (saya sering mendengar pendapat bahwa data ini dapat terdistorsi). sengaja - mungkin, tapi mungkin tidak). Kita melihat berapa banyak barang yang tersedia hari ini, besok, lusa, dan seterusnya selama satu bulan, dan jadwalnya sudah siap dan dinamika perubahan kuantitas berdasarkan posisi telah disusun (pergantian barang sebenarnya). Semakin tinggi dinamika, semakin besar omsetnya.
Cara yang mungkin memungkinkan untuk mengetahui pergantian barang menggunakan analisis harian dari residu situs web Leroy Merlin.Anda bisa, tentu saja, merujuk pada pergerakan barang antar titik. Tetapi secara total, jika kita ambil, misalnya, Moskow, jumlahnya tidak akan banyak berubah, dan sulit untuk percaya pada pergerakan barang yang signifikan di seluruh wilayah.
Situasinya mirip dengan volume penjualan. Ada, tentu saja, perusahaan yang mempublikasikan informasi dalam bentuk banyak / sedikit, tetapi bahkan dengan ini Anda dapat bekerja, dan posisi terlaris mudah dilacak. Terutama jika Anda memotong posisi murah dan hanya berfokus pada orang-orang yang memiliki nilai terbesar. Setidaknya kami melakukan analisis seperti itu - ternyata menarik.
Kedua, parsing digunakan untuk mendapatkan konten. Di sini, cerita dengan gaya "nuansa legal abu-abu" sudah dapat terjadi. Banyak yang terobsesi dengan fakta bahwa parsing justru pencurian konten, meskipun ini sama sekali tidak terjadi. Parsing hanyalah kumpulan informasi otomatis, tidak lebih. Misalnya, mem-parsing foto, terutama yang memiliki "tanda air," adalah murni pencurian konten dan pelanggaran hak cipta. Oleh karena itu, mereka biasanya tidak melakukan ini (dalam pekerjaan kami, kami membatasi diri kami untuk mengumpulkan tautan ke gambar, tidak lebih ... well, kadang-kadang mereka meminta kami untuk menghitung jumlah foto, melacak ketersediaan video pada produk dan memberikan tautan, dll.).
Mengenai koleksi konten, situasi dengan deskripsi produk lebih menarik. Baru-baru ini, kami menerima pesanan untuk mengumpulkan data di 50 situs apotek daring besar. Selain informasi tentang bermacam-macam dan harga, kami diminta untuk βberdiskusiβ dengan deskripsi perangkat medis - hal yang terlampir dalam setiap paket adalah apa yang disebut. informasi faktual yaitu tidak mungkin jatuh di bawah hukum hak cipta. Akibatnya, alih-alih serangkaian instruksi manual, pelanggan hanya perlu melakukan sedikit penyesuaian pada template instruksi, dan hanya itu - konten untuk situs sudah siap. Tapi ya, mungkin juga ada deskripsi penulis tentang obat-obatan yang disertifikasi oleh notaris dan dibuat khusus sebagai semacam jebakan untuk pencuri konten :).
Pertimbangkan juga untuk mengumpulkan deskripsi buku, misalnya, dengan OZON.RU atau Labyrinth.ru. Di sini situasinya tidak begitu langsung dari sudut pandang hukum. Di satu sisi, penggunaan deskripsi seperti itu dapat melanggar hak cipta, terutama jika deskripsi masing-masing kartu produk telah diaktakan (yang saya sangat ragu - mungkin tidak disertifikasi, pengecualiannya adalah sumber daya kecil yang ingin menyeret pencuri konten melalui pengadilan). Bagaimanapun, dalam situasi ini Anda harus "berkeringat" banyak untuk membuktikan keunikan deskripsi ini. Beberapa klien bahkan melangkah lebih jauh - mereka menghubungkan sinonim, yang "on the fly" mengubah (baik atau buruk) kata-kata dalam deskripsi, sambil mempertahankan akal sehat.
Aplikasi parsing lainnya cukup orisinal - "self-parsing". Beberapa tujuan dikejar di sini. Pertama-tama, ini melacak apa yang terjadi dengan konten situs: di mana ada tautan yang terputus, di mana uraiannya hilang, duplikasi barang, kurangnya ilustrasi, dll. Setengah jam kerja parser - dan sekarang Anda memiliki tabel siap pakai dengan semua kategori dan data. Dengan nyaman! "Penguraian sendiri" juga dapat digunakan untuk membandingkan saldo di situs dengan saldo gudang mereka (ada juga pelanggan yang melacak kegagalan unggahan ke situs). Aplikasi lain dari "penguraian sendiri" yang kami temui dalam pekerjaan kami adalah menyusun data dari situs web untuk mengunggahnya ke Yandex Market. Lebih mudah bagi mereka untuk melakukan ini daripada melakukannya secara manual.
Iklan juga diuraikan, misalnya, di CIAN-e, Avito, dll. Tujuan di sini dapat berupa penjualan kembali pangkalan ke agen penjual atau operator tur, atau spam telepon langsung, penargetan ulang, dll. Dalam kasus Avito, ini sangat jelas, karena sebuah tabel dengan ponsel pengguna dikompilasi segera (terlepas dari kenyataan bahwa Avito menggantikan ponsel pengguna untuk perlindungan dan menerbitkannya sebagai gambar, masih tidak mungkin untuk mendapatkan apa pun dari panggilan masuk).
3. "Apa yang ada dalam resume saya untuk Anda?" atau parsing HH.RU
Baru-baru ini, permintaan untuk mengurai Headhunter telah menjadi relevan. Benar, pada awalnya orang diminta untuk menjual "markas Headhunter" kepada mereka. Tetapi, ketika mereka sudah mengerti bahwa kami tidak memiliki dan tidak dapat memiliki basis, kami melanjutkan untuk berbicara tentang penguraian di profil mereka ("dengan kata sandi"). Ini adalah arah penguraian yang aneh dan, sejujurnya, itu tidak terlalu menarik bagi kami, tetapi patut diceritakan tentang hal itu.
Apa kehalusannya? Klien menyediakan akses ke akunnya dan menetapkan tugas mengumpulkan data sesuai kebutuhannya. Yaitu Dia telah membayar untuk akses ke database HH dan, menandatangani perjanjian dengan kami, menetapkan kami tugas secara otomatis mengumpulkan informasi untuk kepentingannya dan di bawah akunnya, yang sepenuhnya di bawah tanggung jawabnya. Jika HH mendeteksi aktivitas abnormal, akun akan diblokir. Oleh karena itu, kami mencoba mensimulasikan aktivitas manusia dalam pengumpulan data sebaik mungkin.
Jika HH (sejauh yang saya tahu, "berhasil" setelah gagal dalam eksperimennya dengan API) memberikan (menjual) data di tablet menurut wilayah, katakanlah, kontak semua direktur pemasaran yang saat ini bekerja di Moskow, tidak ada yang akan mendatangi kami. Sementara itu, orang harus melakukan ini dengan "pena," mereka datang kepada kita. Lagi pula, ketika Anda memiliki meja seperti itu, jauh lebih nyaman untuk terlibat dalam iklan spam - panggilan dingin.
Saya tekankan lagi, kami tidak memiliki database HH, kami hanya mengumpulkan data untuk setiap klien untuk kebutuhannya, akunnya, dan tanggung jawabnya. Dan pelanggaran kontrak penawaran tidak terkait dengan penggunaan situs oleh pihak parsing. Dengan menandatangani perjanjian dengan kami, klien menerima untuk menjalankan kontak sekitar 450 pembuat keputusan, yang kami masukkan padanya di server, dan kemudian departemen penjualannya akan memutuskan apa yang harus dilakukan dengan itu. Eh, kita juga akan "spammed" jika kita memiliki basis seperti itu. Cuma bercanda :)
Meskipun, secara pribadi, saya pikir tidak ada prospek dalam penguraian kata sandi. Memilah sumber daya terbuka adalah masalah lain. Setelah Anda mengatur semuanya dan mem-parsing terus-menerus, maka Anda menjual kembali akses ke semua data yang dikumpulkan. Ini lebih menjanjikan.
4. Apakah parsing legal?
Tidak ada artikel dalam hukum Rusia yang melarang penguraian. Peretasan, DDOS, pencurian konten yang dilindungi hak cipta adalah dilarang, dan penguraian bukanlah yang satu atau yang lain, bukan yang ketiga dan, karenanya, tidak dilarang.
Beberapa orang menganggap parsing sebagai serangan DDOS dan meragukannya. Namun, ini adalah hal yang sangat berbeda, dan ketika mengurai, kami, sebaliknya, mencoba memuat situs target sesedikit mungkin dan tidak membahayakan bisnis. Seperti dalam kasus parasitisme yang sehat, kami tidak ingin bisnis untuk "menjatuhkan kakinya", kalau tidak kita tidak akan memiliki "parasit" pada.
Biasanya mereka meminta untuk mengurai situs besar, dari 300-500 situs teratas di Rusia. Di situs-situs tersebut, lalu lintas, sebagai aturan, adalah beberapa juta per bulan, bahkan mungkin lebih. Dan dengan latar belakang seperti itu, penguraian satu produk per detik atau dua hampir tidak terlihat (tidak masuk akal untuk mengurai lebih sering, 1-2 detik per produk adalah kecepatan optimal untuk situs besar). Dengan demikian, tidak ada petunjuk tentang serangan DDOS dalam tindakan kami. Sangat jarang, orang-orang meminta kami untuk memperbarui, misalnya, seluruh situs BERU.RU per hari - katakan terus terang, itu berlebihan dan beban di situs terlalu tinggi ... biasanya butuh 3-4 hari.
Biarkan saya mengingatkan Anda bahwa parsing hanyalah kumpulan dari apa yang bisa kita lihat dengan mata kepala sendiri di situs dan salin ke tangan kita. Dengan demikian, hanya tindakan dengan informasi yang sudah dikumpulkan, mis. tindakan pelanggan sendiri. Hanya saja seseorang melakukan ini untuk waktu yang lama secara perlahan dan dengan kesalahan, dan pengurai cepat dan tidak membuat kesalahan. Apa yang harus dilakukan ketika mengumpulkan data dari AliExpress atau Wildberies? Tugas seperti itu hanya di luar kekuatan manusia, dan mengurai adalah satu-satunya jalan keluar.
Benar, mereka baru-baru ini diminta untuk mengurai situs web organisasi negara - pengadilan, jika saya tidak salah. Di sana semua informasi ada dalam domain publik, tetapi kami (untuk berjaga-jaga) menolak. :)
5. "Mengapa Anda menguraikan kami, kami adalah pelanggan" atau apa perbedaan antara penguraian dan pemantauan harga?
Pemantauan harga adalah salah satu aplikasi yang paling populer untuk penguraian. Tapi itu tidak sesederhana itu baginya - dalam hal ini, tidak hanya kita harus bekerja, tetapi juga klien sendiri.
Saat memesan pemantauan harga, kami segera memperingatkan bahwa kami tidak hanya akan mengurai pesaing, tetapi juga pelanggan. Ini diperlukan untuk mendapatkan tabel serupa dengan barang dan harga, yang dapat kami perbarui secara otomatis. Namun, data seperti itu sendiri tidak memiliki nilai hingga saling berhubungan (yang disebut kecocokan barang). Kami dapat secara otomatis mengkorelasikan beberapa posisi dari situs yang berbeda, tetapi, sayangnya, saat ini "mesin" masih tidak begitu bagus untuk dijamin tanpa kesalahan, dan tidak ada yang lebih baik daripada seseorang (misalnya, bekerja jarak jauh pada karyawan paruh waktu dari daerah) akan dilakukan.
Jika semua orang menampilkan barcode di situs, maka itu akan menjadi hebat, dan kita bisa melakukan semua "bundel" secara otomatis. Tetapi, sayangnya, tidak demikian, dan bahkan perusahaan yang berbeda mengeja nama produk yang berbeda pula.
Adalah baik bahwa pekerjaan seperti itu perlu dilakukan sekali, dan kemudian secara berkala diperiksa ulang dan melakukan penyesuaian kecil, jika perlu. Jika ada tautan, kami sudah dapat memperbarui tabel tersebut secara otomatis. Selain itu, biasanya orang tidak perlu memantau harga untuk semuanya: ada kondisional 3-5 ribu posisi yang ada di atas, dan hal sepele tidak menarik. Dan seorang operator dari wilayah tersebut dapat dengan mudah melakukan pekerjaan seperti itu untuk sekitar 10.000 rubel per bulan.
Kasus yang paling sukses dan benar dalam kasus ini, menurut saya, adalah mengunggah daftar harga pesaing yang diperoleh secara langsung ke 1C-ku Anda (atau sistem ERP lainnya) dan di sana Anda sudah dapat melakukan perbandingan. Jadi pemantauan harga paling mudah diterapkan dalam kegiatan sehari-hari analis mereka. Dan tanpa analisis, tidak ada yang membutuhkan penguraian seperti itu.
6. Bagaimana melindungi diri Anda dari penguraian?
Tidak mungkin. Dan apakah perlu melindungi diri Anda dari penguraian? Saya tidak akan. Masih belum ada perlindungan 100% yang berfungsi (lebih tepatnya, kami belum pernah bertemu), jadi saya tidak melihat banyak gunanya mencoba membela diri. Perlindungan terbaik terhadap penguraian adalah dengan meletakkan tabel yang sudah jadi di situs dan menulis - ambil dari sini, perbarui satu kali setiap dua hari. Jika orang melakukan ini, maka kita tidak akan memiliki roti.
Ngomong-ngomong, mereka baru-baru ini dipanggil dengan direktur TI dari sebuah jaringan besar - mereka ingin menguji perlindungan mereka terhadap penguraian. Saya langsung bertanya kepadanya mengapa mereka tidak melakukannya. Sebagai spesialis teknis, ia sangat memahami bahwa tidak ada perlindungan terhadap parsing yang akan menyelamatkan, itu hanya akan menakuti amatir; tetapi perusahaan yang menghasilkan uang dari penguraian dapat dengan sangat baik melakukan kegiatan penelitian dalam arah ini - untuk memahami perlindungan baru untuk waktu yang lama dan menyakitkan, dan akhirnya menyiasatinya ...
Sebagai aturan, setiap orang menggunakan jenis perlindungan yang sama, dan studi semacam itu akan berguna lebih dari sekali. Jadi, ternyata departemen pemasaran tidak siap untuk ini: "Mengapa kita menyederhanakan kehidupan para pesaing?" Tampaknya logis, tetapi ... Akibatnya, perusahaan akan menghabiskan uang untuk perlindungan, yang tidak akan membantu, dan beban parasit di situs akan tetap ada. Meskipun, dalam keadilan, perlu dicatat bahwa dari "siswa" belajar python dan melonjak segala sesuatu yang "bergerak" dapat membantu.
Omong-omong, Yandex dan Google terlibat dalam penguraian: mereka pergi ke situs dan mengindeksnya - mengumpulkan informasi. Hanya semua orang yang ingin Yandex dan Google mengindeks situs mereka karena alasan yang jelas, dan tidak ada yang mau diuraikan :)
7. "Saya mencari di sini secara gratis ..." atau sebuah cerita tentang penerbangan
Suatu ketika kami didekati dengan urutan yang menarik untuk pengujian parsing. Perusahaan ini berurusan dengan tiket pesawat dan mereka tertarik pada harga pesaing untuk beberapa tujuan paling populer. Tugas itu tidak sepele, karena Saya harus mengotak-atik penggantian dan perbandingan penerbangan. Ternyata menarik bahwa harga "Onetwotrip", "Aviasales" dan "Skyscanner" untuk penerbangan yang sama sedikit berbeda (penyebarannya sekitar 5-7%).
Proyek itu tampak sangat menarik bagi saya, dan saya memposting sebuah posting tentang itu di jejaring sosial. Yang mengejutkan saya, diskusi di bawah posting cukup agresif, dan saya tidak segera mengerti mengapa. Kemudian direktur umum dari salah satu perusahaan pemimpin pasar dalam penjualan tiket di Rusia menulis surat kepada saya, dan situasinya membaik. Ternyata permintaan untuk harga tiket untuk perusahaan tersebut dibayar, karena mereka mengambil informasi dari layanan berbayar internasional. Dan, selain beban parasit, parsing juga bermanfaat bagi mereka.
Bagaimanapun, tidak ada yang menuntut pembayaran dari Anda jika Anda secara pribadi mencari tiket untuk layanan ini, dan orang-orang biasa juga membuat banyak permintaan sambil memilah-milah berbagai pilihan ... Secara umum, ada dilema bisnis seperti itu :)
8. "Resep juru masak chef". atau bagaimana kita bekerja?
Saya pikir untuk pemahaman yang lebih baik tentang semua aspek parsing, ada baiknya membuka tabir "dapur batin" kita.
Semuanya dimulai dengan pesanan. Terkadang pelanggan menghubungi kami sendiri, dan terkadang kami menelepon. Ternyata sangat baik dengan pesanan untuk pemantauan harga. Dalam hal ini, kita harus mengurai tidak hanya pesaing, tetapi juga pelanggan sendiri. Oleh karena itu, kami kadang-kadang memanggil orang-orang yang kami parsing dengan satu atau lain cara, dan kami membicarakannya secara terbuka, menawarkan layanan kami - pekerjaan itu sudah dilakukan oleh kami. Pada awalnya, reaksinya sangat negatif, tetapi beberapa hari berlalu, emosi mereda, dan pelanggan sendiri menelepon kembali, mengatakan: "Sialan! Siapa yang masih parsing? "
Memilah dengan SANGAT banyak pemilik sumber daya yang dikunjungi menyebabkan emosi. Mula-mula negatif, karena mirip dengan mengintip ke dalam lubang kunci. Kemudian berkembang menjadi minat, dan kemudian menjadi kesadaran akan kebutuhan. Pengusaha adalah orang pintar. Ketika emosi menjadi sia-sia dan perhitungan dingin tetap, pertanyaan selalu muncul: "Atau mungkin kita kurang berkembang di suatu tempat, dan kita juga membutuhkan ini?"
Berkat emosi ini, kami cukup aktif tumbuh dan berkembang. Saat ini, kami mem-parsing sekitar 300 situs sehari. Biasanya, kami memesan 8-15 situs dari kami, dan menguraikan satu biaya dari 5 hingga 9 ribu rubel per bulan, tergantung pada kompleksitas koneksi, karena setiap situs harus terhubung secara individual (dibutuhkan sekitar 4-5 jam ke sumber daya). Kesulitannya adalah bahwa beberapa dilindungi. Perjuangan tidak begitu banyak dengan parsing seperti dengan beberapa beban parasit, yang tidak membawa mereka untung, tetapi kadang-kadang Anda harus bermain-main.
Bagaimanapun, SEMUA YANG DILAKUKAN PARISHED, bahkan jika harga barang diterbitkan di situs sebagai gambar :) Jika Anda ingin mencoba pekerjaan parsing, saya sarankan bekerja di situs web Stolichki Pharmacy dan
harga harga .
Toko online jaringan apotek "Stolichki" - harga ditulis dalam font internal dan untuk menguraikannya salah satu solusi adalah pembentukan gambar dan pengakuannya. Setidaknya kami melakukan ini.Data yang dikumpulkan ditransmisikan ke klien. Biasanya kami menempatkannya di cloud kami sendiri, terus-menerus memperbarui, dan memberikan akses klien kepada mereka melalui API. Jika sesuatu tiba-tiba menjadi salah dengan data (dan ini jarang terjadi - setiap 3-4 bulan), mereka segera menelepon dan menulis kepada kami, dan kami mencoba untuk memperbaiki masalah secepat mungkin. Kegagalan tersebut terjadi ketika perlindungan atau blok baru dipasang, dan diselesaikan masing-masing dengan menggunakan penelitian dan proksi. Dalam kasus lain, ketika sesuatu berubah di situs, bot tidak lagi memahami di mana lokasi, dan programmer kami harus mengonfigurasi ulang. Tapi semuanya terpecahkan, dan pelanggan biasanya memperlakukan masalah seperti itu dengan pemahaman.
Saya perhatikan bahwa dalam kasus kami, identitas pelanggan tidak pernah diungkapkan - kami sangat sensitif terhadap hal ini, dan tidak ada yang membatalkan klausul dalam perjanjian non-pengungkapan. Meskipun tidak ada yang tercela dalam penguraian, banyak yang malu.
Sebenarnya, untuk meringkas, jika Anda adalah bisnis yang sedang tumbuh, berdagang barang-barang yang tersebar luas atau bekerja di lingkungan yang berubah dengan cepat (seperti merekrut staf atau menawarkan layanan spesifik untuk kreator kategori tertentu, resume, dan isi "papan pesan" lain di Internet), maka itu masih awal atau lambat menemukan parsing (sebagai pelanggan atau sebagai target).PS: jika kita suka artikel ini, kita akan menulis tentang sisi teknis dari hal-hal - bagaimana kita memotong perlindungan, kapasitas apa yang kita gunakan, apa yang tertulis di (spoiler .net), dll.Maxim Kulgin, xmldatafeed.com