Tahun ini saya menghadiri konferensi Data Crunch di Budapest yang didedikasikan untuk analisis data dan Rekayasa Data. Pembicara dari Linkedin, Uber, Github dan banyak perusahaan lapis kedua diundang ke konferensi ini, di mana orang-orang berbagi pengalaman mereka atau berbicara tentang alat data. Nah, yang sama menariknya bagi saya adalah berbicara dengan para peserta konferensi untuk memahami bagaimana kenyataan Rusia kami berbeda dari Eropa dan Amerika Serikat.
Agar saya dapat mencatat ini:
- Full Stack Data Sceince - 2 laporan dikhususkan untuk kira-kira topik yang sama yang saya tulis sebelumnya . Jadikan DS / DA seseorang yang dapat memecahkan masalah dari awal hingga akhir. Jangan membagi pekerjaan menjadi "fungsi", tetapi bagikan DS menjadi "topik". Yaitu bekerja dengan data bukanlah pembagian menjadi bagian-bagian antara mereka yang menyiapkan, memproses, menganalisis, membangun model, dan memvisualisasikan, tetapi pembagian "topik" antara spesialis yang dapat melakukan semuanya dengan sepenuhnya.
- Dari nol menjadi pahlawan - orang-orang berbicara tentang bagaimana mereka membangun departemen DS mereka dari awal. Secara umum, seperti biasa, ide suara biasa berfungsi:
- 2 DS sebagai ukuran tim minimum.
- dan 2 insinyur data untuk mereka.
- Pemilik produk B, yang akan berkomunikasi dengan bisnis.
- Bangun ekosistem yang baik. Pembicara biasanya tenggelam untuk open-source. Setiap laporan biasanya menyebutkan Hadoop. Masalahnya benar dalam banyak hal karena dalam proyek tempat saya bekerja, dan juga banyak pembaca, tidak diperlukan Hadoop, karena tidak ada jumlah data di mana pun akan ada keuntungan. Secara umum, sikap saya terhadap open source adalah mencoba, belajar, tetapi jika perusahaan Anda telah membeli sesuatu, maka terus hidup dalam ekosistem perangkat lunak berpemilik mungkin lebih menguntungkan daripada bergegas ke teknologi lain dan kemudian "memasangkan" mereka atau mempelajarinya dari awal.
- Uji apa yang Anda lakukan. Tes A / B dan penilaian hasil. Cukup aneh, tetapi saran sederhana tidak melakukan semuanya dalam praktik.
- Demokratisasi data di Uber - tentang ini saya sudah menulis artikel terpisah
- Etika AI - membahas bahwa banyak tugas memiliki beberapa optima yang berbeda secara fundamental. Secara kondisional, Anda mungkin memiliki keputusan "efektif" dan "keputusan etis". Dan masalahnya adalah bahwa maksimalisasi mereka terjadi dalam kondisi yang berbeda. Dan tidak ada solusi yang tepat dalam matematika atau algoritma. Adalah bagi orang untuk memutuskan apa yang mereka inginkan dari "mobil" mereka. Sebagai contoh, pembicara mengatakan bahwa algoritma penilaian risiko kambuh kejahatan cenderung memberikan peningkatan penilaian risiko untuk orang kulit hitam Amerika. Penilaian risiko ini digunakan untuk mengambil keputusan tentang pembebasan bersyarat. Dilemanya adalah bahwa "diskriminasi" kulit hitam yang tidak dapat diterima secara sosial menghadapi peningkatan kriminal yang secara objektif tidak dapat diterima dari mereka yang telah dibebaskan lebih cepat dari jadwal dengan sia-sia. Dan tidak mungkin untuk menggabungkan kedua solusi dalam satu algoritma. Menariknya, komunitas kulit hitam di Amerika Serikat terutama melakukan kejahatan terhadap “saudara-saudari” kulit hitamnya sendiri, sehingga bahkan upaya untuk “menyamakan” kulit putih dan kulit hitam tidak berisiko, tetapi menurut jumlah yang dirilis, itu akan menyebabkan peningkatan yang tidak proporsional dalam jumlah korban kekerasan di antara orang kulit hitam.
- ML dan peperangan informasi - pria itu memberi tahu bagaimana, dengan menganalisis teks dan tautan satu sama lain, dan di Facebook ia menemukan beberapa aktivitas mencurigakan di Facebook sebelum pemilihan Trump. Dia mengklaim bahwa seseorang secara besar-besaran mengawasi agenda "Rusia", sehingga bahasa yang digunakan oleh kelompok konservatif menjadi lebih rasis. Dia menyelidiki ini dengan menganalisis kosakata yang digunakan dalam kelompok Neo-Nazi, dan kemudian membandingkannya dengan bahasa konservatif. Dan dia menemukan bahwa leksikon mulai menjadi sangat dekat sebelum pemilihan Trump, meskipun tidak ada yang seperti ini telah diamati sebelumnya. Secara umum, ia mengisyaratkan bahwa Putin yang harus disalahkan :)
Dari percakapan dengan orang-orang di konferensi:
- R vs Python. Orang hidup dengan dua alat dan biasanya R dicintai oleh orang-orang dari latar belakang dalam sains dan matematika, dan python dicintai oleh orang-orang dari latar belakang dalam pembangunan. Penggunaan R yang paling umum adalah untuk eksplorasi, Python untuk pipeline. Model menulis pada keduanya. Saya punya pengalaman pribadi memproduksi model produksi pada R, misalnya.
- Tes A / B - menerapkan penilaian rutin atas tindakan Anda dan memilih solusi berdasarkan tes A / B masih merupakan praktik yang jarang terjadi di perusahaan (dari belasan kelompok yang saya ajak bicara, hanya 1 yang memiliki tes A / B). Orang tidak ingin menghabiskan energi pada tes A / B, mereka mengatakan mereka sudah tahu atau CEO "melihat" bagaimana ...
- Setiap orang memiliki masalah komunikasi - dengan manajer, dengan klien, di dalam perusahaan, dll. Meningkatkan komunikasi adalah titik pertumbuhan bagi hampir semua tim.
- Pekerjaan utama pada pembelajaran mesin tidak sejalan dengan memilih model paling keren, tetapi fitur pengerjaan dan persiapan data. Baik google maupun facebook tidak memiliki model "rahasia", tetapi efektivitas algoritme mereka lebih mungkin dalam pemrosesan dan persiapan data untuk model ini. Ini umumnya berita baik, karena itu berarti xgboost atau regresi publik adalah algoritma terdepan untuk sebagian besar tugas.