
Diyakini bahwa ilmuwan melakukan sebagian besar proses dengan bantuan solusi perpustakaan yang sudah jadi. Namun pada kenyataannya, dalam masalah umum Anda harus dapat memeriksa seberapa cocok metode yang dipilih dan, jika perlu, memodifikasinya agar sesuai dengan kondisi Anda. Bersama dengan
Peter Lukyanchenko , seorang guru matematika yang lebih tinggi untuk Ilmu Data di OTUS, dan di masa lalu, Team Lead Analytics di Lamoda, kami menganalisis bagaimana matematika membantu dalam masalah bisnis nyata.
Yang pertama dari tiga bagian dari topik ini dikhususkan untuk
analisis regresi .
Tujuan Bisnis: Perusahaan berbagi mobil perlu mengidentifikasi ketergantungan, karena serangkaian faktor - pengalaman berkendara, cuaca, kondisi permukaan mobil dan jalan, lalu lintas, populasi kota, dll. - memengaruhi kemungkinan kecelakaan.
Untuk Data Scientist, tugas ini terlihat seperti ini: Hitung persamaan ketergantungan satu set pengamatan pada satu set parameter lainnya.
Masalah Solusi Umum: Model yang menawarkan pustaka default untuk kesalahan distribusi normal. Perhitungannya agak kasar, dan jarang mendekati ketergantungan yang didapat. Selain itu, dimasukkannya kesalahan yang tidak akurat dalam persamaan menyebabkan fakta bahwa dengan setiap set parameter baru prediksi menjadi kurang dan kurang akurat.
Bagaimana matematika menghemat
Mari kita mulai dengan deskripsi hubungan untuk satu faktor - pengalaman berkendara. Model regresi linier berpasangan klasik menggunakan dua koefisien. Koefisien pertama
α (alpha) adalah nilai tanpa syarat ketika akan ada kemungkinan umum kecelakaan, terlepas dari parameter apa pun, hanya karena kebetulan. Koefisien kedua
β (beta) menentukan sensitivitas faktor pengalaman mengemudi terhadap kemungkinan kecelakaan. Koefisien
β juga disebut kemiringan dalam persamaan ketergantungan. Dan karena akan selalu ada faktor yang kami lupa atau tidak dapat perhitungkan, kami harus menambahkan beberapa kesalahan Ui ke persamaan.
Kami mendapatkan persamaan: y
i = α + βx
i + U
i .

Sebenarnya, tugas analis adalah untuk mencari koefisien seperti di mana kesalahan adalah yang terkecil.
Ada beberapa jenis perhitungan kesalahan. Karena kesederhanaannya, kesalahan absolut yang paling populer adalah penyimpangan nilai prediksi dari nilai absolut. Kesalahan umum dalam hal ini adalah jumlah modul. Masalah modul adalah bahwa fungsi ini tidak dapat dibedakan pada seluruh ruang angka. Kemudian para ahli matematika muncul dengan ide untuk mengambil transformasi berkelanjutan untuk menggeneralisasi kesalahan, dan mulai meringkas kotak penyimpangan tersebut. Karena fungsi ini kontinu, kita dapat menerapkan optimasi Lagrange (optimasi fungsi dua variabel). Setelah menghitung turunan dari fungsi sehubungan dengan
α dan
β , kami menemukan titik-titik ekstrem, kemudian kami mengklasifikasikannya melalui properti Hessian (sesuai dengan aturan Hesse). Dua koefisien
α ' dan
β' dibentuk sesuai dengan metode kuadrat terkecil. Ini mendasari teorema Gauss-Markov, yang merupakan model regresi pasangan paling optimal. Nilai yang dia terima adalah yang terbaik, dan hasilnya tidak dapat diganggu dengan metode lain.

Skala proses
Sekarang kita sampai pada fakta bahwa kemungkinan untuk mengalami kecelakaan dipengaruhi oleh banyak parameter lain yang dapat diekspresikan dalam penilaian kuantitatif. Ternyata Y tergantung pada jumlah variabel X. Agar tidak mengulangi perhitungan yang sama dari semua koefisien
α dan
β untuk setiap parameter, kita beralih ke persamaan matriks ketergantungan. Setelah dibedakan dengan hati-hati, kami dapat memperoleh matriks koefisien, jadi kami menggeneralisasi persamaan regresi berpasangan menjadi multidimensi.
Kesalahan adalah kuncinya
Poin penting lainnya dalam menyelesaikan masalah regresi terkait dengan pilihan kesalahan. Seringkali, analis memilih kesalahan yang terdistribusi normal. Sebenarnya, ini adalah metode yang usang. Ini masih berfungsi dengan baik dalam kondisi teoretis, tetapi sudah terlalu primitif untuk algoritme kami yang terus menjadi lebih rumit dan berjuang untuk kebenaran. Untuk spesialis yang kompeten, kesalahan adalah subjek penelitian yang membantu untuk lebih memahami esensi dari regresi. Setelah membangun satu regresi, ia melihat kesalahan apa yang telah dihasilkannya dan menjelajahi seluruh awan kesalahan. Misalnya, jika penyimpangan meningkat, ini adalah tanda heteroskedastisitas, yaitu maka kami lupa memperhitungkan beberapa variabel X dan tidak menghitungnya. Jika ia menemukan bahwa kesalahan terletak berdasarkan beberapa hukum dan pemberitahuan autokorelasi di dalamnya, maka ini adalah tanda bahwa kami melakukan kesalahan dengan model. Idealnya, Anda harus berusaha untuk meminimalkan penyimpangan kesalahan dari nol.
Jadi, pengetahuan tentang matematika yang lebih tinggi apa yang kita butuhkan untuk membangun ketergantungan yang kompleks terhadap kemungkinan kecelakaan pada serangkaian faktor:
- Mat. analisis untuk mengoptimalkan fungsi regresi
- Aljabar Linier, mis. definisi, sifat dan diferensiasi matriks, untuk transisi dari regresi berpasangan ke multidimensi
- Analisis dan pemilihan jenis distribusi kesalahan. Misalnya, seorang spesialis dapat mengambil distribusi normal umum, distribusi beta, atau distribusi siswa. Ini terutama diperlukan dalam kasus di mana tidak ada sampel yang baik dan ketika itu tidak dapat ditingkatkan. Dan juga ketika kondisi teorema Gauss-Markov dilanggar dan perlu muncul untuk membangun persamaan regresi secara berbeda atau menggunakan metode lain untuk mengklasifikasikan dan memperkirakan probabilitas.
Kemampuan untuk bekerja dengan peralatan matematika merupakan keuntungan penting dari Data Scientist, yang memungkinkannya untuk memverifikasi hasil dan memecahkan masalah atipikal. Pada artikel selanjutnya kita akan berbicara tentang solusi matematika untuk layanan konsultasi. Sementara itu, kami mengundang Anda ke kursus matematika untuk Ilmu Data, yang akan dimulai minggu ini.
Untuk
kursus dasar -
mulai tanggal 29 Januari - pengetahuan yang cukup tentang kurikulum sekolah , untuk
tingkat lanjut -
mulai tanggal 31 Januari - pengetahuan tentang kursus 1-2 dari institut diperlukan .
Punya waktu untuk mendaftar dan lulus ujian masuk.