Bagaimana kami membuat direktori alamat Rostelecom

Mengapa Rostelecom tahu segalanya dan bahkan lebih banyak tentang alamat?

Internet, dengan semua gambar digitalnya, adalah sesuatu yang diciptakan di dunia analog. Dan sejauh ini, agar rumah memiliki Internet kecepatan tinggi, kabel harus secara fisik terhubung ke rumah.

Ini adalah alamat rumah yang merupakan objek utama identifikasi dalam proses multi-tahap penyediaan layanan Internet.

Alamat tersebut muncul saat pelanggan memanggil kami di Rostelecom menanyakan apakah mungkin untuk terhubung ke Internet. Operator perlu mengetahui alamat klien untuk memeriksa apakah kabel dengan Internet terhubung ke rumah. Alamat tersebut digunakan sampai pada tahap dukungan dan layanan klien yang ada. Saat menghubungi layanan dukungan teknis di alamat klien, itu diperiksa apakah masalahnya adalah lokal, atau jika kecelakaan itu masif dan masalahnya telah mempengaruhi seluruh kuartal.

Dan tentu saja, pada setiap langkah proses, kecepatan respons terhadap klien adalah penting.

Dalam posting ini kita akan berbicara tentang betapa pentingnya alamat pelanggan untuk sistem internal kita, mengapa FIAS bukan obat mujarab, dan mengapa Paspor Bersatu dibuat di rumah.

Semakin cepat klien menerima konfirmasi kemampuan untuk terhubung ke Internet, semakin tinggi kemungkinan ia akan memilih Rostelecom. Pasar layanan Internet sangat kompetitif dan sedikit keterlambatan dalam menanggapi permintaan klien dapat mengurangi kesetiaannya dan memicu perpindahan ke operator telekomunikasi lain yang lebih efisien.

Sederhana, proses bisnis untuk meloloskan aplikasi untuk koneksi Internet adalah sebagai berikut. Aplikasi dari klien memasuki sistem - mungkin situs web atau sistem lain tempat aplikasi dapat dipertahankan. Selanjutnya, permintaan dikirim ke sistem akuntansi teknis linier untuk memverifikasi ketersediaan konektivitas teknis kepada klien di alamatnya. Jika ada kemungkinan teknis, maka aplikasi ditransmisikan ke sistem kerja untuk installer yang akan menghubungkan klien ke Internet. Setelah layanan diaktifkan di jaringan, aplikasi masuk ke penagihan, di mana biaya layanan untuk pelanggan dihitung. Unduhan bulanan dibentuk dari penagihan untuk mengirim tagihan dan surat klaim kepada debitur.

Semua sistem informasi ini dikembangkan dan diimplementasikan sebelum penggabungan Rostelecom, dan sebagai aturan, sebelum pasar Internet menjadi sangat kompetitif.

Sistem informasi yang ada menyediakan proses penjualan berkelanjutan dan koneksi layanan komunikasi di seluruh negeri, tetapi pada saat yang sama, integrasi di antara mereka dilakukan dalam mode semi-otomatis. Sistem-sistem itu saling berhubungan lemah dan tidak dirancang untuk interaksi dalam ruang informasi tunggal. Setiap sistem menggunakan katalog alamatnya sendiri, direktori, dan prinsip untuk mengidentifikasi objek.

Untuk interaksi yang efektif dari semua sistem dalam proses bisnis tunggal terpusat dari penjualan dan layanan pelanggan dari Rostelecom, perlu untuk menyediakan "protokol" komunikasi yang umum - sistem untuk mengklasifikasikan dan mengidentifikasi objek yang dapat dialamatkan. Dalam hal ini, titik awalnya harus tepat properti yang mungkin memiliki alamat, mungkin tidak memilikinya, mungkin memiliki alamat alternatif, tetapi dalam hal apa pun itu harus ditentukan secara unik.

Untuk tujuan ini, sebuah proyek diluncurkan - Paspor Bersatu di Rumah (ORPON), yang memastikan transisi dari sumber data yang berbeda, tidak lengkap, dan saling bertentangan ke ruang alamat terpadu tunggal di mana interaksi antara sistem TI semua cabang Rostelecom terjadi secara otomatis, tanpa pemrosesan manual.

Bagaimana segalanya sebelum direktori alamat tunggal? Mengapa FIAS tidak cocok? Mengapa semuanya lebih rumit dari yang terlihat?


Ketika perusahaan memiliki tugas untuk membuat direktori, maka semuanya tampak sangat sederhana.
Pertama-tama, alamat adalah sesuatu yang akrab bagi semua orang, setiap orang dihadapkan dengan hal ini setiap hari, semua orang tahu bagaimana menulis alamat: bagaimana Tuhan memasukkannya ke dalam jiwa.

Kedua, setelah lima belas menit pertama mempelajari masalah ini di Internet, Anda akan mengetahui bahwa direktori alamat untuk seluruh Rusia telah dibuat dalam pajak. Dan yang tersisa untuk Anda lakukan adalah mengunduh basis data FIAS, mengunggahnya ke basis data dan direktori alamat siap. Di satu sisi, tentu saja, ini masalahnya.

Ada sistem alamat informasi federal, ada alamat di dalamnya, mereka secara teratur diperbarui, dan Layanan Pajak Federal secara teratur posting pembaruan. Untuk banyak tugas, panduan ini cocok, misalnya, untuk tugas-tugas Layanan Pajak Federal.

Tetapi FIAS tidak bisa menyelesaikan masalah Rostelecom. Ada lebih banyak alamat di direktori alamat Rostelecom daripada di direktori alamat pajak, dan Rostelecom akan belajar tentang membangun rumah baru rata-rata beberapa tahun lebih awal daripada rumah ini muncul di direktori FIAS. Dan penting bagi Rostelecom untuk mengetahui tidak hanya tentang alamat, tetapi juga untuk mengaitkan alamat dengan properti, dan menentukan semua karakteristik penting dari objek ini: tahun konstruksi, bahan dinding, tujuan, dan 90 parameter penting lainnya.

Tetapi masalah utama adalah bahwa pada saat dimulainya proyek di Rostelecom ada setidaknya 40 sistem yang digunakan secara aktif, masing-masing memiliki direktori alamat sendiri, memiliki database sendiri dengan alamat, perbandingan yang dengan FIAS menghasilkan sekitar 60% dari alamat yang cocok dan 40% alamat yang tidak diketahui kantor pajak.

Tidak mungkin untuk mendefinisikan 40% dari alamat ini sebagai "sampah", karena kira-kira persentase yang sama dari basis pelanggan terletak pada mereka, dan penolakan alamat berarti penolakan pelanggan juga. Untuk setiap alamat dari dropout, perlu dipahami: apakah alamat tersebut ada dan apakah alamat ini independen, atau apakah itu duplikat dari alamat lain? Atau mungkin itu adalah rumah sudut, dan kita sedang berhadapan dengan pengalamatan alternatif?

Itu perlu untuk datang dengan solusi yang akan memungkinkan menghubungkan setidaknya 95% dari alamat. Artinya, untuk 35% alamat yang tidak setuju dengan FIAS, perlu untuk membuat algoritma yang memungkinkan mereka membuat keputusan. Ini harus dilakukan secara otomatis. Untuk memproses secara manual sekitar 40% dari basis alamat Rostelecom, dibutuhkan sekitar 120 orang-tahun. Dan untuk menghilangkan masalah faktor manusia dengan bantuan manusia bukanlah keputusan yang paling bijak.

Bagaimana kami melakukan semuanya dan mengapa begitu lama


Dalam kerangka kerja proyek, dua tugas utama diperlukan: untuk membuat direktori alamat yang akan berisi semua alamat yang baik dan tidak mengandung sampah, dan untuk mengembangkan sistem yang akan memungkinkan pemeliharaan online dari direktori alamat dalam keadaan saat ini di sekitar seluruh lanskap TI Rostelecom.

Disederhanakan, proses implementasi proyek dapat digambarkan sebagai urutan langkah-langkah berikut:

  • Audit semua sistem yang menggunakan alamat dalam proses bisnis mereka. Yaitu, untuk mengaudit seluruh lanskap TI Rostelecom.
  • Tetapkan skenario implementasi dan skenario integrasi direktori alamat referensi di setiap wilayah makro.
  • Berdasarkan skenario implementasi tertentu dan skenario integrasi, kembangkan paket perangkat lunak.
  • Membongkar direktori alamat dari semua sistem dalam perimeter integrasi, membuat direktori alamat referensi berdasarkan data ini dan memetakan alamat lokal ke yang referensi.
  • Untuk mengembangkan direktori referensi real estat dan mengaitkan alamat referensi dengan real estat dengan komunikasi banyak ke banyak
  • Integrasikan dengan setiap sistem informasi
  • Mengembangkan proses manajemen alamat dan melatih para ahli
  • Tekan tombol merah besar "Start" dan mereplikasi solusi untuk semua 7 makro-wilayah Rostelecom.

Anda dapat berbicara tentang masing-masing langkah ini untuk waktu yang lama, masing-masing menarik dengan caranya sendiri, tetapi dalam kerangka artikel ini kami memutuskan untuk fokus pada dua yang paling menarik, menurut pendapat kami, aspek - pembentukan algoritma parsing alamat dan kelahiran arsitektur solusi.
Untuk menyelesaikan masalah dengan alamat, perlu untuk mengembangkan algoritma yang jelas dan konsisten untuk penguraian alamat, yang akan didasarkan baik pada basis alamat referensi tunggal FIAS dan mempertimbangkan spesifikasi regional ruang alamat di berbagai wilayah di Federasi Rusia.

Tidaklah mungkin untuk mengotomatisasi sepenuhnya algoritme ini menggunakan metode Levenshtein dan Yaro-Winkler yang terkenal. Oleh karena itu, bersama dengan metode parsing alamat otomatis, algoritma yang dikembangkan untuk menilai penyimpangan yang sebenarnya diizinkan dari garis alamat dari data referensi juga diterapkan.

Tetapi ini tidak cukup!

Untuk perbandingan data alamat yang paling akurat, perlu untuk menganalisis data sistem akuntansi teknis. Dengan demikian, kumpulan atribut benar-benar non-alamat tambahan dibentuk, yang merupakan bagian dari algoritma konfirmasi kualitas parsing akhir. Atribut seperti itu, misalnya, koordinat geografis dan pengidentifikasi peralatan. Jadi, jika saklar yang sama diikat ke alamat yang diidentifikasi sebagai duplikat potensial, ini adalah penanda yang memungkinkan mereka untuk "menutup" alamat menjadi satu objek alamat referensi. Kehadiran informasi tambahan seperti itu memungkinkan kami untuk mengumpulkan basis data paling lengkap dari semua rumah "sudut", yang mencerminkan kekhususan dari pengalamatan alternatif di Federasi Rusia.

Tetapi meskipun terdapat sejumlah besar informasi tambahan: data sistem akuntansi teknis, daftar pengembalian korespondensi, hubungan silang antara direktori alamat sistem dengan pengidentifikasi pelanggan, di beberapa cabang zona abu-abu - daftar alamat yang tidak dapat diidentifikasi secara unik - dapat mencapai hingga 10%.

Tapi apa yang harus dilakukan dengan zona abu-abu? Setelah semua, itu tidak hanya mencakup alamat yang ditulis secara tidak benar, tetapi juga yang disebut "alamat teknologi" - objek real estat di mana peralatan dipasang dan layanan disediakan, tetapi mereka terletak sepenuhnya di luar batas array perkotaan dan, karenanya, tidak memiliki alamat dalam pengertian tradisional. Tugas ini dipilih dalam arah yang terpisah dan menggunakan semua metode geoanalitik dan analisis data semantik yang diketahui, objek tersebut juga diidentifikasi secara unik dan dimasukkan dalam direktori alamat referensi.

Pembuatan direktori alamat referensi adalah hasil dari upaya titanic, tetapi hasil dari pekerjaan ini adalah untuk meningkatkan akurasi menentukan kelayakan teknis menghubungkan ke rumah-rumah tersebut, yang berarti bahwa tujuan tercapai.

Aspek kedua yang sama sulit dan menarik dari proyek ini terkait dengan pengembangan arsitektur solusi.

Kelahiran arsitektur solusi akhir didahului oleh dua hipotesis yang salah:

  1. Direktori alamat Rostelecom dapat dibangun berdasarkan platform MDM industri.
  2. Direktori alamat Rostelecom dapat dibangun berdasarkan platform industri untuk penguraian dan normalisasi alamat.

Kedua hipotesis ini dan yang lainnya adalah sebuah kegagalan. Solusi MDM industri, memiliki semua keunggulan platform manajemen direktori, tidak dapat membanggakan algoritma normalisasi untuk alamat Rusia, dan kemampuan untuk bekerja dengan alamat sebagai karakteristik objek real estat. Dan karena menempatkan pesanan di alamat adalah tujuan utama dari proyek, ini adalah kelemahan kritis yang melebihi semua keuntungan yang cukup besar dari platform MDM industri yang kuat. Selain itu, solusi itu tidak memiliki platform integrasi yang toleran terhadap kesalahan yang akan mampu memberikan integrasi real-time dengan puluhan node jaringan internal sesuai dengan berbagai skenario integrasi.

Pendekatan kedua untuk membangun arsitektur direktori alamat didasarkan pada gagasan membangun MDM berdasarkan mesin untuk penguraian dan normalisasi alamat. Ini tampak seperti solusi logis, karena hambatan dari pendekatan arsitektur sebelumnya adalah tepatnya fungsi mencari dan mencocokkan alamat, membawa mereka ke bentuk standar dan kemampuan untuk mencari duplikat potensial.

Namun demikian, arsitektur produk untuk parsing alamat dan normalisasi difokuskan pada kecepatan pemrosesan array alamat, akurasi pencocokan string alamat yang sama, meminimalkan kesalahan balik - ini adalah nilai-nilai kunci produk untuk normalisasi alamat, yang sering digunakan dalam memproses alamat milis dan dalam tugas serupa. Gagasan utama dari solusi ini adalah dengan menggunakan direktori alamat referensi tunggal - FIAS - dan membawa daftar yang diterima pada input ke standar dengan probabilitas yang dihitung.

Tugas-tugas Rostelecom membutuhkan pembuatan buku referensi sendiri yang terus diperbarui, yang pada satu sisi didasarkan pada FIAS, tetapi ada atau tidak adanya alamat dalam FIAS tidak menentukan untuk mengenali alamat referensi. Dan ini adalah tugas yang tidak dapat diselesaikan untuk sebagian besar sistem normalisasi alamat otomatis.

Sebagai hasil dari pencarian panjang, solusi kompromi dengan arsitektur hybrid ditemukan - platform MDM eksklusif yang terintegrasi dengan mesin pencari HumanFactorLabs. Pilihan pemasok ini ditentukan oleh keinginan mereka untuk menyelesaikan mekanisme pencarian alamat untuk digunakan, sebagai standar, dari direktori alamat Rostelecom, dan menerapkan mekanisme sinkronisasi teratur dari direktori alamat Rostelecom dengan FIAS. Penyempurnaan ini memungkinkan kami untuk memberikan pengguna pencarian yang nyaman dan berkualitas tinggi untuk alamat per baris, dan pembangunan solusi MDM yang didasarkan pada produk OpenSource memberikan fleksibilitas dalam pendekatan integrasi dengan lanskap IT Rostelecom. Dalam perimeter lanskap TI Rostelecom, ada sistem warisan yang digunakan dalam proses bisnis, tetapi tidak dapat dimodifikasi secara substansial karena keterbatasan desain mereka. Beranjak dari solusi industri menuju pengembangan in-house memungkinkan untuk memaksimalkan adaptasi platform MDM dengan karakteristik lingkungan TI, sambil mempertahankan konsep arsitektur dasar tidak berubah.

Mengapa begitu rumit?


Mengingat kekhasan membangun lansekap TI di Rostelecom, implementasi pertama dari sistem seharusnya terjadi secara langsung di sirkuit industri lansekap TI macroregion. Di sirkuit industri, integrasi baru dengan sistem utama lanskap TI diperkenalkan ke dalam operasi percontohan, yang berdampak pada implementasi teknis semua proses bisnis Rostelecom PJSC: Penjualan dan koneksi, Commissioning fasilitas komunikasi baru, Modernisasi jaringan distribusi rumah, Instalasi, Dukungan pada jalur 2 dan 3, perencanaan konstruksi, pelaporan. Risiko kesalahan implementasi adalah pemblokiran lengkap pekerjaan aliran informasi antara sistem informasi macroregion, penutupan semua proses bisnis, penurunan penjualan dan risiko reputasi.

Oleh karena itu, sebelum implementasi pertama, setiap langkah diverifikasi secara cermat, setiap alamat dan sistem dioperasikan, diperlukan tugas 24 jam selama dua minggu setelah dimulainya.

Pada saat peluncuran pertama, tampaknya semua kesulitan telah berlalu dan kemudian hanya akan ada replikasi. Tetapi dengan mempertimbangkan fakta bahwa setiap wilayah makro pada masa lalu adalah perusahaan yang terpisah dengan lanskap IT spesifiknya sendiri, setiap “sirkulasi” berubah menjadi implementasi baru yang lengkap.

Teknologi dan alat yang digunakan


Struktur modular sistem ditunjukkan pada gambar.


Diklik

Tentang proses teknis


Pengembang proyek tidak hanya menulis kode, tetapi merupakan unit kreatif lengkap: mereka membuat keputusan teknis, menawarkan ide untuk desain antarmuka, kemudahan penggunaan produk. Setiap fitur baru didiskusikan dengan pengembang, pendapat dan pengalaman mereka diperhitungkan. Tugas apa pun meninggalkan ruang pengembang untuk kreativitas, sehingga segala kenyamanan kecil mudah direalisasikan dan tidak memerlukan konfirmasi dalam banyak hal.

Tentang backend


Proyek saat ini didasarkan pada teknologi Java EE dan server web WildFly. Proyek ini monolitik, meskipun sekarang hanya melalui perencanaan "pemisahan" menjadi layanan mikro yang terpisah, karena beban pada proyek secara bertahap mulai memuncak, dan itu membutuhkan penskalaan yang normal.

Tentang frontend


Proyek ini telah berkembang untuk waktu yang lama, dan menggunakan GWT di sisi front-end. Dan, meskipun teknologi ini berat dan ketinggalan jaman pada tahun 2019, ini memungkinkan Anda untuk melakukan sejumlah hal yang tidak dapat Anda lakukan pada kerangka kerja JavaScript: menulis di Jawa dan di klien dan di server, beroperasi pada entitas basis data yang sama di sana dan di sana, hanya mengkloning mereka melalui JpaCloner.

Tidak ada DTO dan parameter lainnya bergeser dari kosong ke kosong. Ini memungkinkan Anda membuat produk lengkap dengan tim programmer yang relatif kecil. Meskipun teknologi ini tidak kalah merepotkan: bug di Internet Explorer (dan bagaimanapun juga ada standar perusahaan), waktu kompilasi yang besar, kesulitan dengan integrasi dengan perpustakaan JavaScript modern. Oleh karena itu, dalam versi produk yang baru direncanakan untuk meninggalkan teknologi ini demi sesuatu yang lebih modern.

Tentang skenario integrasi


Sistem ini mengimplementasikan lebih dari 20 skenario integrasi yang berbeda dengan sistem informasi konsumen dari direktori ORPON.

Skrip integrasi memungkinkan Anda mentransfer satu alamat dan daftar massa alamat atau elemen alamat. Sistem ORPON dapat memulai transfer alamat dan daftar alamat secara mandiri, misalnya, ketika seorang ahli memasukkan alamat baru ke dalam sistem atau ketika perubahan FIAS diunduh, atau dapat melakukan tindakan ini sebagai tanggapan terhadap permintaan dari sistem yang berdekatan. Transfer direktori, atribut real estat - tentu saja.

Skenario yang paling tidak biasa, mungkin, dapat dianggap sebagai skenario mengendalikan urutan transfer alamat. Dalam proses bisnis yang kompleks, koneksi yang terjadi secara online sangat penting untuk dikendalikan - sistem mana yang harus dituju terlebih dahulu untuk menghindari gangguan proses tersebut. Dan kami juga harus menyelesaikan masalah ini menggunakan skrip standar.

Tentang infrastruktur


ORPON bukan sistem real-time yang memuat banyak - setiap sistem konsumen direktori alamat memiliki salinan sendiri dari sistem referensi, dan sistem tidak menggunakan ORPON untuk mencari alamat, tetapi pergi ke database sendiri.Dalam ORPON, sistem konsumen menghubungi jika alamat yang diminta tidak ditemukan di penyimpanan lokal. Solusi arsitektur ini memungkinkan untuk secara signifikan mengurangi beban pada aplikasi dan memberikan karakteristik teknis yang ditentukan dari respons dan stabilitas menggunakan cluster dua server. Diagram infrastruktur komponen sistem ditunjukkan pada gambar di bawah ini. Dapat Diklik Komposisi aplikasi perangkat lunak dari setiap kluster adalah sebagai berikut:






  • PostgreSQL DBMS Cluster
  • RedHat Enterprise Linux 7.7 (64-bit)
  • PostgreSQL Server 11.4 (64-bit)
  • ClusterLabs Pacemaker | Corosync
  • Cluster server aplikasi
  • RedHat Enterprise Linux 7.7 (64-bit)
  • WildFly Application Server 17 (64-bit)
  • Perangkat Lunak Citrix Balancer
  • DENGAN ATAU PON
  • Tooltips Platform Cluster dan Faktor Perangkat Lunak
  • WildFly Application Server 17 (64-bit)
  • Perangkat Lunak Citrix Balancer
  • FAKTOR produk perangkat lunak
  • "Tips" Produk Perangkat Lunak

Apa yang memberi kita


Seringkali sulit untuk mengukur efek dari penerapan sistem informasi, banyak perubahan terjadi segera dan tidak ada jawaban yang pasti - apakah ada efek, dan jika ada, apa yang menyebabkan konsekuensi positif atau negatif. Terutama jika Anda meningkatkan proyek infrastruktur yang terletak di jantung lanskap TI Anda.

Kami beruntung, dan di salah satu wilayah makro kami dapat melakukan eksperimen bersih. Selama periode waktu hanya ada satu perubahan dalam proses organisasi dan TI, dan ini adalah pengantar dari Unified Address Directory - ORPON. Skala efeknya sangat besar - jumlah respons positif untuk memeriksa kelayakan teknis sambungan meningkat sebesar 22% setelah pengenalan sistem. Sebelum implementasi di makro-wilayah, tidak ada koneksi yang jelas antara alamat dalam sistem, di mana permintaan untuk dukungan teknis berasal dan sistem akuntansi teknis, di mana kemungkinan diperiksa - di mana alamat yang akan dipilih adalah lotre. Selain itu, ada banyak duplikat di SLTU dan peralatan yang ada di rumah dapat didistribusikan secara acak ke beberapa alamat, salah satunya dipilih secara acak untuk memeriksa kelayakan teknis.Implementasi sistem memungkinkan untuk mengurangi ketidakpastian ini menjadi 0, dan sebagai hasilnya untuk menghilangkan kehilangan pelanggan pada tahap memasuki aplikasi di situs web RT.RU karena kesalahan dalam menentukan kelayakan teknis menyediakan layanan di alamat.

Ketika kami menerima hasil ini, kami tidak percaya dengan mata kami! Angka-angka ini melebihi harapan kami yang paling liar.

Artikel ini disiapkan oleh tim manajemen data Rostelecom

Source: https://habr.com/ru/post/id485742/


All Articles