Pengujian Data: Persyaratan dan Level



Nama saya Alexey Chumagin, saya seorang penguji di Provectus. Dalam artikel ini saya akan memberi tahu Anda bagaimana persyaratan kualitas data dibentuk dan tingkat pengujian data apa yang bisa dilakukan.


Pembaruan:
Artikel ini membahas data besar (atau tidak demikian), berdasarkan analisis dan agregasi, yang digunakan untuk membangun proses yang berbeda, pola diturunkan untuk digunakan dalam analisis lebih lanjut atau untuk pengambilan keputusan. Data dapat dikumpulkan untuk proyek tertentu dari awal, atau database yang dikumpulkan lebih awal untuk proyek lain atau untuk tujuan komersial dapat digunakan. Sumber data ini beragam dan tidak hanya mencakup input oleh operator, tetapi juga pengukuran otomatis dan / atau otomatis yang disimpan dalam database secara sistematis atau tidak sistematis (dalam tumpukan, "maka kita akan mencari tahu apa yang harus dilakukan tentang hal itu").

akhir pembaruan.


Mengapa pengujian data itu penting


Data memainkan peran yang semakin penting dalam pengambilan keputusan, baik dalam kehidupan sehari-hari maupun dalam bisnis. Teknologi dan algoritma modern memungkinkan Anda untuk memproses dan menyimpan sejumlah besar data, mengubahnya menjadi informasi yang bermanfaat.

Jenis data apa ini? Misalnya, riwayat peramban Anda, transaksi di peta Anda, titik perpindahan suatu perangkat. Mereka tidak bersifat pribadi, tetapi data ini masih milik perangkat tertentu. Jika Anda mengumpulkan dan memprosesnya, Anda bisa mendapatkan informasi yang cukup menarik tentang pemilik perangkat ini. Misalnya, ke mana ia ingin pergi, berapa jenis kelamin dan usianya. Jadi lambat laun kita β€œmemanusiakan” perangkat itu dan memberinya beberapa karakteristik.

Maka informasi ini dapat digunakan untuk iklan bertarget. Jika Anda seorang wanita, maka dengan tingkat probabilitas yang tinggi Anda dapat mengatakan bahwa Anda tidak tertarik dengan iklan pisau cukur untuk pria. Anda perlu menampilkan iklan yang terkait dengan minat Anda. Kualitas penargetan iklan dapat ditingkatkan karena faktanya diketahui tentang perangkat yang ditampilkan. Anda ditampilkan iklan yang ingin Anda lihat. Jadi, Anda akan mengkliknya. Orang yang menunjukkan kepada Anda iklan ini akan menerima uang untuk itu, dan pelanggan iklan akan menerima keuntungan dari apa yang Anda pelajari tentang produknya.

Semua ini didasarkan pada data yang dimiliki oleh perusahaan dan orang yang berbeda. Penggunaan data ini secara efektif mensyaratkan bahwa data tersebut dapat diandalkan dan kami tahu bahwa transaksi ini milik akun ini.

Karena ada begitu banyak data, menyimpannya membutuhkan sumber daya yang signifikan. Pembersihan data adalah tugas terpisah yang perlu ditangani. Kami hanya ingin menyimpan data yang benar-benar kami butuhkan. Dan kami tidak ingin duplikat atau catatan yang tidak memenuhi kriteria kami disimpan di basis data kami. Misalnya, catatan dengan bidang kosong. Oleh karena itu, ada persyaratan untuk kualitas data dan muncul pertanyaan dari pengujian mereka.

Apa itu kualitas?


Saya suka definisi ini: kualitas produk adalah ukuran kepuasan pengguna. Jelas bahwa itu semua tergantung pada konteks penggunaan produk. Jika Anda menggunakan produk terkenal, misalnya, Facebook atau Skype, maka Anda memiliki persyaratan kualitas yang sama. Anda akan tahan dengan beberapa kesalahan, tetapi masih terus menggunakan produk ini. Dan jika Anda adalah pelanggan suatu program dan membayar uang untuk itu, maka persyaratan kualitas akan lebih tinggi. Anda akan menemukan kesalahan, perhatikan beberapa hal kecil. Orang yang berbeda memiliki ide yang berbeda tentang kualitas, dan program yang berbeda juga memiliki persyaratan kualitas mereka sendiri.

Karena itu, sebelum mengembangkan dan menguji, orang biasanya menentukan apa yang mereka anggap sebagai produk yang berkualitas. Semua ini dapat dijelaskan secara formal. Misalnya, kami akan mempertimbangkan kualitas produk kami jika tidak mengandung kesalahan kritis. Atau jika dia bekerja selama dua minggu tanpa kesalahan.

Mendefinisikan persyaratan ini bukanlah tugas yang mudah. Biasanya, persyaratan bisnis membentuk persyaratan perangkat lunak, dan jika kita bertanya bisnis apa data yang seharusnya, kita bisa mendapatkan jawaban bahwa data harus baik dan bersih. Tugas penguji adalah untuk mengetahui atau mengklarifikasi jenis data apa itu dan dengan kriteria apa kita menentukan kualitas dan kemurniannya. Kriteria ini perlu diformalkan dan diperbaiki, dibuat terukur.

Bagaimana persyaratan kualitas data dibentuk?


Penguji mulai mencari tahu apa yang tidak dapat dipahami olehnya dan apa yang ingin dia ketahui tentang objek pengujian. Penguji menyusun daftar pertanyaan dan mulai mengambil "wawancara" dari pelanggan. Dia, secara teori, harus tahu data apa yang seharusnya. Sebagai contoh, saya bertanya: apakah sel kosong atau baris duplikat diizinkan.

Contoh persyaratan adalah jika kita memiliki daftar orang, maka nama depan, nama belakang dan nama tengah dapat diulang. Tetapi seluruh rangkaian garis tidak dapat diulang. Pengulangan mungkin diperbolehkan pada satu sel, tetapi tidak lagi di seluruh baris atau dalam agregat beberapa sel. Seharusnya tidak ada pertandingan yang lengkap.

Selanjutnya kita mulai bertanya tentang format data dalam sel tertentu. Misalnya, nomor telepon harus memiliki 12 digit, dan nomor kartu bank harus 16. Kami mungkin memiliki kriteria bahwa tidak setiap urutan karakter ini adalah nomor kartu bank. Atau kami mengerti bahwa hanya huruf yang bisa menggunakan nama keluarga. Kami mungkin memiliki banyak pertanyaan tentang format data. Jadi, kami mencari tahu semua yang perlu kami ketahui tentang subjek pengujian.

Apa itu data berkualitas?


Data kualitatif harus memiliki beberapa karakteristik.

  • Kelengkapan - tidak ada celah dalam catatan, semua sel harus diisi. Data harus membawa informasi sebanyak mungkin.
  • Keunikan - seharusnya tidak ada catatan identik di antara data.
  • Keandalan - demi ini, semuanya dipahami. Tidak ada yang mau bekerja dengan data yang tidak bisa dipercaya. Sel-sel tabel dengan data berkualitas tinggi mengandung apa yang seharusnya dikandungnya: alamat IP, nomor telepon, dll.
  • Akurasi. Jika kita berbicara tentang data digital, maka harus ada jumlah karakter yang tepat. Misalnya, 12 tempat desimal. Data harus dekat dengan beberapa nilai rata-rata.
  • Konsistensi - data harus mempertahankan nilai, terlepas dari bagaimana mereka diukur.
  • Ketepatan waktu - data harus relevan, terutama jika diperbarui secara berkala. Misalnya, setiap bulan jumlah data harus meningkat. Data tidak boleh ketinggalan jaman. Jika kita berbicara tentang transaksi perbankan, maka kita tertarik memilikinya, misalnya, selama enam bulan terakhir.

Tingkat Pengujian Data


Kita dapat mengelompokkan data dengan apa yang disebut lapisan - analogi yang baik dengan piramida pengujian bekerja di sini. Ini adalah distribusi jumlah tes pada berbagai tingkat aplikasi.

  • Lapisan unit adalah ketika satu modul program diuji, paling sering itu adalah satu fungsi atau metode. Tes semacam itu harus yang paling banyak. Tes unit untuk data adalah saat kami menetapkan persyaratan untuk setiap sel. Tidak masuk akal untuk menguji lebih lanjut jika kita memiliki kesalahan di tingkat sel. Jika, misalnya, nama belakang berisi angka, lalu apa gunanya memeriksa sesuatu lebih lanjut? Mungkin harus ada huruf yang mirip dengan angka-angka ini. Dan kemudian kita perlu memperbaiki semuanya dan memeriksa level berikutnya sehingga kita memiliki semuanya dalam bentuk tunggal dan tidak ada duplikat, jika itu dinyatakan dalam persyaratan.
  • Lapisan integrasi adalah ketika beberapa bagian dari program diuji bersama. Lapisan data API adalah ketika kita berbicara tentang seluruh tabel. Misalkan kita dapat memiliki duplikat, tetapi tidak lebih dari seratus lembar. Jika kita memiliki satu juta lebih kota, maka satu juta orang tidak dapat hidup di satu jalan. Karena itu, jika kita membuat pilihan di sepanjang jalan, maka jumlah alamat harus sepuluh ribu atau seribu - ini harus ditentukan. Dan jika kita memiliki satu juta, maka ada yang salah dengan data.
  • Lapisan sistem adalah ketika seluruh program diuji sepenuhnya. Dalam hal data, lapisan ini berarti bahwa seluruh sistem sedang diuji. Ini termasuk statistik. Sebagai contoh, kami mengatakan bahwa kami tidak dapat memiliki lebih dari 30% pria yang lahir setelah 1985. Atau kita katakan bahwa 80% dari data harus dari jenis yang sama.

Sebagai kesimpulan, saya akan mengatakan bahwa pengujian data adalah area yang menyediakan banyak peluang untuk kreativitas dan pengembangan. Tidak ada peluru perak di sini: pendekatan yang berbeda dapat digunakan untuk menguji data. Kebenaran, seperti biasa, ada di antara keduanya.

Source: https://habr.com/ru/post/id416183/


All Articles