Prueba de datos: requisitos y niveles



Mi nombre es Alexey Chumagin, soy probador en Provectus. En este artículo, le diré cómo se forman los requisitos de calidad de datos y qué niveles de pruebas de datos pueden ser.


Upd:
El artículo trata sobre datos grandes (o no), basados ​​en análisis y agregación, que se utilizan para construir diferentes procesos, los patrones se derivan para su uso en análisis posteriores o para la toma de decisiones. Los datos se pueden recopilar para un proyecto específico desde cero, o se pueden utilizar bases de datos recopiladas anteriormente para otros proyectos o con fines comerciales. Las fuentes de estos datos son diversas e incluyen no solo la entrada por parte de los operadores, sino también las mediciones automáticas y / o automáticas almacenadas en la base de datos de manera sistemática o no sistemática (en un montón, "entonces descubriremos qué hacer al respecto").

fin de upd.


Por qué es importante la prueba de datos


Los datos juegan un papel cada vez más importante en la toma de decisiones, tanto en la vida cotidiana como en los negocios. Las tecnologías y algoritmos modernos le permiten procesar y almacenar grandes cantidades de datos, convirtiéndolos en información útil.

¿Qué tipo de datos es este? Por ejemplo, el historial de su navegador, las transacciones en su mapa, el punto de movimiento de un dispositivo. Son impersonales, pero estos datos aún pertenecen a un dispositivo específico. Si los recopila y procesa, puede obtener información bastante interesante sobre el propietario de este dispositivo. Por ejemplo, a dónde le gusta ir, cuál es su género y edad. Así que gradualmente "humanizamos" el dispositivo y lo dotamos de algunas características.

Entonces esta información puede ser utilizada para publicidad dirigida. Si eres mujer, entonces, con un alto grado de probabilidad, puedes decir que no estás interesado en publicitar maquinillas de afeitar para hombres. Debe mostrar anuncios relacionados con sus intereses. La calidad de la orientación publicitaria se puede mejorar debido al hecho de que se conoce sobre los dispositivos en los que se muestra. Se le muestra el anuncio que desea ver. Entonces, harás clic en él. Las personas que le muestren este anuncio recibirán dinero por él, y el cliente del anuncio recibirá un beneficio de lo que aprenda sobre su producto.

Todo esto se basa en los datos que pertenecen a diferentes empresas y personas. El uso efectivo de estos datos requiere que sean confiables y sabemos que esta transacción pertenece a esta cuenta.

Como hay tantos datos, almacenarlos requiere recursos significativos. La limpieza de datos es una tarea separada que debe abordarse. Queremos almacenar solo los datos que realmente necesitamos. Y no queremos que se almacenen en nuestra base de datos duplicados o registros que no cumplan con nuestros criterios. Por ejemplo, registros con campos vacíos. Por lo tanto, existen requisitos para la calidad de los datos y surge la pregunta de sus pruebas.

¿Qué es la calidad?


Me gusta esta definición: la calidad del producto es una medida de la satisfacción del usuario. Está claro que todo depende del contexto de uso del producto. Si utiliza algún producto conocido, por ejemplo, Facebook o Skype, tiene los mismos requisitos de calidad. Soportará algunos errores, pero seguirá utilizando este producto. Y si usted es cliente de un programa y pagó dinero por él, entonces los requisitos de calidad serán más altos. Encontrarás fallas, mira algunas pequeñas cosas. Diferentes personas tienen diferentes ideas sobre la calidad, y diferentes programas también tienen sus propios requisitos de calidad.

Por lo tanto, antes de desarrollar y probar, las personas generalmente determinan qué considerarán un producto de calidad. Todo esto se puede describir formalmente. Por ejemplo, consideraremos la calidad de nuestro producto si no contiene errores críticos. O si trabaja durante dos semanas sin problemas.

Definir estos requisitos no es una tarea fácil. Por lo general, los requisitos comerciales forman requisitos de software, y si le preguntamos a la empresa cuáles deberían ser los datos, podemos obtener la respuesta de que los datos deben ser buenos y limpios. La tarea del probador es averiguar o aclarar qué tipo de datos son y con qué criterios determinamos su calidad y pureza. Estos criterios deben formalizarse y fijarse, hacerse medibles.

¿Cómo se forman los requisitos de calidad de datos?


El probador comienza a descubrir qué es incomprensible para él y qué le gustaría saber sobre el objeto de prueba. El evaluador compila una lista de preguntas y comienza a tomar una "entrevista" del cliente. Él, en teoría, debería saber cuáles deberían ser los datos. Por ejemplo, pregunto: ¿se permiten celdas vacías o filas duplicadas?

Un ejemplo de requisitos es si tenemos una lista de personas, entonces el nombre, el apellido y el segundo nombre pueden repetirse. Pero no se puede repetir todo el conjunto de líneas. Se pueden permitir repeticiones en una celda, pero ya no en una fila completa o en el conjunto de varias celdas. No debería haber una coincidencia completa.

A continuación, comenzamos a preguntar sobre el formato de datos en una celda específica. Por ejemplo, el número de teléfono debe tener 12 dígitos y el número de la tarjeta bancaria debe ser 16. Podemos tener el criterio de que no todas las secuencias de estos caracteres son un número de tarjeta bancaria. O entendemos que solo las letras pueden estar en un apellido. Es posible que tengamos muchas preguntas sobre el formato de datos. Por lo tanto, descubrimos todo lo que necesitamos saber sobre el tema de las pruebas.

¿Qué son los datos de calidad?


Los datos cualitativos deben tener varias características.

  • Integridad: no hay espacios en los registros, todas las celdas deben llenarse. Los datos deben llevar tanta información como sea posible.
  • Unicidad: no debe haber registros idénticos entre los datos.
  • Fiabilidad: en aras de esto, todo está concebido. Nadie quiere trabajar con datos en los que no se puede confiar. Las celdas de las tablas con datos de alta calidad contienen lo que deberían contener: dirección IP, número de teléfono, etc.
  • Precisión Si hablamos de datos digitales, entonces debe haber un número exacto de caracteres. Por ejemplo, 12 decimales. Los datos deben estar cerca de algún valor promedio.
  • Consistencia: los datos deben retener valores, independientemente de cómo se midan.
  • Puntualidad: los datos deben ser relevantes, especialmente si se actualizan periódicamente. Por ejemplo, cada mes la cantidad de datos debería aumentar. Los datos no deben estar desactualizados. Si hablamos de transacciones bancarias, entonces estamos interesados ​​en tenerlas, por ejemplo, durante los últimos seis meses.

Niveles de prueba de datos


Podemos agrupar datos por las llamadas capas: aquí funciona una buena analogía con la pirámide de prueba . Esta es la distribución del número de pruebas en diferentes niveles de la aplicación.

  • La capa de unidad es cuando se prueba un módulo de programa, la mayoría de las veces es una función o método. Tales pruebas deberían ser las más. Una prueba unitaria de datos es cuando definimos los requisitos para cada celda. No tiene sentido probar más si tenemos errores a nivel celular. Si, por ejemplo, el apellido contiene números, ¿cuál es el punto de verificar algo más? Quizás debería haber letras similares a estos números. Y luego tenemos que corregir todo y verificar el siguiente nivel para que tengamos todo en singular y no haya duplicados, si eso se establece en los requisitos.
  • Una capa de integración es cuando varias partes de un programa se prueban juntas. La capa de API de datos es cuando hablamos de toda la tabla. Supongamos que podemos tener duplicados, pero no más de cien piezas. Si tenemos una ciudad de más de un millón, entonces un millón de personas no pueden vivir en una calle. Por lo tanto, si hacemos una selección a lo largo de la calle, entonces el número de direcciones debe ser de diez mil o mil, esto debe determinarse. Y si tenemos un millón, entonces algo está mal con los datos.
  • La capa del sistema es cuando todo el programa se prueba completamente. En el caso de los datos, esta capa significa que se está probando todo el sistema. Esto incluye estadísticas. Por ejemplo, decimos que no podemos tener más del 30% de los hombres nacidos después de 1985. O decimos que el 80% de los datos deben ser del mismo tipo.

En conclusión, diré que las pruebas de datos son un área que brinda muchas oportunidades para la creatividad y el desarrollo. Aquí no hay una bala de plata: se pueden usar diferentes enfoques para probar los datos. La verdad, como siempre, está en algún punto intermedio.

Source: https://habr.com/ru/post/es416183/


All Articles