La última vez [
Descargando datos del sitio de datos abiertos data.gov.ru ] logré aprender cómo descargar datos del portal de datos abiertos de Rusia con algunos problemas. El portal de datos abiertos debe proporcionar la información más relevante sobre los datos abiertos de las autoridades federales, autoridades regionales y otras organizaciones (cita de data.gov.ru). Veamos qué datos en el portal, cuán relevantes son y en qué forma se colocan.
El siguiente gráfico circular muestra la distribución de los conjuntos de datos por categoría.

Más de la mitad de los conjuntos de datos (59,65%) pertenecen a la categoría "Estado". Alrededor del diez por ciento (9.56%) pertenecen a la categoría "Economía". Cerca del diez por ciento (7.61%) es el número de conjuntos de datos en la categoría Educación. El resto es menos del cinco por ciento. La distribución es bastante natural.
Ampliaremos nuestro conocimiento de los datos publicados en el portal. Veamos las estadísticas de ubicación en el portal de datos en la fecha de la primera publicación del conjunto de datos.

2017 acaba de comenzar, y es natural que aumente la cantidad de datos publicados en 2017. Sí, mientras escribo el texto, se cargan nuevos conjuntos de datos en el portal.
Aparentemente, alguien logró retroceder en el pasado, habiendo logrado colocar datos en la lejana década de 1970.
En general, la imagen es clara: primero, crecimiento brusco, luego estabilidad. Aunque probablemente sea demasiado pronto para hablar de estabilidad.
Se puede ver una imagen interesante si consideramos la distribución de los conjuntos de datos por fecha de relevancia (la fecha después de la cual se debe actualizar la versión actual del conjunto de datos).

Inmediatamente se apresura 1 año. Por lo tanto, designé conjuntos de datos que no tienen una fecha actualizada. Con base en la determinación de la fecha de relevancia, podemos concluir que estos son conjuntos de datos que no necesitan actualizarse en absoluto. Naturalmente, tales conjuntos de datos tienen derecho a existir. Siempre hay datos de archivo (históricos) que es poco probable que cambien (bueno, si no hay errores), y hay datos actuales - actuales que cambian constantemente. Ambos y otros pueden ser de interés. Después de todo, sucede que debes averiguar: ¿cómo estuvo allí en el pasado (bajo el zar o bajo el régimen soviético)? Pero, por supuesto, los datos reales (en vivo) que se actualizan constantemente son más interesantes.
Incluso si no considera el gráfico con mucho cuidado, está claro que algunos datos deberían actualizarse en un futuro bastante lejano. Podemos decir que quienes los publicaron tienen una tremenda confianza en el futuro. Los próximos cinco, diez, veinte (?) Años no cambiarán nada. ¿O tal vez es solo un error? Y es posible.
Pero en general, la imagen es bastante feliz: casi la mitad de los planes de datos se actualizarán este año.
Y ahora confirmaremos esta imagen alegre. Considere la distribución de conjuntos de datos por la fecha del último cambio.

Si De nuevo 1 año. Estos conjuntos de datos no se han modificado. Solo quiero atrapar a alguien. Como, prometieron actualizar, pero no hicieron cambios. O no prometieron actualizar y actualizar. Pero la próxima vez buscaremos patrones (o falta de ellos).
Combina información sobre la primera publicación y la última actualización. Es decir, si hubo una actualización, tome la fecha de actualización, si no hubo actualización, tome la fecha de la primera publicación. El resultado es la fecha del último cambio de datos.

Belleza La tendencia es claramente visible: más de la mitad de los datos cambiaron por última vez o se crearon en 2016-2017. Quizás puedas considerarlos relevantes.
Es necesario tener en cuenta una advertencia. Algunos conjuntos de datos se repiten: el mismo nombre y propietario del conjunto de datos se encuentran varias veces en el registro.

En lugar de actualizar, el conjunto de datos se presentó nuevamente. A veces los conjuntos se presentan en una categoría diferente. Pero si observa los conjuntos de datos con el mismo nombre, propietario y categoría, la imagen será la siguiente.

Al menos muy similar. Pero apenas crítico. Algunos propietarios de datos, aparentemente, necesitan difundir cuidadosamente los datos.
Una pequeña comprobación sobre cómo completar los campos de texto en los conjuntos de datos de pasaportes.
El campo | Establecido por | No establecido |
---|
Titulo | 100% | 0% |
Descripción | 80,84% | 19,16% |
Categorias | 100% | 0% |
El dueño | 99,7% | 0,03% |
Palabras clave | 99,48% | 0,52% |
Persona responsable | 96,43% | 3,57% |
Número de teléfono de la persona responsable | 96% | 4% |
Correo electrónico de la persona responsable | 92,68% | 7,32% |
Formato de datos | 97,79% | 2,21% |
Enlace de marcado | 96,86% | 3.14% |
El nombre y la categoría se definen en todas partes. Casi una quinta parte de los conjuntos de datos no contienen una descripción. Casi en todas partes se conoce al propietario y se establecen algunas palabras clave. La persona responsable también está presente en casi todas partes. No está claro por qué necesitamos conjuntos de datos que no se pueden descargar (alrededor del 3%).
Como resultado, dividimos todos los conjuntos de datos en dos categorías: se especifican todos los campos, no se especifica al menos un campo.

El treinta por ciento (30.3%) tiene al menos un campo indefinido. ¿En qué formato se cargan los datos?

Principalmente en formato de texto delimitado sin formato (csv). En segundo lugar está xml. En el tercer json. El líder claro es el formato csv: puede abrirlo en cualquier editor de texto, importarlo en casi cualquier lugar para su procesamiento y, con un poco de esfuerzo, insertarlo como tabla en un editor de texto. El formato xml también es bastante fácil de ver. Pero con el formato json puede haber problemas. Si te enfocas en Excel, como el editor de hojas de cálculo más utilizado, entonces json ya es un problema. Puede buscar en Google sobre este tema y encontrar una manera de descargar, pero no directamente. Excel no tiene herramientas integradas para cargar json.
Por supuesto, el problema es intrépido, no fatal, pero desagradable. Seguramente, este formato detendrá o dejará perplejo a alguien.

La distribución por años muestra que, con el tiempo, persiste el dominio del formato csv.

El uso del formato json aumentará dramáticamente. Esto reduce el uso del formato xml.
Y esto se puede explicar. El formato csv es el más simple, por lo que a menudo se usa. Al mismo tiempo, los servicios web ahora utilizan cada vez más el formato json y cada vez menos xml.
Conclusiones
Más de la mitad de los datos publicados en el portal de datos abiertos de Rusia pertenece a la categoría "Estado".
Más de la mitad de los datos se modificaron o crearon por última vez en 2016-2017.
El treinta por ciento de los pasaportes de conjuntos de datos tienen al menos un campo sin asignar.
Los formatos más comunes para almacenar datos abiertos: csv, xml, json. Al mismo tiempo, hay un aumento en el número de conjuntos de datos en formato json y una disminución en el número de conjuntos de datos en formato xml.
Que sigue
Después de analizar los conjuntos de datos, veamos con qué frecuencia se usan, se ven, se descargan. ¿Qué calificaciones establecen los usuarios para los conjuntos de datos? ¿Qué conjuntos de datos son de interés? ¿Con qué frecuencia se actualizan los conjuntos de datos? ¿Qué tamaño de datasets? ¿Y hay alguna relación entre todo esto?