Menu Oferta y calidad de los datos
En esta sección se brinda orientación sobre la gestión y conservación de los datos para garantizar que cumplan las mejores prácticas de manejo de Datos Abiertos y los estándares establecidos por las comunidades profesionales de tratamiento de datos. Los contenidos están dirigidos a personas y organizaciones que participan en la producción de datos, como los ministerios del Gobierno y los organismos de estadística, pero los consumidores que desean comprender cómo se producen los datos públicos también pueden encontrarlos útiles.
Normas generales de calidad
Si bien el concepto de “calidad” puede ser ambiguo, la calidad en el contexto de los datos ha sido definida ya hace un tiempo. La definición de calidad en estadística de EuroStat proporciona un conjunto de seis dimensiones de calidad que originalmente concebidos para datos estadísticos, pero que también pueden aplicarse a muchos otros tipos de datos:
Pertinencia | El grado en que las estadísticas satisfacen las necesidades de los usuarios actuales y potenciales. |
Precisión y confiabilidad | La medida en que los datos están libres de errores causados por diversos factores; en el contexto de las estadísticas, la precisión hace referencia a la proximidad del valor estimado al valor verdadero (desconocido) en la población. |
Oportunidad y puntualidad | La velocidad con que se publican los datos en relación con lo que miden y el grado de adhesión de las actualizaciones de datos al calendario de publicación previsto. |
Accesibilidad y claridad | La facilidad con la que los usuarios pueden acceder a los datos y la medida en que se explican a través de los metadatos. |
Comparabilidad | La medida en que los datos pueden compararse a lo largo del tiempo, entre regiones u otros dominios. |
Coherencia | El grado en que los datos se ajustan a las definiciones y metodologías reconocidas. |
Un conjunto de dimensiones similar, publicado en el documento de Datos Abiertos en los proyectos, puede usarse para entender la calidad, especialmente en el contexto de los Datos Abiertos:
Carácter público | El grado en que los datos gubernamentales se tratan, favoreciendo la apertura, en la medida permitida por la ley y con sujeción a restricciones de privacidad, confidencialidad, seguridad y otras. |
Accesibilidad | La medida en que los Datos Abiertos se ponen a disposición del público en formatos convenientes, modificables y abiertos, de manera que se puedan obtener, descargar, indexar y someter a búsquedas. |
Descripción | El grado de detalle de las descripciones de Datos Abiertos, de modo que los consumidores tengan suficiente información para entender sus puntos fuertes, sus puntos débiles, sus limitaciones analíticas y sus requisitos de seguridad, además de saber cómo procesarlos. |
Reutilización | Si los Datos Abiertos se ofrecen en virtud de una licencia abierta que no establece restricciones de uso. |
Exhaustividad | Si los Datos Abiertos se publican en formas primarias (es decir, como se recolectaron de la fuente), con el mayor nivel de granularidad posible que permitan las leyes y otros requisitos. |
Oportunidad | La velocidad con que los Datos Abiertos se ponen a disposición del público, de modo de preservar su valor. |
Gestión posterior a la publicación | Si se designa un punto de contacto para ayudar con el uso de los datos y responder a reclamaciones sobre cumplimiento de estos requisitos de Datos Abiertos |
Estándar de los Datos
Si bien los principios de calidad descritos previamente se aplican, por lo general, a todos los tipos de datos, las normas y detalles que determinan la producción y evaluación de datos varían de acuerdo con el tipo de dato. En las secciones siguientes se resumen las normas pertinentes para cada tipo de dato.
Estadística y cuentas nacionales
Las cuentas nacionales definen las categorías de ingreso, producto y gasto de una economía para distintas entidades, ya sean hogares, empresas o Gobiernos. Por lo general, la preparación o coordinación de estas estadísticas corresponde a las oficinas nacionales de estadística (ONE) de cada país, de conformidad con normas y metodologías detalladas.
Las estadísticas estás orientadas por múltiples normas que determinan cómo clasificar y organizar los datos y cómo evaluar la calidad. Estas suelen ser muy útiles para las ONE.
-
Lista de normas estadísticas de Naciones Unidas. Este es un catálogo de clasificaciones estadísticas, definiciones, conceptos, metodologías y procedimientos que ofrece orientación para el uso de los productos estadísticos.
-
Directrices para medir la calidad estadística en el Reino Unido. Estas directrices para medir la calidad estadística utilizan las mismas dimensiones generales que las orientaciones de EuroStat (mencionado más arriba en “Normas generales”).
-
Lista de comprobación de la calidad de los productos estadísticos. Este es un marco para evaluar la calidad estadística en relación con 19 características, con el objetivo de crear una lista de comprobación de la calidad estadística.
-
El Fondo Monetario Internacional (FMI) cuenta con dos marcos conexos que ofrecen orientación sobre estadísticas nacionales: El Sistema General de Divulgación de Datos (SGDD) y el Sistema Especial de Divulgación de Datos (SEDD). Tanto el SGDD como el SEDD están diseñados para mejorar la disponibilidad de estadísticas oportunas e integrales y, por lo tanto, contribuyen a la búsqueda de políticas macroeconómicas sólidas. El SEDD proporciona orientación dirigida a miembros que buscan acceder a los mercados internacionales de capital, y se espera que también contribuya a mejorar el funcionamiento de los mercados financieros.
-
Marco de Evaluación de la Calidad de los Datos (MECAD). El MECAD, otra herramienta del FMI, se usa para las evaluaciones integrales de la calidad de los datos de los países. Aborda los entornos institucionales, los procesos estadísticos y las características de los productos estadísticos. El MECAD consta de un marco genérico y módulos adicionales para estadísticas de cuentas nacionales, índices de precios para el consumidor y el productor, estadísticas de finanzas pública y deuda pública, estadísticas monetarias, de balanza de pagos y de deuda externa.
-
Indicador de la capacidad estadística del Banco Mundial. Esta herramienta ofrece un panorama general de la capacidad estadística de los países en desarrollo, basada en un marco de diagnóstico que evalúa la capacidad de los sistemas estadísticos. El sitio web del indicador de la capacidad estadística permite a los usuarios visualizar cambios en la capacidad estadística de un país a lo largo de un período.
-
Informes sobre la Observancia de los Códigos y Normas (ROSC). En esta colección de informes de países se determina la medida en que las naciones observan ciertos códigos y normas internacionalmente reconocidos. Los informes se organizan en 10 temas, uno de los cuales es la divulgación de datos.
Datos de contratos
“Contratación” hace referencia al proceso por el cual las instituciones públicas adquieren bienes y servicios. Los datos de contratación incluyen información sobre licitaciones emitidas o solicitudes de propuestas, contratos otorgados, evaluación del desempeño, terminación y otros temas.
Para alentar el uso de las mejores prácticas en el sector de contrataciones públicas, la Alianza para las Contrataciones Abiertas presentó un conjunto de principios que pueden adaptarse a sectores específicos y contextos locales. Estos principios están diseñados para lograr que las contrataciones sean más competitivas y justas, respalden la transparencia mundial y los movimientos de Gobierno abierto, y orienten a los Gobiernos y partes interesadas en lo que hace a la difusión de datos, de modo de permitir la comprensión, el seguimiento eficaz, el desempeño eficiente y la rendición de cuentas por los resultados.
La norma de datos de contratación abiertos (OCDS) se creó para permitir que los Gobiernos publiquen los detalles de todas las etapas del proceso de contratación, incluida la planificación, la licitación, la adjudicación, la contratación y la implementación. En la norma se ofrece un plan detallado para representar los datos de contratación en una variedad de formatos, así como orientación sobre las opciones de implementación. El servicio de ayuda de la OCDS está disponible para ofrecer asesoría sobre la implementación de la OCDS.
Datos de presupuesto
Los datos de presupuesto hacen referencia a los gastos del sector público, desglosados por nivel de Gobierno, categoría funcional o programática, ejercicio económico y fuente de financiamiento. BOOST y OpenSpending son dos iniciativas que ofrecen buenos ejemplos de cómo producir datos de presupuesto que estén en consonancia con las mejores prácticas de Datos Abiertos de gobierno:
-
BOOST. La iniciativa BOOST es un esfuerzo de colaboración de todo el Banco para facilitar el acceso a datos de presupuesto y mejorar los procesos de toma de decisiones y la transparencia. BOOST es una base de datos integral sobre el gasto público, establecida en 57 países, que utiliza los datos gubernamentales y una plantilla de 26 dígitos para lograr que los datos fiscales de alta granularidad sean entendibles y accesibles para los principales usuarios, como las legislaturas y la sociedad civil. Los datos de gastos se distribuyen siguiendo dimensiones fiscales básicas, como función, áreas económicas y fuentes de fondos, y pueden vincularse con otros datos para respaldar una mayor eficiencia y realizar análisis de equidad. BOOST también se utiliza para establecer presupuestos abiertos y mejorar la rendición de cuentas porque permite que los datos presupuestarios estén al alcance de los usuarios en un marco coherente y fácilmente comprensible.
-
OpenSpending. Esta es una base de datos abierta, central y de alta calidad, compuesta por información financiera pública, incluidos presupuestos, gastos y balances; una comunidad de usuarios y contribuyentes, y un conjunto de recursos abiertos que proporcionan la comprensión técnica, fiscal y política necesaria para trabajar con los datos financieros. OpenSpending hace seguimiento y analiza la información de las finanzas públicas de todo el mundo, y su base de datos es un recurso para que periodistas, estudiosos, jefes de campañas y otros puedan analizar e investigar este tipo de información.
Datos de transporte
Los datos de transporte proporcionan información de alto nivel sobre infraestructura, utilización y capacidad (por ejemplo, alcance de las carreteras, cantidad de vehículos de una población, consumo de combustible). Sin embargo, en este contexto, los datos de transporte se relacionan con el tránsito público o masivo, como la disponibilidad de trenes, autobuses, taxis, y con sus horarios.
Los productores de datos de transporte deben estar familiarizados con las especificaciones generales de tránsito (GTFS). GTFS es un estándar de datos leíble con máquinas que se utiliza para horarios y datos de transporte, e información geográfica conexa que promueve la re-utilización. TransitApp es un ejemplo de aplicación que aprovecha los datos en formato GTFS que publican varias ciudades.
Datos geoespaciales
Los datos geoespaciales identifican los aspectos geográficos de una extensa variedad de cosas, como la ubicación de edificios o centros de votación, los límites de vecindarios y ciudades, o la ubicación de concesiones forestales.
En las iniciativas de Datos Abiertos, los datos geoespaciales se suelen distribuir en al menos uno de los siguientes formatos:
- GeoJSON es una derivación de JSON, el popular formato de datos basado en Javascript, y esta característica hace que los datos de GeoJSON sean fáciles de integrar en aplicaciones web.
- TopoJSON es una extensión de GeoJSON, pero con un enfoque diferente para la descripción de las características geográficas. En consecuencia, los archivos TopoJSON suelen ser un 80 % más pequeños que sus equivalentes en GeoJSON.
- El lenguaje Keyhole Markup Language (KML) es un formato basado en XML que Google incorporó en Google Maps y Google Earth.
- Shapefile es el formato nativo del paquete de software ArcGIS de ESRI, pero es tan utilizado que la herramienta resulta compatible con la mayoría de los principales sistemas de información geográfica.
El Consorcio Geoespacial Abierto (OGC) es una organización internacional de voluntarios compuesta por casi 500 empresas, organismos de Gobiernos y universidades que trabajan en colaboración para formular estándares sobre datos geoespaciales. Hasta la fecha, el OGC ha formulado más de 30 estándares para una variedad de tipos de datos geoespaciales, incluido el formato KML que desarrolló Google y se presentó al Consorcio.
Microdatos
Los micro-datos, compuestos por respuestas a encuestas hechas a personas, hogares o empresas, tienen numerosas aplicaciones; una de ellas es producir estadísticas agregadas. Debido a que hay una expectativa implícita—y a menudo jurídica—de confidencialidad, los micro-datos están sujetos a normas especialmente exigentes en relación con su distribución, y casi siempre se someten a técnicas para hacer anónimos los datos.
Estas referencias ofrecen orientación a las organizaciones que administran microdatos:
-
Prácticas y herramientas relativas a microdatos del Banco Mundial. Este recurso documenta los principios y prácticas aplicados en el catálogo de microdatos del Banco Mundial, lo cual incluye la obtención, divulgación, creación de metadatos, catalogación y conservación.
-
Directrices internacionales para la red de encuestas a hogares (IHSN). Ofrecen amplia orientación sobre archivo y divulgación de datos, incluida la creación de metadatos y la catalogación. La orientación sobre microdatos del Banco Mundial se basa en gran medida en esta fuente. Sin embargo, se debe tener en cuenta que las directrices IHSN hacen hincapié en las mejores prácticas de divulgación de microdatos, pero no necesariamente los consideran como Datos Abiertos. Por ejemplo, en ellas se analiza una variedad de opciones para emitir licencias y dar acceso a los datos–—incluidas las opciones de registrar a los usuarios y cobrar tarifas–—que no condicen con las mejores prácticas de Datos Abiertos.
Datos de ayuda
Los datos de ayuda hacen referencia a los recursos y actividades mediante los cuales las instituciones financian el desarrollo internacional. La Iniciativa Internacional para la Transparencia de la Ayuda (IATI) es la principal de este campo. La norma IATI es una norma de publicación que permite la comparación de datos de ayuda de diferentes donantes en relación con varios receptores. Hasta la fecha, más de 280 organizaciones han publicado datos en el registro de la IATI.
Más orientación sobre calidad y técnicas
Las normas sobre gestión y anonimización de datos ayudan a aclarar los procesos de gestión y seguridad de datos, y los metadatos ofrecen detalles valiosos sobre la composición y las fuentes de datos.
Gestión de datos
La gestión de datos explica cómo se gestionan los Datos Abiertos durante su puesta en marcha y después, en forma constante. En las políticas de gestión se establecen las líneas de autoridad dentro del Gobierno y los ministerios para gestionar los datos, se describen el proceso y los requisitos para publicar o actualizar datos, y se ofrece un medio para que los usuarios se comuniquen con los proveedores en relación con problemas o pedidos que se produzcan.
La gestión de los datos se suele abordar en el contexto de las políticas de Datos Abiertos. Estos son otros recursos:
- Guías para la puesta en marcha rápida de un portal de datos, de data.gov.uk. Estos recursos proporcionan un panorama general de los mecanismos de gestión tanto a alto nivel (entre organismos) como a nivel local (es decir, un catálogo de datos únicos), y describen las diferentes funciones de la gestión de conjuntos de datos.
-
Guía sobre la implementación de datos en los proyectos. Este documento forma parte de los Datos Abiertos en los proyectos del Gobierno de los Estados Unidos y ofrece información a los organismos que implementan la orden ejecutiva sobre Datos Abiertos. Entre otros temas, ofrece orientación sobre lo siguiente:
- Creación y mantenimiento del inventario institucional de todos los conjuntos de datos que posee un organismo.
- Creación de un listado de datos públicos (un subconjunto del inventario).
- Participación de los usuarios para facilitar y priorizar la publicación de datos.
- Documentación de datos que no pueden publicarse.
Datos anónimos
Se trata del proceso de ocultar o eliminar información de un conjunto de datos que podrían utilizarse para identificar a personas, hogares o empresas, a modo de proteger y preservar su anonimato. El anonimato y la necesidad de proteger la confidencialidad son especialmente importantes para que los Gobiernos den a conocer datos públicos. También es necesario que las organizaciones expliquen claramente sus políticas de privacidad sobre gestión de datos, tanto a las personas que proporcionan datos como a las personas que los usan. No obstante, muchísimos tipos de datos gubernamentales no incluyen información confidencial y, por lo tanto, prácticamente no hay necesidad de aplicar técnicas de anonimato.
El proceso de anonimato depende específicamente del tipo de datos y el conjunto de datos en particular. A continuación se enumeran algunos recursos:
-
Manual sobre control de la divulgación estadística. Este recurso abarca cuestiones relacionadas con el anonimato, incluidas las cuestiones regulatorias, los microdatos, los datos tabulares, los cuadros de frecuencia y los problemas que plantea el acceso remoto.
-
Guía de anonimato de la Oficina del Comisionado de Información del Reino Unido. Este recurso ofrece orientación sobre técnicas de anonimato y protección de la privacidad para una variedad de tipos de datos dentro del contexto de la Ley de Protección de Datos del Reino Unido.
-
Una nueva concepción de los datos personales: Fortalecimiento de la confianza (Foro Económico Mundial). En este informe se fomenta el diálogo en torno a algunas de las principales preguntas que deben responderse para garantizar una creación de valor a largo plazo y sostenible. Varios informes complementarios se dieron a conocer en 2013 y 2014.
-
Guía Practica de Control de Diseminación de Microdatos Estadísticos. Esta guía ofrece pasos prácticos que puede tomar una agencia para diseminar datos en forma segura, sin restarles utilidad para los propósitos que necesitan los usuarios.
-
Anonimización de Microdatos. Esta herramienta presenta los principios fundamentales de anonimización de datos, técnicas para medir y reducir el riesgo y mejores prácticas aconsejadas por la Red Internacional de Encuestas de Hogares (IHSN).
-
Manejando la Confidencialidad Estadística y el Acceso a Microdatos. Este conjunto de principios y guías fue preparado y adoptado por la Conferencia Europea de Estadísticos. El anexo contiene 20 casos de usos de varios países.
Metadatos
A menudo, los metadatos se definen simplemente como “datos sobre datos”. Los metadatos ofrecen la información necesaria para usar una fuente específica de datos de forma eficaz, y pueden incluir información sobre su origen, su estructura, la metodología subyacente, la ubicación, la cobertura geográfica o temporal, la licencia, la última fecha de actualización y el modo en que se mantiene. Los tipos específicos de datos suelen incluir metadatos adicionales, según corresponda; por ejemplo, las fotografías digitales pueden incluir fecha y hora, información sobre el equipo utilizado, valor de apertura y, probablemente, la ubicación determinada por GPS.
La Iniciativa de Metadatos Dublin Core (DCMI) ofrece un marco y vocabulario básico de términos relacionados con los metadatos que pueden aplicarse a la mayoría de los recursos electrónicos. Dublin Core se utiliza ampliamente en DCAT, un estándar diseñado para facilitar la interoperabilidad entre catálogos de datos basados en la Web. Los Gobiernos pueden desarrollar sus propios modelos de metadatos (preferentemente basados en estándares establecidos, como el DCAT) para proporcionar mayor uniformidad a iniciativas de Datos Abiertos de todo el Gobierno. Un ejemplo es el plan de metadatos dado a conocer por data.gov.
Otros estándares de metadatos se utilizan para una amplia variedad de tipos de datos. En el caso de datos del Gobierno, algunos de los más pertinentes son los siguientes:
Estándar de metadatos | Aplicación |
---|---|
Iniciativa de documentación de datos (DDI) | Se utiliza ampliamente en los datos de ciencias sociales, pero se aplica también en ámbitos más amplios. |
ISO 19115-1:2014 | Datos geoespaciales. |
Iniciativa de codificación de textos | Textos en formato digital, principalmente de la esfera de las humanidades, las ciencias sociales y la lingüística. |
Formato de Intercambio de Directorios (DIF) | Conjuntos de datos científicos. |