El objetivo es desarrollar la importación, limpieza y asignación de metadatos desde "Datos abiertos" (DA) del Instituto Nacional de Estadística Geografía e Información (INEGI) a través del software R
para unir tres tablas por registros de personas de la Encuesta Nacional de Ocupación y Empleo (ENOE) del tercer trimestre (3t) 2017. El producto de este documento es una tabla que contiene la muestra de la población económicamente activa de quince años o más con base en INEGI (2010) para utilización correcta del factor de expansión. Se operacionalizan los DA para “(…) facilitar su acceso, uso, consulta, reutilización y redistribución para cualquier fin” (INEGI, 2014, p. 2), a través del “Data Catalog Vocabulary” (DCAT), de la “Dublin Core Metadata Initiative” (DCMI), para la presentación de los datos estructurados que describen esta base de datos. Además, se presentan "Consideraciones" registradas tras haber aplicado estas pautas a los conjuntos de datos 3t desde 2018 hasta 2022.
El software libreR
ofrece un entorno para realizar cómputo estadístico y elaborar gráficos. Además, sus librerías (paquetes) permiten efectuar el objetivo para generar etiquetas de variable y de valor. El estándar DA incluye archivos completos de cada categoría y claves para cada variable para ciento cuarenta y seis programas. Y aunque, es posible descargar algunos de estos conjuntos de datos del sitio del INEGI con el paquete importinegi
[@renteriaImportinegiPaquetePara2020.] o descargar directamente en formato "*.RData" en otros, ninguna de estas opciones proporciona metadatos. Una forma de obtenerlos es importar archivos SPSS ("*.sav") o STATA ("*.dta"), pero estos no son formatos nativos de R
, lo que puede resultar en pérdida de datos etiquetados o que se dupliquen etiquetas cuando las cadenas de caracteres no están limpias y/o actualizadas.