Análisis de información pública con herramienta estadística R
Pablo Alejandro Echeverria Barrios
Estudiante de Ingeniería en Ciencias y Sistemas - USAC
Palabras Clave:
Análisis, datos, estadística, validación, integridad, veracidad.
El método elegido para validar que la información es real será si los datos se ajustan a un modelo predicho y si cumplen con la ley de Benford.
Las herramientas a utilizar son de acceso gratuito y tienen el soporte de Microsoft: SQL Server Data Tools, SQL Server 2014 Express, R.
El siguiente ejemplo corresponde a la base de datos del Banco de Guatemala, quien ha publicado datos sobre las exportaciones de las zonas francas en la siguiente dirección:
Los datos que se extraen corresponden a las exportaciones por país, producto y partida.
El siguiente paso es cargar esta información a una base de datos que facilite la consulta, pero antes hay que darle formato a las columnas, ya que hay celdas que se encuentran unidas o no todas las celdas tienen valores, como se puede apreciar en las siguientes imágenes.
Al borrar filas, separar columnas y ajustar los datos con el uso de fórmulas de Excel, se genera un archivo que será fácil de cargar en la base de datos, como se puede apreciar en la siguiente imagen.
La carga de los datos se hace con la herramienta SQLServer Integration Services, creando los objetos de accesoal archivo de Excel (fuente) y a la base de datos (destino), y creandoel flujodetrabajoquenos permitacargar estainformación:
Una vez cargados los datos, se realiza una consulta que refleje los datos agrupados por mes, en lugar del detalle por partida, para ello se crea la consulta utilizando la herramienta SQL Server Management Studio:
SELECT [Pais Comprador], [Producto], '01Enero' [Mes], SUM([Valor Enero]) [Valor], SUM([Volumen Enero]) [Volumen] FROM [Exportaciones]..[Exportaciones] GROUP BY [Pais Comprador], [Producto]
UNION ALL
…
UNION ALL
SELECT [Pais Comprador], [Producto], '11Noviembre' [Mes], SUM([Valor Noviembre]) [Valor], SUM([Volumen Noviembre]) [Volumen] FROM [Exportaciones]..[Exportaciones]
GROUP BY [Pais Comprador], [Producto]
ORDER BY 1, 2, 3
Se carga la información en la herramienta R para su análisis, considerando que se debió descargar el paquete RODBC que permite la conexión a la base de datos.
> install.packages("RODBC");
> library(“RODBC”);
> sqlcnn <- odbcDriverConnect(“Driver={SQL Server Native Client 11.0}; Server=localhost; Trusted_Connection=yes;”);
> data <- sqlQuery(sqlcnn, “SELECT [Pais Comprador], [Producto], '01Enero' [Mes], SUM([Valor Enero]) [Valor], SUM([Volumen Enero]) [Volumen] FROM [Exportaciones]..[Exportaciones] GROUP BY [Pais Comprador], [Producto]
UNION ALL
…
UNION ALL
SELECT [Pais Comprador], [Producto], '11Noviembre' [Mes], SUM([Valor Noviembre]) [Valor], SUM([Volumen Noviembre]) [Volumen] FROM [Exportaciones]..[Exportaciones] GROUP BY [Pais Comprador], [Producto]
ORDER BY 1, 2, 3”);
> close(sqlcnn);
Ahora con los datos cargados, la hipótesis a validar es que el valor depende del volumen de una forma lineal; es decir, si se encuentran datos que estén fuera del rango predicho, significaría que los datos no son reales.
> model <- lm(Valor ~ Volumen, data);
> plot(data[,5:4]);
> abline(model, col=”blue”);
Como se observa, son muy pocos los datos que están fuera del rango, ya que para un volumen muy bajo, el valor a veces es un poco más alto, lo cual es perfectamente posible. Esto también podría depender del país hacia el cual se está exportando, que en algunos de ellos el precio sea más alto.
Pero al tener visualmente la información tanto de los datos como del modelo que se espera que estos cumplan, no hay razones para sospechar que la información haya sido cambiada.
Además se puede ver que la mayoría de los datos, tanto de volumen como de valor, empiezan con los dígitos 0 y 1; a medida que el primer dígito va cambiando, la cantidad de datos también va disminuyendo rápidamente, por lo que se cumple la ley de Benford.
Conclusiones
- Utilizando la herramienta estadística R se demuestra que la información proveída es real y no ficticia.
- No hay razón para pensar que las exportaciones de zonas francas haya sido creada o manipulada, ya que los datos cumplen tanto con un modelo esperado como con la ley de Benford.
- Las técnicas de carga y análisis de la información se pueden emplear en cualquier base de datos de acceso público de las instituciones nacionales.
Referencias
[1] Ricardo Jauregui; Ferran Silva, «Universitat Politècnica de Catalunya», Numerical validation methods, 18 febrero 2018. [En línea]. Disponible en: https://bit.ly/3qFxl56. [Último acceso: 14 febrero 2018].
[2] «Data Integrity», Connecting to an XLSX using SSIS, 18 febrero 2018. [En línea]. Disponible en: https://bit.ly/3y6SgAA. [Último acceso: 14 febrero 2018].
[3] «CRAN», Package ‘RODBC’, 18 febrero 2018. [En línea]. Disponible en: https://bit.ly/3qEcHCr. [Último acceso: 14 febrero 2018].
[4] David Lillis, «The Analysis Factor», Linear Models in R: Plotting Regression Lines, 21 abril 2015. [En línea]. Disponible en: https://bit.ly/2R6brdQ. [Último acceso: 14 febrero 2018].