Está en la página 1de 27

Análisis

de datos
¿Qué es el análisis de datos?
• El análisis de datos es el proceso de inspeccionar, limpiar y modelar datos
con el objetivo de descubrir información útil, llegar a conclusiones y
respaldar la toma de decisiones. Este proceso implica aplicar técnicas
estadísticas y matemáticas, así como el uso de herramientas y software
especializados, para explorar, entender y extraer patrones significativos de
los conjuntos de datos.
Objetivo
• Reducir y considerar los elementos más
significativos de un conjunto de
información muy utilizados en campos
como la ciencia de datos, la inteligencia
empresarial, la investigación científica y
muchas otras áreas donde se manejan
grandes cantidades de información.
Desafíos comunes
• "Algunos desafíos incluyen datos incompletos, interpretación
sesgada y la necesidad de mantenerse actualizado con las últimas
herramientas y técnicas."
Proceso de análisis de Datos

Recopilación Limpieza de Exploración Análisis Modelado de Toma de


de Datos Datos de Datos Estadístico Datos Decisiones
Obtención de Eliminación de Uso de técnicas Aplicación de Creación de Utilización de
datos relevantes errores y valores estadísticas y métodos modelos información
para el análisis atípicos visuales para estadísticos para matemáticos para derivada del
comprender la descubrir patrones predecir análisis para
estructura de los comportamientos. decisiones
datos fundamentadas
Herramientas y tecnologías
En el análisis de datos, se utilizan diversas herramientas, como:
• Python
• R
• Excel
• Power BI
• Tableau
Herramientas y tecnologías
En Microsoft Excel es una herramienta muy utilizada para el análisis de datos debido a su versatilidad y amplia gama de
funciones. A continuación, se presentarán algunas herramientas y funciones de Excel que son especialmente útiles para el
análisis de datos:
Funciones Estadísticas: Excel incluye una
Tablas Dinámicas: Las tablas dinámicas son variedad de funciones estadísticas que son
una de las herramientas más poderosas de fundamentales para el análisis de datos.
Excel para resumir, analizar y presentar datos Algunas de las más utilizadas son PROMEDIO,
de manera interactiva. Permiten agrupar, MEDIANA, MÍNIMO, MÁXIMO, CONTAR,
sumarizar y filtrar datos de manera dinámica. SUMAR, entre otras.

Excel

Análisis de Escenarios: Esta función Gráficos Dinámicos: Al igual que las tablas
permite explorar diferentes resultados en dinámicas, los gráficos dinámicos permiten
función de cambios en los datos de entrada. visualizar datos de manera interactiva,
Es útil para analizar cómo varían los facilitando la identificación de patrones y
resultados ante diferentes condiciones. tendencias.
Herramientas y tecnologías

Filtros y Segmentación de Datos: Excel Funciones de Búsqueda y Referencia:


ofrece varias herramientas para filtrar y Funciones como BUSCARV, BUSCARH, e
segmentar datos, como Autofiltro y ÍNDICE y COINCIDIR son útiles para
Segmentación de Datos. Esto facilita la buscar y extraer datos específicos de grandes
exploración de conjuntos de datos grandes. conjuntos de datos.

Excel

Análisis de Regresión: Excel incluye Histogramas y Análisis de Datos


funciones para realizar análisis de regresión, Descriptivos: Excel ofrece herramientas
como COEF.DE.LINEAL y para crear histogramas y resúmenes
PRED.MOV.LINEAL, que son útiles para estadísticos descriptivos, como la
modelar relaciones entre variables. Herramienta de Análisis de Datos.
ANALISIS DE DATOS EN:
• Encontrar patrones • Información sobre las personas que viven solas en
Costa Rica. Los datos se extrajeron de la Encuesta
• Identificar errores Nacional de Hogares del 2016 y contienen las
• Plantear nuevas hipótesis o siguientes variables:
preguntas
• Identificar relaciones entre
variables
• Empezar a encontrar respuestas
a nuestras preguntas de
investigación
Cargar paquetes
• Lo primero que
tenemos que hacer es
cargar los paquetes que
vamos a utilizar para el
análisis. En este caso
vamos a usar:

(Recordar que si no ha instalado estos paquetes debe correr primero el comando: install.packages("nombre del paquete"))
<-. Inicialmente vamos a importar unos archivos .xlsx, por lo que usamos el paquete readxl, que ya instalamos.

Importar archivos
• Podemos importar los archivos de varias formas. Podemos
hacerlo desde el menú de arriba, usando: File -> Import
Dataset y seleccionando el tipo de archivo que queremos
importar.
• OBJETO IMPORTADO (<-). Inicialmente vamos a importar unos
archivos .xlsx, por lo que usamos el paquete readxl, que ya
instalamos.

El archivo contiene información sobre las personas que viven solas en Costa Rica. Los datos se extrajeron de la
Encuesta Nacional de Hogares del 2016 y contienen las siguientes variables:
Explorar los datos
Una vez que cargamos el archivo podemos comenzar a explorar los
datos. (Recordar comandos de Tutorial de limpieza con R.
Variables categóricas
• Para las variables categóricas Frecuencias simples
podemos calcular tablas de Entonces si quisieramos calcular la frecuencia
frecuencia, es decir, ver el de la variable ZONA el comando sería:
número de ocurrencias de
cada categoría de la variable.
Esto lo hacemos con el
comando table().
Podemos ver que 447 personas viven en Zona Rural y
1008 en Urbana.
Variables categóricas
• Tablas de contingencia
• Si queremos tabular dos
variables, simplemente
las separamos por coma.
• Por ejemplo la frecuencia
de Tipo de vivienda
según Zona:
Proporciones
• Los números absolutos a veces no son
útiles para entender los datos, por lo
que es mejor utilizar proporciones.
Para ello usamos el comando
prop.table()

• Por ejemplo si quisieramos mostrar la


tabla anterior como proporciones, lo
que hacemos es ingresar ese comando
dentro del comando de prop.table()
CrossTable()
• Un comando muy útil para
simplificar los pasos es el
comando CrossTable() del
paquete gmodels(). El comando
nos permite presentar en una
misma tabla los porcentajes por
fila o columna y el total de la
tabla.
Datos numéricos
• Para calcular los estadísticos de las variables
numéricas tenemos varias opciones.
• Podemos usar el comando summary(). Este
comando nos da los principales estadísticos
descriptivos (mínimo, máximo, cuartiles,
promedio). Este comando podemos aplicarlo a
todo el dataframe (nos da los estadísticos de
todas las variables a la vez) o solo a una variable.
En este caso, vamos a usarlo para toda la base.
Para calcular los estadísticos para una sola variable ponemos el nombre de la
base de datos seguido del signo de $. Por ejemplo:
summary(encuesta$ingreso)

Además podemos hacer uso de funciones para calcular individualmente los


estadísticos descriptivos: mean(), median(), min(), max(), IQR() (rango
intercuartílico), sd() (desviación estándar).
Histograma
• Una forma útil de explorar las
variables numéricas es con
histogramas. Estos podemos
hacerlos con el comando hist(),
donde ponemos como argumento
el nombre del dataframe seguido
de $ y el nombre de la variable
que queremos graficar.
Dplyr 2.0: Group_by y summarise
• Group_by
• Group by es uno de los comandos
más útiles que tiene el paquete
dplyr. Como su nombre lo dice nos
permite agrupar variables y hacer
cálculos entre los grupos, por
ejemplo calcular nuevas variables o
estadísticos para los grupos.
Summarise()
• Finalmente otro de los comandos más comunes de dplyr es
summarise(). Este como su nombre lo indica nos ayuda a
resumir valores. Este comando funciona muy bien combinado
con group_by(). Por ejemplo si queremos calcular el ingreso
y la edad promedio por region.

Algunas funciones comunes que podemos calcular con


summarise:
• mean(): promedio
• n(): esta función no requiere ningún argumento y calcula la
cantidad de observaciones.
• sum(): suma del valor de la variable.
• min() y max(): valor mínimo y máximo.
Correlaciones
• ¿Qué es? Una correlación mide la
relación lineal entre dos variables. Por
ejemplo la relación entre el la
experiencia laboral y el salario.

• Esta se mide con un coeficiente que va


de -1 a 1.
• r = 1, la relación es positiva perfecta

• 0 < r < 1 la relación es positiva

• r = 0 no hay relación lineal

• -1 < r < 0 la relación es negativa

• r = -1 la relación es negativa perfecta


Correlaciones
• Ahora vamos a importar la base
de datos llamada
correlaciones.xlxs
• La base de datos contiene
variables sobre porcentajes de
porcentajeprn: porcentaje de votos obtenido por el PRN
votación en la primera ronda porcentajepac: porcentaje de votos obtenido por el PAC
rezago: Porcentaje de la población por cantón que contiene algún tipo
electoral de 2018 y otros de rezago escolar.
indicadores cantonales. Estas nini: Porcentaje de jóvenes por cantón que no estudian ni trabajan.
educ_superior: Porcentaje de la población con educación superior
son las variables: ips: Índice de progreso social
Calcular el coeficiente
de correlación
Esto nos muestra que el coeficiente de
correlación es igual a 0.8. Sin embargo,
debemos saber si esta relación es
estadísticamente significativa, para lo
• ¿Cómo calcular una correlación entre que requerimos el p-value. Este lo
dos variables? Podemos hacerlo con obtenemos con el comando cor.test().
el comando cor(), donde tenemos que
enlistar, separadas por coma, las
variables que queremos correlacionar.

• Por ejemplo si queremos correlacionar


el porcentaje de votos del pac con los
índice de progreso social escribimos:
Matriz de correlación
• También podemos calcular
de una sola vez la
correlación entre varias
variables, con una matriz de
correlación. Para ello
usamos el mismo comando
cor(), pero ponemos como Podemos interpretar que por ejemplo, la correlación entre el
porcentaje de votos que obtuvo el prn y el indicador de rezago
argumento de la función la
escolar es de 0,68. Es decir, es una relación positiva que indica
base de datos: que a mayor porcentaje de votación del PRN mayor es el
indicador de rezago escolar por cantón.
Calcular la matriz,
con el p-value
• Una vez que calculamos el coeficiente
de correlación, es necesario identificar
si es estadísticamente significativo, por
lo que calculamos el p-value.

• Si el p-value es menor al nivel de


significancia que nosotros escogemos,
por ejemplo 5%, entonces el
coeficiente es estadísticamente
significativo. Este comando nos da la misma matriz de correlación que obtuvimos arriba, y abajo nos da el p-
value. En todos el casos el p-value es muy bajo (=0), lo cual quiere decir que sí es
estadísticamente significativo.
Ver la matriz de
forma gráfica
• Podemos graficar con el comando
corrplot. Lo primero es calcular la
matriz de correlación y guardarla en
un objeto y luego graficarlo. En este
caso vamos a graficar los coeficientes.

También podemos hacer gráficos de dispersión, calcular


los coeficientes de una sola vez y ver si son
estadísticamente significativos, con un solo comando:
Conclusión
• En resumen, el análisis de datos es una
herramienta poderosa para obtener
perspectivas valiosas y tomar decisiones
informadas en un mundo impulsado por datos,
permite al investigador tomar decisiones claras
sobre los datos obtenidos.

También podría gustarte