Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de datos
¿Qué es el análisis de datos?
• El análisis de datos es el proceso de inspeccionar, limpiar y modelar datos
con el objetivo de descubrir información útil, llegar a conclusiones y
respaldar la toma de decisiones. Este proceso implica aplicar técnicas
estadísticas y matemáticas, así como el uso de herramientas y software
especializados, para explorar, entender y extraer patrones significativos de
los conjuntos de datos.
Objetivo
• Reducir y considerar los elementos más
significativos de un conjunto de
información muy utilizados en campos
como la ciencia de datos, la inteligencia
empresarial, la investigación científica y
muchas otras áreas donde se manejan
grandes cantidades de información.
Desafíos comunes
• "Algunos desafíos incluyen datos incompletos, interpretación
sesgada y la necesidad de mantenerse actualizado con las últimas
herramientas y técnicas."
Proceso de análisis de Datos
Excel
Análisis de Escenarios: Esta función Gráficos Dinámicos: Al igual que las tablas
permite explorar diferentes resultados en dinámicas, los gráficos dinámicos permiten
función de cambios en los datos de entrada. visualizar datos de manera interactiva,
Es útil para analizar cómo varían los facilitando la identificación de patrones y
resultados ante diferentes condiciones. tendencias.
Herramientas y tecnologías
Excel
(Recordar que si no ha instalado estos paquetes debe correr primero el comando: install.packages("nombre del paquete"))
<-. Inicialmente vamos a importar unos archivos .xlsx, por lo que usamos el paquete readxl, que ya instalamos.
Importar archivos
• Podemos importar los archivos de varias formas. Podemos
hacerlo desde el menú de arriba, usando: File -> Import
Dataset y seleccionando el tipo de archivo que queremos
importar.
• OBJETO IMPORTADO (<-). Inicialmente vamos a importar unos
archivos .xlsx, por lo que usamos el paquete readxl, que ya
instalamos.
El archivo contiene información sobre las personas que viven solas en Costa Rica. Los datos se extrajeron de la
Encuesta Nacional de Hogares del 2016 y contienen las siguientes variables:
Explorar los datos
Una vez que cargamos el archivo podemos comenzar a explorar los
datos. (Recordar comandos de Tutorial de limpieza con R.
Variables categóricas
• Para las variables categóricas Frecuencias simples
podemos calcular tablas de Entonces si quisieramos calcular la frecuencia
frecuencia, es decir, ver el de la variable ZONA el comando sería:
número de ocurrencias de
cada categoría de la variable.
Esto lo hacemos con el
comando table().
Podemos ver que 447 personas viven en Zona Rural y
1008 en Urbana.
Variables categóricas
• Tablas de contingencia
• Si queremos tabular dos
variables, simplemente
las separamos por coma.
• Por ejemplo la frecuencia
de Tipo de vivienda
según Zona:
Proporciones
• Los números absolutos a veces no son
útiles para entender los datos, por lo
que es mejor utilizar proporciones.
Para ello usamos el comando
prop.table()