Está en la página 1de 64

Especialización enAnalytics con

Python

SESIÓN VII

Docente: Arnaldo Eduardo Alvarado Vallejos


Reglas de Juego
Se requiere puntualidad para un mejor desarrollo del curso.

Para una mayor concentración mantener silenciado el micrófono durante la


sesión.

Las preguntas se realizarán a través del chat y en caso de que lo requieran


podrán activar el micrófono.

Realizar las actividades y/o tareas encomendadas en los plazos determinados.

Identificarse en la sala Zoom con el primer nombre y primer apellido.


Contenido – Módulo 7

• Tipos de datos. Variables categóricas, discretas y continuas


• Medidas de tendencia central y de posición
• Desviación estándar y coeficiente de variación
• Cálculo y comprensión del coeficiente de correlación
• Preparando datos ordenados con Pandas
• Manejo de valores perdidos
• Análisis gráfico con las librerías Pandas, Matplotlib y Seaborn
• Análisis de valores atípicos.
Etapas de un análisis Predictivo (CRISP-DM)
Población y muestra
Razones para muestrear
Cuando se estudian las características de una población, existen diversas razones prácticas para
preferir algunas partes o muestras de ella para observar y medir. He aquí algunas razones:

1. Establecer contacto con toda la población requeriría mucho


tiempo.
2. El costo de estudiar todos los elementos de una población
resultaría prohibitivo.
3. Es imposible verificar de manera física todos los elementos
de la población, como en poblaciones literalmente infinitas.
4. Algunas pruebas son de naturaleza destructiva, como
cuando tenemos degustar alimentos o catar vinos.
5. Los resultados de la muestra son adecuados. Aunque se
contara con recursos suficientes, es difícil que la precisión
de una muestra de 100%´resulte esencial en la mayoría de
los casos.
Tipos de muestreo
Muestreo probabilístico
Muestreo probabilístico
Muestreo probabilístico
Muestreo no probabilístico
En este tipo de muestreo no se sabe la probabilidad de un elemento de la muestra de ser
seleccionado. Generalmente esto es causado por temas de costos o la falta de suficientes
recursos humanos. Los resultados obtenidos usando este tipo de muestreo son difícilmente
generalizables. Entre sus principales tipos tenemos:

➢ Muestreo por cuotas: En este tipo de muestreo se le asigna a cada encuestador o investigador
cuantos individuos o cuotas deben analizar en un periodo.
➢ Muestro por conveniencia o intencional: La selección de los elementos de la muestra es de
acuerdo a la conveniencia.
➢ Muestreo por bola de nieve: Se llama así porque primero se localizan a algunos individuos, los
cuales conducen a otros, y éstos a otros, y así hasta conseguir una muestra suficiente.
➢ Muestreo subjetivo o discrecional: En este caso la selección de la muestra es de acuerdo a la
opinión de la persona que hace el estudio
Muestreo no probabilístico
Tipos de datos y escala de medida
Variables:

• Son las características o lo que se estudia de cada individuo de la


muestra.

Ejemplo: sexo, edad, peso, estatura, color de ojos, estado civil,


temperatura, cantidad de nacimientos, presión, grosor, diámetro, ...

Datos:

• Son los valores que toma la variable en cada caso.


Variables e individuos
Análisis exploratorio de datos
❑ La finalidad del Análisis de Datos es examinar a detalle y en todo nivel
los datos antes , durante y después incluso de la aplicación de
cualquier técnica o algoritmo.
❑ De esta forma el analista consigue un entendimiento completo de sus
datos y de las relaciones existentes entre las variables analizadas.
❑ Elexamen holístico de los datos lleva tiempo y que habitualmente se
descuidan detalles por parte de los analistas de datos.
ETAPA 1: Entendimiento contextual del proyecto a
desarrollar
LO PRINCIPAL ES EL ENTENDIMIENTO DEL PROBLEMA DE LA
NATURALEZA O NEGOCIO Y SU POSIBLE SOLUCIÓN…
ETAPA 2: Preparación y valor agregado de los datos
❑ Combinar conjuntos de datos de dos archivos distintos
❑ Seleccionar subconjuntos de los datos
❑ Dividir el archivo de los datos en varias partes
❑ Transformar variables
❑ Ordenar casos
❑ Agregar nuevos datos y/ o variables
❑ Eliminar datos y/o variables
❑ Guardar datos y/o resultados
Datos Ordenados
Datos Ordenados
Datos Ordenados
Valores como cabeceras de las columnas
en lugar de nombres de variables

Varias variables se almacenan en un sola


columna
Datos Ordenados
Variables tanto en filas como en columnas

Resultados de varios tipos de experimentos en una misma tabla


ETAPA 3: Examen gráfico y descriptivo numérico
Tipo de variables

Cualitativa Cuantitativa
Es la característica cuyos valores Es la característica cuyos valores
se expresan en escala nominal u se expresan en escala de
ordinal. intervalos o de razón.

Se dividen en: Se dividen en:


– Nominales. –Discretas.
– Ordinales. –Continua.
Tipos de variables y escala de medición
Establecen la distinción de los elementos en la categorías sin implicar
Nominal orden entre ellas.
Ejemplo: estado civil (categorías: soltero, casado, divorciado, viudo, etc.),
Sexo (Masculino, Femenino).
Cualitativa
Agrupan a los objetos, individuos, en categorías ordenadas para establecer
Ordinal relaciones comparativas.
Ejemplo: Nivel de hábito de fumar (No fumadores, leves, moderados,
severos). Calidad (alta, baja). Scores (A, B, C)

Obtenidas por procedimientos de conteo. Representado por los números


Discreta naturales.
Ejemplo: Número de tarjetas de crédito por persona, Número de hijos,
Cantidad de vehículos.
Cuantitativa
Cuyos valores están representados por el conjunto de números reales. Se
Continua obtienen por medición.
Ejemplo: variables de medida: peso de una persona (Kg), longitud (m),
temperatura (T). Variables de tiempo. Variables económicas.
Análisis descriptivo de variables
Análisis descriptivo de variables
Medidas de tendencia central
Medidas de tendencia central
Medidas de dispersión
Medidas de dispersión
Medidas de dispersión: cuantiles
Medidas de dispersión
Medidas de dispersión
Medidas de dispersión: Coeficiente de variación
Medidas de distribución
Medidas de distribución: Asimetría
Boxplot (Diagrama de Caja)
Boxplot (Diagrama de Caja)
Estadísticas descriptivas con Dataframes
ETAPA 4: Asociaciones Cualitativas y Cuantitativas
Relación entre variables
Relación entre variables: Categórica vs Categórica
Relación entre variables: Numérica vs Numérica
Coeficiente de correlación
Coeficiente de correlación
Análisis multivariado
Análisis multivariado
ETAPA 5: Casos Atípicos Univariados y Multivariados
Discrepancias en los datos
Causas más comunes de valores atípicos
Detección de valores atípicos mediante la
distribución normal
Detección de valores atípicos mediante el método
de Tukey
Detección de valores atípicos mediante el método
gráfico
ETAPA 6: Missing y representatividad de variables
Imputación de datos

Variables Cuantitativas
* Media o mediana.

Variables Cualitativas
* Moda
Pandas: valores perdidos
Pandas: imputar valores perdidos
ETAPA 7: Transformación de variables
❑ Arnaldo Eduardo Alvarado Vallejos
aealvaradov@uni.pe
951611996
https://www.linkedin.com/in/arnaldoalvaradovallejos/

También podría gustarte