Está en la página 1de 40

MÁSTER UNIVERSITARIO EN

BIG DATA ANALYTICS

15 Febrero 2020
Rafael Castillo
▪ Físico de formación, Científico de Datos con más de 10 años de experiencia
trabajando con grandes volúmenes de datos

▪ Especializado en la puesta en producción y monetización de casos de uso

▪ Amplia experiencia en sector energético, consultoría, banca y


telecomunicaciones
Rafael Castillo
▪ Como formador, llevo años trabajando para Udacity, Springboard y trabajo en
distintos masters de Big Data y analítica:
Temario de Hoy
Tests Estadísticos y Numpy
▪ El método científico
• Hipótesis
• Distribución Normal
• p-valor
• Significancia Estadística
• Tests Estadísticos
• Ejemplos

▪ Básico de Numpy
• Introducción
• arrays, dimensiones y slicing
• Workbook de Numpy
Método Científico
enlace a noticia
El método científico es una metodología para obtener nuevos conocimientos, que ha
caracterizado históricamente a la ciencia, y que consiste en la observación sistemática, medición,
experimentación, y la formulación, análisis y modificación de hipótesis.1​

El método científico abarca las prácticas aceptadas por la comunidad científica como válidas a la
hora de exponer y confirmar sus teorías. Las reglas y principios del método científico buscan
minimizar la influencia de la subjetividad del científico en su trabajo, reforzando así la validez de
los resultados, y por ende, del conocimiento obtenido.
Método Científico y
Estadística • Plantear hipótesis sobre una
población
• Los fumadores tienen
“más inasistencias ”
laborales que los no
fumadores
• ¿En qué sentido? ¿Mayor
número? ¿Tiempo
medio?
Se siguen un conjunto de pasos bien definidos
PLANTEAR
para asegurar que el proceso produce HIPÓTESIS
resultados adecuados al problema tratado
Pasos
OBTENER
CONCLUSIONES
• Describir (resumir) los datos obtenidos
• tiempo medio de inasistencia en
fumadores y no (estadísticos)
• % de inasistencia por fumadores y
sexo (frecuencias), gráficos,... DISEÑAR EL
EXPERIMENTO
• Realizar una inferencia sobre la población RECOGER DATOS Y
• Los fumadores tienen inasistencia de ANALIZARLOS • Decidir qué datos recoger
al menos 10 días/año más de media • Qué individuos pertenecerán al estudio
que los no fumadores. (muestras)
• Recoger los datos (muestreo)
• ¿Estratificado? • Fumadores y no fumadores en edad
¿Sistemáticamente? laboral. ¿Cómo se eligen?
• Cuantificar la confianza en la inferencia ¿Descartamos los que padecen
• Nivel de confianza del 95% enfermedades crónicas?
• Significación del contraste: p=2% • Qué datos recoger de los mismos (variables)
• Número de baja. Tiempo de duración
de cada baja ¿Sexo? ¿Sector laboral?
¿Otros factores?
Hipótesis Estadísticas
La hipótesis se usa para probar la validez de un
experimento (hipótesis nula) que se realiza sobre una
población utilizando datos de muestra.

La hipótesis alternativa es la que se considera


verdadera si se concluye que la hipótesis nula es falsa.

• Hipótesis nula
• "Los dos grupos no serán diferentes"

• Hipótesis alternativa
• "El grupo A funcionará mejor que el grupo B",
• “los grupos A y B no realizarán lo mismo "
Distribución Normal
¿Recuerdas el umbral de "cinco
sigma" para el descubrimiento del
bosón de Higgs?

5 sigma es aproximadamente el
99.9999426696856% de los datos
para confirmar el descubrimiento del
bosón de Higgs.

La distribución normal tiene dos parámetros: la media (μ) y la desviación estándar, también llamada sigma (σ).

La media es la tendencia central de la distribución. Define la ubicación del pico para distribuciones normales.
La desviación estándar es una medida de variabilidad. Determina qué tan lejos de la media tienden a caer los
valores.

La distribución normal se asocia comúnmente con la regla 68-95-99.7


● El 68% de los datos está dentro de 1 desviación estándar (σ) de la media (μ)
● El 95% de los datos está dentro de 2 desviaciones estándar (σ) de la media (μ)
● El 99.7% de los datos está dentro de 3 desviaciones estándar (σ) de la media (μ)
Distribución Z-score

El Z-score es una medida de posición que indica el número de desviaciones estándar que un valor de
datos miente de la media. Es la escala horizontal de una distribución normal estándar (media 0 y
sigma 1). El Z-score es positivo si el valor se encuentra por encima de la media, y negativo si se
encuentra por debajo de la media.
El área total bajo cualquier curva normal es 1 (o 100%). Como la curva normal es simétrica con
respecto a la media, el área a ambos lados de la media es 0.5 (o 50%).
Distribución Z-score

El Z-score es una medida de posición que indica el número de desviaciones estándar que un valor de
datos miente de la media. Es la escala horizontal de una distribución normal estándar (media 0 y
sigma 1). El Z-score es positivo si el valor se encuentra por encima de la media, y negativo si se
encuentra por debajo de la media.
El área total bajo cualquier curva normal es 1 (o 100%). Como la curva normal es simétrica con
respecto a la media, el área a ambos lados de la media es 0.5 (o 50%).
p-valor
¿Que responde el p-valor?

Si vivimos en un mundo la hipótesis nula es cierta, ¿Cómo de sorprendente son los resultados de mi
sampleo sobre toda la población? El p-valor responde a esta pregunta con un número: probabilidad.

El p-valor mide la probabilidad de obtener un valor más extremo que el que obtuvo del experimento.
Cuanto más bajo es el valor p, más sorprendente es la evidencia, más contundentemente se puede
refutar la hipótesis nula.
Significancia Estadística
Para poder determinar si el valor obtenido del p-valor es suficiente o no, tenemos que definir un
umbral (alfa) con el que comparar.

Por ejemplo, si el alfa es igual a 0.05, hay 5 posibilidades en 100 que la diferencia observada fue
realmente debido a un error de muestreo a la hora de generar la muestra de la población.

Con lo cual:
● Si p-valor < alfa => podemos rechazar la hipótesis nula
● Si p-valor > alfa => podemos aceptar la hipótesis nula

link a ejemplo
Tests Estadísticos
Un test estadístico evalúa las hipótesis nula y hipótesis alternativa sobre una población para determinar qué
hipótesis es la más correcta dados los datos de la muestra.

Las pruebas de hipótesis no son 100% precisas porque usan una muestra aleatoria para sacar conclusiones sobre
poblaciones enteras.

Cuando se realiza un test estadístico, hay dos tipos de errores relacionados con la conclusión incorrecta.

● Error tipo I: rechaza una hipótesis nula que es cierta. Puedes pensar en esto como un falso positivo.
● Error de tipo II: la prueba no puede rechazar una hipótesis nula que es falsa. Puedes pensar en esto como un
falso negativo.
Tests Estadísticos
Dependiendo de la naturaleza de nuestro problema, o del parámetro de la población a evaluar,
utilizaremos unos tests u otros:
Tests Estadísticos
Tests Estadísticos
Ejemplo:
Situación:
Supongamos que una pizzería afirma que sus tiempos de entrega son de 30
minutos o menos en promedio.

Experimento:
Entonces realizamos una prueba de hipótesis y obtenemos una muestra
aleatoriamente de algunos tiempos de entrega para probar el reclamo:
● Hipótesis nula: el tiempo medio de entrega es de 30 minutos o menos
● Hipótesis alternativa: el tiempo medio de entrega es superior a 30 minutos

Objetivo:
Determinar qué hipótesis, la nula o la alternativa, está mejor respaldada por la
evidencia encontrada en nuestros datos de muestra.
Ejemplo:
Evaluación de resultados:
Ahora que hemos recopilado algunos tiempos de entrega muestreados,
realizamos el cálculo y encontramos que el tiempo medio de entrega es más largo
en 10 minutos con un p-valor de 0.03.
Ejemplo:
Conclusiones:
Lo que esto significa es que en un mundo donde el tiempo de entrega de la pizza
es de 30 minutos o menos (la hipótesis nula es cierta), existe un 3% de
posibilidades de que veamos que el tiempo medio de entrega es al menos 10
minutos más debido al ruido aleatorio.

Cuanto menor sea el valor p, más significativo será el resultado porque es menos
probable que sea causado por el ruido.
Tests Estadísticos para medias y
muestras
Tabla Z-Score:

link
Tabla t-student:
link
Ejercicio 1:
Ejercicio 2:
Ejercicio 3:
Ejercicio 4:
Numpy
¿Qué es Numpy?
Numpy es una extensión de C para Python para computación orientada a vectores y matrices.

● Eficiente
● Computación en memoria

Numpy es adecuado para aplicaciones del tipo:

● Análisis de imágenes
● Procesamiento de señales
● Álgebra lineal
● mucho más!!
¿Qué es Numpy?
Vectores uni-dimensionales tienen una tupla de 1 elemento como shape:

Matrices de 2 dimensiones, tienen como shape una tupla de 2 elementos:

y así para más y más dimensiones…...


¿Qué es Numpy?
Numpy permite la selección de elementos por índice:
¿Qué es Numpy?
Numpy permite operaciones sobre las distintas dimensiones:
¿Qué es Numpy?
Numpy permite operaciones básicas sobre vectores y matrices:
¿Qué es Numpy?
y por supuesto, incluye muchas funciones ya construidas:
¿Qué es Numpy?
y más funciones…...
¿Qué es Numpy?
y mucho más podemos encontrar en la documentación:
¿Qué es Numpy?
practiquemos un poco!
Gracias!

También podría gustarte