Documentos de Académico
Documentos de Profesional
Documentos de Cultura
15 Febrero 2020
Rafael Castillo
▪ Físico de formación, Científico de Datos con más de 10 años de experiencia
trabajando con grandes volúmenes de datos
▪ Básico de Numpy
• Introducción
• arrays, dimensiones y slicing
• Workbook de Numpy
Método Científico
enlace a noticia
El método científico es una metodología para obtener nuevos conocimientos, que ha
caracterizado históricamente a la ciencia, y que consiste en la observación sistemática, medición,
experimentación, y la formulación, análisis y modificación de hipótesis.1
El método científico abarca las prácticas aceptadas por la comunidad científica como válidas a la
hora de exponer y confirmar sus teorías. Las reglas y principios del método científico buscan
minimizar la influencia de la subjetividad del científico en su trabajo, reforzando así la validez de
los resultados, y por ende, del conocimiento obtenido.
Método Científico y
Estadística • Plantear hipótesis sobre una
población
• Los fumadores tienen
“más inasistencias ”
laborales que los no
fumadores
• ¿En qué sentido? ¿Mayor
número? ¿Tiempo
medio?
Se siguen un conjunto de pasos bien definidos
PLANTEAR
para asegurar que el proceso produce HIPÓTESIS
resultados adecuados al problema tratado
Pasos
OBTENER
CONCLUSIONES
• Describir (resumir) los datos obtenidos
• tiempo medio de inasistencia en
fumadores y no (estadísticos)
• % de inasistencia por fumadores y
sexo (frecuencias), gráficos,... DISEÑAR EL
EXPERIMENTO
• Realizar una inferencia sobre la población RECOGER DATOS Y
• Los fumadores tienen inasistencia de ANALIZARLOS • Decidir qué datos recoger
al menos 10 días/año más de media • Qué individuos pertenecerán al estudio
que los no fumadores. (muestras)
• Recoger los datos (muestreo)
• ¿Estratificado? • Fumadores y no fumadores en edad
¿Sistemáticamente? laboral. ¿Cómo se eligen?
• Cuantificar la confianza en la inferencia ¿Descartamos los que padecen
• Nivel de confianza del 95% enfermedades crónicas?
• Significación del contraste: p=2% • Qué datos recoger de los mismos (variables)
• Número de baja. Tiempo de duración
de cada baja ¿Sexo? ¿Sector laboral?
¿Otros factores?
Hipótesis Estadísticas
La hipótesis se usa para probar la validez de un
experimento (hipótesis nula) que se realiza sobre una
población utilizando datos de muestra.
• Hipótesis nula
• "Los dos grupos no serán diferentes"
• Hipótesis alternativa
• "El grupo A funcionará mejor que el grupo B",
• “los grupos A y B no realizarán lo mismo "
Distribución Normal
¿Recuerdas el umbral de "cinco
sigma" para el descubrimiento del
bosón de Higgs?
5 sigma es aproximadamente el
99.9999426696856% de los datos
para confirmar el descubrimiento del
bosón de Higgs.
La distribución normal tiene dos parámetros: la media (μ) y la desviación estándar, también llamada sigma (σ).
La media es la tendencia central de la distribución. Define la ubicación del pico para distribuciones normales.
La desviación estándar es una medida de variabilidad. Determina qué tan lejos de la media tienden a caer los
valores.
El Z-score es una medida de posición que indica el número de desviaciones estándar que un valor de
datos miente de la media. Es la escala horizontal de una distribución normal estándar (media 0 y
sigma 1). El Z-score es positivo si el valor se encuentra por encima de la media, y negativo si se
encuentra por debajo de la media.
El área total bajo cualquier curva normal es 1 (o 100%). Como la curva normal es simétrica con
respecto a la media, el área a ambos lados de la media es 0.5 (o 50%).
Distribución Z-score
El Z-score es una medida de posición que indica el número de desviaciones estándar que un valor de
datos miente de la media. Es la escala horizontal de una distribución normal estándar (media 0 y
sigma 1). El Z-score es positivo si el valor se encuentra por encima de la media, y negativo si se
encuentra por debajo de la media.
El área total bajo cualquier curva normal es 1 (o 100%). Como la curva normal es simétrica con
respecto a la media, el área a ambos lados de la media es 0.5 (o 50%).
p-valor
¿Que responde el p-valor?
Si vivimos en un mundo la hipótesis nula es cierta, ¿Cómo de sorprendente son los resultados de mi
sampleo sobre toda la población? El p-valor responde a esta pregunta con un número: probabilidad.
El p-valor mide la probabilidad de obtener un valor más extremo que el que obtuvo del experimento.
Cuanto más bajo es el valor p, más sorprendente es la evidencia, más contundentemente se puede
refutar la hipótesis nula.
Significancia Estadística
Para poder determinar si el valor obtenido del p-valor es suficiente o no, tenemos que definir un
umbral (alfa) con el que comparar.
Por ejemplo, si el alfa es igual a 0.05, hay 5 posibilidades en 100 que la diferencia observada fue
realmente debido a un error de muestreo a la hora de generar la muestra de la población.
Con lo cual:
● Si p-valor < alfa => podemos rechazar la hipótesis nula
● Si p-valor > alfa => podemos aceptar la hipótesis nula
link a ejemplo
Tests Estadísticos
Un test estadístico evalúa las hipótesis nula y hipótesis alternativa sobre una población para determinar qué
hipótesis es la más correcta dados los datos de la muestra.
Las pruebas de hipótesis no son 100% precisas porque usan una muestra aleatoria para sacar conclusiones sobre
poblaciones enteras.
Cuando se realiza un test estadístico, hay dos tipos de errores relacionados con la conclusión incorrecta.
● Error tipo I: rechaza una hipótesis nula que es cierta. Puedes pensar en esto como un falso positivo.
● Error de tipo II: la prueba no puede rechazar una hipótesis nula que es falsa. Puedes pensar en esto como un
falso negativo.
Tests Estadísticos
Dependiendo de la naturaleza de nuestro problema, o del parámetro de la población a evaluar,
utilizaremos unos tests u otros:
Tests Estadísticos
Tests Estadísticos
Ejemplo:
Situación:
Supongamos que una pizzería afirma que sus tiempos de entrega son de 30
minutos o menos en promedio.
Experimento:
Entonces realizamos una prueba de hipótesis y obtenemos una muestra
aleatoriamente de algunos tiempos de entrega para probar el reclamo:
● Hipótesis nula: el tiempo medio de entrega es de 30 minutos o menos
● Hipótesis alternativa: el tiempo medio de entrega es superior a 30 minutos
Objetivo:
Determinar qué hipótesis, la nula o la alternativa, está mejor respaldada por la
evidencia encontrada en nuestros datos de muestra.
Ejemplo:
Evaluación de resultados:
Ahora que hemos recopilado algunos tiempos de entrega muestreados,
realizamos el cálculo y encontramos que el tiempo medio de entrega es más largo
en 10 minutos con un p-valor de 0.03.
Ejemplo:
Conclusiones:
Lo que esto significa es que en un mundo donde el tiempo de entrega de la pizza
es de 30 minutos o menos (la hipótesis nula es cierta), existe un 3% de
posibilidades de que veamos que el tiempo medio de entrega es al menos 10
minutos más debido al ruido aleatorio.
Cuanto menor sea el valor p, más significativo será el resultado porque es menos
probable que sea causado por el ruido.
Tests Estadísticos para medias y
muestras
Tabla Z-Score:
link
Tabla t-student:
link
Ejercicio 1:
Ejercicio 2:
Ejercicio 3:
Ejercicio 4:
Numpy
¿Qué es Numpy?
Numpy es una extensión de C para Python para computación orientada a vectores y matrices.
● Eficiente
● Computación en memoria
● Análisis de imágenes
● Procesamiento de señales
● Álgebra lineal
● mucho más!!
¿Qué es Numpy?
Vectores uni-dimensionales tienen una tupla de 1 elemento como shape: