Está en la página 1de 39

Estadística I (157011)

2021-1

Diego Rondon
diego.rondon@unipamplona.edu.co
Texto guía:
• Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probabilidad
y estadística para ingeniería y ciencias. Norma, 162, 157.
• Montgomery, D. C., Runger, G. C., & Medal, E. G. U.
(1996). Probabilidad y estadística aplicadas a la ingeniería (No. 968-
18-5914-6. 01-A1 LU. AL-PyE. 1.). México DF: McGraw-Hill.
• Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied
linear statistical models (Vol. 5). New York: McGraw-Hill Irwin.
¿Qué es estadística?
• El arte de modelar (de una forma matemática), situaciones en las que
la probabilidad juega un papel imporntate. Estos modelos nos ayudar
a tomar desiciones basadas en los datos. (van der Vaart, A., Jonker, M., & Bijma, F. (2017))
• A diferencia de matemáticas, la estadística se encarga de resumir
(promediar, representaciones gráficas) los datos, teniendo en cuenta
la variabilidad e incertidumbre de estos.
• Modelo matematico: descripcion de un Sistema usando conceptos matematicos. Este nos puede ayudar a
explicar, y estudiar el comportamiento de diferentes components.
…basadas en los datos.
• En un minuto…
• 996.956 USD $ son comprados en internet
• 347.000 scrolling on Instagram
• 1.4 millones de swipes en tindet
• 3 millones de lineas de excel son generadas por un pozo petrolero en alta mar
• En un día…
• 5 billones de busquedas son realizadas
• 65 billones de mensajes de whatapp son enviados
• 4 petabytes (4’000.000 GB) de datos son creados en Facebook

https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/
https://www.visualcapitalist.com/what-happens-in-an-internet-minute-in-2019/
…variabilidad e incertidumbre
Los datos tiene dos limitaciones:
1. Los datos son en algunos casos una medida imperfecta de lo que se desea estudiar
Preguntar a las personas que tan felices fueron esta semana en una escala 1 a 10, no permite
estudiar la felicidad de una población.
2. Cualquier cosa que deseemos medir va a variar dependiendo el lugar, persona,
tiempo….
…variabilidad e incertidumbre
• Variabilidad: “Ausencia de consistencia”
• Fuentes de variabilidad: instrumentos, pureza de los quimicos, calibracion del equipo,
homogeneidad de material prima…
• Incertidumbre : “Falta de inseguiridad, aleatoridad o el error proveniente de varias
fuentes”
• Sin variabildiad e incertidumbre, la estádistica no es requerida.
• Los pronosticos de ventas serian exactos
• El proceso de aceptar medicametos por el FDA no seria necesarios

• Ad hoc: ¿Qué tan preciso debe ser un análisis?, ¿de que depende de la variabildiad?, ¿cómo medir la
variaibilidad?, ¿cómo controlarla la variabilidad?
¿Cómo se relacionan los datos?
• Usualmente la informacion es recolectada de muestras o poblaciones

• Ad hoc: ¿es la muestra ideal para la pregunta de interes?, ¿cúal es el major tamaño de la
muestra?, ¿variabilidad interna en la muestra?

https://www.omniconvert.com/what-is/sample-size/
Real life example:
• La compañía farmacéutica AstraZeneca, tiene una potencial vacuna
contra el sars-cov 19, ¿cómo se logra esto?
• Planeacion: que caracteristicas (factores) son de interes como: sexo, edad,
condicion física, etnicidad… (entre otros y pueden ser muchos).
• Pero existen limitaciones.
• Software, personales, intelectuales…
• Diferentes fases, con difernetes muestras
• Diseño de experimentos (mas adelante)

https://www.euractiv.com/section/coronavirus/news/eu-pays-e336-mln-to-secure-astrazenecas-potential-covid-19-vaccine/
¿Cómo funciona?
• ¿cómo hace AstraZeneca para ofrecer una vacuna a todo el mundo (7
billones de habitantes), sin probarla en todo el mundo?
¿Cómo funciona?
• Para cualquier problema: la muestra, junto
con estadística inferencial nos permite
obtener concluciones sobre la poblacion,
generalemente en terminos de la
probabilidad.
Conceptos básicos
• Probabilidad: medida de incertidumbre de que un evento ocurra
• Estadística inferencial: proceso de sacar conclusiones sobre las
muestras de interés
• Métodos gráficos, modelos matemáticos, uso de hypotesis
• Población: un conjunto de objetos similares que son de interes.
• Muestra: Un conjunto de datos (observaciones) recolectados de una
población.
• ¿Cómo se calcula una muestra necesaria?
• Muy grande: problemas logísticos, cotos
• Muy pequeña: no es significativa!
¿Cómo se puede seleccionar una muestra?
• Muestreo simple aleatorizado
Todas los objetos de la muestra tienen la misma probabilidad de ser elegidos
o seleccionar n de N estudiantes
o Seleccionar 100 empleados de una empresa

• Muestreo sistemático
Existe un orden (aleatorio) en la lista y deseamos seleccionar cada K
observaciones
o Seleccionar cada k=3 casas en una calle
Todos los elementos tiene la misma probabilidad de ser seleccionados, pero
elementos adyacentes o cercanos no serán seleccionados.
¿Cómo se puede seleccionar una muestra?
• Muestreo sistemático: ¿Dónde se inicia?
K=3

K=4

• Un supermercado quiere ofrecer regalos a sus clientes, ellos seleccionan cada 10 o


15 clientes para
• Muestras de cemento tienen que ser estudiadas durante un día, para estudiar la
variabilidad del equipo durante el día
¿Cómo se puede seleccionar una muestra?
• Muestreo estratificado
Es el caso donde las muestras tienen diferentes características, y queremos
asegurar que las proporciones de estas estén representadas.
1. Dividir la población en sub-grupos (estratos) que refleje las principales
características
2. Las muestras son tomadas de estos estratos

Ad hoc: ¿Cuál es el mejor estrato para estudiar la población?


¿Cómo se puede seleccionar una muestra?
• Muestreo por clúster
A diferencia del muestreo estratificado, no se toma la muestra de los individuos
si no que se selecciona cada sub grupo.
Diferentes subpoblación, diferentes
resultados (ej: Gerrymandering)
• Practica usada para obtener ventaja política:
• 1962 Bamahas
• 1981 Malta
• Venezuela
• PSUV 48% -> 60%
• Unidad 52% -> 40%
Concepto importante: Aleatorio
• Aleatorio: “ausencia de patrón”, no tiene orden
• Números aleatorios para las muestras
¿Cómo se generan?
Rand#: en la caluladora
=aleatorio()/rand(): en Excel
¿Por qué es importante seleccionar la muestra aleatoriamente?
Asegura que los resultados sean mas aproximados a la muestra

Aleatorio:
No Aleatorio:
Ya tengo mi muestra, y ahora…

• Inferencia estadística -> análisis de datos


Lo básico:
• Medidas de ubicación
• Medidas de variabilidad

Nitrogeno No Nitrogeno

¿Cuál funciona mejor?, ¿Cuál debo usar?


Ambas, siempre ambas
Lo básico:
Resumir la información
0.4

0.55

0.46

¿Cuál medida debo usar?


La que presente mas información, no existe una medida ideal
La importancia de usar ambas medidas
• Ingreso anual de 37’000.000
• Noruega (USD $51.500)
• Luxemburgo (USD $51.500)
• …
• Madagascar (USD $1.013)
• Burundi (USD $673)

El titulo genera tranquilidad porque no tiene en cuenta medidas de


variabilidad
• Ad hoc: ¿es el ingreso la medida a usar? ¿el costo de vida es diferente, en
diferentes países?
https://news.gallup.com/poll/166211/worldwide-median-household-income-000.aspx
Medidas de ubicación: Media
• Promedio numérico:
Asumimos que la muestra tomada consiste en n datos, y las
observaciones x_i
Medidas de ubicación: Mediana
• El valor que separa la mitad superior de la inferior

• Ejemplo*:

*https://en.wikipedia.org/wiki/Median
Aplicación
• Media para No Nitrogen

• Media Mediana
0.28
0.32
0.36
0.37
0.38
0.42
0.43
0.43
0.47
0.53
Medidas de ubicación: Media Truncada*
• Cuando se quieren eliminar la influencia de observaciones extremas,
Funciona igual que la media, solo que se eliminan los k valores mas alto y mas bajos

• Aplicación: medida es usada en los


olimpicos
Diego Rondon
Preguntas?
diego.rondon@unipamplona.edu.co

Siguiente clase: medidas de variabilidad, datos discretos y continuos


Medidas de variabilidad: Rango
• La medida mas intuitiva considera la variabilidad entre el dato mayor
y menor

27
Medidas de variabilidad: Rango intercuartíl
• Percentil (medida de posición): el valor por el cual se encuentran un porcentaje
dado de observaciones en el grupo.
Ej: el percentil 30 tiene el 30% de las observaciones por debajo y 70% por encima. (cual es el
percentil 50?)

• El rango intercuartil es la diferencia entre el percentil 75 y 25


0.28
0.32
0.36
0.37
0.38
0.42
0.43
0.43
0.47
0.53
28
https://en.wikipedia.org/wiki/Percentile
Medidas de variabilidad:
varianza y desviación estándar
• Varianza: La medida mas usada pues permite hacer comparaciones
mas fáciles
Medida de dispersión para saber que tan alejados están los valores de la media

• Desviación estándar: es mas fácil de interpretar pues las unidades


son consistentes con los datos

29
Medidas de variabilidad:
varianza y desviación estándar
• Varianza: 26.592
• Desv estándar: 5.156

30
Medidas de variabilidad:
varianza y desviación estándar

• Varianza

31
Lo básico:
Resumir la información
0.4

0.55

0.46

¿Cuál medida debo usar?


La que presente mas información, no existe una medida ideal
32
Diego Rondon
Preguntas?
diego.rondon@unipamplona.edu.co

33
Tipos de datos
Discretos Continuos
• Pueden tomar ciertos valores. • No están restringidos a ciertos
Pueden ser numéricos o valores
categóricos. • Pueden tener cualquier valor
• Numéricos: Proceso conteo, dentro de un intervalo
número de personas, numero de
eventos…
• Categóricos: bueno/malo, si/no, • Densidad, peso, temperatura,
estrato: 1/2/3/4/5/6… precio,

34
Tipos de datos
Discretos y continuos
• Por lo general los datos continuos tiene mas información que los
discretos
• Es posible convertís datos continuos en discretos, pero no vice veza.
• Por ejemplo, el peso (continuo) es puede clasificar en categorías Bajo peso,
peso normal, sobre peso, obeso.
¿Cuando es estas conversión necesaria?

• Las medidas de posición y variabilidad vistas previamente funcionan


para ambos tipos de datos

35
Tipos de datos
Discretos-Binarios
• Dos categorías. Si/no, funciona/no funciona, bueno/malo…
• Generalmente los datos son transformados a valores 1/0
• La media habla mas de la proporción de los datos, la moda no brinda
mucha información
No 0
Si 1
Si 1
No 0
Si 1
No 0
Si 1
No 0
No 0
Si 1
36
Tipos de datos
Discretos-categóricos
• Cuando se tiene mas de dos posibles respuestas (o categorías)
• Las medidas de variabilidad y dispersión no funcionan en este caso
• Ordinales: tienen un orden o escala
Respuesta a un medicamento: baja/media/alta
Estrato socio-económico: 1/2/3/4/5
• No Ordinales: no tiene un orden ni escala
Creencia religiosa: Cristiano/judío/protestante/otros
Tipo de música: jazz/rock/hip-hop/Clásica/…

37
Tipos de datos
Discretos-categóricos
• La forma mas intuitiva de estudiar son las Tablas de Contingencia
• Existe una asociación entre las variables?

38
Diego Rondon
Preguntas?
diego.rondon@unipamplona.edu.co

Siguiente clase: Representación gráfica de los datos

39

También podría gustarte