Está en la página 1de 66

Algunos conceptos básicos de estadística

Gustavo E Ramirez-Caballero

1
Estadística
• Recolección, presentación, análisis y uso de datos para
tomar decisiones, solucionar problemas y diseñar
productos y procesos.

• Objetivo: describir y entender la variabilidad

Variabilidad: las observaciones sucesivas de un sistema o


fenómeno no producen exactamente el mismo resultado

2
Cemento Portland
Caliza Arcilla Carbón

• Cemento Portland: composición fijada


oficialmente 58-66% CaO; 0.5% MgO;
18-25% SiO2(arena); 4-12% Al2O3; 2-
5%Fe2O3; 0.5-2.5% SO3;0-0.3% MnO; 0-
0.2% óxidos alcalinos; 0.5-5%
inflamables.

Yeso
3
Las propiedades del cemento dependen de:
1.Finura de las materias primas molidas.

2. Relación de mezcla de materias primas.

3. Tiempo y temperatura de calcinación.

4. Tiempo y temperatura de enfriamiento del producto

Mortero Concreto Liviano


Cemento Cemento
+ +
Arena (agregado fino) agregado fino Concreto
Mortero
+ + Liviano
Curado
Agua Piedra (gravilla, Curado
agregado grueso)
+
Agua 4
Concreto Reforzado
Cemento
+
agregado fino
+ Concreto
gravilla Reforzado
+ Curado
Hierro
+
Agua

Mortero
Mortero
Cemento
Cemento
+
+
Arena (agregado fino)
Arena (agregado fino) Mortero
Mortero +
+ Curado
Curado Polímero
Agua
+
Agua
El tiempo de curado se reduce adicionando el Polímero, que pasa con la 5
resistencia a la tensión? video
Diagrama de puntos: útil para ilustrar número reducido de datos (20
observaciones), permite ver: localización y dispersión.

6
Variabilidad:

7
Ejercicio: hacer diagrama de puntos para los siguientes
datos, hallar el promedio y la desviación estándar:
Exp1 Exp2
12.6 12.9
12.9 13.7
13.4 12.8
12.3 13.9
13.6 14.2
13.5 13.2
12.6 13.5
13.1 13.1

8
Otras formas de presentar datos:

Diagrama de tallo y hoja: se usa cuando el número de observaciones es más o menos


grande.

Cada número se divide en dos partes: un tallo, compuesto por uno o más dígitos, y una hoja, compuesta por los dígitos restantes

tallo hojas frecuencia


9 7 1
10 5 1
105 199 180
13 14 2
Moda: valor de los
97 160 178 15 471 3
datos que ocurre con
16 30 2
245 196 157 mayor frecuencia
17 85 2
163 221 151 18 30 2
207 154 175 19 96 2
20 71 2
134 228 201
21 8 1 9
218 131 183 22 8 1
Ejercicio: Hacer diagrama de tallo y hojas para los
siguientes datos, hallar la moda, el promedio y la
desviación estándar:

105 199 180 153 149 167 181 150 172 158 143 158
97 160 178 174 200 171 160 181 171 156 141 135
245 196 157 154 186 163 194 168 237 229 110 149
163 221 151 190 174 87 184 158 170 158 133
207 154 175 76 199 176 165 208 180 148 123
134 228 201 101 115 121 145 133 167 150 146
218 131 183 142 193 120 160 135 176 118 169

10
• Histogramas: es una distribución de frecuencia. Para construir
una distribución de frecuencia, el rango de los datos debe
dividirse en intervalos. Elegir un número de intervalos
aproximadamente igual a la raíz cuadrada del número de
observaciones.

Frecuencia relativa: frecuencia obtenida en cada intervalo divido por el


número total de observaciones 11
• Gráfica de caja: describe simultáneamente varias
características importantes de un conjunto de datos,
como el centro, la dispersión, la desviación de la
simetría y observaciones lejos del grueso de datos

Ver video

12
Conclusión
La representación de tallo y hoja y el histograma proporcionan
impresiontes visuales generales acerca de un conjunto de datos.
Promedio y desviación estandar proporcionan información
acerca de caracteristicas particulares.

13
Probabilidad
“Para que los hombres no malicien que tu relato es falso, mantén la probabilidad a la
vista”
Que es probabilidad?

No hay una definición única formal

Ejemplo: cual es la probabilidad de tirar el dado y obtener un número par

14
Porque?... Podría ser por simetría

cara
CC
cara
sello CS

cara SC
sello
sello SS
Primer intento Segundo intento

árbol de probabilidad, funciona en casos en los que hay no hay muchos números 15
cara
cara
sello

cara
sello
sello

16
SSSSH

SSSHS

SSHSS
SHSSS

HSSSS

17
Dado 1 Dado 2

Dado 1
1 2 3 4 5 6

1
2
Dado 2 3
4
5
6

18
10 Monedas
9 tiene cara y sello
1 solo tiene cara

Si se saca una moneda y se hacen 5 lanzamientos,


Cuál es la probabilidad de sacar 5 caras seguidas?

19
Distribución Binomial
Ejemplo: Se lanza una mondea 5 veces, cual es la probabilidad de que caigan
X caras?

Ejemplo: en un juego de basket tengo la oportunidad de lanzar 6 veces, la


probabilidad de hacer la canasta es 30%, como es la distribución de probabilidad?

X= # de canastas convertidas

20
Valor esperado de una variable
aleatoria

Frecuencia = Probabilidad

21
Valor esperado de una distribución
binomial

Número de cestas que yo hago en 10 lanzamientos, si tengo una probabilidad de


encestar de 40%

22
23
1

24
Distribución de Poisson
Cuál es el número de carros que pasa por un cierta calle en cierto tiempo?

Cuál es la probabilidad de que 5 carros pasen o 100 carros pasan por ejemplo
en una hora?

Probabilidad de éxito en cada


intento

Número de intentos
25
Probabilidad de que pase un carro
en un minuto
En el ejemplo:

La hora se divide en intervalos de un minuto


para saber si pasa o no un carro

Qué pasa si más de un carro pasa en un minuto? En el modelo que se tiene


no importa si pasan más de un carro en un minuto se cuenta como éxito.

Qué hacer? 26
Hacer intervalos de medida mas pequeños

Por ejemplo hacer en vez de una medida por minuto, hacer una por segundo

Qué pasa si más de un carro pasa en un segundo?

Conclusión: la distribución de Poisson no es más que la binomial para intervalos


que tienden a infinito

Tener en cuenta que:

27
Número de intentos

Número de intentos exitosos

28
1 1

29
Distribución normal
Distribución más importante y usada en estadística, tambien llamada: distribución
de Gauss o Gaussiana, o campana de Gauss.

Dato curioso: fue deducida por De Moivre en 1733, pero su trabajo estuvo
perdido y fue deducida 100 años despues por Gauss.

Notación:

30
Características de la distribución normal

31
68%
95%
99.7%

Distribución normal estandar

32
Cualquier valor de una distribución
normal puede ser transformado a su
correspondiente valor en una
distribución normal estándar por medio
de la ecuación:
Promedio en la
Valor en la distribución normal distribucion normal

Valor en la distribución normal Desviación estandar en la


estándar distribución normal

33
Inferencia estadística
Cuanto miden las mujeres de Bucaramanga?

Población Muestra
Totalidad de las observaciones que son Subconjunto de observaciones que se
motivo de interés seleccionan de una población

Es el promedio de la muestra igual al promedio de la población?34


Que tan diferentes son los parámetros estadísticos
de la muestra con los parámetros de la población?
Población Muestra

Ejemplo:

Población:

Seleccionar una muestra de dos bolas y hallar el promedio 35


Seleccionar una muestra de dos bolas y hallar el promedio

Resultado Bola 1 Bola 2 Promedio

Promedio Frecuencia Frecuencia relativa

36
Distribución de
frecuencia relativa:
Promedio Frecuencia Frecuencia relativa

Es una distribución de probabilidad

Seleccionar una muestra de dos bolas al azar y hallar el


promedio, repetir bastantes veces el procedimiento.
Si el número de muestras tiende a infinito, la distribución de frecuencias del
experimento va a ser igual a la distribucion de la muestra.
37
En la práctica, es al contrario, se especifican los paramentros de la distribucion de
la muestra a partir de la distribución de frecuencia del experimento.

Usos de la distribución de la muestra:

• Que tan cerca es el promedio de la muestra con respecto al promedio


de la población?.

• Que tan diferentes son los promedios de varias muestras

Estas preguntas se pueden resolver usando el error estándar del promedio


38
Error estándar del promedio
• Si los promedios de la muestra son parecidos, el error estándar
del promedio es pequeño.

• Si los promedios de la muestra varian bastante, el error


estándar del promedio es grande

Para recordar:
• La distribución de la muestra revela cuanto la estadística de la
muestra varia de los parámetros de la población.

• A medida que el número de muestras se acerca a infinito, la


distribución de la frecuencia relativa se acerca a la distribución
de la muestra.

39
Simulación 1

Esta simulación ilustra el concepto de distribución de


muestra

• En la primera gráfica hay 33 valores diferentes de población, la frecuencia


relativa de cada valor de población es la misma, entonces la distribución es un
rectángulo.

• Si se hace click en “animated sampling”, cinco valores de la población son


seleccionados y graficados en la segunda gráfica. El promedio de esta muestra
de 5 es calculado y graficado en la tercera gráfica.

• El promedio y la desviación estándar están dados en la parte izquierda de la


gráfica y por lineas azules y rojas debajo del eje x.

40
Simulación 2

Esta simulación ilustra el efecto del tamaño de


muestra en la distribución de muestra

• Se especifica dos tamaños de muestra, N=2 y N=10, se compara el promedio y


la desviación estándar de la distribución

41
Simulación 3

Esta simulación ilustra el efecto del tamaño de


muestra en la forma distribución de muestra del
promedio

42
Distribución de muestreo del
promedio
Promedio: el promedio de la distribución de muestra del promedio es el
promedio de la población:

Variancia: la variancia de la distribución de muestra del promedio es:

Error estándar: el error estándar del promedio es la desviación estándar de


la muestra de la distribución del promedio:

43
44
Resumen
N=2

N=5

N=10
N=25

Cuál distribución se aproxima más a una


distribución normal? 45
Teorema del límite central
Intervalo de confianza

Se calcula el promedio de una muestra, para


estimar el promedio de la población

En este caso se usan intervalos de confianza

46
Supongamos que conocemos todos los datos de la población:

Se sabe que todas las niñas de 10 años en promedio pesan 90 libras con
una desviación estándar de 36. Cómo es la distribución del muestreo del
promedio con un tamaño de muestra igual a 9?

=36 =12=
90 90
Error estándar del promedio

El area sombrada es un intervalo


que representa el 95% de la
distribución de la muestra. Cómo
95%
se halla?
47
95%

66 114
El 95% de los promedios están a 24 unidades del promedio de la población

La probabilida de que un promedio de una muestra estre dentro de un intervalo


de +24 o -24 unidades de 90 es 0.95

En general el intervalo se calcula de la siguiente forma:

Intervalo de confianza 48
Intervalo de confianza:

Para estimar este intervalo de confianza se necesita saber la desviación estándar de la


población, esto no es factible en la mayoria de las situaciones…como hacer?...ya
veremos…

Ejemplo: se sacan los siguientes 5 números de una muestra de una distribución


normal con desviación estándar 2.5: 2, 3, 5, 6, 9. Calcule el intervalo de
confianza.

49
Si no se conoce la desviación estandar de la población (que es lo más seguro) se
debe estimar.

Distribución normal

50
Los valores de la distribución t que deben ser usados en el cálculo del intervalo de
confianza son diferentes a los de una distribución normal.

Ejemplo: se sacan los siguientes 5 números de una muestra de una distribución


normal: 2, 3, 5, 6, 9. Calcule el intervalo de confianza.

Intervalo de confianza
51
Diferencia entre promedios
Considera Ud. Bueno o malo que se utilicen animales comol objetos de investigación?

Hombres Mujeres

En un papel escriba si es hombre o mujer y evalue de 0 a 5 si la investigación en


animales es buena siendo 5 buena y 0 mala.

52
Género Tamaño de la Promedio varianza
muestra
Mujeres 5
Hombres 5

Hay diferencia entre lo que opinan las mujeres y lo que opinan los hombres?

Diferencia entre promedios de la muestra =

Sin embargo, lo que nos interesa es saber la diferencia entre los promedios de las
poblaciones

Los promedios de las muestras son usados para estimar la diferencia entre los
promedios de las poblaciones. La precisión de la estimación esta dada por un
intervalo de confianza.

53
Para construir el intervalo de confianza es necesario hacer 3
suposiciones:

1.Las dos poblaciones tienen la misma varianza.

2.La distribución de las poblaciones es una distribución normal.

3.Cada valor de la muestra es independiente.

Una violacion de las suposiciones 1 y 2 es despreciable en el resultado

La ecuación para calcular el intervalo de confianza de la diferencia entre promedios


es:

54
55
56
Mortero Mortero

Cemento Cemento
+ +
Arena (agregado fino) Arena (agregado fino)
Mortero Mortero
+ +
Curado Curado
Agua Polímero
+
Agua
El tiempo de curado se reduce adicionando el Polímero?, que pasa con la
resistencia a la tensión?

El resultado fue un producto del azar?.

realmente son diferentes los datos y se


puede sacar conclusiones en la
investigación?

57
Pruebas de hipótesis
La prueba de hipótesis es un procedimiento estadistico para determinar si el azar es
una explicación plausible en los resultados experimentales

Se establecen dos hipótesis:

H 0 : 1   2
H1 : 1   2
Hipótesis Nula

Hipótesis Alternativa

58
Hipótesis Nula: H 0 : 1   2
Hipótesis Alternativa: H1 : 1   2

Se rechaza o no se rechaza la hipótesis nula?

No se rechaza
se rechaza

Región crítica Región crítica

59
Región crítica Región crítica

Nivel de significación

Error tipo II: se define como la aceptación de la hipótesis nula cuando ésta es
falsa 60
Prueba t
Recordando: Deforma análoga:

61
62
63
Resumen de la estadística
Mortero modificado Mortero sin modificar

y1  16.76 y2  17.04
S  0.100
1
2
S22  0.061
S1  0.316 S2  0.248
n1  10 n2  10 64
65
66

También podría gustarte