Está en la página 1de 84

TEMA 2

Análisis unidimensional de variables aleatorias

Dr. Borja Velázquez Martí


Departamento de Ingeniería Rural y Agroalimentaria
Universidad Politécnica de Valencia
Contenidos del tema

• Definición del proyecto de investigación


• Estadísticos descriptivos de la población
– Media
– Mediana
– Cuartiles y percentiles
– Parámetros de dispersión
– Coeficientes de asimetría y curtosis
• Obtención mediante sistema informático Statgraphics y
XLSTAT.
Ejemplo 5

Un experimento pretende averiguar la relación el número de partos


tenidos por el animal y la probabilidad de tener un aborto. Obteniendo los
datos de la siguiente tabla:

Número de partos del Número de animales


animal que han tenido algún
aborto
1 5
2 8
3 11
4 14
5 16
6 18
¿Cómo se interpretan los datos?
Datos de A Datos de B
Número de Número de Número de partos Número de
partos del animal animales que han del animal animales que han
tenido algún tenido algún
aborto aborto
1 5 1 5
2 8 2 4
3 11 3 3.7
4 14 4 3.5
5 16 5 3.2
6 18 6 3

El investigador A afirma: el aumento de partos en un animal aumenta la probabilidad


de abortos

El investigador B afirma: los abortos son mas probables en animales con su primer
parto
¿Cómo se interpretan los datos?
Datos de A Datos de B
Número de Número de Número de partos Número de
partos del animal animales que han del animal animales que han
tenido algún tenido algún
aborto
N ? aborto
1 5 ZÓ1 5
2 8 RA 2 4
NE
3 11
T I E 3 3.7
4 14 4 3.5
N
5 16UIE 5 3.2
6 Q
¿18 6 3

El investigador A afirma: el aumento de partos en un animal aumenta la probabilidad


de abortos

El investigador B afirma: los abortos son mas probables en animales con su primer
parto
Probabilidad
• Número de casos favorables/número de casos
posibles

Número de partos Número de Número de Probabilidad


del animal observaciones abortos
1 15 8 0,53
2 18 9 0,50
3 32 9 0,28
4 26 6 0,23
5 11 4 0,36
6 8 3 0,38
Análisis unidimensional
variables discretas
HISTOGRAMAS
0.60
Probabilidad

0.50

0.40

0.30

0.20

0.10

0.00
1 2 3 4 5 6
Número de partos del animal
0.60
Probabilidad

f(x) = 0.03 x² − 0.24 x + 0.78


0.50 R² = 0.77

0.40

0.30

0.20

0.10

0.00
1 2 3 4 5 6
Número de partos del animal
Tabla de frecuencias e histogramas
Representación del comportamiento de la
variable en la población
Estadísticos
• Frecuencia absoluta
• Frecuencia relativa
• Porcentaje de frecuencia
• Frecuencia acumulada
• Porcentaje de frecuencia acumulada
TABLAS DE FRECUENCIAS
Variables Unidimensionales de Tipo Discreto

Ejemplo 6

Un estudio sobre el grupo sanguíneo dominante en una población rural ha


conducido a los siguientes resultados:

A, B, A, A, A, AB, O, A, A, A, O, B, O, A, B, O, B, O, A, B, B, A, A, O.
A, B, A, A, A, AB, O, A, A, A, O, B, O, A, B, O, B, O, A, B, B, A, A, O.

Categorías Frecuencia Frecuencia Porcentaje Frecuencia Porcentaje


relativa acumulada acumulado
A 11 0,46 45,83 11 45,83
B 6 0,25 25,00 17 70,83
O 6 0,25 25,00 23 95,83
AB 1 0,04 4,17 24 100,00
Ejemplo 7

Las calificaciones obtenidas en un ejercicio se recogen en el siguiente gráfico,


analiza la tabla de frecuencias

5
Frecuencia

0
1 2 3 4 5 6 7 8 9 10
Calificaciones
Categorías Frecuencia Frecuencia Porcentaje Frecuencia Porcentaje
relativa acumulada acumulado

1 1 0,05 5 1 5
2 2 0,1 10 3 15
3 1 0,05 5 4 20
4 2 0,1 10 6 30
5 3 0,15 15 9 45
6 4 0,2 20 13 65
7 3 0,15 15 16 80
8 1 0,05 5 17 85
9 2 0,1 10 19 95
10 1 0,05 5 20 100
Categorías Frecuencia Frecuencia Porcentaje Frecuencia Porcentaje
relativa acumulada acumulado

1 1 0,05 5 1 5
2 2 0,1 10 3 15
3 1 0,05 5 4 20
4 2 0,1 10 6 30
5 3 0,15 15 9 45
6 4 0,2 20 13 65
7 3 0,15 15 16 80
8 1 0,05 5 17 85
9 2 0,1 10 19 95
10 1 0,05 5 20 100
DISCRETIZACIÓN DE VARIABLES CONTINUAS

Variables Unidimensionales de tipo Continuo CATEGORIZADAS

Ejemplo 8

Se desea analizar el peso de cerdos que se llevan a matadero, nos


encontramos con los siguientes datos:

53,76 86,72 56,31


63,65 72,86 72,56
83,93 59,54 65,02
86,31 50,47 53,51
65,90 97,33 96,55
DATOS
69,50 58,46 77,36
56,54 91,96 95,40
83,61 63,65 54,98
99,41 58,87 99,07
69,76 62,88 85,27
Frecuencia Frecuencia Frecuencia Porcentaje
GRUPOS absoluta acumulada relativa Porcentaje acumulado
<50   0      
50-60 9 9 0,30 30,00 30,00
60-70 7 16 0,23 23,33 53,33
70-80 3 19 0,10 10,00 63,33
80-90 5 24 0,17 16,67 80,00
90-100 6 30 0,20 20,00 100,00
10
9
8
7
6
Frecuencia

5
4
3
2
1
0
50-60 60-70 70-80 80-90 90-100
Peso de los cerdos (kg)
35

30

25
Frecuencia

20

15

10

0
50-60 60-70 70-80 80-90 90-100
Peso de los cerdos (kg)
Análisis unidimensional de tipo
continuo
Resumen de resultados:
• Parámetros de posición
• Parámetros de dispersión
Parámetros de posición
• Media
• Mediana
• Moda
• Cuartiles
• Percentiles
Parámetros de dispersión
• Desviación típica
• Coeficiente de variación
• Varianza
• Coeficiente de asimetría
• Coeficiente de curtosis
Media

x
 xi
N

Es el valor característico de una serie de datos cuantitativos que parte del


principio de la esperanza matemática o valor esperado, se obtiene a
partir de la suma de todos sus valores dividida entre el número de
sumandos.

Se relaciona con el concepto de esperanza matemática

E ( x)   P( xi )  Ni  P( x1 )  N1 P( x2 )  N 2  P( x3 )  N3  ...  P( xn )  N n
¿Cuál es el número medio de abortos?
Número de partos Número de Número de Probabilidad
del animal observaciones animales con
abortos
1 15 5 0,33
2 16 8 0,50
3 22 11 0,50
4 26 14 0,54
5 32 16 0,50
6 21 18 0,86
Funciones de distribución F ( x)  P( X  x)
P(a  x  b)  F (b)  F (a)

dF ( x)
Función de densidad f ( x) 
dx

b
P(a  x  b)  F (b)  F (a)  a f ( x)dx
Función de densidad de la distribución normal:

( x  x ) 2
1 2 2
f ( x)  e
 2
Desviación típica

x 
 ( xi  x ) 2
N 1
Desviación típica

x 
 ( xi  x ) 2
N 1
de s
da
uni
las
de
ma
ble COEFICIENTE DE
Pro
VARIACIÓN

 ( xi  x ) 2

cv  N 1
X
Varianza

 x2 
 ( xi  x ) 2
N 1

La importancia de la varianza radica en que si Z  a  X  b Y

 z2  a   x2  b   y2 Si X e Y son independientes

 z2  a   x2  b   y2  2 cov( X , Y ) Si X e Y son dependientes


Covarianza
cov xy 
 ( xi  x )( yi  y )
N 1

Mide el grado de relación lineal entre dos variables


Ejemplo 9

El peso de una caja de 10 manzanas depende del peso de las mismas.


El peso de una caja de 10 naranjas depende del peso de las mismas.
Si en una caja ponemos 10 manzanas y 10 naranjas. ¿Cuánto será su media y
su varianza?
Ejemplo 9

El peso de una caja de 10 manzanas depende del peso de las mismas.


El peso de una caja de 10 naranjas depende del peso de las mismas.
Si en una caja ponemos 10 manzanas y 10 naranjas. ¿Cuánto será su media y
su varianza.
  Manzanas Naranja
caja 1 5,00 7,27
caja 2 6,00 6,58
caja 3 7,00 7,54
caja 4 5,00 7,16
caja 5 6,30 7,38
caja 6 7,20 7,10
caja 7 5,90 7,52
caja 8 6,40 7,79
caja 9 7,40 7,17
caja 10 6,50 6,37
caja 11 6,60 7,18
caja 12 8,10 7,92
caja 13 7,30 6,91
caja 14 7,20 8,20
caja 15 7,40 7,98
caja 16 7,10 7,08
caja 17 7,10 7,26
caja 18 7,20 7,85
caja 19 5,60 5,93
caja 20 5,60 7,95
  Manzanas Naranja Manzanas+ Naranjas
caja 1 5,00 7,27 12,27
caja 2 6,00 6,58 12,58
caja 3 7,00 7,54 14,54
caja 4 5,00 7,16 12,16
caja 5 6,30 7,38 13,68
caja 6 7,20 7,10 14,30
caja 7 5,90 7,52 13,42
caja 8 6,40 7,79 14,19
caja 9 7,40 7,17 14,57
caja 10 6,50 6,37 12,87
caja 11 6,60 7,18 13,78
caja 12 8,10 7,92 16,02
caja 13 7,30 6,91 14,21
caja 14 7,20 8,20 15,40
caja 15 7,40 7,98 15,38
caja 16 7,10 7,08 14,18
caja 17 7,10 7,26 14,36
caja 18 7,20 7,85 15,05
caja 19 5,60 5,93 11,53
caja 20 5,60 7,95 13,55
media 6,60 7,31 13,90
desviación típica 0,85 0,58 1,18
varianza 0,7300 0,331 1,38
  Manzanas Naranja Manzanas+ Naranjas
media 6,60 7,31 13,90
desviación típica 0,85 0,58 1,18
varianza 0,7300 0,331 1,38

Media manzanas + Media naranjas 13,90


Desviación típica manzanas + Desviación típica naranjas 1,43
Varianza manzanas + Varianza Naranjas 1,06
  Manzanas Naranja Manzanas+ Naranjas
media 6,60 7,31 13,90
desviación típica 0,85 0,58 1,18
varianza 0,7300 0,331 1,38

Media manzanas + Media naranjas 13,90


Desviación típica manzanas + Desviación típica naranjas 1,43
Varianza manzanas + Varianza Naranjas 1,06

NO COINCIDEN
  Manzanas Naranja Manzanas+ Naranjas
media 6,60 7,31 13,90
desviación típica 0,85 0,58 1,18
varianza 0,7300 0,331 1,38

Media manzanas + Media naranjas 13,90


Desviación típica manzanas + Desviación típica naranjas 1,43
Varianza manzanas + Varianza Naranjas 1,06

covxy 
 ( xi  x )( yi  y )
 0.155 NO COINCIDEN
N 1

 z2   x2   y2  2 cov(X , Y )  1.06  2  0.155  1.38


  Manzanas Naranja Manzanas+ Naranjas
media 6,60 7,31 13,90
desviación típica 0,85 0,58 1,18
varianza 0,7300 0,331 1,38

Media manzanas + Media naranjas 13,90


Desviación típica manzanas + Desviación típica naranjas 1,43
Varianza manzanas + Varianza Naranjas 1,06

covxy 
 ( xi  x )( yi  y )
 0.155 SI COINCIDEN
N 1

 z2   x2   y2  2 cov(X , Y )  1.06  2  0.155  1.38

  1.38  1.17
(Xi-Xmedia)*(Yi-
  Manzanas Naranja Xi-Xmedia Yi-Ymedia Ymedia)
caja 1 5,00 7,27 -1,60 0,68 -1,08
caja 2 6,00 6,58 -0,59 -0,01 0,01
caja 3 7,00 7,54 0,41 0,94 0,38
caja 4 5,00 7,16 -1,60 0,56 -0,89
caja 5 6,30 7,38 -0,29 0,78 -0,23
caja 6 7,20 7,10 0,61 0,50 0,31
caja 7 5,90 7,52 -0,69 0,92 -0,64
caja 8 6,40 7,79 -0,19 1,19 -0,23
caja 9 7,40 7,17 0,81 0,57 0,46
caja 10 6,50 6,37 -0,09 -0,23 0,02
caja 11 6,60 7,18 0,01 0,58 0,00
caja 12 8,10 7,92 1,51 1,33 2,00
caja 13 7,30 6,91 0,71 0,31 0,22
caja 14 7,20 8,20 0,61 1,61 0,97
caja 15 7,40 7,98 0,81 1,38 1,11
caja 16 7,10 7,08 0,51 0,48 0,24
caja 17 7,10 7,26 0,51 0,66 0,33
caja 18 7,20 7,85 0,61 1,26 0,76
caja 19 5,60 5,93 -0,99 -0,66 0,66
caja 20 5,60 7,95 -0,99 1,36 -1,35
media 6,60 7,31      
Suma 3,05
Cov (X,Y) 0,16
Si Z  a1  X1  a2  X 2  ....... an  X n

Si X1, X2, X3,…, Xn son dependientes

n n
 z2  
1
ai   i2 2 cov(X , X
1i  j n
i j) 

a1  12  a2   22  a3   32  ...... an   n2 
 2  cov(X1 , X 2 )  2  cov(X1 , X 3 )  2  cov(X 2 , X 3 )  .... 
 2  cov(X1 , X n )  2  cov(X 2 , X n )  2  cov(X 3 , X n )  ....  2  cov(X n1 , X n )
Por ejemplo: V  X Y  Z

 V2   x2 y   z2  2  cov(X  Y , Z )
Por ejemplo: V  X Y  Z

 V2   x2 y   z2  2  cov(X  Y , Z )

 V2   x2   y2   z2  2  cov(X , Y )  2  cov(X  Y , Z )
Por ejemplo: V  X Y  Z

 V2   x2 y   z2  2  cov(X  Y , Z )

 V2   x2   y2   z2  2  cov(X , Y )  2  cov(X  Y , Z )

 V2   x2   y2   z2  2  cov(X , Y )  2  cov(X , Z )  2  cov(Y , Z )


Por ejemplo: V  X Y  Z

 V2   x2 y   z2  2  cov(X  Y , Z )

 V2   x2   y2   z2  2  cov(X , Y )  2  cov(X  Y , Z )

 V2   x2   y2   z2  2  cov(X , Y )  2  cov(X , Z )  2  cov(Y , Z )


¿Se puede utilizar la media como valor
predictivo?
¿Se puede utilizar la media como valor
predictivo?
Mediana
En caso de poblaciones asimétricas es aconsejable usar como
valor predictivo la mediana.

La mediana se define como el VALOR CENTRAL


Si se ordenan los N valores de la población de menor a mayor la mediana
es:

• El valor que ocupa la posición:(N+1)/2 si N es impar


• Media entre los valores N/2 y (N+1)/2 si N es par
Moda

Valor más frecuente

media
mediana
moda
Ejemplo 10

En el estudio de insecticidas se define la LD50 (Dosis Letal 50) de un


producto como aquella dosis que administrada a una población de
insectos provoca la muerte del 50%.

¿Cuál es la población a estudiar si se desea conocer la LD50 de un


determinado producto?

¿Cuál es la variable aleatoria considerada?

¿Cuál es el parámetro de posición buscado?


Cuartiles
C1: La N/4 de los datos es menor a él, 3N/4 de los datos es
mayor a él.
C2: mediana
C1: La 3N/4 de los datos es menor a él, N/4 de los datos es
mayor a él.
Cuartiles
C1: La N/4 de los datos es menor a él, 3N/4 de los datos es
mayor a él.
C2: mediana
C1: La 3N/4 de los datos es menor a él, N/4 de los datos es
mayor a él.

Box-Whisker
Ejemplo 11

Las calificaciones obtenidas en un ejercicio se recogen en el siguiente gráfico,


analiza la tabla de frecuencias

5
Frecuencia

0
1 2 3 4 5 6 7 8 9 10
Calificaciones
5

4
Frecuencia

0
1 2 3 4 5 6 7 8 9 10
Calificaciones
Coeficiente de asimetría

ca 
 ( xi  x )3 / N  1
 x3
Coeficiente de curtosis
La curtosis es una medida de la forma, atendiendo a la concentración de los datos

k
 ( xi  x ) 4 / N  1
3
4
x
Volumen real Volumen
(cm3) predicho
Ejemplo 12
3037,32 4951,35
1931,45 2542,28
4361,86 6584,45
Volumen real _cm3_ Volumen predicho 1236,74 2002,64
------------------------------------------------------------ 1034,82 2004,11
Frecuencia 16 16 1291,84 2407,32
Media 4654,69 7276,34 13556,31 21397,06
Varianza 1,57455E7 3,27824E7
10185,31 11769,95
Desviación típica 3968,06 5725,59
12590,76 18750,29
Mínimo 1034,82 2002,64
3867,97 7329,30
Máximo 13556,3 21397,1
3900,75 5671,43
Rango 12521,5 19394,4
4249,19 9868,32
Asimetría 2,35339 2,53686
Curtosis 0,843229 1,54738 4017,55 5535,85

------------------------------------------------------------ 5330,19 7323,02


2276,60 4816,43
1606,31 3467,71
Distribuciones discretas
Cuando e conjunto de valores posibles que puede tomar
una variable aleatoria es discreto

F ( x)  P( X  x)

Distribuciones continuas
Cuando e conjunto de valores posibles que puede tomar
una variable aleatoria es continuo

F ( x)  P( X  x)  0 F ( x)  P( X  x)
Distribuciones discretas

• Distribución Binomial
• Distribución de Poisson

Distribuciones continuas
• Distribución Normal
• Distribución Gi-2
• Distribición T-Student
• Distribución F-Fisher
Funciones de distribución F ( x)  P( X  x)
P(a  x  b)  F (b)  F (a)

dF ( x)
Función de densidad f ( x) 
dx

b
P(a  x  b)  F (b)  F (a)  a f ( x)dx
Función de densidad de la distribución normal:

( x  x ) 2
1 2 2
f ( x)  e
 2
Distribución normal tipificada

( x  x ) 2 ( x ) 2
1 1
f ( x)  e 2 2 f ( x)  e 2
 2 2

Tipificación de una
variable normal

X  N  x, x 

zx
Z  N  0,1
x
Ejemplo 12

El peso de los toros de una determinada ganadería se distribuye


normalmente con una media de 500 kg y 45 kg de desviación típica. Si la
ganadería tiene 2000 toros, calcular:

a)  Cuántos pesarán más de 540 kg.


b)  Cuántos pesarán menos de 480 kg.
c)  Cuántos pesarán entre 490 y 510 kg.

Soluciones:    a)   373 toros   b)   660 toros   c)   348 toros
Ejemplo 13

Un investigador científico reporta que unos ratones vivirán un promedio de


40 meses cuando sus dietas se restringen drásticamente y después se
enriquecen con vitaminas y proteínas. Suponga que las vidas de tales ratones
se distribuyen normalmente con una desviación estándar de 6.3 meses,
encuentre la probabilidad de que un ratón dado viva

a) más de 32 meses
b) menos de 28 meses
c) entre 37 y 49 meses

Sol. a) 0.8979, b) 0.0284 , c) 0.6065


Ejemplo 14

La vida promedio de cierto tipo de motor pequeño es 10 años con una


desviación estándar de dos años. El fabricante reemplaza gratis todos los
motores que fallen dentro del tiempo de garantía. Si está dispuesto a
reemplazar sólo 3% de los motores que fallan, ¿de qué duración debe ser la
garantía que ofrezca?

Solución: 6.24 años


Ejemplo 15

En la prueba de un biol contra la botritis se comprueba que el 15% de las


plantas anteriormente afectadas evolucionan favorablemente con una
desviación típica del 3% . Si se repite el experimento sobre 50 plantas.

a) ¿Qué probabilidad hay de que al menos 5 evolucionen favorablemente?


b) ¿Qué probabilidad hay de que a lo sumo 6 evolucionen favorablemente?
Test de normalidad
- Papel probabilístico normal
- Prueba de Shapiro-Wilk
- Prueba de Anderson-Darling
- Prueba de Lilliefors
- Prueba de Jarque-Bera
Papel Probabilístico normal

• Cada punto representa una observación (dato de la muestra)

• El eje de la Y representa el porcentaje de valores menores a ese dato


(frecuencia relativa acumulada)

• La escala vertical de dicho papel está modificada

• Ordenados los datos de menor a mayor, a la observación “i‐esima”, la hace


corresponder como ordenada el valor ((i‐0,5)/N)*100

• Cuando los datos que representamos proceden de una variable que sigue
una distribución normal, los puntos correspondientes se sitúan
aproximadamente en torno a una recta
Interpretación del gráfico

a) Detección de datos anómalos


b) Asimetría Positiva
c) Asimetría Negativa.
d) Mezcla de dos poblaciones.

La mezcla de dos poblaciones con media diferentes, presenta una forma típica
don dos zonas de crecimiento rápido separado por un tramo de crecimiento
lento
¿Qué ocurre cuando la población no es normal?

• Datos de poblaciones distintas

25

23

21
f(x) = 0.81 x + 4.92
19
R² = 0.84
17

15

13

11

5
5 7 9 11 13 15 17 19 21 23 25
Cargar Statgraphics

Cargas XSTAT
La binomial se puede aproximar a la normal cuando N es grande


B (n, p)  N x  n  p,  x  n  p  (1  p) 
Tipos de influencia
- Causa-efecto
- Relación creciente
- Relación decreciente
- Interacción entre variables
Tipos de influencia
- Causa-efecto
- Relación creciente
- Relación decreciente
- Interacción entre variables

RESULTADOS
DISCUSIÓN
• ¿CUAL ES LA CAUSA DE ESE
COMPORTAMIENTO?

FORMULACIÓN DE UNA HIPÓTESIS

DESARROLLO DE UNA TEORÍA


VALIDACIÓN DE LA TEORÍA
¿CUMPLE CON TODAS LAS OBSERVACIONES?

¿HAY EXCEPCIONES?
VALIDACIÓN DE LA TEORÍA
¿CUMPLE CON TODAS LAS OBSERVACIONES?

¿HAY EXCEPCIONES?

LEY
CIENTÍFICA
Ejercicio propuesto
Plantear una investigación donde se defina:

¿Cuál es el objetivo?
¿Cuál es la población?
¿Cuál son las variables?
¿Modo de tomarlas?
Representación de los datos
¿Parámetros estadísticos a calcular?

También podría gustarte