Está en la página 1de 154

HUANCAVELICA

FACULTAD DE CIENCIAS DE INGENIERIA


E.A.P. ING. CIVIL

SESIÓN N° 04

Presentado por:

Carlos Enrique Espinoza


Quispe
LAS VARIABLES ESTADÍSTICAS

Escalas de medida

NOMINAL O DE DE ORDEN INTERVALOS


CLASIFICACIÓN JERÁRQUICO RAZÓN
IGUALES

Clase social, Sistemas Nº de hijos,


Sexo, ciudad,
nivel digesimal, ingresos,
situación vigesimal,
educativo, antigüedad,
laboral, centesimal,
escalas de edad, etc.
religión, etc. etc. Fecha del
actitud calendario,
(likert), etc. factoriales,
test, etc.
Definición: Es un nivel de probabilidad de equivocarse, y
que fija de manera a priori el investigador.
La probabilidad de que un evento ocurra oscila entre 0 y 1; donde 0
significa la imposibilidad de ocurrencia y 1 la certeza de que el fenómeno
ocurra.
¿Con qué porcentaje de confianza el investigador generaliza sus
resultados?
Nivel de Significancia de 0,01. O sea el investigador tiene 99% a su favor y 1% en contra.
Para generalizar su resultados sin temor.
Nivel de Significancia de 0,05. O sea el investigador tiene 95% a su favor y 5% en contra.
Para generalizar su resultados sin temor.
Nivel de Significancia de 0,10. O sea el investigador tiene 90% a su favor y 10% en contra.
Para generalizar su resultados sin temor.

Cuando los resultados son significativos al nivel del 0,05 (p<0,05) se


concluye que: Existe 5% de probabilidad de error al aceptar la hipótesis,
influencia, correlación o valor obtenido al aplicar una prueba estadística.
Definición: Es la representación
gráfica de la distribución normal
de probabilidades en un sistema
de coordenadas rectangulares.
Características:
 Es unimodal.
 La base está dada en unidades
de desviación estándar
(puntuaciones Z), de -3s a +3s.  1 x 2 
 La asimetría es 0. 1  2 (  ) 
y e  
 Es mesocúrtica.  2
 La media, mediana y moda
coinciden en el mismo punto.
 El área total de la gráfica es
1.00.
PARÁMETROS p1 ,
m1
 Características medibles de una
POBLACIÓN.
, x1
 Representadas por letras griegas.
 VALOR FIJO para una población dada. ŝ12
P
m2
p2 ,
 ,
x2
ŝ22
2
ESTADÍSTICOS
 Características medibles de una
MUESTRA, usadas para estimar
parámetros poblacionales.
 Representadas por letras latinas.
 VARIABLE para la población, fija para la
muestra dada.
ESCALAS DE MEDICIÓN Y PRUEBAS ESTADÍSTICAS
PRUEBAS
TIPO DE
ESCALAS ESTADISTICOS PERMITIDOS ESTADISTICAS
RELACION PERMITIDAS
Moda
NOMINAL IGUALDAD Distribución de Frecuencias.
Coeficiente de Contingencias
Cuartiles, Deciles y Percentiles No
Mediana
paramétricas
ORDINAL MAYOR QUE Coeficiente de Spearman
Coeficiente de Kendall
Chi Cuadrada
Media Aritmética
Varianza/Desviación Típica o Estándar
Coeficiente de Pearson
t de Student y/o Prueba Z
IGUALDAD DE Análisis de Varianza
INTERVALOS
INTERVALOS Análisis de Covarianza
Análisis Multivariado de Varianza Paramétricas
Análisis Lineal de Patrones
Análisis Discriminante
Asimetría y la Kurtosis
Media Geométrica
IGUALDAD DE
RAZON Coeficiente de Variación
RAZONES
MODA
Definición : Valor de la variable con mayor frecuencia

Características
 Útil para medidas nominales y ordinales

 No se afecta por valores extremos

 Se puede utilizar con clases abiertas

 Puede no existir o no ser única

Datos sin agrupar

297 314 333 350 388 412 421 455 455 455
466 466 502 502 542 587 601 621 629
Mo = 455
1) Determinar la clase que contiene la Moda
sesClases
Xi fXi F f frF Frfr Fr
Li  375
345330-345
337 3337 33 0,093 0,09 0,09 0,09
360345-360
352 3352 63 0,09 6 0,18
0,09
2) Realizar 0,18
la interpolación para hallar el valor de
375360-375
367 4367 104 0,1110 0,29
0,11 0,29
1 1
390375-390
382 12382 22
12 0,3422 0,63
0,34 0,63 Mo  Li  h
1   2
397 7397 
405390-405 2927 0,20
29 0,83
0,20 0,83
420405-420
412 4412 334 0,1133 =0,94
0,11
12 – 4 0,94
= 2 = 12 – 7 =
1
435420-435
427 2427 352 0,06835 1,00
0,06 1,00 5
ALTOTAL 35 35 1,00 1,00

8
Mo  375  15  375  9.23  384.23
85
Extensión del intervalo h = 390-375
Forma grafica de
determinar la moda h Extensión del intervalo

Diferencia
entre la 1 Diferencia
frecuencia de entre la
2
la clase modal frecuencia de
y la clase la clase modal
anterior y la clase
siguiente

Li Mo x
Limite inferior de la clase
modal
EJEMPLO 1:
En un estudio en particular
estaban interesados en evaluar el
número de frutos por planta de
zapallo. Se consideró solo las
plantas de una parcela; para cada
planta se contó la cantidad de
frutos que tenían. Los datos se
presentan en forma aleatoria a
continuación :

1 5 7 4 1 2 5 4
6 2 7 5 7 6 3 2
5 4 3 6 6 3 4 4
1 4 3 5 4 4
variable xi fi frecuencia
1 3
2 3
Hay 3
3 4 zapallos con
4 8 2 frutos
5 5
6 4
7 3 Hay 4
zapallos con
N=30
6 frutos
FRECUENCIA ACUMULADA
RELATIVA FRECUENCIA
PORCENTUAL
REALTIVA
FRECUENCIA
PORCENTUAL
FRECUENCIA
ACUMULADA
FRECUENCIA RELATIVA
RELATIVA
ACUMULADA

xi fi F fr Fr fr% Fr%

1 3 3 1/10 1/10 10 10
2 3 6 1/10 1/5 10 20
3 4 10 2/15 1/3 13.33 33.3
4 8 18 4/15 3/5 26.67 60
5 5 23 1/6 23/30 16.67 76.67
6 4 27 2/15 97/10 13.33 90
7 3 30 1/10 1 10 100
N=30 1 100
Cantidad de zapallos por planta

9
8
cantidad de plantas

7
6
5
4
3
2
1
0
1 2 3 4 5 6 7

Fuente: Datos brindados por la cátedra


cantidad de zapallos
 Elemplo 2:
 Siguiendo con el estudio del zapallo japonés
ahora estamos interesados en evaluar el peso de
los zapallos para eso registramos su peso en
kilogramos. Tomó una muestra de 30 zapallos

Variable: peso tipo cuantitativa continua


Muestra 30 zapallos
DATOS:

1.20 1.20 1.20 1.30 1.30 1.30


1.60 1.60 1.60 1.60 1.60 1.60
1.40 1.50 1.50 1.50 1.50 1.50
1.70 1.70 1.70 1.70 1.80 1.80

1.60 1.90 1.80 1.80 2.00 1.90

1º PASO: CALCULAR EL RANGO DE LOS DATOS. QUE


ES LA DIFERENCIA ENTRE EL MAXIMO VALOR Y EL
MINIMO

R= xM-xm= R= XM-xm = 2.00-


1.20=0.80
2ºPASO: CALCULAR LA CANTIDAD DE INTERVALOS
Regla de Sturges: K=1,322logN
Alternativamente se puede utilizar: K=5 log N
O sino: K= ; donde 25<N<400

Fórmula para calcular la cantidad de


intervalos Con la Ley de Portugal:

K=1+3.322*logN: N<50
K=1,8914+3,9910logN: 50<N<100
K=2,7560+5,8154logN: N>100

1+3.322log 30=5.67  6
3º PASO: CALCULAR LA AMPLITUD DEL INTERVALO

AMPLITUD= RANGO/Nº DE INTERVALOS

0.80/6=0.1333 0.15

La amplitud del intervalo es 0.15


SI COMENZAMOS CON 1.10

Clase xi MARCA DE
CLASE
(1.10-1.25] 1.18

(1.25-1.40] 1.33

(1.40-1.55] 1.48

(1.55-1.70] 1.63

(1.70-1.85] 1.78

(1.85-2.00] 1.93
Clase xi fi fr Fi Fr fr% Fr%

1 (1.10-1.25] 1.18

2 (1.25-1.40] 1.33

3 (1.40-1.55] 1.48

4 (1.55-1.70] 1.63

5 (1.70-1.85] 1.78

6 (1.85-2.00] 1.93
1.20 1.20 1.20 1.30 1.30 1.30 1.40

1.50 1.50 1.50 1.50 1.50 1.60 1.60

1.60 1.60 1.60 1.60 1.60 1.70 1.70

1.70 1.70 1.80 1.80 1.80 1.80 1.90


1.90 2.00
Clase xi fi Fr Fi Fr fr% Fr%

1 (1.10-1.25] 1.18 3 0.10 3 0.10 10 10

2 (1.25-1.40] 1.33 4 0.13 7 0.23 13 23

3 (1.40-1.55] 1.48 5 0.17 12 0.40 17 40

4 (1.55-1.70] 1.63 11 0.37 23 0.77 37 77

5 (1.70-1.85] 1.78 4 0.13 27 0.90 13 90

6 (1.85-2.00] 1.93 3 0.10 30 1.00 10 100


GRAFICOS: HISTOGRAMA
Cantidad de zapallos según peso

12

10
cantidad de zapallos

2
3
0
0.03 1.18 1.33 1.48 1.63 1.78 1.93 2.08

peso
Fuente: Datos brindados por la cátedra
POLIGONO DE FRECUENCIAS

Cantidad de zapallos según peso

12
cantidad de zapallos

10

0
0.03 1.18 1.33 1.48 1.63 1.78 1.93 2.08

Fuente: Datos brindados por la cátedra


peso
Ojiva o poligono de frecuencias acumuladas

33
30
27
24
21
peso

18
15
12
9
6
3
0
1.1 1.25 1.4 1.55 1.7 1.85 2
Fuente: Datos brindados por la cátedra cantidad de zapallos
Permite ayudarnos a determinar si existe relación de
interdependencia entre 2 variables, es decir, si se influyen
mutuamente.

donde nij es el número de


observaciones que presentan
simultáneamente las
características i, j de las
variables A y B,
respectivamente.

Así, una tabla de contingencia es una una tabla de


doble entrada, donde en cada casilla figurará el
número de casos o individuos que poseen un nivel
de una de las características analizadas y otro nivel
de la otra característica.
 Se define el cuantil de orden a como un valor de la
variable por debajo del cual se encuentra una frecuencia
acumulada a.
 Casos particulares son los percentiles, cuartiles, deciles,
quintiles,...
 Percentil de orden k = cuantil de orden k/100
◦ La mediana es el percentil 50
◦ El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

 Decil de orden k = cuantil de orden k/10


◦ La mediana es el decil 5
◦ El decil de orden 8 deja por debajo al 80% de las observaciones.
Por encima queda el 20%

 Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.
◦ Primer cuartil = Percentil 25 = Cuantil 0,25
◦ Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
◦ Tercer cuartil = Percentil 75 = cuantil 0,75
 El 5% de los recién nacidos tiene un peso demasiado
bajo. ¿Qué peso se considera “demasiado bajo”?
 Percentil 5 o cuantil 0,05

Percentil 5 del peso


25
20
frecuencia

15
10
5
0

1 2 3 4 5

Peso al nacer (Kg) de 100 niños


¿Qué peso es superado sólo por el 25% de los individuos?
 Percentil 75 o tercer cuartil

Percentil 75 del peso


30
25
20
frecuencia

15
10
5
0

50 55 60 65 70 75 80 85

Peso (Kg) de 100 deportistas


◦ El colesterol se distribuye simétricamente en la población.
Supongamos que se consideran patológicos los valores
extremos. El 90% de los individuos son normales ¿Entre qué
valores se encuentran los individuos normales?
Percentiles 5 y 95
20
15
frecuencia

10
5
0

180 200 220 240 260

Colesterol en 100 personas


◦ ¿Entre qué valores se encuentran la mitad de los individuos
“más normales” de una población?
 Entre el cuartil 1º y 3º
Percentiles 25 y 75
20
15
frecuencia

10
5
0

150 160 170 180 190

Altura (cm) en 100 varones

33
Diagrama de cajas de Tukey: Resumen en 5 números

Resumen con 5

0.08

números:
◦ Mínimo, cuartiles y

0.06
máximo.

densidad
◦ Suelen dar una buena

0.04
idea de la distribución.

0.02
Mín. P25 P50 P75 Máx.

 La zona central, ‘caja’,


contiene al 50% central

0.00
de las observaciones. 40 45 50 55 60 65

◦ Su tamaño se llama Velocidad (Km/h) de 200 vehículos en ciudad

‘rango intercuartílico’
(R.I.) Diagrama de cajas de Tukey: Resumen en 5 números

 Es costumbre que ‘los


bigotes’, no lleguen
0.04

hasta los extremos, sino


0.03

hasta las observaciones


densidad

que se separan de la
0.02

caja en no más de 1,5


R.I. P25 P50 P75
0.01

Mín. Máx.

◦ Más allá de esa distancia


se consideran anómalas,
0.00

y así se marcan. 80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehículos en autovía


Estadísticos

Número de años de es colarización


N Válidos 1508
Número de años de escolarización Perdidos 0
Media 12,90
Porcentaje Mediana 12,00
Frecuencia Porcentaje acumulado Moda 12
3 5 ,3 ,3 Percentiles 10 9,00
20 11,00
4 5 ,3 ,7
25 12,00
5 6 ,4 1,1 30 12,00
6 12 ,8 1,9 40 12,00
7 25 1,7 3,5 ≥20%? 50 12,00
60 13,00
8 68 4,5 8,0
70 14,00
9 56 3,7 11,7 75 15,00
10 73 4,8 16,6 80 16,00
11 85 5,6 22,2 90 16,00

12 461 30,6 52,8


13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7
≥ 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0
MEDIANA ( P50, D5,Q2)
Es el valor de la variable que divide a las observaciones en dos
grupos con el mismo número de individuos (percentil 50).
Si el número de datos es par, se elige la media de los dos datos
centrales
Si el número de observaciones es IMPAR 1, 2, 4, 5, 6, 6, 8

Mn es 5

Si el número de observaciones es PAR 1, 2, 4, 4, 5, 6, 6, 8

Mn es
(4+5)/2 = 4,5
Características
Calculada para datos en escala Ordinal, Intervalo y
Proporción (razón)
 Única para un conjunto dado de datos

 Fácil de determinar en datos no agrupados

 No es influenciada por valores extremos


La mediana es 5
1, 2, 4, 5, 6, 6, 800.
La media es 117,7

 Se puede calcular con clases con extremos abiertos


1) Ordenar los valores de menor a
DATOS
SIN AGRUPAR:
mayor i  (n  1)0.5
2) Determinar la posición i

DATOS
3) Hallar el valor de x en la Mn  xi
posición i
AGRUPADOS:

1) Determinar la posición (igual que para datos sin agrupar)

2) Determinar la clase que contiene la Mediana

3) Realizar la interpolación n
para hallar el valor de la Mn
2  Fa
Mn  Li  h
f
sesClases
Xi 1) Determinar la posición
fXi F f frF Frfr Fr (35  1)  0.5  18
345330-345
337 3337 33 0,09 3 0,09
2) clase 0,09 0,09 la Mediana Li  375
que contiene
360345-360
352 3352 63 0,096 0,18 0,09 0,18
3) Realizar la interpolación para hallar el valor
375360-375
367 4367 104 0,11 10 0,29
de la Mn
0,11 0,29
390375-390
382 12382 22
12 0,3422 0,63
0,34 0,63 n
405390-405
397 7397 297 0,20 29 0,83
0,20 0,83 2  Fa
420405-420
412 4412 334 0,11 0,11Mn
33 0,94  Li 
0,94 h
435420-435
427 2427 352 0,06 35 1,00
0,06 1,00 f
ALTOTAL 35 35 1,00 1,00
35  10
Mn  375  2 15  375  7.5  382.5
12 Extensión del intervalo h = 390-375
Distribución de frecuencias relativas acumuladas
de los pesos de novillos. FV. 2002
Distribución de frecuencias relativas acumuladas
de los pesos de novillos. FV. 2002
1,0
0,9 1,0
0,9
0,8 0,8
0,7 0,7
0,6
0,6
Fr

0,5
0,4
Fr

0,5 0,3
0,4 0,2
0,1
0,3 0,0
330 345 360 375 390 405 420 435
0,2 Marcas de Clase Kg
0,1
0,0
330 345 360 375 390 405 420 435
Mn (P50)
Marcas de Clase Kg
 Los coeficientes rhoi de Spearman, simbolizado por rs, y
tau de Kendall, simbolizado como t, son medidas de
correlación para variables en un nivel de medición ordinal,
de tal modo que los individuos u objetos de la muestra
pueden ordenarse por rangos o jerarquías.

Ambos coeficientes varían de -1.0 (correlación negativa


perfecta) a +1,0 ( correlación positiva perfecta)

 Estadísticas sumamente perfecta para variables ordinales


FORMAS TÍPICAS DE LOS DIAGRAMAS DE
DISPERSIÓN ESTADÍSTICA
La Prueba Chi-cuadrada
“Ch ”
2

Carlos Enrique Espinoza Quispe


Definición: Es una prueba estadística para Simbología:
datos no paramétricos, que se utiliza Ch2=X2
generalmente para evaluar hipótesis
estadísticas acerca de la relación entre dos Nivel de medición:
variables cualitativas categóricas. Nominal y ordinal.

Hipótesis a probar: Correlacionales.


Variables involucradas: (2) La Prueba Ch2 no considera relaciones
causales.

Fórmula: (n  1) S 2
X 
2

2
Donde:
n=número de elementos de la muestra.
n-1=número de grados de libertad.
S2=Varianza de la muestra.
Σ2=Varianza de la población.
Ejemplo 1:
En un estudio de la capacidad de aprendizaje de Matemática, en los
niños de una población, se tomó una muestra representativa de 40
niños. Se les aplicó una prueba de diagnóstico del aprendizaje en
Matemática y con los datos obtenidos se calculó la varianza s 2=8,4,
conociendo que la varianza poblacional es de σ2=12,37. Calcular el
valor del estadístico chi-cuadrado.

Solución: Datos:
n=40. ( n  1 ) S 2
(40  1)(8,4)
S2=8,4 X 
2
  26,48
σ2=12,37.
 2
12,37

Descripción y manejo de la tabla:

Si: α=0,05 y gl=4gl. X2(4)=9,488


Si: α=0,05 y gl=6gl. X2(6)=12,592
Si: α=0,05 y gl=10gl. X2(10)=18,307
Ejemplo 2: Marca de
Frecuencia
automóvil
Determinar si en este año la
distribución de la venta de Ford 18
automóviles: Ford, Nissan, Nissan 20
Toyota y Volskswagen en
Toyota 35
Huancayo es la misma que la del
año anterior. Volskswagen 37
TOTAL 100
Solución:
Paso 1: Distribución de ventas de automóviles.
Paso 2: Hipótesis estadística:
H0: Las ventas del año en curso es igual a la del año anterior.
H1: Las ventas del año en curso no es igual a la del año anterior.
Paso 3: El valor de α=0.05.
( fo  fe) 2
Paso 4: Estadígrafo de prueba: X 
2

fe
Valor crítico superior: X (0,025;3)  9,348
2

Paso 5: valor crítico:


Valor crítico inferior: X (20,975;3)  0,216

Paso 6: Cálculo de Ch2: X 2   ( fo  fe)  (18  25)  (10  25)  (35  25)  (37  25)
2 2 2 2 2

fe 25 25 25 25
X 2  1,96  9,00  4,00  4,76
X 2  20,72

Paso 7: Conclusión estadística:


Como la X2=20,72 cae en la zona de rechazo, entonces se rechaza la
hipótesis nula y se acepta la hipótesis alterna, afirmándose que las
ventas del año en curso no es igual a la del año anterior.
Ejemplo 3:
En la Facultad de Ingeniería de la
Universidad Peruana Los Andes, se desea Nerviosismo y ansiedad
determinar si existe alguna relación entre
el nivel académico (estudiantes del primer Nivel
año, segundo año, tercer año y cuarto año) académico NN LN MN EN TOTAL
y el nivel de nerviosismo medio por una Primer año 20 20 40 80 160
prueba estándar de nerviosismo y
ansiedad que indica el nerviosismo según Segundo año 10 30 30 30 100
las categorías siguientes: no nervioso (NN), Tercer año 40 20 10 10 80
ligeramente nervioso (LN), moderadamente
Cuarto año 40 20 0 0 60
nervioso (MN) y extremadamente nervioso
(EN). Si se elige aletoriamente a 400 TOTAL 110 90 80 120 400
estudiantes de la mencionada Facultad,
cuyos datos se muestran en la tabla
siguiente: Solución:

Paso 1: Hipótesis estadística:


H0: Las variables nivel académico y nivel de nerviosismo son independientes.
H1: Las variables nivel académico y nivel de nerviosismo son dependientes entre sí.
Paso 2: La prueba es unilateral y de cola a la derecha.
Paso 3: Nivel de significancia α=0,05.
Paso 4: Esquema de la prueba:

gl=(C-1)(F-1)=(4-1)(4-1)
gl=9
Y con: X2(9)=16,919

(Oij  Eij ) 2
Paso 5: Cálculo de Ch2: X   2

ij Eij

Nerviosismo y ansiedad

Nivel
académico NN LN MN EN TOTAL
Primer año E11 E12 E13 E14 160
Segundo año E21 E22 E23 E24 100
Tercer año E31 E32 E33 E34 80
Cuarto año E41 E42 E43 E44 60
TOTAL 110 90 80 120 400
Cálculo de Ch2:

 20  44 
2

E11     13,10
 44 
 20  36 
2

E12     7,11
 36 
 40  32 
2

E12     21,33
 32 
...
 0  18 
2

E44  
 18 
  18,00
X2(9)=154,14
Paso 6: Decisión

Como la X2=154,14 y este cae en la región de rechazo; por lo tanto


rechazamos la H0 y aceptamos la H1 que establece una asociación
entre las variables nivel académico y nerviosismo.
Medidas de Tendencia Central

MEDIA ARITMÉTICA

MEDIANA

centro
MODA

MEDIA ARMÓNICA.
MEDIA GEOMÉTRICA.
CUANTILES o SEPARATRICES
Es el cociente entre la suma de los valores de la variable, y el
tamaño de la población o de la muestra (número de observaciones)

POBLACIÓN MUESTRA

DATOS SIN N n

x x
AGRUPAR
i i
 i 1
x i

N n
k  k 
x x
DATOS k 
AGRUPADOS
x i fi i fi i fi
 i 1 x i 1
 i 1
k

f
N n
i
i 1
Estadística: el concepto de media aritmética o promedio

El cobre del Perú

¿Cuál fue el promedio del precio del cobre en los 5 días que se
indican en el cuadro anterior? (Noviembre de 2009)

150,638 + 152,725 + 150,729 + 151,636 +


152,044 = 757,772
Luego este total lo dividimos por 5, y obtenemos
757,772 centavos de dólar por
= 151,5544
5 libra de cobre
Cálculo a partir de datos agrupados.
El cálculo de la media aritmética, cuando los
datos disponibles se encuentran en tablas de
distribución de frecuencias, se realiza
utilizando la formula siguiente
n
 fi Xi
x  i 1
n
 fi
donde: :media muestral i 1

i x :frecuencia absoluta de la clase


fi :marca de la clase i
Xi
Ejemplo:
La distribución de frecuencias siguiente, representa
los puntajes obtenidos en una evaluación del
desempeño, aplicado al personal técnico de un
Centro de Salud. El puntaje máximo en la prueba es
50. Calcule e interprete en media.

Desempeño Número de
(puntos) técnicos
12 - 16 4
17 - 21 8
22 - 26 15
27 - 31 23
32 - 36 10
TOTAL 60
Primero se calcularán las marcas de clase ( Xi );
es decir, el valor intermedio de cada clase
Marca de Frecuencia
clase x
clase ( i ) absoluta(fi)
12 - 16 14 4
17 - 21 19 8
22 - 26 24 15
27 - 31 29 23
32 - 36 34 10
Total 60

14(4) + 19 (8) + 24 (15) + 29 (23) + 34 (10)  1575


x x
60
4 + 8 + 15 + 23 + 10
x  26.25
Interpretación: Si se elige al azar a un trabajador
técnico de este hospital, se espera que tenga un
puntaje de 26,25 en su evaluación de desempeño.

La media aritmética ponderada ( xp )


donde:
n

w X i i wi = factor de ponderación
xp  i 1
n

w
i 1
i
X i = datos
Ejemplo: Una empresa comercializadora de Seguros
Médicos dispone de 3 representantes para la zona de
Miraflores, cada uno de los cuales cobra diferente
comisión por póliza vendida, y realiza diferente número
de contratos. Calcule e interprete el valor medio de la
comisión

Nº de polizas de Comisión
Vendedor Seguro Médico por venta $
wi Xi
Pedro 30 30
Juan 25 40
Pablo 20 50
30(30)  25(40)  20(50) 2900
xp    $38.67
30  25  20 75

Interpretación:

Si se elige al azar un representante se espera que


cobre una comisión de $38.67 por póliza
vendida.
Ventajas y desventajas de la media aritmética
Ventajas:
Concepto familiar para muchas personas
Es única para cada conjunto de datos
Es posible comparar medias de diferentes
muestras
Desventajas
Se ve afectada por los datos extremos
Si la muestra es grande y los datos no están
agrupados, su cálculo es tedioso
Si los datos están agrupados en clases con
extremos abiertos, no es posible calcular la
media.
Medidas de Dispersión
Medida de información respecto a la cantidad de
VARIABILIDAD presente en un conjunto de datos.

dispersión

 AMPLITUD TOTAL O RANGO: A


2 2
 VARIANZA

 DESVIACIÓN TÍPICA O ESTANDARD

 SEMIRECORRIDO INTERCUARTÍLICO Q

 COEFICIENTE DE VARIACIÓN CV
población muestra

DATOS SIN

 x     2  x  x 
AGRUPAR 2 2

 
2 s 
n n 1
DATOS
AGRUPADOS

 f  x     2  f  x  x 
2
2
 
2 s 
n n 1
La varianza es una media de cuadrados de los desvíos (MC)

x  x 
suma de cuadrados

 2 de los desvios (SC)

2
ŝ 
n-1 grados de libertad (GL)

La división por n-1 asegura que la varianza muestral sea una estimación
centrada de la varianza poblacional
Es sensible a valores extremos (alejados de la media).

Sus unidades son el cuadrado de las de la variable

DESVIACIÓN TÍPICA
Es la raíz cuadrada de la varianza ˆS  Sˆ 2
Tiene las misma dimensionalidad (unidades) que la variable.
Coeficiente de variación

CV 
 Es el cociente entre la desviación típica y la media.
◦ Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media” x
 Es frecuente indicarla en porcentajes
 Si la media es 80 y la desviación típica 20 entonces
CV =20/80 = 0,25 = 25% (variabilidad relativa)

 Es adimensional. Interesante para comparar la variabilidad de


diferentes variables.
◦ Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.

 No debe usarse cuando la variable presenta valores negativos o donde


el valor 0 sea una cantidad fijada arbitrariamente
◦ Por ejemplo 0ºC ≠ 0ºF
Q3  Q1 P75  P25
Q 
2 2
sesClases
Xi fXi F f fr1)FDeterminar
Frfr Frposición para cada Percentil
la
345330-345
337 3337 33 0,093 0,09 0,09Para
0,09el P25 (35  1)  0.25  9
el P75 (35  1)  0.75  27
360345-360
352 3352 63 0,096 0,18 0,09Para
0,18
375360-375
367 4367 104 0,11 10 0,29
0,11 0,29
2) La clase que contiene P25 Li  360
390375-390
382 12382 22
12 0,3422 0,63
0,34 0,63
2) La clase que contiene P75 Li  390
405390-405
397 7397 297 0,20 29 0,83
0,20 0,83
420405-420
412 4412 334 0,11
3)33 0,94
0,11la 0,94
Realizar n.r  Fa
interpolación P r  Li  h
435420-435
427 2427 352 0,06 35 1,00
0,06 1,00 f
ALTOTAL 35 35 1,00 1,00
35  0.75  22
Q3  390   15  399.11 399.11  370.31
7 Q  14,4
2
35  0.25  6
Q2  360   15  370.31
4
Qué medidas de tendencia central y
dispersión utilizar
forman DUOS
Según teoría de
momentos
Media -
Datos numéricos –
Varianza y distribuciones simétricas o asimétricas
desviación típica con muchas observaciones

Según el método de las


separatrices
Mediana - Datos ordinales o numéricos
Semirrecorrido distribución asimétrica y con pocas
intercuartílico observaciones-

Según el método de los extremos

Moda - Datos nominales


Distribuciones bimodales
Amplitud total
La “r”
de Pearson

Carlos E. Espinoza Quispe


Definición: Es una prueba estadística que Simbología: “r”
sirve para analizar la relación entre dos
variables medidas en un nivel por intervalos Nivel de medición:
o de razón. Intervalos o razón.

Hipótesis a probar: Correlacionales del tipo:


“A mayor x, mayor y”; “A mayor x, menor y”; “Altos valores de x están
asociados con altos valores en y”; “Altos valores de x están asociados con
bajos valores en y”.
Variables involucradas: (2) La Prueba “r” no considera la noción de causa
y efecto (o sea en esta prueba no existen las VI ni las VD), solo mide el grado
de relación que puede ser Directa (+) e Inversa (-).

Fórmula:
EL COEFICIENTE DE CORRELACIÓN LINEAL
DE PEARSON
Si el coeficiente de correlación de Pearson (r) es cercano a 0,
las dos variables no tienen mucho que ver entre sí (no tienen
casi ninguna covariación lineal). Si su valor es cercano a +/-
1, esto significa que la relación entre las dos variables es
lineal y está bien representada por una línea.
La Prueba “t”
de Student

Carlos E. Espinoza Quispe


Definición: Es una prueba estadística para evaluar
si dos grupos difieren entre sí de manera
Simbología: t
significativa respecto a sus medias. Nivel de medición:
Intervalos o razón
Hipótesis: De diferencia entre dos grupos. La hipótesis de investigación
alterna, propone que los grupos difieren de manera significativa entre sí
y la hipótesis nula propone que los grupos no difieren significativamente.
Variable: La comparación se realiza sobre una variable (teóricamente
dependiente). Si hay diferentes variables, se efectúa varias pruebas t
(una por cada variable), y la razón que motiva la creación de los grupos
es la variable independiente. El tamaño de muestra es pequeño: n<30
Fórmula: _
X 1 X 2
_
Grados de Libertad: Es el número de maneras
t en que los datos pueden variar libremente.
S12 S 22

n1 n2 gl=(n1+n2)-2
Tamaño del Efecto: Es la diferencia estandarizada entre las medias de
los 2 grupos.
Las medias varían
_ _
X 1 X 2 9,10  7,19
Tamaño del efecto  Tamaño del efecto   0,97 menos de una S, una
Desv. Stad. Sopesada 1,96 respecto de la otra.
Prueba de Hipótesis

1. Formular la hipótesis nula y alterna de acuerdo al


problema.
2. Escoger un nivel de significancia o riesgo α.
3. Escoger el estadígrafo de prueba más apropiado.
4. Establecer la región crítica.
5. Calcular los valores de la prueba estadística de una
muestra aleatoria de tamaño “n”.
6. Decisión Estadística.
Ejemplo 1:
Se aplicó un test de inteligencia a una muestra de 15 alumnos de
la Provincia de Huánuco y se determinó un CI promedio de 105.4
con una desviación estándar de 5.3. Se sabe que al estandarizar el
mencionado test en los Colegios Secundarios de Huancayo, se
halló un CI medio de 101. Asumiendo un nivel de significancia del
1%, probar que el rendimiento mental del grupo de 15 alumnos, es
más alto que el promedio de estandarización del test.

Solución:

 Rendimiento mental medio en la estandarización = 101

x Rendimiento mental medio de la muestra = 105.4


 Ho: µ=101, No existe diferencias significativas en el rendimiento
mental de la muestra ẋ y de la población.
 H1: µ>101.

2. Prueba unilateral de cola a la derecha:


 De acuerdo con H1.

3. Nivel de significancia:
 Asumido: 1%=0.01.
4. Distribución aplicable:
Como se conoce la media (ẋ) de la muestra y la media poblacional (µ), se debe utilizar la
distribución muestral de medias, además se desconoce la desviación estándard (σ); y
como n<30 y los datos se ajustan obedecen a una distribución normal.

5. Esquema gráfico de la prueba


 Nivel de significancia: α=0.01.
 Grados de libertad: gl=n-1=15-1=14 gl.
 En la tabla “t”, con 14 gl y α=0.01 y a una cola: tc=2.624.
7. Cálculo del estadígrafo de la prueba:
Datos:
x  105,4
x   105,43  101 4,4
  101 t    3,11
S 5,3 1,426
S  5,3
n  15 n 1 15  1
8. Toma de decisiones:
 Como tc=3,11 y este cae en la zona de rechazo, por tanto descartamos
la Ho y aceptamos la H1; es decir el grupo de 15 alumnos tiene un
rendimiento mental mayor que el promedio de estandarización.
Ejemplo 2:
Para verificar la suposición de que existe diferencia en el rendimiento
académico en la asignatura de Análisis Matemático I, en los
estudiantes de dos aulas A y B de una Universidad, se tomó una
muestra aleatoria de cada aula y se les aplicó una misma prueba de
conocimientos, obteniéndose los puntajes que a continuación se
indican.

Aula A: 16,43,24,35,20,27,29,30,40,32.
Aula B: 15,40,18,37,16,29,30,45,20,36.

Realizar la prueba al nivel de significación de 5%.

Solución:
µ1: El rendimiento académico en Matemática del Aula A.

µ2: El rendimiento académico en Matemática del Aula B.


 Ho: µ1=µ2, No existe diferencias significativas en el rendimiento
académico de Matemática en las dos aulas A y B.
 H1: µ1 ≠ µ2; µ1>µ2 ó µ1<µ2: Existe diferencias significativas en el
rendimiento académico de Matemática en las dos aulas A y B.

2. Determinación del tipo de Prueba:


 Existe dos posibilidades de la H1, y como no se puede anticipar la
dirección de la prueba, debe realizarse una prueba bilateral.

3. Nivel de significancia:
 Asumido: 5%=0.05.
4. Distribución aplicable:
 Teniendo en cuenta que se quiere comparar el puntaje en dos muestras
pequeñas y como los datos están distribuidos normalmente, utilizaremos la
prueba de diferencia de medias con la distribución de Student.

5. Esquema gráfico de la prueba


 Nivel de significancia: α=0.05.
 Grados de libertad: gl=n1+n2-2=10+10-2=18 gl.
 En la tabla “t”, con 18 gl y α=0.05 y a dos colas: tc=2.101.
7. Cálculo del estadígrafo de la prueba:
Datos :
x1  29,6;
x1  x2 29,6  28,6
S  63,84
2
t   0,24
63,84  105,64
1

x 2  28,6; S S
1
2 2
2

S 22  105,64 n 10

8. Toma de decisiones:
 Como la tc=0,24 cae en la zona de aceptación, por tanto descartamos la
H1 y aceptamos la H0; es decir no existe diferencias significativas en el
rendimiento del curso Análisis Matemático I en las dos aulas A y B.
Ejemplo 3:
Se necesita verificar la PROCESAMIENTO DE INFORMACION
eficacia de una Estrategia Estudiantes Grupo A Grupo B
Didáctica en una Universidad 1 30 44
específica. 2 43 40

3 24 36

Cuadro comparativo (Grupo A y Grupo B) 4 35 37

50
5 20 16
45
40 6 27 29
Puntuación

35
30 Grupo A
7 29 38
25
Grupo B
20 8 30 45
15
10 9 25 35
5
0
10 34 36
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
N° de trabajadores 11 27 29
12 29 35
13 32 45
Solución: 14 40 42
15 18 36
HIPÓTESIS ALTERNA: HIPÓTESIS NULA:

H1 : GE  GC H o : GE  GC


esto es: H :    ó   
No existe diferencias en
1 1 2 1 2

Si existe diferencias en el el aprendizaje en el


aprendizaje en el grupo A grupo A y grupo B.
y grupo B.

Donde:
Se eligió el nivel de
significancia:
α=0,05.

3. El estadígrafo de prueba
Se eligió el nivel de significancia: α=0,05.
Luego se seleccionó el estadístico de prueba, ”t de
Student”, debido a que la muestra es pequeña y
además ésta tiene distribución normal y los dos
grupos fueron asignados aleatoriamente.

Asimetría de Pearson: Grupo “A” = 0,237 y Grupo “B” = 0,080


La prueba t sigue
una distribución:
NE+NC-2gl,
Es decir: 15+15-
2=28gl.

Se determinó la
región de rechazo
(RR), 28gl y α=0,05
(2,048)
_ _
X 1 X 2 29,53  36,20
t   2,5654
S S1
2 2
2 (6,74)  (7,48)
2 2

n 15
Como la t calculada (tc)
con los datos procesados
es igual a: -2,5654 y este
cae en la zona de
rechazo; entonces se
rechaza la Ho, y se acepta
la hipótesis alterna H1.
Carlos E. Espinoza
Quispe
 Un factor ( tratamientos) Categórica

 Una variable de respuesta: Cuantitativa

 Pregunta principal: Las medias de cada grupo


difieren o están “afectadas” por el tratamiento?

 Número de grupos: El caso particular de


dos grupos , utilizamos test de t

 Número de grupos: Cuando son más de


2 grupos: Problema de las comparaciones
multiples
COMPARACION DE MAS DE DOS
MEDIAS
Cuando se comparan dos medias a nivel de significación a, la
probabilidad de cometer un error de tipo I es a

a
Cuando se comparan de a dos a medias tenemos
comparaciones posibles.
C2
P(x=0)=(1-p)^n P(x>0)=1-[(1-p)^n]
C 2a
Probabilidad de cometer un erro tipo I = 1-[(1-α) ]

Para 5 grupos tenemos 10 comparaciones posibles


Para un a = 0,05 :
P(x>0)=1-[(1-0,05)^10]= 0,40
Una solución para este problema es la
a
CORRECCION DE BONFERRONI :
a ' a
C 2
Suele ser excesivamente severa

0.05
En el ejemplo:
a'  0,005
10
HAY OTRAS ALTERNATIVAS: UNA DE ELLAS ES EL

ANALISIS DE LA VARIANZA
sˆentre2
Fc  2
sˆdentro
ANOVA (ANalysis Of
Variance) Modelo I – efectos
Finalidad
Comparar simultáneamente
fijos
xij    ai   ij
varias medias
xBj
x
Bj
B Variación total
 aB
A
C

A B C grupos
xij    i     xij  i  En la
a i población
xij  x  xi  x   xij  xi  En la muestra
Elevando al cuadrado:

xij  x   xi  x   xij  xi 


2 2 2

 2xi  x  xij  xi 
Sumando: 
 xij  x
ij

2
ij
2
ij

  xi  x    xij  xi 2

SC TOTAL SC ENTRE SC DENTRO de


grupos grupos (residual)

 xij  x
ij

2
  xi  x    xij  xi
ij ij
2
  2

SC SC ENTRE SC DENTRO de
TOTAL grupos grupos (residual)

 ( xij  x )
2
Recordar
SCentre ij
sˆentre
2
 
glentre a 1

 ( xij  xi )
2
SCdentro ij
sˆdentro
2
 
o residual
gldentro na
HIPOTESIS En general

Modelo I H 0 : i : α i  0 H 0 : i :  i  
MEDIAS DE CUADRADOS ESTIMA

a i
MC entre = SC entre/(a-1) 2
a = no de grupos 2
  ni a 1
Mod I
ni  tamaño medio
del grupo


MC dentro = SC dentro/(n-a ) 2
n = tamaño de la muestra total

Si Ho es verdadera : MC entre = MC dentro en la población


TEST DE HIPOTESIS

Fcalc = MC entre/ MC dentro


se compara con Ftab (a-1) y (n-a) grados de libertad

Supuestos para la validez del test

Normalidad de Homocedasticidad
los residuos (ij) de los residuos

C A B

Independencia de las observaciones


Ti2 T 2 2
SC entre i n i
 n
SC total   xij2
ij
 T
n

SC dentro  SC total  SC entre

Donde: Ti   xij En el i-ésimo grupo


j
ni  Tamaño del i-ésimo grupo

T   x ij Gran total
ij

n n
i
i
Tamaño total de la muestra
FUENTE DE SUMA DE GL MEDIA DE Fcalc
VARIACION CUADRADOS CUADRADOS
ENTRE SC entre a-1 MC entre
GRUPOS
SC entre (a  1)
MC dentro
DENTRO DE SC dentro n-a SC dentro (n  a)
GRUPOS

TOTAL SC total n-1

0.4
f(x)
El Fcalculado se compara con

el Ftabulado con (a-1) y (n-a) GL 0.2

0.0 10
0.0 1.5 3.0 4.5 2
CALCULO DE LAS SUMAS DE CUADRADOS
A B C D
H 0 : i :  i  
4.4 8.6 3.4 8.9
5.9 4.5 7.3 0.0
6.2 8.4 8.8 1.7
2
 xij  597.2
ij
6.3 8.7 0.2
0.1
n  ni 16
Ti 22.8 30.2 19.8 10.6 T =83.4 a4
ni 4 4 5 3 n = 16

2
SC total  597.2  83.4 16  162.4775

22.8 2 30.2 2 19.8 2 10.6 2 83.4 2


SC entre       39.1088
4 4 5 3 16
SC dentro  SC total  SC entre  162.4775  39.1088  123.3687
gl gl numerador (trat-1)
denominador
(n-trat)
FUENTE DE SUMA DE GL MEDIA DE Fcalc
VARIACION CUADRADOS CUADRADOS
ENTRE 39.1088 3
3 13.036 1.27
GRUPOS
DENTRO DE 123.3687 12
12 10.281
GRUPOS

TOTAL 162.4775 15
F0.95(3, 12)= 3.49

Fcalc menor que Ftab  No Se rechaza Ho


 las medias no difieren entre sí
A B C
2.6 3.2 2.4
2.4 3 2.8
2.9 2.8 2.5
2.6 2.9 2.7
2.7 3.3 2.5
2.9 3.1 2.9
2.5 3 2.4
2.8 3.4 2.6
2.5 3.2 2.2
3 3.2 2.6

-> trat = A
| Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
| 10 2.69 .2024846 2.4 3

-> trat = B
| Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
| 10 3.11 .1852926 2.8 3.4

-> trat = C
| Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
| 10 2.56 .2065591 2.2 2.9
. oneway x y,b
Analysis of Variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 1.65266668 2 .826333338 21.01 0.0000
Within groups 1.06200005 27 .039333335
------------------------------------------------------------------------
Total 2.71466672 29 .093609197

Bartlett's test for equal variances: chi2(2) = 0.1124 Prob>chi2 = 0.945

Ganancia de Peso por Tratamiento


Comparison of x by y (Bonferroni) (30 Preoperative Patients)
Row Mean-|

3.5
Col Mean | A B
---------+----------------------
B | .42
ganancia de peso (kg)

| 0.000 3
C | -.13 -.55
| 0.463 0.000
2.5
2

A B C
 Observaciones Independientes.
 Distribución Normal.
 Varianzas Homogéneas.
 Con el fin de obtener inferencias válidas, resulta
importante determinar si los errores se encuentran
correlacionados.

 El supuesto más importante es la independencia de


las observaciones, pues si no hubo asignación
aleatoria de tratamientos a unidades
experimentales, entonces los resultados pueden
incluir un efecto persistente de factores no
considerados en el análisis. Esto invalida el
experimento
 No es tan importante como la Independencia
de las Observaciones, pues el ANOVA es
robusto. Esto quiere decir que, aunque las
observaciones no sean normales, las medias
de los tratamientos son aproximadamente
normales debido al Teorema Central del
Limite.

 Ante la falta de normalidad se puede optar


por el uso de transformaciones o, como
último recurso, el uso de métodos no
paramétricos.
 Esta prueba resulta fundamental, pues cualquier
situación de heterogeneidad de las varianzas
invalida las inferencias realizadas.

 Pueden existir grupos muy homogéneos y, en el


caso de existir un grupo muy heterogéneo, sería
posible no detectar diferencias entre los grupos
con varianzas homogéneas por el efecto de la
contribución a la varianza de ese grupo
heterogéneo.

 Cuando existe el problema de heterogeneidad


de varianzas, lo apropiado es emplear
transformaciones o métodos no paramétricos.
 Homogeneidad de Varianzas
◦ Bartlett
 Normalidad
◦ Kolmogorov-Smirnov
 Autocorrelación
◦ Durbin-Watson

 Es importante mencionar que el empleo de


estadística no paramétrica o el uso de
transformaciones no elimina el problema de la
falta de aleatoriedad (falta de independencia), es
decir, la ejecución incorrecta de un experimento
no tiene un remedio en la etapa del análisis.
Carlos E. Espinoza Quispe
Se elimina la variación debida
a la/s Covariable/s de la
estimación de la varianza del
error y se la evalúa como un
efecto principal separado

 Este procedimiento es la combinación de las


técnicas:
◦ Análisis de la Varianza
◦ Análisis de Regresión
 Objetivos
Estudiar la relación de una variable cualitativa (factor)
con una variable cuantitativa (covariable).

La variable cualitativa (t) recibe el La variable cuantitativa (X) recibe el


nombre de factor, dicha variable nombre de covariable y no es controlada
es controlada por el por el experimentador pero puede
experimentador y se presenta a medirla al mismo tiempo que la variable
varios niveles respuesta (Y: variable dependiente)
 Análisis de la Covarianza Unifactorial

 Modelo Unifactorial con una covariable

 Diseños en bloques completos aleatorios con una covariable

 Diseños en bloques completos aleatorios con dos covariables

 Diseños factoriales con dos factores y una covariable.

 Diseño factoriales con dos factores y dos covariables


Describe a una situación que involucra:
◦ Una variable independiente cualitativa con diversos niveles.
◦ Una o más covariables (variables independiantes cuantitativas)
Modelo Unifactorial con una covariable
En un diseño con un solo factor y una sola covariable, si se supone
que existe relación lineal entre la variable respuesta y la covariable:

ti: Es el efecto producido por el tratamiento i-ésimo


b: Es el coeficiente de regresión lineal que representa la cantidad
en que varia la variable respuesta por cada cambio unitario de la
covariable.
x : Es el valor de la covariable correspondiente a la observación yij. .
ij

:Es la media de la covariable.


En un diseño completamente aleatorizado la suma total de
cuadrados puede descomponerse en suma de cuadrados entre
tratamientos y en suma de cuadrados residual.
A.- Contraste de hipótesis
1. Todos los niveles del factor producen el mismo efecto (Ho: ti = 0 ∀i) vs
(H1: ti ≠ 0 por lo menos para algún i).
2. El coeficiente de regresión b es 0
Ho: b = 0
H1: b ≠ 0
B.- Contraste de los efectos del factor
El estadístico de contraste para contrastar la hipótesis nula Ho: ti = 0 ∀i
es:

Se rechazará Ho cuando Fexp > al nivel de significación a


C.- Contraste del coeficiente de regresión (b)
El estadístico de contraste para contrastar la hipótesis nula Ho: b =
0 viene dada por la expresión:

Si este valor es mayor que el valor teórico al nivel de significación


de a se rechaza la hipótesis de que el coeficiente de regresión es
igual a 0.
El modelo estadístico para este diseño es:

Siendo
 ti el efecto producido por el nivel i-ésimo del factor principal (
)
 gj el efecto producido por el nivel j-ésimo bloque ( )
 b es el efecto ijésimo valor observado en la covariable
Las Sumas de Cuadrados y productos Cruzados tienen las siguientes
expresiones:
.
 Modelo estadístico
 Modelo estadístico
Consideramos un diseño unifactorial equilibrado con dos
factores, supongamos que hay a niveles para el factor A y
b niveles del factor B y cada réplica del experimento
contiene los ab tratamientos posibles

Siendo
r: nº de replicaciones
tgij: el efecto producido por la interacción entre A y B.
 Modelo estadístico

Siendo
r: nº de replicaciones
tgij: el efecto producido por la interacción entre A y B.
Se tiene ocho variedades de fresas (A, B, C, D, E, F, G y H)
sembradas a lo largo de cuatro franjas de un terreno. Cada franja
se ha dividido en ocho parcelas donde se siembran las ocho
variedades de fresas. No se tiene seguridad de que el terreno sea
igual de fértil en todas las franjas, por lo que la cantidad de
fresas recolectada podría depender de la franja en la que se
siembra.

Además, en el límite este del terreno hay un seto que podría


quitar elementos de tierra beneficiosas para las fresas,
influyendo de alguna manera en la cosecha recogida.

Los datos de los kilos recolectados y la distribución del cultivo


de las fresas en terreno se representan a continuación en la tabla
1
Caso práctico

A B C D E F G H
I
5.8 6.3 4.9 6.5 4.5 5.2 6.5 3.8

G H F E A B D C
II
6.9 7.6 7.9 5.6 7 5.5 4 2.7
Franja Seto
B D C A H G E F
III
7.6 6.4 5 6.9 7.4 5.3 5.2 3.2

G E F H A D B C
IV
7.5 7 6.1 7.2 6.5 5.6 5.8 1.4

Distancia al seto
8 7 6 5 4 3 2 1
(en metros)

Tabla 1
Se pide:

1. Describir el problema planteado, identificando los elementos.

2. Escribir el modelo matemático asociado donde se introduzca el


inverso de la distancia al seto como variable concomitante.

3. ¿Es necesario controlar la influencia de esta variable? ¿Es el


terreno igual de fértil en todas las franjas?

4. Analizar las diferencias entre las ochos variedades de fresas. De


existir diferencias entre las cantidades recolectadas, decidir por
el método de Bonferroni cuáles son las variedades de las que
recoge más cosecha.
13
2
1.- Describir e probema panteado,
identificando os eementos.
La variable respuesta que se mide
es el “número de kilos recogidos
de cada variedad de fresa”. El
factor de interés es la variedad de
fresa. Las unidades
experimentales
son las parcelas, a las que se
les anota el número de kilos
recogidos de fresa.

El hecho de que las franjas de


terreno
puedan influir sobre las cosechas,
hace que se deba incluir también
el seto, se tomará como posible
variable concomitante el inverso
de la distancia al seto. Así los
tratamientos son los ochos tipos
de fresa.
2.- Modelo matemático (variable concomitante: INV_distancia al seto) .

El modelo matemático asociado a esta situación es:


yij =  + ai + gj + b(xij – ..) + ij ; i=1, … , 8; j=1, … , 4
ij ≈ N(0,σ) independientes

yij: kilos de fresa de variedad i recolectados en la franja j.


xij: inverso de la distancia al seto de la parcela de la franja j donde se siembra la
fresa i.
: número medio de kilos recolectados.
ai: efecto medio adicional sobre la cosecha media de la variedad de fresa i.
gj: efecto medio adicional sobre la cosecha media de la franja j.
b: influencia de la distancia al seto sobre la cosecha media.
Así, yij ≈ N( + ai + gj + b(xij – ), σ) independientes
Para realizar el estudio de la varianza se comprueba
 Normalidad

 Homocedasticidad

yij ~ N (µ+αi ,σ)


Para verificar si se trata o no de una distribución Normal
se realiza un contraste Chi-cuadrado

A continuación, vamos a verificar la condición de


Homocedasticidad mediante un Contraste de Varianza.

13
5
Por lo tanto, P-valor > 0,10.
Así que, no se rechaza H0 al nivel
del 10% de significación. De este
modo, podemos concluir que la
distribución es normal.
¿Es el terreno igual de fértil
en todas las franjas?
3.- ¿Es necesario controlar la influencia de esta variable?
p-valor asociado a la
variable concominante es
0,0000.
El inverso de la distancia al
seto influye sobre la
cantidad de fresa
recolectada.

Si es necesario incluir en el
análisis la distancia al seto.

Sin embargo, las franjas de


terreno no son influyentes
sobre las cosechas
recogidas, lo que hace
suponer que todas ellas son
igual de fértiles. 13
7
Se replantea el modelo,
suprimiendo del
4.- Analizar las mismoentre
diferencias el las 8 variedades
Ladevariable
fresas concominate
factor bloque. (INV_SETO) es significativa e
influye sobre la cosecha
recogida.

Con respecto a las


diferencias entre las
variedades de fresa,
obtenemos un (p-
valor)fresa=0,0110 < a,
siendo significativa las
diferencias a un nivel del
95%, pero no al 99%.
13
8
Las4.-diferencias
Analizar las diferencias entre las 8 variedades de fresas
encontradas entre las
cantidades medias
recogidas de las
variedades son C y H.

Y de la cosecha que más


se recoge es de la
variedad H, siendo su
media 6.7.

13
9
 Efecto de fertilizantes en el estudio de las plantas
 Efecto de formas nuevas de promoción en la venta de sus vinos en supermercados.
 Las formas de promoción son: Degustaciones, Aumento de espacio en los estantes, Muestrarios en los
extremos del pasillo
 Efecto de las dietas en cerdos de la misma edad
 Efecto de la renta, según zona geográfica, pero ajustando previamente por variables cuantitativas
como la protección social (covariable).
 Efecto de las horas trabajadas según la educación y sexo.
 Efecto de reducir las diferencias salariales entre hombres y mujeres al asistir a los cursos de formación
que antes han sido planificados.
 Efecto de la religión en la actitud hacia el divorcio según nivel educacional
 Efecto de los métodos de enseñanza en el rendimiento según habilidades de los alumnos (cov).
 Efecto de documentales en el deseo de viajar a la Patagonia.
 Efecto de corregir resultados observados de conocimientos iniciales sobre una materia determinada.
 Efecto de comparar rendimientos en un proceso químico según los porcentajes de impureza en la
materia prima a diversas temperaturas.
 Efecto de distintos métodos de aprendizaje en los alumnos.
 Efecto de métodos de adelgazamiento en pacientes.
 Efecto de un tratamiento y efecto de una o más variables de confusión potenciales según puntuaciones
previas a la prueba, edad, educación, nivel social y nivel de ansiedad.
 Efecto de la hipertensión según la edad y sexo.
 Efecto en la producción al utilizar diferentes insecticidas en un cultivo de patatas.
MEDIDAS DE RESUMEN
 Medidas de tendencia central
 Medidas de dispersión
 Medidas de posición
FORMA DE LADISTRIBUCION

 medidas de asimetría (sesgo)

as = + as = -

Coeficiente de asimetría
asimetría positiva asimetría negativa
x  Mn
as  3

•Es nulo cuando la


distribución simétrica distribución es simétrica
 SIMÉTRICA
◦ las observaciones equidistan del máximo central con la
misma frecuencia.
Coinciden Media, Moda y Mediana
 ASIMÉTRICA
◦ la cola más larga determina la dirección del sesgo.
Se separan la Media, Mediana y Moda

 BIMODAL MULTIMODAL
FORMA DE LADISTRIBUCION
 Medidas de asimetría

 Medidas de apuntamieno o curtosis

Exceso de
frecuencias Exceso de
frecuencias

Distrib. leptocurtica Distrib. platicurtica


Definición: Es la deformación horizontal de la Simbología: As
curva de frecuencias.
Nivel de medición:
Intervalos o razón
Fórmulas:
Asimetría a la izquierda o negativa
Coeficientes de Asimetrías de Pearson:
x  Mo 3( x  Me) Mo  Me  x
AS 1  AS 2 
S S

Asimetría a la derecha o positiva


Coeficiente Cuartil de Asimetría:
Q3  2Q2  Q1 Mo  Me  x
AS 3 
Q3  Q1

Coeficiente Percentil de Asimetría Curva Normal:

P90  2P50  P10


AS 4  Mo  Me  x
P90  P10
Definición: El Coeficiente de Curtosis Simbología: k
Percentílico es una media de la curtosis basada Nivel de medición:
en los cuartiles y percentiles. Ordinal, Intervalos o
razón
Q
Fórmula: K
P90  P10 Si:
De donde: K: Coeficiente de Kurtosis.
P90: Percentil 90.
P10: Percentil 10.
Q  Q1
Q: Desviación Quartil: Q  3
2

La gráfica La gráfica La gráfica


platicúrica mesocúrtica leptocúrtica
 El Coeficiente de Curtosis viene Simbología: k
definido por la siguiente fórmula: Nivel de medición:
Fórmula: n Ordinal, Intervalos o
(1 / n)( ( xi  x ) 4
razón
g2  i 1
3
s4 Los resultados pueden ser los
siguientes:
g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución leptocúrtica).
g2 < 0 (distribución platicúrtica).

La gráfica La gráfica La gráfica


platicúrica mesocúrtica leptocúrtica
xg
Se utiliza para calcular tasas medias de
variación, como la tasa media de crecimiento
poblacional, la tasa media de inflación
mensual, la tasa media de mortalidad, entre
otros.

a) Obtención Se obtiene extrayendo la raíz


enésima del producto de los n valores
de una serie.

xg  n X1  X2  X3  .........Xn
Ejemplo:
La siguiente tabla muestra la tasa de aumento en
las quejas durante los últimos meses. Calcule e
interprete la tasa media mensual.

Meses Enero Febrero Marzo Abril Mayo


Aumento de
2.6% 5.4% 3.8% 0.5% 1.4%
quejas

La tasa 2,6% también se puede expresar como 0,026


, y puesto que se refiere a un aumento a partir de una
base de 100%, el factor de variación será 1,026. Para
los otros datos se opera igual.
b) Cálculos
Por lo tanto, la media geométrica se
calcula:
x g  n x1, x 2, x 3,......x

x g  5 (1.026) (1.054) (1.038) (1.005)(1.014)


x g  5 1.143903377
x g  1,0272540 ( Factorde crecim iento m edio)
Tasa media
de variación = (x g  1) 100
= (1,0272540 - 1) x 100 = 2,72%

c) Interpretación

Si se selecciona al azar un mes entre enero


y mayo, se espera que las ventas se hayan
incrementado 2.72% con respecto al mes
anterior.
xh
Se utiliza para calcular el tiempo medio,
velocidad y aceleración media, como por
ejemplo, el tiempo medio para realizar
determinada cirugía.
a) Obtención: se obtiene calculando el inverso
de la media aritmética de los inversos de
una serie.
1
xh  n
1

i 1
X
i
n
Ejemplo:
Los siguientes datos registran el tiempo que utilizan
cuatro médicos al realizar una cierta intervención
quirúrgica. Calcule e interprete el tiempo medio.

Médico A B C D
Tiempo
45 38 52 40
(minutos)

Conocer el tiempo medio permite contar con una


herramienta útil en la planeación de los recursos,
como la Sala de Operaciones. Además de poder
comparar nuestro desempeño con los estándares de
calidad internacionales.
4 4
xh  1 1 1 1

1976  2340  1710  2223
  
45 38 52 40 88920

4  88920
xh   43.117953 minutos
8249

xh  43 minutos 7 segundos

b) Interpretación:

Si se selecciona al azar a uno de los cuatro


médicos, se espera que realice este tipo de
cirugía en 43 minutos aproximadamente.
Gracias por su
atención!!

cespinozaq@hotmail.com

También podría gustarte