Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SESIÓN N° 04
Presentado por:
Escalas de medida
Características
Útil para medidas nominales y ordinales
297 314 333 350 388 412 421 455 455 455
466 466 502 502 542 587 601 621 629
Mo = 455
1) Determinar la clase que contiene la Moda
sesClases
Xi fXi F f frF Frfr Fr
Li 375
345330-345
337 3337 33 0,093 0,09 0,09 0,09
360345-360
352 3352 63 0,09 6 0,18
0,09
2) Realizar 0,18
la interpolación para hallar el valor de
375360-375
367 4367 104 0,1110 0,29
0,11 0,29
1 1
390375-390
382 12382 22
12 0,3422 0,63
0,34 0,63 Mo Li h
1 2
397 7397
405390-405 2927 0,20
29 0,83
0,20 0,83
420405-420
412 4412 334 0,1133 =0,94
0,11
12 – 4 0,94
= 2 = 12 – 7 =
1
435420-435
427 2427 352 0,06835 1,00
0,06 1,00 5
ALTOTAL 35 35 1,00 1,00
8
Mo 375 15 375 9.23 384.23
85
Extensión del intervalo h = 390-375
Forma grafica de
determinar la moda h Extensión del intervalo
Diferencia
entre la 1 Diferencia
frecuencia de entre la
2
la clase modal frecuencia de
y la clase la clase modal
anterior y la clase
siguiente
Li Mo x
Limite inferior de la clase
modal
EJEMPLO 1:
En un estudio en particular
estaban interesados en evaluar el
número de frutos por planta de
zapallo. Se consideró solo las
plantas de una parcela; para cada
planta se contó la cantidad de
frutos que tenían. Los datos se
presentan en forma aleatoria a
continuación :
1 5 7 4 1 2 5 4
6 2 7 5 7 6 3 2
5 4 3 6 6 3 4 4
1 4 3 5 4 4
variable xi fi frecuencia
1 3
2 3
Hay 3
3 4 zapallos con
4 8 2 frutos
5 5
6 4
7 3 Hay 4
zapallos con
N=30
6 frutos
FRECUENCIA ACUMULADA
RELATIVA FRECUENCIA
PORCENTUAL
REALTIVA
FRECUENCIA
PORCENTUAL
FRECUENCIA
ACUMULADA
FRECUENCIA RELATIVA
RELATIVA
ACUMULADA
xi fi F fr Fr fr% Fr%
1 3 3 1/10 1/10 10 10
2 3 6 1/10 1/5 10 20
3 4 10 2/15 1/3 13.33 33.3
4 8 18 4/15 3/5 26.67 60
5 5 23 1/6 23/30 16.67 76.67
6 4 27 2/15 97/10 13.33 90
7 3 30 1/10 1 10 100
N=30 1 100
Cantidad de zapallos por planta
9
8
cantidad de plantas
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7
K=1+3.322*logN: N<50
K=1,8914+3,9910logN: 50<N<100
K=2,7560+5,8154logN: N>100
1+3.322log 30=5.67 6
3º PASO: CALCULAR LA AMPLITUD DEL INTERVALO
0.80/6=0.1333 0.15
Clase xi MARCA DE
CLASE
(1.10-1.25] 1.18
(1.25-1.40] 1.33
(1.40-1.55] 1.48
(1.55-1.70] 1.63
(1.70-1.85] 1.78
(1.85-2.00] 1.93
Clase xi fi fr Fi Fr fr% Fr%
1 (1.10-1.25] 1.18
2 (1.25-1.40] 1.33
3 (1.40-1.55] 1.48
4 (1.55-1.70] 1.63
5 (1.70-1.85] 1.78
6 (1.85-2.00] 1.93
1.20 1.20 1.20 1.30 1.30 1.30 1.40
12
10
cantidad de zapallos
2
3
0
0.03 1.18 1.33 1.48 1.63 1.78 1.93 2.08
peso
Fuente: Datos brindados por la cátedra
POLIGONO DE FRECUENCIAS
12
cantidad de zapallos
10
0
0.03 1.18 1.33 1.48 1.63 1.78 1.93 2.08
33
30
27
24
21
peso
18
15
12
9
6
3
0
1.1 1.25 1.4 1.55 1.7 1.85 2
Fuente: Datos brindados por la cátedra cantidad de zapallos
Permite ayudarnos a determinar si existe relación de
interdependencia entre 2 variables, es decir, si se influyen
mutuamente.
15
10
5
0
1 2 3 4 5
15
10
5
0
50 55 60 65 70 75 80 85
10
5
0
10
5
0
33
Diagrama de cajas de Tukey: Resumen en 5 números
Resumen con 5
0.08
números:
◦ Mínimo, cuartiles y
0.06
máximo.
densidad
◦ Suelen dar una buena
0.04
idea de la distribución.
0.02
Mín. P25 P50 P75 Máx.
0.00
de las observaciones. 40 45 50 55 60 65
‘rango intercuartílico’
(R.I.) Diagrama de cajas de Tukey: Resumen en 5 números
que se separan de la
0.02
Mín. Máx.
Mn es 5
Mn es
(4+5)/2 = 4,5
Características
Calculada para datos en escala Ordinal, Intervalo y
Proporción (razón)
Única para un conjunto dado de datos
DATOS
3) Hallar el valor de x en la Mn xi
posición i
AGRUPADOS:
3) Realizar la interpolación n
para hallar el valor de la Mn
2 Fa
Mn Li h
f
sesClases
Xi 1) Determinar la posición
fXi F f frF Frfr Fr (35 1) 0.5 18
345330-345
337 3337 33 0,09 3 0,09
2) clase 0,09 0,09 la Mediana Li 375
que contiene
360345-360
352 3352 63 0,096 0,18 0,09 0,18
3) Realizar la interpolación para hallar el valor
375360-375
367 4367 104 0,11 10 0,29
de la Mn
0,11 0,29
390375-390
382 12382 22
12 0,3422 0,63
0,34 0,63 n
405390-405
397 7397 297 0,20 29 0,83
0,20 0,83 2 Fa
420405-420
412 4412 334 0,11 0,11Mn
33 0,94 Li
0,94 h
435420-435
427 2427 352 0,06 35 1,00
0,06 1,00 f
ALTOTAL 35 35 1,00 1,00
35 10
Mn 375 2 15 375 7.5 382.5
12 Extensión del intervalo h = 390-375
Distribución de frecuencias relativas acumuladas
de los pesos de novillos. FV. 2002
Distribución de frecuencias relativas acumuladas
de los pesos de novillos. FV. 2002
1,0
0,9 1,0
0,9
0,8 0,8
0,7 0,7
0,6
0,6
Fr
0,5
0,4
Fr
0,5 0,3
0,4 0,2
0,1
0,3 0,0
330 345 360 375 390 405 420 435
0,2 Marcas de Clase Kg
0,1
0,0
330 345 360 375 390 405 420 435
Mn (P50)
Marcas de Clase Kg
Los coeficientes rhoi de Spearman, simbolizado por rs, y
tau de Kendall, simbolizado como t, son medidas de
correlación para variables en un nivel de medición ordinal,
de tal modo que los individuos u objetos de la muestra
pueden ordenarse por rangos o jerarquías.
Fórmula: (n 1) S 2
X
2
2
Donde:
n=número de elementos de la muestra.
n-1=número de grados de libertad.
S2=Varianza de la muestra.
Σ2=Varianza de la población.
Ejemplo 1:
En un estudio de la capacidad de aprendizaje de Matemática, en los
niños de una población, se tomó una muestra representativa de 40
niños. Se les aplicó una prueba de diagnóstico del aprendizaje en
Matemática y con los datos obtenidos se calculó la varianza s 2=8,4,
conociendo que la varianza poblacional es de σ2=12,37. Calcular el
valor del estadístico chi-cuadrado.
Solución: Datos:
n=40. ( n 1 ) S 2
(40 1)(8,4)
S2=8,4 X
2
26,48
σ2=12,37.
2
12,37
fe
Valor crítico superior: X (0,025;3) 9,348
2
Paso 6: Cálculo de Ch2: X 2 ( fo fe) (18 25) (10 25) (35 25) (37 25)
2 2 2 2 2
fe 25 25 25 25
X 2 1,96 9,00 4,00 4,76
X 2 20,72
gl=(C-1)(F-1)=(4-1)(4-1)
gl=9
Y con: X2(9)=16,919
(Oij Eij ) 2
Paso 5: Cálculo de Ch2: X 2
ij Eij
Nerviosismo y ansiedad
Nivel
académico NN LN MN EN TOTAL
Primer año E11 E12 E13 E14 160
Segundo año E21 E22 E23 E24 100
Tercer año E31 E32 E33 E34 80
Cuarto año E41 E42 E43 E44 60
TOTAL 110 90 80 120 400
Cálculo de Ch2:
20 44
2
E11 13,10
44
20 36
2
E12 7,11
36
40 32
2
E12 21,33
32
...
0 18
2
E44
18
18,00
X2(9)=154,14
Paso 6: Decisión
MEDIA ARITMÉTICA
MEDIANA
centro
MODA
MEDIA ARMÓNICA.
MEDIA GEOMÉTRICA.
CUANTILES o SEPARATRICES
Es el cociente entre la suma de los valores de la variable, y el
tamaño de la población o de la muestra (número de observaciones)
POBLACIÓN MUESTRA
DATOS SIN N n
x x
AGRUPAR
i i
i 1
x i
N n
k k
x x
DATOS k
AGRUPADOS
x i fi i fi i fi
i 1 x i 1
i 1
k
f
N n
i
i 1
Estadística: el concepto de media aritmética o promedio
¿Cuál fue el promedio del precio del cobre en los 5 días que se
indican en el cuadro anterior? (Noviembre de 2009)
Desempeño Número de
(puntos) técnicos
12 - 16 4
17 - 21 8
22 - 26 15
27 - 31 23
32 - 36 10
TOTAL 60
Primero se calcularán las marcas de clase ( Xi );
es decir, el valor intermedio de cada clase
Marca de Frecuencia
clase x
clase ( i ) absoluta(fi)
12 - 16 14 4
17 - 21 19 8
22 - 26 24 15
27 - 31 29 23
32 - 36 34 10
Total 60
w X i i wi = factor de ponderación
xp i 1
n
w
i 1
i
X i = datos
Ejemplo: Una empresa comercializadora de Seguros
Médicos dispone de 3 representantes para la zona de
Miraflores, cada uno de los cuales cobra diferente
comisión por póliza vendida, y realiza diferente número
de contratos. Calcule e interprete el valor medio de la
comisión
Nº de polizas de Comisión
Vendedor Seguro Médico por venta $
wi Xi
Pedro 30 30
Juan 25 40
Pablo 20 50
30(30) 25(40) 20(50) 2900
xp $38.67
30 25 20 75
Interpretación:
dispersión
SEMIRECORRIDO INTERCUARTÍLICO Q
COEFICIENTE DE VARIACIÓN CV
población muestra
DATOS SIN
x 2 x x
AGRUPAR 2 2
2 s
n n 1
DATOS
AGRUPADOS
f x 2 f x x
2
2
2 s
n n 1
La varianza es una media de cuadrados de los desvíos (MC)
x x
suma de cuadrados
2
ŝ
n-1 grados de libertad (GL)
La división por n-1 asegura que la varianza muestral sea una estimación
centrada de la varianza poblacional
Es sensible a valores extremos (alejados de la media).
DESVIACIÓN TÍPICA
Es la raíz cuadrada de la varianza ˆS Sˆ 2
Tiene las misma dimensionalidad (unidades) que la variable.
Coeficiente de variación
sˆ
CV
Es el cociente entre la desviación típica y la media.
◦ Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media” x
Es frecuente indicarla en porcentajes
Si la media es 80 y la desviación típica 20 entonces
CV =20/80 = 0,25 = 25% (variabilidad relativa)
Fórmula:
EL COEFICIENTE DE CORRELACIÓN LINEAL
DE PEARSON
Si el coeficiente de correlación de Pearson (r) es cercano a 0,
las dos variables no tienen mucho que ver entre sí (no tienen
casi ninguna covariación lineal). Si su valor es cercano a +/-
1, esto significa que la relación entre las dos variables es
lineal y está bien representada por una línea.
La Prueba “t”
de Student
Solución:
3. Nivel de significancia:
Asumido: 1%=0.01.
4. Distribución aplicable:
Como se conoce la media (ẋ) de la muestra y la media poblacional (µ), se debe utilizar la
distribución muestral de medias, además se desconoce la desviación estándard (σ); y
como n<30 y los datos se ajustan obedecen a una distribución normal.
Aula A: 16,43,24,35,20,27,29,30,40,32.
Aula B: 15,40,18,37,16,29,30,45,20,36.
Solución:
µ1: El rendimiento académico en Matemática del Aula A.
3. Nivel de significancia:
Asumido: 5%=0.05.
4. Distribución aplicable:
Teniendo en cuenta que se quiere comparar el puntaje en dos muestras
pequeñas y como los datos están distribuidos normalmente, utilizaremos la
prueba de diferencia de medias con la distribución de Student.
x 2 28,6; S S
1
2 2
2
S 22 105,64 n 10
8. Toma de decisiones:
Como la tc=0,24 cae en la zona de aceptación, por tanto descartamos la
H1 y aceptamos la H0; es decir no existe diferencias significativas en el
rendimiento del curso Análisis Matemático I en las dos aulas A y B.
Ejemplo 3:
Se necesita verificar la PROCESAMIENTO DE INFORMACION
eficacia de una Estrategia Estudiantes Grupo A Grupo B
Didáctica en una Universidad 1 30 44
específica. 2 43 40
3 24 36
50
5 20 16
45
40 6 27 29
Puntuación
35
30 Grupo A
7 29 38
25
Grupo B
20 8 30 45
15
10 9 25 35
5
0
10 34 36
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
N° de trabajadores 11 27 29
12 29 35
13 32 45
Solución: 14 40 42
15 18 36
HIPÓTESIS ALTERNA: HIPÓTESIS NULA:
Donde:
Se eligió el nivel de
significancia:
α=0,05.
3. El estadígrafo de prueba
Se eligió el nivel de significancia: α=0,05.
Luego se seleccionó el estadístico de prueba, ”t de
Student”, debido a que la muestra es pequeña y
además ésta tiene distribución normal y los dos
grupos fueron asignados aleatoriamente.
Se determinó la
región de rechazo
(RR), 28gl y α=0,05
(2,048)
_ _
X 1 X 2 29,53 36,20
t 2,5654
S S1
2 2
2 (6,74) (7,48)
2 2
n 15
Como la t calculada (tc)
con los datos procesados
es igual a: -2,5654 y este
cae en la zona de
rechazo; entonces se
rechaza la Ho, y se acepta
la hipótesis alterna H1.
Carlos E. Espinoza
Quispe
Un factor ( tratamientos) Categórica
a
Cuando se comparan de a dos a medias tenemos
comparaciones posibles.
C2
P(x=0)=(1-p)^n P(x>0)=1-[(1-p)^n]
C 2a
Probabilidad de cometer un erro tipo I = 1-[(1-α) ]
0.05
En el ejemplo:
a' 0,005
10
HAY OTRAS ALTERNATIVAS: UNA DE ELLAS ES EL
ANALISIS DE LA VARIANZA
sˆentre2
Fc 2
sˆdentro
ANOVA (ANalysis Of
Variance) Modelo I – efectos
Finalidad
Comparar simultáneamente
fijos
xij ai ij
varias medias
xBj
x
Bj
B Variación total
aB
A
C
A B C grupos
xij i xij i En la
a i población
xij x xi x xij xi En la muestra
Elevando al cuadrado:
SC SC ENTRE SC DENTRO de
TOTAL grupos grupos (residual)
( xij x )
2
Recordar
SCentre ij
sˆentre
2
glentre a 1
( xij xi )
2
SCdentro ij
sˆdentro
2
o residual
gldentro na
HIPOTESIS En general
Modelo I H 0 : i : α i 0 H 0 : i : i
MEDIAS DE CUADRADOS ESTIMA
a i
MC entre = SC entre/(a-1) 2
a = no de grupos 2
ni a 1
Mod I
ni tamaño medio
del grupo
MC dentro = SC dentro/(n-a ) 2
n = tamaño de la muestra total
Normalidad de Homocedasticidad
los residuos (ij) de los residuos
C A B
T x ij Gran total
ij
n n
i
i
Tamaño total de la muestra
FUENTE DE SUMA DE GL MEDIA DE Fcalc
VARIACION CUADRADOS CUADRADOS
ENTRE SC entre a-1 MC entre
GRUPOS
SC entre (a 1)
MC dentro
DENTRO DE SC dentro n-a SC dentro (n a)
GRUPOS
0.4
f(x)
El Fcalculado se compara con
0.0 10
0.0 1.5 3.0 4.5 2
CALCULO DE LAS SUMAS DE CUADRADOS
A B C D
H 0 : i : i
4.4 8.6 3.4 8.9
5.9 4.5 7.3 0.0
6.2 8.4 8.8 1.7
2
xij 597.2
ij
6.3 8.7 0.2
0.1
n ni 16
Ti 22.8 30.2 19.8 10.6 T =83.4 a4
ni 4 4 5 3 n = 16
2
SC total 597.2 83.4 16 162.4775
TOTAL 162.4775 15
F0.95(3, 12)= 3.49
-> trat = A
| Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
| 10 2.69 .2024846 2.4 3
-> trat = B
| Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
| 10 3.11 .1852926 2.8 3.4
-> trat = C
| Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
| 10 2.56 .2065591 2.2 2.9
. oneway x y,b
Analysis of Variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 1.65266668 2 .826333338 21.01 0.0000
Within groups 1.06200005 27 .039333335
------------------------------------------------------------------------
Total 2.71466672 29 .093609197
3.5
Col Mean | A B
---------+----------------------
B | .42
ganancia de peso (kg)
| 0.000 3
C | -.13 -.55
| 0.463 0.000
2.5
2
A B C
Observaciones Independientes.
Distribución Normal.
Varianzas Homogéneas.
Con el fin de obtener inferencias válidas, resulta
importante determinar si los errores se encuentran
correlacionados.
Siendo
ti el efecto producido por el nivel i-ésimo del factor principal (
)
gj el efecto producido por el nivel j-ésimo bloque ( )
b es el efecto ijésimo valor observado en la covariable
Las Sumas de Cuadrados y productos Cruzados tienen las siguientes
expresiones:
.
Modelo estadístico
Modelo estadístico
Consideramos un diseño unifactorial equilibrado con dos
factores, supongamos que hay a niveles para el factor A y
b niveles del factor B y cada réplica del experimento
contiene los ab tratamientos posibles
Siendo
r: nº de replicaciones
tgij: el efecto producido por la interacción entre A y B.
Modelo estadístico
Siendo
r: nº de replicaciones
tgij: el efecto producido por la interacción entre A y B.
Se tiene ocho variedades de fresas (A, B, C, D, E, F, G y H)
sembradas a lo largo de cuatro franjas de un terreno. Cada franja
se ha dividido en ocho parcelas donde se siembran las ocho
variedades de fresas. No se tiene seguridad de que el terreno sea
igual de fértil en todas las franjas, por lo que la cantidad de
fresas recolectada podría depender de la franja en la que se
siembra.
A B C D E F G H
I
5.8 6.3 4.9 6.5 4.5 5.2 6.5 3.8
G H F E A B D C
II
6.9 7.6 7.9 5.6 7 5.5 4 2.7
Franja Seto
B D C A H G E F
III
7.6 6.4 5 6.9 7.4 5.3 5.2 3.2
G E F H A D B C
IV
7.5 7 6.1 7.2 6.5 5.6 5.8 1.4
Distancia al seto
8 7 6 5 4 3 2 1
(en metros)
Tabla 1
Se pide:
Homocedasticidad
13
5
Por lo tanto, P-valor > 0,10.
Así que, no se rechaza H0 al nivel
del 10% de significación. De este
modo, podemos concluir que la
distribución es normal.
¿Es el terreno igual de fértil
en todas las franjas?
3.- ¿Es necesario controlar la influencia de esta variable?
p-valor asociado a la
variable concominante es
0,0000.
El inverso de la distancia al
seto influye sobre la
cantidad de fresa
recolectada.
Si es necesario incluir en el
análisis la distancia al seto.
13
9
Efecto de fertilizantes en el estudio de las plantas
Efecto de formas nuevas de promoción en la venta de sus vinos en supermercados.
Las formas de promoción son: Degustaciones, Aumento de espacio en los estantes, Muestrarios en los
extremos del pasillo
Efecto de las dietas en cerdos de la misma edad
Efecto de la renta, según zona geográfica, pero ajustando previamente por variables cuantitativas
como la protección social (covariable).
Efecto de las horas trabajadas según la educación y sexo.
Efecto de reducir las diferencias salariales entre hombres y mujeres al asistir a los cursos de formación
que antes han sido planificados.
Efecto de la religión en la actitud hacia el divorcio según nivel educacional
Efecto de los métodos de enseñanza en el rendimiento según habilidades de los alumnos (cov).
Efecto de documentales en el deseo de viajar a la Patagonia.
Efecto de corregir resultados observados de conocimientos iniciales sobre una materia determinada.
Efecto de comparar rendimientos en un proceso químico según los porcentajes de impureza en la
materia prima a diversas temperaturas.
Efecto de distintos métodos de aprendizaje en los alumnos.
Efecto de métodos de adelgazamiento en pacientes.
Efecto de un tratamiento y efecto de una o más variables de confusión potenciales según puntuaciones
previas a la prueba, edad, educación, nivel social y nivel de ansiedad.
Efecto de la hipertensión según la edad y sexo.
Efecto en la producción al utilizar diferentes insecticidas en un cultivo de patatas.
MEDIDAS DE RESUMEN
Medidas de tendencia central
Medidas de dispersión
Medidas de posición
FORMA DE LADISTRIBUCION
as = + as = -
Coeficiente de asimetría
asimetría positiva asimetría negativa
x Mn
as 3
sˆ
BIMODAL MULTIMODAL
FORMA DE LADISTRIBUCION
Medidas de asimetría
Exceso de
frecuencias Exceso de
frecuencias
xg n X1 X2 X3 .........Xn
Ejemplo:
La siguiente tabla muestra la tasa de aumento en
las quejas durante los últimos meses. Calcule e
interprete la tasa media mensual.
c) Interpretación
Médico A B C D
Tiempo
45 38 52 40
(minutos)
4 88920
xh 43.117953 minutos
8249
xh 43 minutos 7 segundos
b) Interpretación:
cespinozaq@hotmail.com