Está en la página 1de 47

.

Cuándo alguien me pregunta para qué vale la estadística,


¿qué puedo responder, breve y conciso?

La estadística es una herramienta que se ocupa de recoger


datos, organizarlos en tablas y gráficos y analizarlos para sacar
conclusiones y tomar decisiones acertadas.

Qué significa individuo, en estadística

La unidad sobre la que se lleva a cabo el estudio. Puede


ser un paciente, una empresa, una planta, un partido
político, etc.
¿Una misma variable puede ser cuantitativa y/o cualitativa?

No, una variable o es cuantitativa o es cualitativa y eso


depende de que sus valores sean cuantificables o no.

Una misma variable, ¿puede ser tratada como cuantitativa y/o


cualitativa, en un estudio estadístico?
La respuesta es sí. Supongamos que estamos estudiando la edad de un
individuo. Si le preguntamos su edad y la anotamos, tenemos una variable
cuantitativa.
Si en el estudio la edad concreta no es importante y lo que es relevante es
a qué intervalo de edad pertenece, la información se captura a nivel
categórico.
Una variable cuantitativa siempre da más información
que una cualitativa

No.

Un histograma es lo mismo que un diagrama de barras

No. Tienen un aspecto parecido, ambos se suelen representar con rectángulos


(que podrían llamarse barras), pero el tipo de variable con el que se trabaja y
el criterio de representación es completamente diferente.
El diagrama de barras, se usa para variables cualitativas o cuantitativas
discretas y el histograma con variables continuas o variables agrupadas en
intervalos.
Cuantos más gráficos tenga un trabajo mejor evaluado será

No. Decenas de diagramas de sectores llenando hojas y hojas


de un trabajo, producen un efecto negativo en quienes lo
evalúan.

Un gráfico vale más que mil palabras


Si el gráfico está bien construido y es sencillo de interpretar, la
respuesta es sí.
Si el gráfico es tendencioso, confuso, o requiere una gran preparación
para su interpretación, la respuesta es no
Comparación
de
poblaciones

V. Cuantitativa V. Cualitativa

Test de hipótesis Tamaño del efecto Test de


Tamaño
Media/Mediana (regresiones) hipótesis
del efecto
Proporción
¿Hay asociación? ¿Cuál es la intensidad ¿Hay asociación? ¿Cuál es la
de la asociación? intensidad de
la asociación?

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Test Z para diferencia de medias
MUESTRAS INDEPENDIENTES
𝜇𝑥 : media poblacional de población X
MUESTRAS RELACIONADAS
𝜇𝑥 : media poblacional de medición X de la población

HIPÓTESIS:
 H0:𝜇1 = 𝜇2 ↔ 𝜇1 − 𝜇2 = 0
 H1:𝜇1 ≠ 𝜇2 (Prueba de dos colas)
 H1:𝜇1 > 𝜇2 (Prueba de una cola)
 H1:𝜇1 < 𝜇2 (Prueba de una cola)

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Estadístico y distribución nula en Test Z para
diferencia de medias
𝑋1 𝑦𝑋2 : 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠

Problema: ¿Cómo distribuye 𝑋1 − 𝑋2 ?

Si 𝑛1 y 𝑛2 son grandes,

𝑋1 −𝑋2 −(𝜇1 −𝜇2 )


Estadístico Z= ∼ 𝑁(0,1)
𝑆𝐸(𝑋1 −𝑋2 )

𝑆𝑖 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎,
𝑋1 − 𝑋2
∼ 𝑁(0,1)
𝑆𝐸(𝑋1 − 𝑋2 )

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Estadístico y distribución nula en Test Z para
diferencia de medias
𝑆𝑖 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎,
𝑋1 − 𝑋2
∼ 𝑁(0,1)
𝑆𝐸(𝑋1 − 𝑋2 )

Muestras independientes:
2 2
𝑠1 𝑠2
𝑆𝐸(𝑋1 − 𝑋2 )= +
𝑛1 𝑛2

Muestras relacionadas:
2 2
𝑠1 𝑠2 𝑠1 𝑠2
𝑆𝐸(𝑋1 − 𝑋2 )= + − 2𝑟
𝑛1 𝑛2 𝑛1 𝑛2

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Test Z para diferencia de medias de
dos colas
TEST DE DOS COLAS: ZONA DE RECHAZO
 H0:𝜇1 = 𝜇2
 H1:𝜇1 ≠ 𝜇2
𝑋1 −𝑋2
𝑆𝑖 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎, ∼ 𝑁(0,1)
𝑆𝐸(𝑋1 −𝑋2 )

Zona de Rechazo:
𝑋1 −𝑋2
< −𝑍𝛼Τ2 ∪
𝑆𝐸(𝑋1 −𝑋2 )
𝑋1 −𝑋2
> 𝑍𝛼Τ2
𝑆𝐸(𝑋1 −𝑋2 )

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Estadístico y distribución nula en Test T para
diferencia de medias, muestras independientes

𝑋1 𝑦𝑋2 : 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠, ¿Cómo distribuye 𝑋1 − 𝑋2 ?

Si X es normal en ambas muestras,

𝑋1 −𝑋2 −(𝜇1 −𝜇2 )


T= ∼ 𝑇 𝑛1+𝑛2−2 𝑔𝑙
𝑆𝐸(𝑋1 −𝑋2 )

𝑆𝑖 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎,
𝑋1 − 𝑋2
∼ 𝑇 𝑛1+𝑛2−2 𝑔𝑙
𝑆𝐸(𝑋1 − 𝑋2 )

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Estadístico y distribución nula en Test T para
diferencia de medias, muestras
independientes
𝑆𝑖 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎,
𝑋1 − 𝑋2
∼ 𝑇 𝑛1+𝑛2−2 𝑔𝑙
𝑆𝐸(𝑋1 − 𝑋2 )

2 2
𝑛1 𝑠1 +𝑛2 𝑠2 1 1
𝑆𝐸(𝑋1 − 𝑋2 )= ∙ +
𝑛1 +𝑛2 −2 𝑛1 𝑛2

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Estadístico y distribución nula en Test T para
diferencia de medias, muestras relacionadas

𝑋1 𝑦𝑋2 : 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠, ¿Cómo distribuye 𝑋1 − 𝑋2 ?

Si X es normal en ambas muestras,

𝑋1 −𝑋2 −(𝜇1 −𝜇2 )


T= ∼ 𝑇 𝑛−1 𝑔𝑙
𝑆𝐸(𝑋1 −𝑋2 )

𝑆𝑖 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎,
𝑋1 − 𝑋2
∼ 𝑇 𝑛−1 𝑔𝑙
𝑆𝐸(𝑋1 − 𝑋2 )

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Estadístico y distribución nula en
Test T para diferencia de medias,
muestras relacionadas
𝑆𝑖 𝐻0 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑎,
𝑋1 − 𝑋2
∼ 𝑇 𝑛−1 𝑔𝑙
𝑆𝐸(𝑋1 − 𝑋2 )

2
σ𝑛
𝑖=1 𝑥𝑖𝑗1 −𝑥𝑖𝑗2
𝑆𝐸(𝑋1 − 𝑋2 )=
𝑛(𝑛−1)

Ing. Edwin León Plúas, PhD. Pruebas de Hipótesis


Prueba no paramétrica
U-Mann Whitney
Test de hipótesis no paramétrico para evaluar hipótesis
sobre el valor de medianas poblacionales (parámetro)
de dos grupos (muestras independientes)

SUPUESTOS:
 Variable cuantitativa o ordinal
 Muestreos probabilísticos
 La distribución de la variable en ambos grupos tiene
la misma forma
U-Mann Whitney

HIPÓTESIS:
 H0:𝜂1 = 𝜂2
 H1:𝜂1 ≠ 𝜂2 (Prueba de dos colas)
 H1:𝜂1 > 𝜂2 (Prueba de una cola)
 H1:𝜂1 < 𝜂2 (Prueba de una cola)
Estadístico en Test U-Mann Whitney
PASOS PARA REALIZAR EL TEST
1. Estima una variable r que corresponda al ranking
de la observación (considerando ambos grupos);
la observación de ranking 1 es la más grande. En
caso de empate, se asigna el promedio entre los
posibles rankings.
2. Se estima 𝑅𝑖 =suma de r en la muestra i
𝑛𝑖 (𝑛𝑖 +1)
3. Estima U𝑖 =𝑛1 𝑛2 + 2
− 𝑅𝑖 y U=Min{U𝑖 }
4. Aproximación a la normal
𝑛 𝑛
𝑈− 12 2 𝑆𝑖 𝑍 ≤ 𝑍𝛼 → 𝑆𝑒 𝑎𝑐𝑒𝑝𝑡𝑎 𝑙𝑎 𝐻0
𝑍= ≡N(0;1)
𝑛1 𝑛2 (𝑛1 +𝑛2 +1) 𝑆𝑖 𝑍 > 𝑍𝛼 → 𝑆𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝑙𝑎 𝐻0
12
U-Mann Whitney.

ZONA DE RECHAZO
H0: 𝜂1 = 𝜂2 H1:𝜂1 ≠ 𝜂2 (Prueba de dos colas)
U<𝑈𝛼

H0: 𝜂1 = 𝜂2 H1:𝜂1 > 𝜂2 (Prueba de una colas)


U2<𝑈𝛼

H0: 𝜂1 = 𝜂2 H1:𝜂1 < 𝜂2 (Prueba de una colas)


U1<𝑈𝛼
U-Mann Whitney.

Pasos:
1. Ordenamos los valores de las dos
muestra conjuntamente.
2. Asignamos un rango de orden a cada
valor
3. Se corrigen las ligaduras existentes en
los datos
U-Mann Whitney. Ejemplo

Los datos de Guayaquil y Milagro sobre los consumos de carne en Kg


H0: 𝑀𝑒𝐺 = 𝑀𝑒𝑀

Guayaquil 16 11 14 21 18 34 22 7 12 12
Milagro 12 14 11 30 10

Los dos grupos tienen el mismo consumo medianos es el punto de partida.


Se desea conocer si los niveles de excreción urinaria de Sodio/Potasio varían en
relación a la presencia de la enfermedad X, para lo cual se seleccionaron dos
muestras aleatorias, una constituida por 16 pacientes con esta enfermedad y la
otra por 12 personas sin ella. Pruebe la hipótesis de que los niveles de excreción
urinaria de Sodio/Potasio difieren en ambos grupos con relación a la mediana.
Use α = 0.05.
TALLER
Indique para las siguientes situaciones que test de hipótesis recomendaría y por
qué. Indique cuáles serían sus hipótesis nula, y –definiendo cierta significancia-,
indique para que valores P rechazaría sus hipótesis nula y refiérase a los
supuestos del test.
1. Un grupo de investigadores realizó una encuesta con una muestra
probabilística a 4000 chilenos para estimar los ingresos, y quieren probar la
hipótesis de que los jóvenes (=<30 años) ganan menos que los Adultos(>30
años).
2. Un grupo de investigadores realizó una encuesta con una muestra
probabilística a 20 chilenos para estimar la edad, y quieren probar la hipótesis
de que el promedio de edad de hombres y mujeres es igual.
3. Un grupo de investigadores realizó una encuesta con una muestra
probabilística a 30 chilenos para estimar la cantidad de vehículos en su hogar, y
quieren probar la hipótesis de la cantidad de vehículos es mayor en las
personas que viven en Santiago que en los de otras regiones del país.
4. Un grupo de investigadores realizó una encuesta con una muestra
probabilística a 4000 chilenos para estimar los ingresos, y quieren
probar la hipótesis de que los jóvenes (=<30 años) ganan menos que los
Adultos(>30 años). Para ello realizan un Test Z. Al estimar el estadístico
Z, éste es igual a=-2. Considerando que su hipótesis de investigación es
la hipótesis nula del test, con 5% de significancia, ¿Rechazaría la
hipótesis nula? Estime e interprete el Valor P.
5. Un grupo de investigadores realizó una encuesta con una muestra
probabilística a 20 estudiantes de la facultad para quienes registran las
notas de primer y segundo año de su carrera. Para probar la hipótesis de
que los estudiantes tienden a subir las notas, un investigador plantea
𝑋1 −𝑋2
que lo correcto es usar el estadístico T= , el cual
2 2
𝑛1 𝑠1 +𝑛2 𝑠2 1 1
∙ +
𝑛1 +𝑛2 −2 𝑛1 𝑛2
distribuye 𝑇 𝑛−1 𝑔𝑙 . Comente.
ANALISIS DE VARIANZA
o
ANOVA
PRELIMINAR

 Hasta ahora hemos visto como podemos resolver una


pregunta para una o dos muestras pero ¿qué pasa si
tenemos tres muestras o más?
 Tenemos que usar el análisis de varianza también
llamado Análisis de Varianza o ANOVA
SUPUESTOS

 El ANOVA es una técnica de prueba de hipótesis de tipo


PARAMÉTRICA
 Esto significa que se requiere que los datos tengan una
distribución NORMAL (Prueba de normalidad)
 Así mismo se supone que las poblaciones que “estiman”
las muestras tienen varianzas Iguales esto se conoce como
homocedasticidad (Prueba de Levene).
 La Tercera suposición es que las muestras son
Independientes.
 Los datos deben ser obtenidos de forma aleatoria
Concepto

 El concepto básico del ANOVA es muy SIMPLE compara


la varianza que hay entre todas las unidades con la
que hay en entre el promedio de los grupos.
 Si el primero es mayor entonces la variación entre los
grupos o muestras no representa una variación real.
Concepto gráfico

MUESTRA 1 MUESTRA 2 MUESTRA 3


Unidad 1 X11 Unidad 1 X21 Unidad 1 X31

Unidad 2 X12 Unidad 2 X22 Unidad 2 X32

Unidad 3 X13 Unidad 3 X23 Unidad 3 X33

Unidad 4 X14 Unidad 4 X24 Unidad 4 X34

Unidad 5 X15 Unidad 5 X25 Unidad 5 X35

Unidad 6 X16 Unidad 6 X26 Unidad 6 X36


Promedi
o
Unidad 7 X17 Unidad 7 X27 Unidad 7 X37
General
Unidad 8 X18 Unidad 8 X28 Unidad 8 X38
χ●●
Unidad 9 X19 Unidad 9 X29 Unidad 9 X39

Promedio 1 Promedio 2 Promedio 3


χ1● χ2● χ3●
Varianza Total

 La variación TOTAL es la que toma en cuenta la


variación entre TODAS las unidades tomando en
cuenta la diferencia a la gran media
∑ (X - χ●●)2 + (X - χ●●)2 + … + (X - χ●●)2
11 12 39

 Este valor se conoce como LA SUMA DE CUADRADOS


(Que es la parte superior de la varianza)
 Cada dato es reconocido con dos subinices el primero
indica el grupo y de manera se denota con la letra “i” y
la segunda que es la unidad dentro del grupo y se
denota con la letra “j”
Varianza ENTRE GRUPOS
 La Varianza ENTRE GRUPOS compara las medias de
cada Grupo con la gran Media

∑ n1 (X1● - χ●●)2 + n2 (X2●- χ●●)2 + n3 (X3● - χ●●)2

 Es la varianza que mide las diferencias entre grupos o


muestras habitualmente el número de grupos se
denota de manera general con la letra K
Varianza INTRA-GRUPOS

 La varianza INTRA GRUPOS considera la variación que hay dentro de cada


grupo

∑ (X11 – χ1●)2 + (X12 – χ1●)2 +…+ (X19 – χ1●)2 +


 Para cada Grupo

∑ (X21 – χ2●)2 + (X22 – χ2●)2 +…+ (X29 – χ2●)2 +


∑ (X31 – χ3●)2 + (X32 – χ3●)2 +…+ (X39 – χ3●)2 =
Tabla de ANOVA

 Losdatos de las varianzas se resumen en lo


que se llama “LA TABLA DE ANÁLISIS DE
VARIANZA”
 Que reúne los valores y los llamados grados de
libertad.
Tabla ANOVA
Fuente de Grados de Suma de Cuadrado F
Variación libertad s medios
Cuadrados

Entre GLE=K-1 SCE=∑ ni (X1● - χ●●)2 CME= CME/CMI


Grupos SCE/GLE

Intra GLI=N-K SCI=∑ ∑ (Xij - χi●)2 CMI=


Grupos Ó SCT-SCE SCI/GLI
Ó GLT-GLE

TOTAL GLT=N -1 SCT=∑ ∑ (Xij - χ●●)2


La distribución “F de Snedecor”

 La distribución de F es aquella que se usa para


estimar cualquier cociente de Varianzas.
 Al igual que la T es una familia de Curvas cuya curva
exacta a usar esta determinada por dos grados de
libertad.
 Grados de libertad del numerador
 Grados de libertad del denominador
Practica 1

 Crear una base de datos con las características de las


personas dentro del curso, donde se evaluará, edad,
sexo, estatura, peso, estado civil, y posterior a eso
realizar un análisis de varianza con relación al estado
civil y la edad de las personas.
Práctica 2
Taller
ANALISIS MULTIVARIANTE
Conjunto de técnicas aplicables cuando se registran los valores de muchas
variables (esencialmente numéricas, pero también cualitativas) a la vez.

Esencialmente, vamos a ver tres problemas:

1.- Reducir el número de variables (Análisis en componentes


principales).
2.- Dada una variable clasificadora (cualitativa), predecir el
valor de la variable, para un individuo dado, a partir de un
conjunto de variables numéricas (Análisis Discriminante).
3.- Distinguir grupos (clusters) entre los individuos de la población.
(Análisis Cluster)
Ejemplo
Hemos recogido datos sobre la incidencia de incendios y conatos en distintas provincias españolas…

precipitacion
vege_pre Sarbolada_af media julio
provincias d zona conatos incendios Safectada ect agosto
Alicante 1 centro 121 57 1341,78 690,2 3,6
Ávila 1 centro 109 118 1874,67 1311,95 7,05
Baleares 2 centro 112 38 1587,91 1237,01 6,6
Castellón 2 centro 130 32 869,53 613,69 9,2

Cuenca 1 centro 143 46 467,14 133,71 9,1


Guadalajara 1 centro 96 48 553,05 314,93 23,45
Madrid 1 centro 167 94 1102,05 660,49 11
Salamanca 1 centro 61 115 3595,32 2687,08 6,2
Segovia 2 centro 51 18 369,07 179,23 12,7
Teruel 1 centro 89 16 172,74 72,58 23,15
Valencia 1 centro 157 72 4145,19 653,47 8,3
Valladolid 1 centro 56 28 106,37 20,01 41,4
Zamora 1 centro 155 374 8787 7524,14 12,3
Soria 2 norte 66 37 155,81 107,71 34,4
Álava 2 norte 36 19 85,06 68,31 66,8
Asturias 1 norte 411 1101 11679 8725,38 26,55
Barcelona 1 norte 310 61 219,63 84,05 7,25
Burgos 1 norte 78 136 1478,91 655,17 42,25
Cantabria 1 norte 40 338 3961,68 3340,48 17,05
Gerona 1 norte 174 22 260,22 198,38 24,5
PREGUNTA1: ¿Se puede “resumir” la información proporcionada
por los datos utilizando una cantidad menor de variables? ¿Podemos
conformar “índices, a partir de ciertas variables”?
(Análisis en componentes principales)

PREGUNTA2: ¿Qué grupos homogéneos podemos distinguir entre


las provincias?
(Análisis cluster)

PREGUNTA3: Suponiendo que hemos clasificado a las provincias


en tres grupos (A, B y C), ¿cómo identificar las variables más in-
fluyentes a la hora de asignar un grupo u otro a una cierta provincia?
Dada una zona de otro país, ¿cómo decidir a cuál de los grupos
A, B, C se parece más?
(Análisis Discriminante)

También podría gustarte