Está en la página 1de 7

TEMA 3: INFERENCIA E INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE

1.INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA. ESTIMACIÓN PUNTUAL, POR INTERVALOS Y CONTRASTES DE HIPÓTESIS

La Inferencia Estadística proporciona métodos o procedimientos para incre


mentar el conocimiento sobre poblaciones a partir de un conjunto de datos
experimentales o muestra.

Si por ejemplo consideramos que X N(,3), con  desconocido, mediante la Inferencia Estadística buscaremos información sobre .
Podemos hacerlo de diferentes formas:

A)Estimación puntual: aproximamos el parámetro mediante un valor puntual obtenido a partir de la muestra.
En el caso de la distribución normal, los estimadores más usuales de los parámetros son la media muestral para  y la
cuasivarianza muestral para la varianza 2 .
B) Estimación por intervalos: calculamos un intervalo de forma que el verdadero valor del parámetro se encuentra en él con una
alta probabilidad (1-).

C) Contrastes de hipótesis: planteamos hipótesis o conjeturas sobre el valor del parámetro bajo estudio o sobre la forma o
expresión de su función de distribución. (H0 hipótesis nula).

Es el que estudiaremos en este tema en profundidad y en las prácticas, pero relacionaremos los intervalos de confianza con
éstos.

En los tres casos, para poder obtener estas informaciones, nos basaremos en un conjunto de observaciones o datos
experimentales, que denotaremos por muestra aleatoria.

¿Qué es un contraste de hipótesis?


• Un contraste de hipótesis es el procedimiento por el cuál se decide si una hipótesis o conjetura realizada inicialmente
sobre un parámetro o una distribución en la población es cierta.
• Se tratará de decidir en base a la observación muestral.
• En todo contraste de hipótesis podemos diferenciar dos hipótesis:
• Hipótesis nula: es la hipótesis que queremos contrastar. No será rechazada a no ser que los datos en la muestra nos
indiquen lo contrario. Se representa por H0.
• Hipótesis alternativa: Es lo contrario de la hipótesis nula. No será aceptada a no ser que los datos muestrales indiquen
evidencia de lo contrario. Se representa por H1
.
Contraste paramétricos y no paramétricos
Decimos que un contraste es paramétrico, cuando las hipótesis planteadas están referidas al valor de un parámetro desconocido
de la población

Decimos que un contraste es no paramétrico, cuando las hipótesis están


referidas a la forma de la distribución, a la aleatoriedad, a la localización, etc.

¿Qué es una hipótesis?


• Es una creencia sobre la población, principalmente sobre sus parámetros: (media , varianza, Proporción).
Ejemplo: Estamos estudiando los enfermos de alergia en la población universitaria de la U.P.O. Podemos plantear la
siguiente hipótesis:
- Creemos que el porcentaje de enfermos de alergia será el 5%. es decir, p=P(estar enfermo)=0.05
Ejemplo: Queremos estudiar la edad de los profesores que imparten clases en Ciencias ambientales. Podemos plantear
la siguiente hipótesis
- Creemos que la edad media de los profesores es de 40, es decir, =40

• El Objetivo del tema será saber deducir si se rechaza o no la hipótesis que planteamos .

Identificación de hipótesis
Existen dos tipos de hipótesis: Nula y Alternativa
Hipótesis nula = H0 Hipótesis Alternativa= H1
➢ Es la hipótesis que contrastamos ➢ Niega a H0 (es lo contrario de
➢ Los datos pueden refutarla H0).
➢ No debería ser rechazada sin una ➢ Los datos pueden mostrar
buena razón. evidencia a favor
➢ No debería ser aceptada sin una
gran evidencia a favor.

Ejemplo: Edad de los profesores que imparten en la UPO

¿Cómo seleccionamos H0?


• H0 es una afirmación inicial sobre la distribución de una variable y que debe ser confirmada.
• Ejemplo: ¿La osteoporosis está relacionada con el género?
Si denotamos por P a la proporción de pacientes con osteoporosis que son hombres, entonces, la pregunta anterior se
traduce a ¿es P=0.5 (50%)?

Proceso para seleccionar la hipótesis nula:


➢ Traducir a lenguaje estadístico (que queremos contrastar?) : p=50%
➢ Establecer su opuesto: p 50%
➢ Seleccionar la hipótesis nula

Razonamiento básico

Región crítica y nivel de significación


Región crítica Nivel de significación: 
➢ Región donde se rechaza H0. ➢ Número pequeño: 1% , 5%
➢ Es conocida antes de realizar el ➢ Fijado de antemano por el
experimento: resultados investigador
experimentales que refutarían H0 ➢ Es la probabilidad de rechazar
H0cuando es cierta
Tipo de contrastes: unilateral y bilateral

Concepto de significación o p-valor (p)


• La significación o p-valor es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del
estadístico obtenido de la muestra.
• p es conocido después de realizar el experimento aleatorio, ya que debemos de saber cual es el valor del estadístico
obtenido en la muestra.
• El valor P nos da otra forma para decir cuando el contraste es no significativo(No rechazamos H0) o es significativo (se
rechaza H0).

Resumen : , p y criterio de rechazo


Sobre  Sobre p Sobre el criterio de rechazo
➢ Es un número ➢ Es conocido tras Podemos usar dos criterios
pequeño, realizar el (equivalentes):
preelegido al experimento 1. Rechazamos si el valor
diseñar el ➢ Conocido p de p es menor que  ó
experimento. sabemos todo 2. Rechazamos si el
➢ Es la probabilidad sobre el resultado estadístico elegido en la
de rechazar H0 del experimento muestra se encuentra
cuando es cierta. (rechazamos o no dentro de la
➢ Conocido  rechazamos H0) región crítica.
sabemos todo
sobre la región
crítica
Riesgos al tomar decisiones

Tipos de error al tomar una decisión

Cuando realizamos un contraste y tomamos una decisión, es posible


que cometamos errores. En la siguiente tabla se muestran las posibles
situaciones que pueden darse entre nuestra decisión y la realidad.

Tipos de errores al contrastar hipótesis (de forma general)

Nota: no se puede reducir a la vez los dos tipos de errores. Lo


usual es acotar la probabilidad de error de tipo I, tomando como
posibles valores α= 0.10, 0.05 ó 0.01. Para disminuir β hay que
aumentar el tamaño muestral

Conclusiones

• Las hipótesis no se plantean después de observar los


datos, si no antes.
• En ciencia, las hipótesis nula y alternativa no tienen el
mismo papel.
• α debe ser pequeño, para asegurar un error de tipo I mínimo.
• Rechazar una hipótesis consiste en observar si el estimador está en la región crítica o, equivalentemente, si p< α.
• Rechazar una hipótesis no prueba que sea falsa. Podemos cometer error de tipo I
• No rechazar una hipótesis no prueba que sea cierta. Podemos cometer error de tipo II
• Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos.

2. Algunos contrastes particulares


A.- Contrastes paramétricos.
• Contraste para la comparación de una media Prueba T de Student para una muestra

La prueba T contrasta si la media de una variable con distribución normal coincide con una determinada constante o
difiere. Las hipótesis que se contrastan son:

siendo  la media de la variable en la población y o la constante con la que se quiere comparar.


Para aplicar esta prueba, la variable de interés debe de seguir una distribución normal y la muestra estudiada debe de
ser seleccionada de manera aleatoria.

• Contraste para la comparación de dos medias. Prueba T de Student para dos muestras independientes
Esta prueba contrasta si la media de una variable con distribución normal, es la
misma en dos poblaciones distintas o difieren. Las hipótesis que se plantean
son las siguientes.

siendo 1 y 2 las medias de la variable de interés en las dos poblaciones de estudio. Para aplicar esta prueba, la
variable de interés debe de seguir una distribución normal en ambas poblaciones y las muestras estudiadas deben de
ser seleccionadas de manera aleatoria e independientes. Deben tener igual varianza (homocedásticas).

• Contraste para la comparación de más de dos medias. Prueba ANOVA.


La prueba ANOVA contrasta si la media de una variable con distribución normal coincide en más de dos poblaciones de
estudio. Las hipótesis que se plantean son las siguientes.

siendo i la media de la variable de estudio en la población de estudio i., para i=1,2,...k,

Las hipótesis para aplicar una prueba ANOVA son las siguientes:
➢ Las muestras deben de ser independientes .
➢ La variable debe seguir una distribución Normal en cada una de las poblaciones de estudio.
➢ La muestras deben de ser seleccionadas de manera aleatoria.
➢ La muestras deben de ser Homocedásticas (la varianza de la variable es la misma en todas las poblaciones).

3.Algunos contrastes particulares no paramétricos

Contraste de Normalidad: TEST DE SHAPIRO-WILKS


• Toda la teoría hasta ahora estudiada de muestreo, tiene como hipótesis fundamental, que la población estudiada se
distribuye según una
Normal de media  y varianza 2.
• Lo primero que debemos hacer a la hora de calcular un intervalo de confianza o realizar un contraste de medias, es
asegurarnos que los datos muestrales se distribuyen según una normal.
• Para ello vamos a utilizar el test de Shapiro-Wilks o el test chi-cuadrado de Pearson.
• El TEST DE SHAPIRO-WILK sólo es válido para estudiar la normalidad de nuestros datos.
• Realiza el contraste

• A la hora de la práctica, nosotros estudiaremos el valor del p-valor.


➢ Si es inferior a 0,1 (0,05), estaremos en la región crítica y rechazaremos H0, pudiendo afirmar que los datos
no son normales con un nivel de confianza del 90% (o del 95%).
En este caso, deberemos aplicar los test de hipótesis no paramétricos.

➢ Cuando el p-value sea superior al 0,1 (0,05), no podremos rechazar H0, no pudiendo afirmar que los datos no
son normales, (con un nivel de confianza del 90% (o del 95%)).
En este caso, procederemos a calcular los intervalos de confianza tal y como hemos estudiado en el tema
anterior, así como a aplicar contrastes para comparar medias.

B.- Contrastes no paramétricos


1.- Contraste de Normalidad: TEST DE SHAPIRO-WILK o KOLMOGOROVSMIRNOV

Algunos contrastes particulares


Contraste de aleatoriedad: Test de rachas de Wald-Wolfowitz
Este test contrasta si los datos de una muestra se han obtenido de forma aleatoria
o siguen un determinado criterio

Contraste de comparación de dos poblaciones. Test de Wilcoxon-MannWhitney


Cuando dos muestras no proceden de distribuciones normales, este test permite
contrastar si la procedencia de las dos muestras es de la misma población. Las
hipótesis que se plantean son:

2.- Contraste de aleatoriedad: Test de rachas de Wald-Wolfowitz


3.- Contraste de comparación de dos poblaciones. Test de WilcoxonMann-Whitney

4.- Contraste de comparación de varias poblaciones Test de KruskalWallis


Es una generalización del test de Wilconxon-Mann-Whitney para el caso en que se
tengan más de dos poblaciones. Es decir, contrasta si más de dos muestras
proceden de la misma población. Las hipótesis que se plantean son:

4. Introducción Análisis Multivariante.


¿QUÉ ES EL ANÁLISIS MULTIVARIANTE?
Es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente
conjuntos de datos multivariantes en el sentido de que hay varias variables medidas
para cada individuo u objeto estudiado.
Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio
obteniendo información que los métodos estadísticos univariantes y bivariantes son
incapaces de conseguir.

Objetivos del Análisis Multivariante


1) Proporcionar métodos cuya finalidad es el estudio conjunto de datos multivariantes
que el análisis estadístico uni y bidimensional es incapaz de conseguir

2) Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en el


que se encuentre teniendo en cuenta la información disponible por el conjunto de
datos analizado

TECNICAS MULTIVARIANTES
1) Métodos de dependencia
Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El
objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de
variables dependientes y de qué forma.

2) Métodos de interdependencia
Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables
están relacionadas, cómo lo están y porqué.

3) Métodos estructurales
Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo
de estos métodos es analizar, no sólo como las variables independientes afectan a las variables dependientes, sino también
cómo están relacionadas las variables de los dos grupos entre sí

También podría gustarte