Está en la página 1de 8

EST-554

Prctica #2

1. ENSAYO CON UNA MUESTRA O POBLACION


De momento nos referiremos nicamente a los contrastes del primer tipo,
dejando los contrastes de ajuste para un epgrafe monogrfico al final de
este mdulo.
Es conveniente estandarizar e incluir de manera formal la variables aleatoria
X
normal estndar Z, donde Z = / n .
Se sabe que bajo H0 (si = 0), entonces

( X ) / ( / n )

tiene una

distribucin n(X;0,1) y, por lo tanto, se puede utilizar la expresin para


escribir una regin de aceptacin adecuada.
La muestra descansa en el principio de que las partes representan el todo y,
por tal, refleja las caractersticas de la poblacin de la que fue extrada, lo
cual nos indica que es representativa. Por lo tanto, la validez de la
generalizacin de la validez y tamao de la muestra.
Un contraste estadstico de hiptesis consiste en evaluar una poblacin a
travs de una muestra aleatoria de la misma, con objeto de determinar si
existen evidencias para que una hiptesis formulada sobre la poblacin deba
ser rechazada o no pueda ser rechazada.
Segn su aplicacin, se pueden dividir los contrastes:
Contrastes de un valor concreto de un parmetro del modelo.
Contrastes para validar la funcin de distribucin que se supone ha
generado los datos (contrastes de ajuste).
2. USO DE Z Y T
USO DE Z
Una de las consecuencias del Teorema del Lmite Central es que dada una
poblacin con media y para n lo bastante grande, la distribucin de la
X i
Z
=
variable
es una distribucin normal, a esta se le llama la

distribucin normal estndar o tipificada.


Donde:
1
Elaine Medina
100089835

EST-554
Prctica #2

xi es la observacin que estamos queriendo analizar


es el valor de la media de la poblacin (puede ser estimada de la muestra)
es el valor de la desviacin estndar de la poblacin (puede ser estimada
de la muestra si n es muy grande)
Si nos fijamos en la frmula el valor de Z es la distancia de la observacin a
la media en unidades de desviacin estndar, es decir, a cuntas
desviaciones estndar est alejada nuestra observacin de la media.
USO DE T
Es cualquier prueba en la que el estadstico utilizado tiene una distribucin t
de Student si la hiptesis nula es cierta. Se aplica cuando la poblacin
estudiada sigue una distribucin normal pero el tamao muestral es
demasiado pequeo como para que el estadstico en el que est basada la
inferencia est normalmente distribuido, utilizndose una estimacin de la
desviacin tpica en lugar del valor real. Es utilizado en anlisis
discriminante.
Entre los usos ms frecuentes de las pruebas t se encuentran:
El test de locacin de muestra nica por el cual se comprueba si la
media de una poblacin distribuida normalmente tiene un valor
especificado en una hiptesis nula.
El test de locacin para dos muestras, por el cual se comprueba si las
medias de dos poblaciones distribuidas en forma normal son iguales.
Todos estos test son usualmente llamados test t de Student, a pesar de
que estrictamente hablando, tal nombre slo debera ser utilizado si
las varianzas de las dos poblaciones estudiadas pueden ser asumidas
como iguales; la forma de los ensayos que se utilizan cuando esta
asuncin se deja de lado suelen ser llamados a veces como Prueba t
de Welch. Estas pruebas suelen ser comnmente nombradas como
pruebas t desapareadas o de muestras independientes, debido a que
tienen su aplicacin ms tpica cuando las unidades estadsticas que
definen a ambas muestras que estn siendo comparadas no se
superponen.
El test de hiptesis nula por el cual se demuestra que la diferencia
entre dos respuestas medidas en las mismas unidades estadsticas es
cero. Por ejemplo, supngase que se mide el tamao del tumor de un
paciente con cncer. Si el tratamiento resulta efectivo, lo esperable
seria que el tumor de muchos pacientes disminuyera de tamao luego
2
Elaine Medina
100089835

EST-554
Prctica #2

de seguir el tratamiento. Esto con frecuencia es referido como prueba t


de mediciones apareadas o repetidas.
El test para comprobar si la pendiente de una regresin lineal difiere
estadsticamente de cero.
La mayor parte de las pruebas estadsticas t tienen la forma

T=

Z
s , donde

Z y s son funciones de los datos estudiados. Tpicamente, Z se disea de


forma tal que resulte sensible a la hiptesis alternativa (que su magnitud
tienda a ser mayor cuando la hiptesis alternativa es verdadera), mientras
que s es un parmetro de escala que permite que la distribucin de T pueda
ser determinada.
3. ENSAYOS CON DOS (2) TRATAMIENTOS O MUESTRA
En muchos estudios, incluidos la mayora de los ensayos clnicos, es
necesario comparar ciertas caractersticas en dos o ms grupos de sujetos.
Tal sera el caso, por ejemplo, si pensamos que un tratamiento nuevo puede
tener un porcentaje de mejora mayor que otro estndar, o cuando nos
planteamos si los nios de las distintas comunidades autnomas tienen o no
la misma altura. En este artculo se analizar nicamente el problema de la
comparacin de dos grupos con respecto a una variable continua. La
eleccin de un mtodo de anlisis apropiado en este caso depender de la
naturaleza de los datos y la forma en la que estos hayan sido obtenidos.
Fundamentalmente, cuando se comparan dos o ms grupos de
observaciones pueden darse dos tipos de diseo: aquel en el que las
observaciones se refieren a dos grupos independientes de individuos, o el
caso en el que cada serie de datos se recoge en los mismos sujetos bajo
condiciones diferentes. El tipo de metodologa ser distinto segn el caso en
el que nos encontremos. Otro aspecto a tener en consideracin ser el tipo y
distribucin de los datos. Para grupos independientes, los mtodos
paramtricos requieren que las observaciones en cada grupo provengan de
una distribucin aproximadamente normal con una variabilidad semejante,
de modo que si los datos disponibles no verifican tales condiciones, puede
resultar til una transformacin de los mismos (aplicacin del logaritmo, raz
cuadrada, etc.) o, en todo caso, se debera recurrir a la utilizacin de
procedimientos no paramtricos.
Normalmente en este tipo de anlisis podremos establecer una hiptesis de
partida (hiptesis nula), que generalmente asume que el efecto de inters es
nulo, por ejemplo que la tensin arterial es la misma en hombres y mujeres o
que dos tratamientos para la hipercolesterolemia son igualmente efectivos.
Posteriormente se puede evaluar la probabilidad de haber obtenido los datos
observados si esa hiptesis es correcta. El valor de esta probabilidad
3
Elaine Medina
100089835

EST-554
Prctica #2

coincide con el valor-p que nos proporciona cada test estadstico, de modo
que cuanto menor sea ste ms improbable resulta que la hiptesis inicial se
verifique.
En un primer apartado, se presentar el test t de Student para dos muestras
independientes, introduciendo las modificaciones necesarias en el caso de
que la variabilidad de ambos grupos sea distinta. A continuacin se
introducir el test t de Student para el caso de dos muestras dependientes.
La respuesta natural sera comparar cada par de tratamientos o grupos con
una prueba t para muestras independientes. Sin embargo, no es correcto
hacer pruebas t de Student entre todos los pares posibles de medias ya que
se altera el nivel de significacin fijado para cada una de las pruebas.
Especficamente, aumenta la probabilidad de encontrar diferencias donde no
existen, es decir aumenta el Error Tipo I. Por ejemplo, si tenemos 4
4!
4
tratamientos el nmero posible de pares de pruebas sera 2 = 2! 2 ! =6 . En

()

el caso de los tomates tenemos

(32)= 1!32! ! =3

. Pruebas. El test de ANOVA

permite el estudio simultneo de las diferencias con un nivel fijo de


significacin.
4. DATOS PAREADOS
Tenemos muestras pareadas o correlacionadas cuando sabemos de
antemano que una observacin est relacionada con la otra. Pueden ser
observaciones tomadas al mismo tiempo, diseo pareado 1, o medidas
tomadas en un mismo sujeto o unidad en dos oportunidades o tiempo
distintos (diseo pareado 2).El nmero de observaciones es el nmero de
pares.
Anlisis de muestras pareadas:
En un diseo pareado las unidades son parecidas (de hecho pueden ser las
mismas), mientras que las unidades de distintos pares son diferentes. En
diseos pareados analizamos las diferencias y el problema se reduce al test t
para una media que vimos en el captulo anterior.
Los datos apareados son los que tenemos cuando dos muestras con valores
pero los datos de cada muestra pertenecen a los mismos individuos, es decir
tenemos las medidas de cada variable en la misma persona o individuo, por
ejemplo medimos los valores de tensin arterial mnimo y mximo, si
sacamos la muestra en el mismo grupo de personas, para cada una de ellas
dispondremos de dos valores uno para cada muestra, que estn relacionados
4
Elaine Medina
100089835

EST-554
Prctica #2

(apareados) al ser del mismo individuo, por ejemplo hemos medido la


tensin mxima y mnima en las 4 personas.
Persona --- mnimo --- mximo
1 --- 110 --- 135
2 --- 90 --- 115
3 --- 101 --- 121
4 ---- 120 --- 150
Es diferente a haber medido la tensin mxima en 4 persona y la mnima en
otras 4.
Los datos apareados pueden usarse fcilmente en varias pruebas
estadsticas ya que basta crear una variable que mida su diferencia en cada
individuo y trabajar con una sola variable en lugar de dos.
Una de las hiptesis sobre las que habitualmente se fundamentan las
pruebas estadsticas de comparacin de grupos es que las observaciones
pertenecientes a cada una de las muestras son independientes entre s, no
guardan relacin; siendo precisamente ese uno de los objetivos de la
aleatorizacin (eleccin aleatoria de los sujetos o unidades de observacin,
asignacin aleatoria del tratamiento a cada paciente, etc). Sin embargo,
como veremos en este artculo, la falta de independencia entre las
observaciones de los grupos puede ser una caracterstica de diseo del
estudio para buscar fundamentalmente una mayor eficiencia del contraste
estadstico al disminuir la variabilidad. En otras ocasiones con este tipo de
diseo pareado lo que se busca es dar una mayor validez a las inferencias
obtenidas, controlando o eliminando la influencia de variables extraas cuyo
efecto ya es conocido o sospechado, y no se desea que intervenga en el
estudio actual pudiendo enmascarar el efecto del tratamiento o de la
variable de inters.
Cuando efectivamente influye en el resultado la variable que nos ha llevado
a decidir utilizar un diseo pareado, las medidas dentro de cada pareja
estarn correlacionadas, por lo que siempre podemos comprobar a posteriori
si esto es as, calculando el coeficiente de correlacin, que debiera ser
positivo y de cierta entidad.
Hay que destacar que no siempre el diseo pareado es el ms efectivo, ya
que como se apunt anteriormente hay una disminucin en los grados de
libertad que debe ser compensada con la reduccin de varianza para que la
prueba resulte ms efectiva. Hay muchas situaciones en las que las
observaciones "prximas" estn relacionadas negativamente, de tal manera
que las comparaciones entre parejas son entonces menos parecidas que
otras comparaciones.
5
Elaine Medina
100089835

EST-554
Prctica #2

5. DATOS INDEPENDIENTES (SORTEADOS)


Es aquella propiedad, cualidad o caracterstica de una realidad, evento o
fenmeno, que tiene la capacidad para influir, incidir o afectar a otras
variables. Se llama independiente, porque esta variable no depende de
otros factores para estar presente en esa realidad en estudio. Algunos
ejemplos de variables independientes son; el sexo, la raza, la edad, entre
otros. Veamos un ejemplo de hiptesis donde est presente la variable
independiente: Los nios que hacen tres aos de educacin preescolar,
aprenden a leer ms rpido en primer grado. En este caso la variable
independiente es hacen tres aos de educacin preescolar. Porque para
que los nios de primer grado aprendan a leer ms rpido, depende de que
hagan tres aos de educacin preescolar.
6. USO DE LA TABLE F Y T
TABLA F
Existe una distribucin F diferente para cada combinacin de tamao de
muestra y nmero de muestras. Por tanto, existe una distribucin F que se
aplica cuando se toman cinco muestras de seis observaciones cada una, al
igual que una distribucin F diferente para cinco muestras de siete
observaciones cada una. A propsito de esto, el nmero distribuciones de
muestreo diferentes es tan grande que sera poco prctico hacer una
extensa tabulacin de distribuciones. Por tanto, como se hizo en el caso de la
distribucin t, solamente se tabulan los valores que ms comnmente se
utilizan. En el caso de la distribucin F, los valores crticos para los niveles
0,05 y 0,01 generalmente se proporcionan para determinadas
combinaciones de tamaos de muestra y nmero de muestras.
Uso de la tabla de F del anlisis de variancia (ANOVA):
En la imagen se ilustra la estructura de una tabla de F para un nivel de
significacin de 0,01 o 1% y 0,05 o 5%.

6
Elaine Medina
100089835

EST-554
Prctica #2

TABLA T
La distribucin t de Student es necesario para el clculo de intervalos de
confianza que involucran a medias. Se debe recordar que t de Student es
una distribucin con un parmetro que se denomina GRADO DE LIBERTAD.
En funcin del parmetro (que se calcula de distintas manera en cada una de
las posibles aplicaciones), debemos buscar en la tabla el valor del cuantil
necesario del IC.
7. INTERPRETACION DE RESULTADOS
Para el anlisis e interpretacin de los datos, seguiremos a Taylor y Bogdan
(1986), quienes plantean el tratamiento de los datos a travs de un anlisis
comprensivo, articulado sobre la comprensin y rastreo de los mismos,
mediante la bsqueda de categoras fundamentales en los hechos que se
han descritos a lo largo de los diferentes instrumentos utilizados en la
investigacin cualitativa. Entendiendo las categoras como ideas, temas,
conceptos, interpretaciones, proposiciones, topologas (surgidas de los datos
observados o de los criterios del evaluador).
8. TOMA DE DECISION
7
Elaine Medina
100089835

EST-554
Prctica #2

En definitiva, se trata de utilizar la estadstica como una herramienta


diferenciadora respecto de la competencia para aproximarse a la solucin
que satisfaga las necesidades de empresa, y as crear una oportunidad de
negocio que nos permita posicionarnos en el mercado de manera
estratgica.
La Estadstica para la toma de decisiones puede dividirse en:
Estadstica Descriptiva: Aquella que describe las caractersticas de una
serie de datos pertenecientes a una poblacin o a una muestra
(recogida, descripcin, anlisis y sumatorio de datos).
Estadstica Inferencial: Dado el desconocimiento de la poblacin, en la
prctica, el profesional buscar hacer inferencias para la toma de
decisiones, es decir, predicciones sobre ciertas caractersticas de la
poblacin, basndose en la informacin contenida en una muestra al
azar (o aleatoria) de la poblacin entera.
La estadstica inferencial puede utilizarse para explicar un fenmeno o para
comprobar la validez de una proposicin. En el primer caso, se denomina
anlisis exploratorio de datos y, en el segundo, anlisis confirmatorio de
datos.
La Estadstica Descriptiva es la base de la Estadstica Inferencial.
ETAPAS USUALES DE UN PROCESO DE TOMA DE DECISIONES ESTADSTICAS

8
Elaine Medina
100089835