Bibliografía básica:
Hipótesis nula:
1
El ejemplo es citado en http://www.scribd.com/doc/26640224/Estadistica-informe.
Ho: P ≤ 0,10
Ho: 1 – 2 ≥ 1
Ha: 1 - 2 < 1
Ho: = 3
Ha: ≠ 3
Al tomar una decisión en una prueba de hipótesis, hay cuatro posibles resultados que
pueden ocurrir; como se ilustra en el siguiente esquema:
REALIDAD DE INTERÉS:
Dos de los resultados involucran decisiones correctas, en tanto, dos de las decisiones
involucran decisiones incorrectas:
P (rechazar Ho | Ho verdadera) =
Propiedades de y
O en términos simbólicos:
Ho: = 16
Ha: 16
Ha: > 16
Ha: < 16
Z, t, 2, F
El estadístico de prueba.
La probabilidad.
La distribución de probabilidad del estadístico utilizado en la prueba.
La zona de rechazo tiene una magnitud dada por y una dirección dada por
la hipótesis alternativa.
Ahora focalizaremos en los conceptos de error Tipo I y error Tipo II, con respecto a las
pruebas para la media poblacional. Estos conceptos se aplican en los demás casos de
pruebas de hipótesis.
La probabilidad del error Tipo I es igual al nivel de significación que se definió para
someter a prueba la hipótesis nula. Hay una probabilidad ( ) de que seleccione una
muestra al azar (probabilística) de la cual surja una media muestral comprendida en la
región de rechazo o las regiones de rechazo. Si surgiera tal valor, dado como indica la
regla de decisión que debe procederse, se rechaza la hipótesis nula, pese a ser ésta
a) Se toma una muestra al azar una muestra de 120 sucursales y se encuentra que
la venta media es de 15.39 millones de pesos anuales, con una desviación
estándar de 2.9 millones de pesos. Probar la hipótesis 15 millones con un
nivel de significación del 10%
Datos
n = 120
= 15.39 millones
= 2.9 millones
= 0.10
1. Establecer la hipótesis
Ho: = 15
Ha: 15
Z=
Z=
Z= 1.47
No se rechaza Ho
5. Conclusión: No existe evidencia para decir que las ventas promedio por sucursal
son diferentes de 15 millones de pesos con un nivel de significación de 0.10.
SUPUESTOS:
a) conocida
b) Ó
CASO:
Datos
n =36
= 160 gramos
= 30 gramos
= 0.05
1. Establecer la hipótesis
Ho: 170
Z=
Z=
Como -2 es menor que -1.64 la hipótesis nula se rechaza con un nivel de significación
de 0.05.
P ( Z < -2 ) = .02275
( desconocida y )
Datos
n =12
s= $ 235
= .05
1. Establecer la hipótesis
Ho: = 1150
Ha: 1150
t=
f(t)
t grados de libertad: 11
-2.201 2.201
t=
5. Como 1.84 está entre -2.201 y 2.201 no se rechaza la hipótesis nula a un nivel de
significación de 0.05
6. Conclusión
No se tiene evidencia suficiente para decir que los valores de las computadoras
entregadas son diferentes a $ 1150.
Paso 2 A partir del nivel de significación definido () indicar la región de rechazo en la
curva normal estándar (curva z).
ó ó /2 /2
z -z -z z
x
Paso 3 Calcular el valor z para la proporción muestral p usando la
n
fórmula
p p0 p0 (1 p0 )
Z= , p
p n
Ejemplo:
Hipótesis nula:
H0 : p = 0.4
Hipótesis alternativa:
H1 : p 0.4
Datos:
p = 0.45,
n = 200,
= 0.01.
Procedimiento:
Paso 1
H0 : p = 0.4
H1 : p 0.4
.005 .005
-2.575 2.575
Z
1.45
H0 : P = P0
H1 : P > P0 ó
P < P0 ó
p p0
x
Paso 2 Calcule el valor z para la proporción muestral p usando la
n
fórmula:
p p0 p0 (1 p0 )
Z= , donde p .
p n
z -z -z z
Datos:
p = 0.45, n = 200, y = 0.01.
Planteo de la hipótesis
H0 : p = 0.4
H1 : p 0.4
Análisis:
Paso 1 H0 : p = 0.4
H1 : p 0.4
P/2 P/2
-1.45 1.45
Diferencia de medias
1. muestras independientes
2. muestras relacionadas o apareadas
Supuestos:
Las muestras fueron tomadas de manera independiente y al azar de sus
respectivas poblaciones
Los subíndices indican en este caso las respectivas muestras 1 y 2. Debe tenerse en
cuenta que la diferencia entre medias (especialmente importante para el caso de
pruebas unilaterales en las que se aplica el mismo estadístico, con procedimiento
análogo de adaptación de las pruebas al caso unilateral), debe realizarse en el mismo
orden para las medias muestrales y poblacionales.
Hipótesis nula:
H0: 1 2
Hipótesis alternativa:
H1: 1 2
( x1 x 2 ) ( 1 2 )
t
1 1
s 2p
n1 n2
Cuando no es posible asegurar que las varianzas de ambas poblaciones son iguales
(y en particular, cuando así lo permite aseverar un test realizado para someter a
contraste la igualad de tales varianzas), se procede modificando el estadístico de
prueba como detallamos a continuación.
s12 s 22
v n1 n2
2 2
s12 s 22
n1 n2
n1 1 n2 1
Afortunadamente para quienes toman este curso, la atención principal debe estar
centrada en la interpretación de resultados obtenidos con estas técnicas y métodos, y
no con el cálculo manual de este tipo de fórmula. Veremos a continuación un ejemplo
de salida de SPSS para una caso donde se interpreten este tipo de resultados.
Ejemplo:
Analice lo siguiente: ¿por qué se trata de una prueba para muestras independientes?
En primer lugar, arroja una tabla de datos descriptivos para los grupos de datos.
Puede observarse que la muestra 1 corresponde a 15 casos, en tanto la muestra 2
comprende 52 casos. El promedio de hijos tenidos para la muestra 1 es 3,6 mientras el
correspondiente a la muestra 2, alcanza los 1,46 hijos. A simple vista podemos tener
una idea a priori de una diferencia significativa entre ambas muestras. Esta intuición
sirve para la interpretación de los resultados.
Error estándar
Muestra N Media Desv. estándar de la media
Por lo tanto consideraremos los resultados provistos por la segunda fila de resultados
de la tabla para analizar la prueba de diferencia de medias de muestras
independientes.
Di X i1 X i 2
Esta diferencia para cada par de datos que estamos estudiando representa las
diferencias uno a uno. Por ejemplo, si es un estudio entre gemelos, en el cual a uno de
los gemelos de cada conjunto de hermanos gemelos que se está estudiando se le
aplicó un tratamiento, cuyo efecto se quiere comprobar, la diferencia D es la medida
de la distancia en la variable de respuesta para ambos sujetos. Justamente lo que se
pretende someter a prueba es la existencia o no de tal diferencia entre los sujetos que
fueron sometidos a tratamiento y los que no, aún en estos casos, en los cuales los
sujetos poseen mucha homogeneidad entre sí.
El promedio muestral de tales diferencias se obtiene considerando todas las D para los
n pares de sujetos de estudio:
D
Di
n
La prueba se lleva a cabo con el mismo procedimiento utilizado previamente para los
diversos casos de pruebas de hipótesis.
Ho: D 0
H1: D 0
D D
t
s D2
n
Análisis de varianza
El método de análisis de varianza se basa en el hecho de que hay una diferencia entre
los grupos sólo si la varianza intergrupos es mayor que la varianza intra-grupo.
La idea básica del ANOVA es el hecho de que las varianzas pueden ser divididas, es
decir separadas. Se debe recordar que la varianza se calcula como la suma de
desviaciones al cuadrado respecto de la media general (o gran media), dividida por n-1
(el tamaño de la muestra menos uno). Por eso, dado un cierto n, la varianza es una
función de las sumas de cuadrados (de desvíos), a la cual denominaremos SS. La
partición de la varianza funciones como mostraremos a continuación:
Las medias de los tres grupos son bastante diferentes. Las sumas de cuadrados en
cada grupo son relativamente reducidas. En total suma 4,56. Por otra parte, si
analizamos la SS total, obtenemos 55,56. En definitiva, calcular la varianza (suma de
cuadrados) basados en la variabilidad en los grupos conduce a una estimación mucho
menor de la varianza que calcularla basada sobre la variabilidad total. La razón para
ello en este ejemplo es que hay una gran diferencia entre las medias, y esta diferencia
genera la diferencia entre las SS.
Tabla de ANOVA
El hecho de rechazar la hipótesis nula de un ANOVA no nos dice nada acerca de las
diferencias de las medias entre sí, sólo nos permite asegurar que tal diferencia es
significativa, en al menos una de las medias consideradas.
Para poder identificar cuál o cuáles medias difieren se realizan pruebas como el test
de Tuckey, que posibilitan su detección.
Suma de Cuadrados
cuadrados GL medios F Sig.
Ahora veremos los análisis posteriores vinculados con detectar cuál de las regiones
posee diferente media:
Comparaciones múltiples
Código de Región N 1 2 3 4
Supuestos:
Se supone que la variable dependiente está medida al menos en un nivel de
una escala de intervalo.
Además, la variable dependiente debería distribuirse normal en los grupos.
b) Homogeneidad de Varianzas
Supuestos:
Las varianzas de los diferentes grupos del diseño son idénticas.
Si las varianzas de dos grupos son diferentes unas de otras, la suma de dos
varianzas no es apropiada y no conduciría a una estimación de la varianza
común dentro de los grupos.
ANOVA
Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160
Fuente de GL SS MS F
variación
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04
Suma de Cuadrados
cuadrados GL medios F Sig.
Total 2905,040 24
Bibliografía básica:
Variable independiente
Nominal Ordinal Intervalar o de
razón
Variable Nominal Tablas cruzadas Tablas cruzadas
dependiente Chi Cuadrado Chi Cuadrado
Lambda Lambda
Ordinal Tablas cruzadas Tablas cruzadas
Chi Cuadrado Chi Cuadrado
Lambda Lambda
Gamma
Tau de Kendall
d de Sommers
Intervalar o de Medias Medias Correlación
razón Prueba t Prueba t r de Pearson
ANOVA ANOVA Regresión
El resto de los análisis serán objeto de estudio de este módulo, con énfasis en los
puntos que detalla el programa de la materia.
A los fines de la evaluación, se trabajó con muestra de cada una de las poblaciones de
beneficiarios, y se estudió comparativamente su situación socioeconómica, en relación
el momento de recepción del beneficio.
La prueba Chi cuadrado que presentaremos permite establecer si existe relación entre
escalas como las planteadas en el ejemplo.
La prueba Chi cuadrada es una prueba de carácter general que se utiliza cuando se
desea determinar si las frecuencias absolutas obtenidas en la observación (como en la
tabla del ejemplo previo), difieren significativamente o no de las que se esperarían bajo
cierta hipótesis planteada de interrelación de las categorías de las variables
consideradas.
Considerando los datos de la tabla previa, se puede observar que entre los que
mejoraron, es más elevada la proporción, respecto del total que recibió los beneficios
de una política de ingresos, en tanto, entre los que se mantuvieron, la proporción que
se destaca es la de individuos que recibieron los beneficios del programa de salud.
Finalmente, los hogares que vieron desmejorar su situación socio-económica,
presentan proporcionalmente una mayor presencia de la política de vivienda que el
resto.
A los fines de corroborar si tal observación puede sostenerse, o bien si se trata sólo de
una casualidad presente en los datos de la muestra, la prueba Chi cuadrado permite
someter a contraste las siguientes hipótesis:
H1:
Las variables no son independientes.
( fo fe )2
2
fe
Donde
Veamos los resultados que proporciona la aplicación del método, utilizando el paquete
estadístico SPSS:
cambio
Tabla de resultados:
Significación
asintótica (2
Valor GL colas)
5.2.1. V de Cramer
V es igual a la raíz cuadrada de Chi cuadrado dividido por el tamaño de la muestra por
el mínimo entre el número de filas menos 1 y el número de columnas menos 1:
2
V
n.k
Otras características de V:
5.2.2. Q de Kendall
Los valores que puede alcanzar oscilan entre - 1 y + 1; cuando es igual a -1 indicará
una completa disociación entre las variables, y si es igual a +1 mostrará una
asociación total.
En caso de que el valor sea igual a cero, se concluye que no hay asociación o relación
entre las variables, lo cual es la diferente al hecho de que exista una disociación.
Supongamos una tabla genérica 2 x 2, con las siguientes denominaciones para las
casillas:
Variable 1
Variable 2 1ª categoría 2ª categoría Total
1ª categoría a b
2ª categoría c d
Total
ad bc
Q
ad bc
Cuando los productos de las diagonales son iguales, el valor de Q es cero, e indica
independencia entre las variables.
Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de
orden, de cada grupo de sujetos y compara dichos rangos.
6 d i2
r 1
n.(n 2 1)
Los valores de los rangos se colocan según el orden numérico de los datos de la
variable.
Veamos un ejemplo:
Si ordenamos cada variable de menor a mayor, podemos asignar a cada valor de cada
variable un rango correspondiente a la posición que ocupa en la serie ordenada.
La siguiente tabla incorpora entre paréntesis el rango para cada valor de ambas
series:
6.9 54
r 1 1
13.(13 1)
2
13.168
En el caso del ejemplo, el valor del coeficiente de correlación indica una correlación
positiva fuerte: a medida que es mayor la edad del ciudadano, mayor el número de
elecciones en las que votó.
La medida de la relación lineal entre dos variables cuantitativas, se estudia por medio
del cálculo del coeficiente de correlación de Pearson.
La representación gráfica de los datos para visualizar la relación entre el valor del
coeficiente de correlación y la forma de la gráfica es fundamental ya que podría existir
una relación no lineal o la ausencia de relación que prever desde el propio gráfico.
El coeficiente de correlación mide solo la relación lineal. Dos variables pueden tener
una relación no lineal fuerte, a pesar de que su correlación sea pequeña. Por tanto
La validez del test de hipótesis sobre la correlación entre las variables exige el
cumplimiento de los siguientes supuestos:
25,00 748,00
26,00 847,00
27,00 934,00
28,00 1051,00
29,00 1117,00
30,00 1310,00
29,00 1120,00
31,00 1446,00
32,00 1645,00
33,00 1845,00
34,00 2075,00
35,00 2327,00
36,00 2594,00
36,00 2500,00
38,00 3180,00
39,00 3320,00
40,00 3500,00
41,00 3600,00
42,00 3650,00
36,00 2670,00
35,00 2400,00
34,00 2200,00
35,00 2350,00
36,00 2800,00
38,00 2850,00
38,00 3040,00
38,00 3150,00
39,00 3400,00
X 35,89 semanas
Y 2599,20 gramos
r
( X X )(Y Y )
( X X ) (Y Y )
2 2
200321,16
r
873,58.34583089,7
r 0,9895
Observe que el valor del coeficiente de correlación alcanza un valor muy próximo a 1,
lo cual, como indicamos previamente, significa que la relación entre las variables es
positiva y fuerte.
edad_gestacional peso_al_nacer
N 38 38
N 38 38
La tabla de doble entrada proporciona las correlaciones entre todas las variables
numéricas que se indiquen.
En este caso, para el caso del a correlación entre la edad gestacional y el peso al
nacer, reporta un p-valor de 0,000. El cual comparado con un a convencional del 0,05,
nos hace concluir que se debe rechazar la hipótesis de no correlación
(correspondiente a esta prueba).
El diagrama de dispersión
Un gráfico que nos permite visualizar de manera sencilla la posible existencia de una
relación entre las variables de interés, es el diagrama de dispersión. Este gráfico
consiste en la colección de puntos en un diagrama de ejes cartesianos, donde los
valores de la variable dependiente se representan en las ordenadas y los de la
variable independiente en las abcsisas. Cada punto del gráfico se indica con las
coordenadas del mismo representado como par ordenado (x, y). El conjunto de puntos
surgidos de graficar todos los datos disponibles recibe el nombre de nube de puntos.
Lo que el diagrama de dispersión da la posibilidad de observar, es la forma de la
relación, en términos no estrictos (en el sentido que siempre necesitaremos los test y
estimaciones estadísticas), pero es un buen punto de partida, por ejemplo, para
preliminarmente analizar si la línea recta será una aproximación aceptable de la
relación o no.
En el ejemplo de Diagrama de dispersión, la variable Y (dependiente) indica el salario
horario inicial (expresado en moneda corriente) de un ocupado en el mercado laboral,
la variable X (independiente) representa los años de experiencia previa que esa
persona exhibía en su curriculum. Para describir la relación aparente entre estas
variables, podríamos indicar que si bien en nuestra muestra hay pocos casos con baja
experiencia relativa, a medida que más experiencia laboral previa tenía un ocupado,
su salario inicial resulta más elevado. Con la intención de ser más específicos y
sintéticos al mismo tiempo, el modelo de regresión lineal intenta asociar la relación
entre estas variables a través de una línea recta que generalice esta vinculación,
despreciando las oscilaciones específicas de cada caso particular respecto de la línea
recta que indicaría la estructura de la relación entre experiencia y salario inicial.
Actividad:
Elabore (utilizando una hoja cuadriculada, para facilitar la adecuación a una escala
proporcional de cada variable) la siguiente relación:
<0
2. Normalidad
Las distribuciones de los valores de Y para valor de X deben ser normales.
3. Homocedasticidad
La variabilidad de los valores de la variable dependiente Y es igual para
cualquier valor de la variable X.
4. Independencia de errores
Los residuos o errores (las diferencias entre los valores pronosticados y los
observados realmente), deben ser independientes entre sí.
La violación de este supuesto es más frecuente cuando se trabaja con datos
correspondientes a series de tiempo.
Bondad de ajuste
Para poder afirmar que el resultado de la regresión es adecuado, necesitamos
contar con algún indicador del grado en que la recta ajusta acertadamente a la
nube de puntos. En particular estamos pensando en un indicador del grado de
fidelidad con que la recta obtenida por el método de mínimos cuadrados
describe la relación existente entre los datos.
La medida de aplicación más generalizada corresponde al coeficiente de
determinación o R2.
Este indicador corresponde al cuadrado del coeficiente de correlación. Es una
medida estandarizada que asume valores entre 0 y 1:
0 cuando las variables son independientes
1 si la relación captada por la recta es perfecta
Para el ejemplo presentado, el valor del R2 alcanza 0,83, lo cual significa que el
83% de la variabilidad del salario inicial al momento de ingreso es explicada de
manera lineal, por los años de experiencia previos al ingreso.
Veamos un ejemplo
La gráfica anterior permite prever una relación lineal positiva entre las variables.
El siguiente resultado es un resumen del modelo, donde aparece como indicador el R2,
que presentamos como medida de la bondad de ajuste. Como puede observarse, el
valor de este indicador es elevado y próximo a 1, por lo que el modelo de regresión
planteado explica el 83,2% de la variabilidad total de la variable dependiente (nota
promedio en la universidad). En esa misma tabla se indica el R cuadrado ajustado que
es la medida análoga pero cuando se trabaja con una regresión lineal múltiple, donde
es habitual que el R2 sea más elevado simplemente con incorporar variables al
análisis, y por eso la medida del R2 ajustado, libre de los efectos de incorporar nuevas
variables, corrigiendo por los grados de libertad, es una mejor medida de la bondad de
ajuste, en tales casos de regresión línea múltiple.
ANOVAb
Suma de Cuadrados
Modelo cuadrados GL medios F Sig.
Total 45,600 14
Finalmente, los resultados arrojados por el modelo permiten obtener los coeficientes
de regresión.
En primer lugar, el valor estimado para la ordenada al origen es de -1,558 (aparece
referido en la primer columna de resultados, consignada como constante). Este valor
no resultó ser signficativamente diferente de cero, ya que el valor de la significación es
0,157 (superior al 0,05 con que trabajamos habitualmente en este tipo de hipótesis).
Recordemos que la ordenada al origen indica el valor de la recta regresión (en
particular de la variable dependiente) cuando la variable independiente vale 0.
Coeficientesa
Coeficientes
Coeficientes no estandarizados estandarizados
Por ejemplo, si un alumno que ingresa a la universidad obtuvo una nota promedio de
6, entonces:
Y así podríamos proceder con cualquier otra nota del secundario, simplemente
reemplazando en la ecuación de regresión lineal estimada.
La Economía es la ciencia social que se ha apropiado por encima de las demás, del
uso de los modelos de regresión lineal como instrumento para explicar diversas
relaciones entre variables.
Este uso ha dado como consecuencia primera el desarrollo de una disciplina basada
en el manejo de múltiples modelos matemático para facilitar la predicción de variables
económicas, entre los cuales se destacan los modelos de regresión. De más está
decir, que los aportes propios generados desde esta disciplina, la Econometría, han
significado importantes avances para los conocimientos sobre aspectos complejos de
modelos lineales multivariables avanzados.
Hipótesis estadística = enunciado referido a la población que puede ser evaluado en función de información de
la muestra, y considerado verdadero o falso de acuerdo a la evidencia que la muestra nos proporciona.
Generalmente involucran uno o más características de la distribución, como: Forma de una distribución, Valor
de cierto parámetro, Independencia de la variable aleatoria, entre otras.
Son suposiciones o afirmaciones que formulamos acerca de los valores de un determinado parámetro, o de
características de la población en conjunto. Nunca las hipótesis hacen referencia a la muestra.
El valor del parámetro de la población especificado en la hipótesis suele determinarse de la siguiente forma:
Surgir de la experiencia, conocimientos pasados o experiencia previa. El objetivo de la prueba de
hipótesis será determinar si la situación experimental ha cambiado.
A partir de una teoría o modelo sobre el objeto de estudio. Objetivo de la prueba de hipótesis: verificar
la teoría o modelo.
Resultado de consideraciones experimentales, como especificaciones de diseño o de obligaciones
contractuales. Objetivo de la prueba de hipótesis: prueba de conformidad.
REALIDAD
H0 cierta H0 falsa = H1 cierta
ERROR TIPO 1 Decisión correcta
Rechazar H0 Prob = α Prob = 1 - β
DECISIÓN
Propiedades de α y β:
- El valor de α se fija al escoger la zona de rechazo
- El valor de β depende de la hipótesis alternativa que se escoja
- Para un tamaño muestral fijo, al aumentar la zona de rechazo y por lo tanto aumentar α, β disminuye.
Y si α decrece, β aumentará. (son inversamente proporcionales)
- Al aumentar el tamaño de la muestra, ambos decrecen a la vez.
4to paso: Calcular el estadístico de prueba a partir de los datos muestrales considerando Ho como
verdadera, para una muestra aleatoria.
6º. Conclusiones.
3º. Definir el nivel de significación y la zona de
No existe evidencia para decir que 15 millones no
rechazo
es el número de ventas promedio.
Los subíndices indican muestra 1 y 2. La diferencia entre medias debe realizarse en el mismo orden para
medias muestrales y poblacionales.
Luego de hacer la prueba estadística, y si resulta significativa se rechaza la hipótesis nula referida a la no
existencia de diferencia entre las medias:
MODULO 4
Existen distintas formas de medir la interrelación de dos variables:
VARIABLE INDEPENDIENTE
Nominal Ordinal De intervalo / De razón
Tablas cruzadas Tablas cruzadas
Nominal Chi cuadrado Chi cuadrado
VARIABLE DEPENDIENTE
Lambda Lambda
Tablas cruzadas Tablas cruzadas
Chi cuadrado Chi cuadrado
Lambda Lambda
Ordinal
Gamma
Tau de Kendall
D de Sommers
Medias Medias Correlación
De Intervalo
Prueba t Prueba t R de Pearson
De Razón
ANOVA ANOVA Regresión
Prueba chi cuadrado = prueba general que se utiliza cuando se desea determinar si las frecuencias absolutas
obtenidas en la observación difieren significativamente o no de las que se esperarían bajo cierta hipótesis
planteada de interrelación de las categorías de las variables consideradas.
Dada la siguiente información obtenida en la primera tabla, se confecciona una tabla cruzada determinando los
porcentajes respecto al resto de características:
Ho cierta (hipótesis nula): Las variables son independientes entre sí (no tienen relación)
Ho falsa = H1 cierta: Las variables no son independientes.
En caso de rechazar la hipótesis nula, se determinará la relación que suponemos que existe.
Si los valores observados se distancian del valor esperado bajo el supuesto de independencia, el estadístico
resultará en un valor elevado (ubicado en la zona de rechazo) y se rechazará la hipótesis nula. El estadístico Chi
Cuadrado está dado por:
Este estadístico se distribuye Chi Cuadrado con (c-1) . (f-1) grados de libertad.
Donde:
fo = frecuencias
observadas
fe = frecuencias
esperadas
c = número de columnas
f = número de filas
Aplicando SPSS obtenemos los siguientes resultados:
V de Cramer
Medida basada en el estadístico Chi Cuadrado más popular, debido a que da un indicador bien
ubicado entre 0 y 1 ajustado al tamaño de la tabla.
X2 = chi cuadrado
n = tamaño de la muestra
k = mínimo entre el número de filas menos 1 y el número de
columnas menos 1
Características de V de Cramer:
se interpreta como la asociación entre dos variables como un porcentaje de su máxima
variación posible.
La asociación medida por V en sus valores extremos, define una relación perfecta
como aquella que es predictiva, y define una relación nula como la independencia
estadística. Da valores entre 0 y 1. 0 es ausencia de asociación y 1 asociación perfecta.
Su significación es igual que la de Chi Cuadrado. En SPSS se reporta la significación de V
como un resultado, junto con el cálculo de V
Es una medida simétrica. No se ve afectada por cuál es la variable independiente.
El coeficiente V de Cramer se utiliza cuando la variable de menor nivel es nominal.
Q de Kendall o Q de Yule
Mide la asociación entre dos variables a nivel nominal u ordinal.
Teniendo una tabla 2x2 con las siguientes denominaciones, la
estructura del coeficiente será:
Cuando los productos de las diagonales son iguales, el valor de Q es cero, e indica
independencia entre las variables. Q alcanza sus límites -1 o +1 cuando alguna de las casillas es
cero.
Características de Q de Kendall:
Se usa para tablas de contingencia de dos columnas por dos renglones
Es un caso especial del indicador Gamma para variables ordinales
Los valores que puede alcanzar oscilan entre -1 y +1. -1 es completa disociación entre
variables y +1 muestra asociación total.
En el caso en que el valor sea igual a cero, no hay asociación o relación (pero esto no
quiere decir que haya disociación)
R de Spearman
Coeficiente de correlación por rangos. Es una medida de asociación lineal que utiliza los
rangos, números de orden, de cada grupo de sujetos y compara dichos rangos.
Es similar al R de Pearson, pero en este caso calculado sobre el rango de observaciones.
La correlación estimada entre las variables X e Y corresponde a diferencias entre datos
apareados. El coeficiente de relación de Spearman es recomendable para situaciones en las
que:
- los datos presentan valores externos,
- los valores afectan demasiado el coeficiente de correlación de Pearson
- o para el caso de distribuciones normales.
Cálculo del coeficiente:
1 menos (6 x la suma de los di al cuadrado) dividido [cantidad de
datos x (cantidad de datos al cuadrado menos uno)]
di = diferencia de los rangos X e Y.
Los valores de los rangos se colocan según el orden numérico de los datos de la variable.
Por ejemplo, obteniendo la siguiente tabla:
1) Ordenamos cada variable de menor a mayor, asignando a cada valor de la variable un
rango correspondiente a la posición que ocupa en la serie ordenada. Se coloca entre
paréntesis al lado.
2) Cuando aparezcan valores coincidentes se coloca el promedio de los rangos que
hubiesen sido asignados si no hubiese coincidencias.
3) Luego trabajamos directamente con todos los rangos respectivos
MODULO 3
Una hipótesis estadística es un enunciado referido a la población que puede ser evaluado en función de información muestral, y considerado verdadero
o falso en términos de la evidencia que la muestra proporciona. Las hipótesis estadísticas generalmente involucran uno o más características de la
distribución, como forma de una distribución, el valor de cierto parámetro o la independencia de la variable aleatoria, entre otras.
Las hipótesis son siempre enunciados relativos a la población o distribución bajo estudio, no enunciados referidos a la muestra. El valor del parámetro
de la población especificado en la hipótesis suele determinarse de las siguientes formas:
1. Puede surgir de la experiencia o conocimientos pasados del fenómeno de interés, o incluso de experimentación previa. El objetivo de la
prueba de hipótesis en estos casos suele ser determinar si la situación experimental ha cambiado.
2. Este valor puede determinarse a partir de alguna teoría o modelo con respecto al objeto que se estudia. El objetivo de la prueba de hipótesis
en este caso es verificar la teoría o modelo.
3. Cuando el valor del parámetro de la población es resultado de consideraciones experimentales, como especificaciones de diseño o de
obligaciones contractuales. En este caso, el objetivo de la prueba de hipótesis es la prueba de conformidad.
La prueba de hipótesis, en muchos aspectos, se parece a un juicio sobre un delito criminal. En el juicio se parte del supuesto de que el acusado es
inocente. La hipótesis nula es de inocencia. Lo contrario de la hipótesis nula es la hipótesis alternativa, que expresa la creencia de culpabilidad, Por
consiguiente, las hipótesis en un juicio criminal se escribirían:
Para probar las aseveraciones o hipótesis se lleva a cabo un juicio. El testimonio y las pruebas obtenidas durante el juicio equivalen a la información de
la muestra. Si la información de la muestra concuerda con la hipótesis de inocencia, no se puede rechazar la hipótesis nula relativa a que el acusado es
inocente. Sin embargo, si la información muestral no es consistente con la hipótesis de inocencia, se rechazará la hipótesis nula. En este caso, la
acción a tomar se basará en la hipótesis alternativa de que el acusado es culpable.
Es lo contrario a la hipótesis nula (incluye por lo tanto alguno de los siguientes símbolos: ≠, <, >).
En general esta hipótesis se establece en términos de aquello sobre lo que se está buscando evidencia.
Es la que define la dirección de la zona de rechazo.
Al tomar una decisión en una prueba de hipótesis, hay cuatro posibles resultados que pueden ocurrir; como se ilustra en el siguiente esquema:
Realidad de interes
Decision La hipótesis nula (Ho) es verdadera La hipótesis nula (Ho) es falsa
No rechazar la hipótesis nula No existe error Error del Tipo II
PROB= 1-α Confianza de la prueba PROB= β
Rechazar la hipótesis nula Error del Tipo 1 No existe error
PROB= α PROB= 1-β
Nivel de Significancia Potencia de la Prueba
Dos de los resultados involucran decisiones correctas, en tanto, dos de las decisiones involucran decisiones incorrectas:
Se requiere disponer de alguna magnitud que mida la posibilidad de cometer alguno de estos errores. Esta medida es una probabilidad.
La probabilidad de rechazar Ho, dado que Ho es verdadera, se define como la probabilidad del error Tipo I y se denota por α.
La probabilidad de no rechazar Ho, dado que Ho es falsa, se define como la probabilidad del error tipo II y se denota por β.
Por tanto las probabilidades de los errores Tipo I y II están dadas por las proposiciones
P (rechazar Ho | Ho verdadera) = α
P (no rechazar Ho | Ho es falsa) = β
Tanto α como β son probabilidades condicionales. No pueden obtenerse las probabilidades de los errores Tipo I y II en un sentido absoluto, debido a
que el estado de la naturaleza no es conocido. Es decir, sólo puede calcularse la probabilidad α de rechazar Ho sólo si se asume que Ho cierta, o la
probabilidad β de equivocarse el rechazar Ho, si se asume que Ho es falsa.
Propiedades de α y β
En la prueba de hipótesis, se debe establecer el valor que se presume (hipotetizado) del parámetro de población antes de estudiar la muestra. La
premisa que deseamos someter a prueba se conoce como hipótesis nula y se simboliza Ho.
De acuerdo con los datos muestrales la hipótesis nula se rechazará o no rechazará. Es muy importante comprender que no podemos aceptar la
hipótesis nula como verdadera, ya que para demostrar sin lugar a dudas que la hipótesis es verdadera necesitamos conocer el valor del parámetro de
la población. En cambio no rechazar implica que la evidencia muestral no es lo suficientemente contundente como para rechazarla.
La hipótesis alternativa se refiere a la conclusión a la que se llegará si se rechaza a la hipótesis nula. También se conoce como hipótesis de
investigación. La hipótesis alternativa se considera válida si los datos de la muestra proporcionan suficiente evidencia estadística de que la hipótesis
nula es falsa (es decir, si es posible rechazar la hipótesis nula).
El signo de igual (=) nunca aparecerá en la hipótesis alternativa. Para la utilización de los estadísticos de prueba se tomará la hipótesis nula como
válida, a los fines de partir de una distribución conocida. La hipótesis alternativa se observa sólo si se demuestra que no es verdadera la hipótesis nula.
El estadístico es un valor que se calcula en base a la información de la muestra, y que se utiliza para determinar si se rechaza la hipótesis nula
El nivel de significación es la probabilidad de rechazar la hipótesis nula cuando es verdadera es a lo que se llama error Tipo I.
No se puede determinar de antemano un único nivel de significación que se aplique a todas las pruebas. Generalmente se utilizan los niveles 0.05 (al
que nos solemos referir como un nivel del 5%), 0.01, 0.10, o cualquiera entre 0 y 1 a criterio del investigador responsable de la prueba.
La zona de rechazo corresponde a los valores del estadístico de prueba para los cuales se rechaza la hipótesis nula. La regla de decisión en la prueba
de hipótesis, puede establecerse considerando:
El estadístico de prueba.
La probabilidad.
La distribución de probabilidad del estadístico utilizado en la prueba.
La zona de rechazo tiene una magnitud dada por α y una dirección dada por la hipótesis alternativa.
4. Calcular el estadístico de prueba a partir de los datos muestrales considerando H0 como verdadera
5. Decidir si H0 se rechaza o no se rechaza.
6. Obtener las conclusiones del problema.
La probabilidad del error Tipo I es igual al nivel de significación que se definió para someter a prueba la hipótesis nula. Hay una probabilidad (α) de que
seleccione una muestra al azar (probabilística) de la cual surja una media muestral comprendida en la región de rechazo o las regiones de rechazo. Si
surgiera tal valor, dado como indica la regla de decisión que debe procederse, se rechaza la hipótesis nula, pese a ser ésta verdadera, y estaríamos
cometiendo el error Tipo I. Cabe destacar que se rechazar porque resulta inverosímil (aunque no imposible) que surja tal valor como media muestral, si
es que es verdadera la hipótesis nula, y en función de este razonamiento está diseñada la regla de decisión.
El caso de la probabilidad del error tipo II es bastante diferente, ya que su determinación suele ser mucho compleja en la mayoría de las situaciones. La
única forma en que se puede determinar la probabilidad del error Tipo II (β) es con respecto a un valor específico incluido dentro del rango de la
hipótesis alternativa. Es decir, para cada valor posible (diferente del considerado en la hipótesis nula), se obtiene un valor diferente de la probabilidad
de cometer el error tipo II.
El procedimiento para probar una proporción en una población normal es prácticamente igual al presentado para las medias.
H0: p = p0
H1: p > p0 ó
p < p0 ó
p ≠ p0
Paso 2 A partir del nivel de significación definido (α) indicar la región de rechazo en la curva normal estándar (curva z).
Paso 3 Calcular el valor z para la proporción muestral ( ) usando la fórmula
Paso 4 Dibujar este valor de z en el diagrama de la región de rechazo obtenido en el Paso 2.
Paso 5 Si el valor z cae dentro de la región de rechazo (sombreada), entonces se rechaza H0. Si cae fuera de la región sombreada, entonces
no se rechaza H0.
Paso 6 Escribir la conclusión de la prueba.
Dejemos que P0 sea la proporción proclamada por la denuncia de las organizaciones sociales.
H0: P = P0
H1: P > P0 ó
P < P0 ó
p ≠ p0
El procedimiento de prueba de hipótesis no tiene alteraciones en este tipo de pruebas respecto de lo presentado para las pruebas de medias y
proporciones.
La diferencia fundamental se vincula con la selección del estadístico apropiado en cada caso.
Diferencia de medias
En el caso de las pruebas sobre diferencias de medias se pueden distinguir dos situaciones generales básicas:
1. muestras independientes
2. muestras relacionadas o apareadas
Ambos tipos de situaciones tienen amplia utilidad para múltiples propósitos de aplicación en ciencias sociales.
Dos muestras son independientes si la aparición o selección de un individuo en una muestra no tiene ninguna relación con la aparición o selección de
ningún individuo o elemento en la otra muestra. Este caso se aplica cuando los individuos de cada una de las muestras pertenece a dos poblaciones
distintas, cuya diferencia de medias es el propósito principal de la prueba.
Por el contrario, decimos dos muestras están apareadas si la inclusión de un individuo en una de las muestras condiciona la selección de otro en la otra
muestra considerado, o bien, se analiza repetidamente información (generalmente a lo largo del tiempo) sobre un mismo individuo.
En el caso de muestras independientes, consideraremos dos pruebas de hipótesis referidas a las diferencias entre medias de ambas muestras,
teniendo en cuenta los supuestos que puedan considerarse.
En el caso que puedan suponerse iguales las varianzas (aunque desconocidas), se procede a utilizar este procedimiento.
Supuestos:
Las muestras fueron tomadas de manera independiente y al azar de sus respectivas poblaciones
Las poblaciones se distribuyen normal
Las varianzas son iguales:
Los subíndices indican en este caso las respectivas muestras 1 y 2. Debe tenerse en cuenta que la diferencia entre medias (especialmente importante
para el caso de pruebas unilaterales en las que se aplica el mismo estadístico, con procedimiento análogo de adaptación de las pruebas al caso
unilateral), debe realizarse en el mismo orden para las medias muestrales y poblacionales.
Cuando no es posible asegurar que las varianzas de ambas poblaciones son iguales (y en particular, cuando así lo permite aseverar un test realizado
para someter a contraste la igualad de tales varianzas), se procede modificando el estadístico de prueba.
El caso de las muestras relacionadas es de amplia utilización cuando se necesita disponer de comparaciones entre sujetos con muy poca variabilidad
entre sí (estudios de gemelos por ejemplo) o en pruebas sucesivas repetidas (estudios “antes y después” sobre un mismo sujeto).
En este caso, analizamos la diferencia específica para el par de observaciones apareadas, que denominaremos D.
Esta diferencia para cada par de datos que estamos estudiando representa las diferencias uno a uno.
4.3.3. Diferencia de medias de más de dos poblaciones
Análisis de varianza
El análisis de varianza o como es más conocido, ANOVA, sus siglas de la denominación en inglés: ANalysis Of VAriance, examina dos o más conjuntos
de datos, en particular sus varianzas, e intenta detectar diferencias estadísticamente representativas entre las medias de dichos conjuntos.
En general, el propósito del ANOVA es probar si existen diferencias significativas entre medias. Si sólo comparamos dos medias, el ANOVA producirá
el mismo resultado que la prueba t para muestras independientes (si estamos comparando dos grupos diferentes de casos u observaciones) o la
prueba t para muestras dependientes (si estamos comparando dos variables en un conjunto de casos u observaciones).
Produce un resultado realmente novedoso y útil cuando lo utilizamos para comparar las medias de tres o más grupos.
El método de análisis de varianza se basa en el hecho de que hay una diferencia entre los grupos sólo si la varianza intergrupos es mayor que la
varianza intra-grupo.
El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de todas estas varianzas de grupo.
La idea básica del ANOVA es el hecho de que las varianzas pueden ser divididas, es decir separadas. Se debe recordar que la varianza se calcula
como la suma de desviaciones al cuadrado respecto de la media general (o gran media), dividida por n-1 (el tamaño de la muestra menos uno). Por
eso, dado un cierto n, la varianza es una función de las sumas de cuadrados (de desvíos), a la cual denominaremos SS.
El propósito del análisis de varianza es probar si son estadísticamente significativas las diferentes en las medias para tres ó más grupos de casos.
Para ello se analiza la varianza, particionándo la varianza total en sus componentes: el que se debe al error aleatorio (Suma de cuadrados dentro de los
grupos) y el que se debe a las diferencias entre las medias (Suma de cuadrados entre los grupos).
Estos componentes de la varianza son sometidos a la prueba de significación estadística, y si resulta significativa, se rechaza la hipótesis nula referida
a la no existencia de diferencia entre las medias y se concluye que hasta nueva evidencia se mantiene como válida la hipótesis alternativa referida a
que las medias de la población son diferentes entre sí (o más precisamente, que al menos una de las medias consideradas lo es).
Glosario Modulo 3
MODULO 4
Cuando se consideran dos variables, aparecen diferentes formas de medir su posible interrelación.
El siguiente cuadro, da una visión ordenadora de los principales indicadores que recorreremos en este módulo, como así también de algunos que
exceden el alcance de este curso, pero pueden ser útiles y deberían ser explorados en detalle, si son requeridos en investigaciones específicas.
Variable independiente
Nominal Ordinal Intervalo o de razón
Variable Nominal Tablas cruzadas Tablas cruzadas
dependiente Chi Cuadrado Chi Cuadrado
Lambda Lambda
Ordinal Tablas cruzadas Tablas cruzadas
Chi Cuadrado Chi Cuadrado
Lambda Lambda
Gamma
Tau de Kendall
D de Sommers
Intervalo o de razon Medias Medias Correlacion
Prueba t Prueba t R de Pearson
ANOVA ANOVA Regresion
La prueba de independencia permite establecer si existe o no relación entre variables medidas en escala nominal, cada una de las cuales posea dos o
más categorías.
La prueba Chi cuadrada es una prueba de carácter general que se utiliza cuando se desea determinar si las frecuencias absolutas obtenidas en la
observación (como en la tabla del ejemplo previo), difieren significativamente o no de las que se esperarían bajo cierta hipótesis planteada de
interrelación de las categorías de las variables consideradas.
A los fines de corroborar si tal observación puede sostenerse, o bien si se trata sólo de una casualidad presente en los datos de la muestra, la prueba
Chi cuadrado permite someter a contraste las siguientes hipótesis:
H0:
H1:
Observe que si bien estamos interesados en considerar la vinculación entre las variables, la hipótesis nula parte del supuesto neutral de no relación o
independencia.
En el caso de rechazar la hipótesis nula, detectaremos la relación que suponemos que existe, que motivó el estudio.
El estadístico justamente considerará esta situación, en la cual, si los valores observados se distancian significativamente del valor esperado bajo el
supuesto de independencia, el estadístico resultará en un valor elevado (ubicado en la zona de rechazo), y se rechazará la hipótesis nula. El estadístico
Chi cuadrado está dado por:
( )
∑
Donde
c= número de columnas
f= número de filas
A partir del prueba de independencia sólo podemos afirmar si existe o no relación entre las variables.
En el caso de detectar (rechazando la hipótesis nula de la prueba de independencia) que existe relación, podemos estar interesados a su vez en
conocer en qué medida se relacionan las variables.
5.2.1 V de Cramer
La V de Cramer es la medida basada en el estadístico Chi cuadrado más popular de las correspondientes a la asociación entre variables nominales
debido a que da un indicador buen ubicado entre 0 y 1 ajustado al tamaño de la tabla.
V es igual a la raíz cuadrada de Chi cuadrado dividido por el tamaño de la muestra por el mínimo entre el número de filas menos 1 y el número de
columnas menos 1.
V puede ser vista como la asociación entre dos variables como un porcentaje de su máxima variación posible.
V define una relación perfecta como aquella que es predictiva (o monotónicamente ordenada), y define una relación nula como la independencia
estadística. Da valores entre 0 y 1. El 0 corresponde a ausencia de asociación y 1 a asociación perfecta.
Otras características de V:
La significación de V es la misma que la de la Chi cuadrado. En el caso del uso del paquete SPSS, este la reporta como un resultado junto
con el cálculo de V.
Simetría: V es una medida simétrica. No se ve afectada por cual es la variable independiente.
El coeficiente V de Cramer se utiliza cuando la variable de menor nivel es nominal.
5.2.2 Q de Kendall
El Coeficiente Q de Kendall (conocido también como Q de Yule) mide la asociación entre dos variables a nivel nominal u ordinal y se usa para tablas de
contingencia de dos columnas por dos renglones. Este indicador es un caso especial del conocido indicador Gamma para variables ordinales.
Los valores que puede alcanzar oscilan entre - 1 y + 1; cuando es igual a -1 indicará una completa disociación entre las variables, y si es igual a +1
mostrará una asociación total.
En caso de que el valor sea igual a cero, se concluye que no hay asociación o relación entre las variables, lo cual es la diferente al hecho de que exista
una disociación.
Para las variables cuantitativas o numéricas (tanto intervalares como medidas en escalas de razón), podemos calcular como medidas de la asociación
entre ellas, diferentes coeficientes que permiten cuantificar la correlación entre sí.
El denominado rho de Spearman es análogo al coeficiente de correlación de Pearson, que presentaremos a continuación, pero en este caso calculado
sobre el rango de observaciones.
Esta diferencia implica que la correlación estimada entre las variables X e Y corresponda en este caso a diferencias entre dados apareados. El
coeficiente de correlación de Spearman es recomendable para situaciones en las que los datos presentan valores externos, lo que los valores afectan
demasiado el coeficiente de correlación de Pearson, o para el caso de distribuciones no normales.
La medida de la relación lineal entre dos variables cuantitativas, se estudia por medio del cálculo del coeficiente de correlación de Pearson.
Cuando el valor tiende a 1, la asociación positiva es elevada. Un valor de 1 indica una relación lineal positiva perfecta.
Cuando el valor tiende a -1, la asociación negativa es elevada. Un valor de -1 indica una relación lineal negativa perfecta.
Una correlación próxima a cero indica que no hay relación lineal entre las dos variables.
El valor del coeficiente de correlación es independiente de cualquier unidad de medida usada para medir las variables. Esto implica que el coeficiente
es una magnitud que no posee una unidad de medida propia.
El valor del coeficiente de correlación se altera de forma importante ante la presencia de un valor extremo.
El coeficiente de correlación mide solo la relación lineal. Dos variables pueden tener una relación no lineal fuerte, a pesar de que su correlación sea
pequeña. Por tanto cuando se consideren las relaciones entre dos variables debe preliminarmente partir de su representación gráfica y luego calcular el
coeficiente de correlación.
El coeficiente de correlación no se debe extrapolar más allá del rango de valores considerado para su cálculo ya que la relación existente entre X e Y
puede cambiar fuera de dicho rango.
La correlación no implica causalidad. La causalidad requiere más información que un simple valor cuantitativo de un coeficiente de correlación y
especialmente trabajarse a partir de los modelos teóricos propios de cada disciplina.
La validez del test de hipótesis sobre la correlación entre las variables exige el cumplimiento de los siguientes supuestos:
El coeficiente de correlación puede arrojar valores entre –1 y +1, en tanto el valor 0 indica que no existe asociación lineal entre las dos variables a
estudio.
Un modelo aplicable para analizar la relación entre dos variables es el modelo de regresión. La utilización del modelo de regresión lineal está muy
difundida en las Ciencias Sociales, en particular, porque permite describir una serie muy amplia de fenómenos (comportamiento de los individuos,
reacciones de los consumidores, decisiones económicas, entre otros).
El análisis de regresión lineal tiene como finalidad explorar y cuantificar la relación entre variables, una llamada dependiente (Y) y una o más variables
independientes. En el caso de utilizar una sola variable independiente o explicativa, estamos frente a una regresión lineal simple, en tanto si las
variables explicativas o independientes son dos o más, el análisis se denomina regresión lineal múltiple.
Cabe señalar que una de las aplicaciones más destacadas del modelo es la de realizar predicciones y pronósticos acerca de la variable dependiente,
teniendo en cuenta valores de las variables explicativas o independientes.
En el caso de este modelo, deben considerarse además de las técnicas de estimación, una serie de pruebas de diagnóstico (análisis de residuos,
análisis de influencia, etc.) cuyo cumplimiento es necesario para obtener estimaciones adecuadas.
El diagrama de dispersión
Un gráfico que nos permite visualizar de manera sencilla la posible existencia de una relación entre las variables de interés, es el diagrama de
dispersión. Este gráfico consiste en la colección de puntos en un diagrama de ejes cartesianos, donde los valores de la variable dependiente se
representan en las ordenadas y los de la variable independiente en las abcsisas. Cada punto del gráfico se indica con las coordenadas del mismo
representado como par ordenado (x, y). El conjunto de puntos surgidos de graficar todos los datos disponibles recibe el nombre de nube de puntos.
Lo que el diagrama de dispersión da la posibilidad de observar, es la forma de la relación, en términos no estrictos (en el sentido que siempre
necesitaremos los test y estimaciones estadísticas), pero es un buen punto de partida, por ejemplo, para preliminarmente analizar si la línea recta será
una aproximación aceptable de la relación o no.
La relación puede sintetizarse de manera que represente una línea recta de la siguiente manera:
Los coeficientes α y β son los que definen la recta. El coeficiente α representa la ordenada al origen, es decir, el punto en que la recta corta al eje
vertical. El coeficiente β es la pendiente de la recta, el cual indica el cambio experimentado en la variable Y cuando se produce cierto incremento en la
variable X.
Supuestos del modelo de regresión lineal
1. Linealidad
Debe verificarse que la forma de la ecuación que describa la relación entre X e Y sea lineal.
2. Normalidad
3. Homocedasticidad
La variabilidad de los valores de la variable dependiente Y es igual para cualquier valor de la variable X.
La violación de este supuesto es más frecuente cuando se trabaja con obsrvaciones correspondientes a datos de corte transversal.
4. Independencia de errores
Los residuos o errores (las diferencias entre los valores pronosticados y los observados realmente), deben ser independientes entre sí.
La violación de este supuesto es más frecuente cuando se trabaja con datos correspondientes a series de tiempo.
Bondad de ajuste
Para poder afirmar que el resultado de la regresión es adecuado, necesitamos contar con algún indicador del grado en que la recta ajusta
acertadamente a la nube de puntos. En particular estamos pensando en un indicador del grado de fidelidad con que la recta obtenida por el método de
mínimos cuadrados describe la relación existente entre los datos.
Este indicador corresponde al cuadrado del coeficiente de correlación. Es una medida estandarizada que asume valores entre 0 y 1:
El R2 nos permite medir cuánto podemos explicar los valores de la variable dependiente basándonos en el conocimiento de otras variables y de su
relación. Mide más precisamente, la relación entre la variabilidad de la variable dependiente explicada por el modelo (lo cual incluye la variable
independiente y la forma lineal de su relación con la dependiente), respecto de la variabilidad total de la variable dependiente.
Glosario Modulo 4
Coeficiente de correlación (r): promedio de los productos cruzados de las puntuaciones estandarizadas de dos variables. Medida del grado
de correlación lineal, en el rango [-1; 1].
Coeficiente de correlación múltiple (R): medida de la asociación general entre una variable dependiente y la combinación de dos o más
variables de predicción. Raía cuadrada positiva del R2.
Coeficiente de Determinación (R2): Cuadrado del coeficiente de correlación. Este estadístico indica la proporción de la variabilidad de una
variable (la variable dependiente), que es explicada conociendo un valor de una o más variables (las variables independientes).
Coeficiente de regresión (b): coeficiente en un modelo de predicción (ecuación de regresión).
Constante de regresión (a): número fijo determinado que se agrega a la predicción en un modelo de predicción (ecuación de regresión).
Diagrama de dispersión: gráfico que refleja la relación entre dos variables.
Error: en la predicción, es el registro real menos el registro predicho.
Independencia: Cuando no existe una relación sistemática entre dos variables.
Método de mínimos cuadrados: método para obtener los coeficientes del modelo de regresión, basado en minimizar las distancias al
cuadrado entre la recta de regresión y el valor observado, para cada valor de la/s variable/s independiente/s.
Multicolinealidad: en la regresión múltiple, cuando las variables independientes (predictoras) están correlacionadas entre sí.
Tabla de contingencia: cuadro de dos dimensiones que muestra las frecuencias en las que cada combinación de categorías de dos
variables ocurren.
Variable Dependiente: la variable del desenlace de interés en cualquier tipo de estudio. El desenlace o resultado que uno pretende explicar
o estimar.
Variable Independiente: Variable que se mide para determinar el valor correspondiente de la variable dependiente en cualquier tipo de
estudio. Las variables independientes definen las condiciones bajo las cuales se examinará la variable dependiente.
MODULOS 3 Y 4
4.1 Que distribución tiene el estadístico de prueba en el caso de una prueba sobre el valor de
la media poblacional con varianza poblacional coincida?
NORMAL
4.1 En una prueba de hipótesis referida a la varianza cuantos grados de libertad tiene el
estadístico?
(4.1) En todos los casos y ejercicios de pruebas de hipótesis se deben desarrollas una serie de
pasos. El segundo de ellos es: seleccionar el estadístico de prueba que sea apropiado.
(4.1) ¿Cuándo se comete el error tipo I? cuando la hipótesis nula es cierta, pero se la rechaza.
(4.1) Cuando las dos muestras se han construido de manera que la inclusión de un individuo
en una de las muestras condiciona la selección de otro en la otra muestra considerado:
(4.1) En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de
pasos, el primero de ellos es: Planteamiento de hipótesis definir la hipótesis nula y la
hipótesis alternativa.
4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar entre otros los
siguientes pasos
TODAS LAS OPCIONES SON CORRECTAS,.
4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de
pasos, el segundop de ellos es
(4.1) Si en una prueba de hipótesis, con todo lo demás constante, se decide disminuir la
probabilidad de cometer un error tipo I, ¿Qué se espera que ocurra?: aumenta la probabilidad
del error tipo II. Cuándo disminuye la probabilidad del error tipo uno aumenta la
probabilidad del error tipo 2.
(4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía
del fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2
años. Con una significación de 0,05, si se desea corroborar si la duración de los televisores
recibidos por la tienda es idéntica a la declarada por la marca, ¿Qué hipótesis nula se plantea?:
4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2
años. Con una significación de 0,05, si se desea corroborar si la duración de los televisores
recibidos por la tienda es idéntica a la declarada por la marca, ¿Qué TIPO DE PRUEBA SE
DESARROLLA
Un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro. (Extraído de la web)
(4.1) ¿Qué se pregunta habitualmente, cuando se obtiene medidas de resumen de muestras
correspondientes a dos poblaciones?:
4.1 EL CONCEPTO LA SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS
CUALES CORRESPONDE RECHAZAR LA HIPOTESIS NULA POR SER ESTA FALSA HACE
REFERENCIA A
LA POTENCIA DE LA PRUEBA.
4.1 la potencia de la prueba es
POSITIVA ,SI LA RELACION ENTRE DOS VARIABLES ES NEGATIVA ,LA PENDIENTE SERA POSITIVA
que la variable dependiente posee igual dispersión respecto de su media para los diferentes
valores de la variable independiente.
NO NEGATIVOS.
(5.1) Si la relación entre dos variables es negativa, la pendiente será: negativa, decreciente (en
duda)
-Si una prueba de hipótesis, con todo lo demás constante, se decide disminuir la probabilidad
de cometer un Error tipo 1 ¿Qué se espera que ocurra? Aumenta la probabilidad del error de
tipo2
¿Qué distribución tiene el estadístico de prueba sobre el valor de la media poblacional, con
varianza poblacional conocida? Normal
Chi cuadrado
6.3 SEA Y una variable aleatoria binomial calcule P(Y=12) cuando n=20 y P=0.7
6.5.2 DE UN TOTAL DE SEIS EMPLEADOS ,TRES HAN ESTADO CON LA EMPRESA DURANTE
CINCO O MAS AÑOS, SI SE ELIGEN CUATRO EMPLEADOS AL AZAR DE ESE GRUPO LA
PROBABILIDAD DE QUE EXACTAMENTE DOS DE ELLOS TENGAN UNA ANTIGÜEDAD DE POR LO
MENOS CINCO AÑOS ES :
6.5.2 de unacomision de economía conformada por tres integrantes del partido mayoritario
,dos pertenecientes a la primera minoría y uno perteneciente a la segunda minoría ,a los
efectos de confeccionar un resumen de todo lo actuado por la comisión es necesario designar
a tres de ellos , si la elección se afecta de manera aleatoria indique ud. La probabilidad de que
en la subcomisión designada se tenga exactamente a 2 miembros del partido mayoritario
CON LAS MEDIAS DE TODAS LAS MUESTRAS SE PUEDE GENERAR UNA NUEVA DISTRIBUCION LA
QUE DENOMINAREMOS DISTRIBUCION DE MEDIAS MUESTREALES.(DISTRIBUCION DE MEDIAS
MUESTRALES)
7.3.1 SI SE TIENE UNA POBLACION CON MEDIA M=60 Y UN DESVIO ESTANDAR, SIGMA= 10,
ENTONCES EL ERROR ESTANDAR DE LA MEDIA PARA MUESTRAS DE TAMAÑO 49 ES
= SIGMA/RAIZ(n)= 10/RAIZ(49)
7.3.1 EL DPTO. DE RRHH. DE UNA PLANTA INDUSTRIAL CON 2500 OPERARIOS INFORMA QUE
LA EDAD PROMEDIO DE SUS EMPLEADOS ES DE 36 AÑOS CON UN DESVIO ESTANDAR DE 3
AÑOS ,SI SE TOMA UNA MUESTRA DE 50 EMPLEADOS AZAROSAMENTE ,INDIQUE LA
PROBABILIDAD DE QUE LA EDAD PROMEDIO DE ESA MUESTRA SEA INFERIOR A LOS 35
AÑOS
0.5
7.5 EN UNA ESTIMACION POR INTERVALO CON EL 95% DE CONFUANZA PARA LA MEDIA
POBLACIONAL ,EL LIMITE SUPERIOR DE ESTIMACION RESULTO SER DE 120 PARA UNA
MUESTRA DE TAMAÑO 36 CON DESVIACION ESTANDAR POBLACIONAL IGUAL A 4 ,LUEGO LA
ESTIMACION PUNTUAL DE LA MEDIA POBLACIONAL VALE
(510.60; 569.40)
7.7 DE un total de 1700 telefonos celulares se toma una muestra de 49 obteniendo se una
media de $ 624 y una desviación de $ 102 ,el intervalo de confianza del 98% para estimar el
precio promedio de todos los celulares es
(594.44;652.56)
7.7 un fabricante de esquís de nieve desea estimar el numero promedio de viajes que
realizan los esquiadores ávidos. Una muestra de 1100 esquiadores de un promedio de 15.3
viajes por temporada, con una desviación estándar de 5.1 viajes, el intervalo de confianza
del 99% para estimar la media poblacional es
(14.90;15;70)
METODOLOGIA DE ANALISIS DE DATOS CUANTITATIVOS / PREGUNTERO SEGUNDO PARCIAL
1. (4.1) El concepto “la sensibilidad que esta tiene para detectar situaciones en las cuales corresponde rechazar la hipótesis nula por
ser esta falsa” hace referencia a:
La potencia de la prueba.
2. (4.1) Si en una prueba de hipótesis el error tipo II es .035, quiere decir qué:
1–α
Región critica
Plantea la conclusión a la que se llegaría si hubiera suficiente evidencia para rechazar la H0.
Si la aparición o selección de un individuo en una muestra no tiene ninguna relación con la aparición o selección de algún individuo o elemento en la
otra muestra.
7. (4.1) Los o el valor critico, según se trate de una prueba bilateral o unilateral del estadístico van a determinar:
Las zonas de rechazo y no rechazo de la hipótesis alternativa en la distribución muestral del estadístico de prueba.
Es la probabilidad de obtener un estadístico igual o menor que el valor muestral siendo la hipótesis nula cierta.
9. (4.2) Si en una prueba de hipótesis el error de tipo I es .0025, quiere decir que:
10. (4.2) Si en una prueba de hipótesis el error de tipo II es .005, quiere decir que:
11. (4.2) La probabilidad de cometer un error de tipo II está dado por él:
12. (4.2) El coeficiente que mide la probabilidad de no rechazar mi hipótesis nula siendo verdadera se denomina:
Nivel de confianza.
14. (4.3.2) Suponga que en un pueblo de la provincia de Córdoba se implementa un programa para disminuir el índice de desnutrición
infantil (DI). A fin de evaluar los efectos del programa se desarrolla una prueba de hipótesis para evaluar si al DI disminuyo, ¿Cuál
es la Ho asociada a esta prueba?
Ho: DI=X
15. (5.1) Para decidir si dos variables son independientes o no, debe utilizarse:
K–1
Categóricas.
19. (5.1) ¿Qué indica el estadístico muestral, en una prueba de independencia, muy elevado?
La Hipótesis alternativa en una prueba de independencia incluye: Las variables consideradas no son independientes.
21. (5.1) En la prueba de independencia, ¿Cuántos grados de libertad tiene el estadístico de prueba?
N–1
22. (5.2.3) Si quisiera saber si existe relación entre el nivel de educación de los padres con respecto al nivel de educación de los hijos
debería:
Medio preferido
Área de residencia Grafico Televisivo Radial Total
Urbana 30 120 20 170
Sub urbana 50 120 30 200
Rural 100 80 40 220
Total 180 320 90 590
Para determinar la intensidad de la asociación entre las variables se debe:
Preferencia política
Nivel educativo Partido 1 Partido 2 Partido 3 Partido 4 Total
Primario 10 30 0 20 60
Secundario 15 40 10 5 70
incompleto
Secundario 10 50 40 5 105
completo
Terciario 15 10 50 5 80
Universitario 0 20 10 5 35
Total 50 150 110 40 350
Si quisiera saber si existe relación entre las variables debería:
El coeficiente V de Cramer.
PREGUNTERO DE METODOLOGIA DE ANALISIS DE DATOS CUANTITATIVOS MODULOS 1 Y 2
(1.1) Las categorías exhaustivas: deben ser mutuamente excluyentes, lo cual implica que las
categorías no deben superponerse entre sí, es decir, que ningún caso figure o corresponda a más
de una categoría.
(1.1) Las categorías que surgen de clasificar: Poseen nombres arbitrarios y tales nombres no
implican ningún tipo de relaciones entre sí.
(1.1) Cuando luego de la clasificación surgen categorías en orden o jerarquía entre... Escala
Ordinal
1.1 la variable tiempo en que demoran los operarios en terminar una pieza es de tipo:
CONTINUA
1.1 "Medir" en el contexto de las Cs. Sociales que significa? excede de la cuantificación de alguna
característica física de las ciencias naturales.-
PAIS DE NACIMIENTO
UNA CATEGORIA
1.3 SI LA MEDIANA DE LA VARIABLE EDAD, PARA UNA MUESTRA DE 500 CASOS ES DE 27 AÑOS ,
ENTONCES PUEDE AFIRMARSE QUE
EL MODO O MODA INDICA CUAL ES LA CATEGORIA DE RTAS QUE TIENE MAYOR FRECUENCIA.
Señale la definición correcta. RTA: una razones el cociente de un número respecto a otro.-
3.1 En la distribución normal, la probabilidad de que la variable asuma un valor puntual es:
0 CERO
3.1Según el TEOREMA DEL LIMITE CENTRAL, las distribuciones de las medias muestrales... será
normal IGUAL A LA MEDIA DE LA POBLACION.
3.1) La distribución normal es de amplia difusión debido a una serie de razones, entre ellas se
puede mencionar: Se aproximan la mayoría de los fenómenos de la naturaleza (físicos, químicos
y biológicos) - Es la base de la inferencia estadística paramétrica - Otras distribuciones, bajo
ciertas circunstancias, se pueden aproximar a la normal - Es la referencia para definir otras
distribuciones con gran número de aplicaciones prácticas como la Chi cuadrada, t de Student y F
de Fisher.
3.1.1 SEUN EL TEOREMA CENTRAL DEL LIMITE ,LA DISTRIBUCION DE LAS MEDIAS MUESTRALES
SERA NORMAL CON
INSESGMENTO,EFICIENCIA Y CONSISTENCIA.
YA QUE NO EXISTE UNA SOLUCION EXACTA PARA ESTA INTEGRAL ,SOLO ES POSIBLE OBTENER
ESA AREA POR METODOS DE APROXIMACION
3.2.1 Con el objetivo de estimar el porcentaje diario de ausentismo de una empresa se extrajo una
muestra y se obtuvo con un nivel de confianza del 95% el sig. (0.20.0.30)que se espera que
suceda si aumentamos el tamaño de la muestra =
SI AUMENTA LA MUESTRAS SE ESPERA QUE SE HAGA MAS PRECISA LA ESTIMACION ,POR QUE
REPRESENTA MEJOR LA POBLACION
3.2.1 Con el objetivo de estimar el porcentaje diario de ausentismo de una empresa se extrajo una
muestra y se obtuvo con un nivel de confianza del 95% EL siguiente intervalo de 0.20 .0.30cual es
el valor del estimador puntual
0.25
3.2.2 Para comparar las tasas de desocupación entre varones y mujeres ,se tomaron dos muestras
independientes y se obtuvo EL INTERVALO (0.037;0.140) esto implica que con una confianza del
95%
la igualdad de varianzas
El intervalo de confianza que resulta indica que con una confianza del 95%
4.1 Que distribución tiene el estadístico de prueba en el caso de una prueba sobre el valor de la
media poblacional con varianza poblacional coincida?
NORMAL
4.1 En una prueba de hipótesis referida a la varianza cuantos grados de libertad tiene el
estadístico?
(4.1) En todos los casos y ejercicios de pruebas de hipótesis se deben desarrollas una serie de
pasos. El segundo de ellos es: seleccionar el estadístico de prueba que sea apropiado.
(4.1) ¿Cuándo se comete el error tipo I? cuando la hipótesis nula es cierta, pero se la rechaza.
(4.1) Cuando las dos muestras se han construido de manera que la inclusión de un individuo en
una de las muestras condiciona la selección de otro en la otra muestra considerado:
(4.1) En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de pasos,
el primero de ellos es: Planteamiento de hipótesis definir la hipótesis nula y la hipótesis
alternativa.
4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar entre otros los
siguientes pasos
4.1 En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de pasos,
el segundop de ellos es
(4.1) Si en una prueba de hipótesis, con todo lo demás constante, se decide disminuir la
probabilidad de cometer un error tipo I, ¿Qué se espera que ocurra?: aumenta la probabilidad del
error tipo II. Cuándo disminuye la probabilidad del error tipo uno aumenta la probabilidad del
error tipo 2.
(4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2 años.
Con una significación de 0,05, si se desea corroborar si la duración de los televisores recibidos por
la tienda es idéntica a la declarada por la marca, ¿Qué hipótesis nula se plantea?:
4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2 años.
Con una significación de 0,05, si se desea corroborar si la duración de los televisores recibidos por
la tienda es idéntica a la declarada por la marca, ¿Qué TIPO DE PRUEBA SE DESARROLLA
Un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro. (Extraído de la web)
(4.1) ¿Qué se pregunta habitualmente, cuando se obtiene medidas de resumen de muestras
correspondientes a dos poblaciones?:
(4.1) La potencia tiene una probabilidad: (rechazar una hipótesis nula)
4.1 EL CONCEPTO LA SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS
CUALES CORRESPONDE RECHAZAR LA HIPOTESIS NULA POR SER ESTA FALSA HACE REFERENCIA
A
LA POTENCIA DE LA PRUEBA.
LA SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS CUALES CORRESPONDE
RECHAZAR LA 1-SENSIBILIDAD QUE ESTA TIENE PARA DETECTAR SITUACIONES EN LAS CUALES
CORRESPONDE RECHAZAR LA HIPOTESIS NULA POR SER ESTA FALSA.
TANTO LAS PRUEBAS DE HIPOTESIS COMO LA ESTIMACION POR INTERVALOS SE DERIVAN DE LOS
CONCEPTOS QUE MUESTRA ,VINVULACION ENTRE LA PRUEBA DE HIPOTEIS Y LA ESTIMACION POR
INTERVALO
POSITIVA ,SI LA RELACION ENTRE DOS VARIABLES ES NEGATIVA ,LA PENDIENTE SERA POSITIVA
5.1 Indicar cual de las siguientes afirm es correcta
que la variable dependiente posee igual dispersión respecto de su media para los diferentes
valores de la variable independiente.
NO NEGATIVOS.
(5.1) Si la relación entre dos variables es negativa, la pendiente será: negativa, decreciente (en
duda)
-Si una prueba de hipótesis, con todo lo demás constante, se decide disminuir la probabilidad de
cometer un Error tipo 1 ¿Qué se espera que ocurra? Aumenta la probabilidad del error de tipo2
¿Qué distribución tiene el estadístico de prueba sobre el valor de la media poblacional, con
varianza poblacional conocida? Normal
• Chi cuadrado
6.3 SEA Y una variable aleatoria binomial calcule P(Y=12) cuando n=20 y P=0.7
6.5.2 DE UN TOTAL DE SEIS EMPLEADOS ,TRES HAN ESTADO CON LA EMPRESA DURANTE CINCO O
MAS AÑOS, SI SE ELIGEN CUATRO EMPLEADOS AL AZAR DE ESE GRUPO LA PROBABILIDAD DE QUE
EXACTAMENTE DOS DE ELLOS TENGAN UNA ANTIGÜEDAD DE POR LO MENOS CINCO AÑOS ES :
6.5.2 de unacomision de economía conformada por tres integrantes del partido mayoritario ,dos
pertenecientes a la primera minoría y uno perteneciente a la segunda minoría ,a los efectos de
confeccionar un resumen de todo lo actuado por la comisión es necesario designar a tres de ellos ,
si la elección se afecta de manera aleatoria indique ud. La probabilidad de que en la subcomisión
designada se tenga exactamente a 2 miembros del partido mayoritario
CON LAS MEDIAS DE TODAS LAS MUESTRAS SE PUEDE GENERAR UNA NUEVA DISTRIBUCION LA
QUE DENOMINAREMOS DISTRIBUCION DE MEDIAS MUESTREALES.(DISTRIBUCION DE MEDIAS
MUESTRALES)
7.3.1 SI SE TIENE UNA POBLACION CON MEDIA M=60 Y UN DESVIO ESTANDAR, SIGMA= 10,
ENTONCES EL ERROR ESTANDAR DE LA MEDIA PARA MUESTRAS DE TAMAÑO 49 ES
= SIGMA/RAIZ(n)= 10/RAIZ(49)
7.3.1 EL DPTO. DE RRHH. DE UNA PLANTA INDUSTRIAL CON 2500 OPERARIOS INFORMA QUE LA
EDAD PROMEDIO DE SUS EMPLEADOS ES DE 36 AÑOS CON UN DESVIO ESTANDAR DE 3 AÑOS ,SI
SE TOMA UNA MUESTRA DE 50 EMPLEADOS AZAROSAMENTE ,INDIQUE LA PROBABILIDAD DE
QUE LA EDAD PROMEDIO DE ESA MUESTRA SEA INFERIOR A LOS 35 AÑOS
0.5
7.5 EN UNA ESTIMACION POR INTERVALO CON EL 95% DE CONFUANZA PARA LA MEDIA
POBLACIONAL ,EL LIMITE SUPERIOR DE ESTIMACION RESULTO SER DE 120 PARA UNA MUESTRA
DE TAMAÑO 36 CON DESVIACION ESTANDAR POBLACIONAL IGUAL A 4 ,LUEGO LA ESTIMACION
PUNTUAL DE LA MEDIA POBLACIONAL VALE
7.7 DE un total de 1700 telefonos celulares se toma una muestra de 49 obteniendo se una media
de $ 624 y una desviación de $ 102 ,el intervalo de confianza del 98% para estimar el precio
promedio de todos los celulares es
(594.44;652.56)
7.7 un fabricante de esquís de nieve desea estimar el numero promedio de viajes que realizan
los esquiadores ávidos. Una muestra de 1100 esquiadores de un promedio de 15.3 viajes por
temporada, con una desviación estándar de 5.1 viajes, el intervalo de confianza del 99% para
estimar la media poblacional es
(14.90;15;70)
5.1.1 un equipo de investigación del ministerio de Educacion selecciona a los estudiantes menos
destacados de una universidad de Cordoba para aplicarles un determinado test de inteligencia
,posteriormente llevan a cabo un tratamiento que promueve habilidades cognitivas y por ultimo
vuelven a aplicarles el test de inteligencia ,este es un tipo de diseño
ES CUASI-EXPERIMENTAL
6
7 CASO un grupo de investigadors del departamento de investigaciones sociales y políticas de la
univ. Siglo 21 campus rio cuarto se hallan investigando sobre la ciudadanía social económica, y
política desde la perspectiva de la ciudadanía ,utilizan los pocentajes y características de las
personas sin participación y con participación de los partidos políticos llos porcentajes
2DO PARCIAL
1- (5.1) ¿Qué es la relación lineal?:
2- (4.1) En todos los casos y ejercicios de pruebas de hipótesis se deben desarrollas una serie de
pasos. El segundo de ellos es: seleccionar el estadístico de prueba que sea apropiado.
4- (4.1) ¿Cuándo se comete el error tipo I? cuando la hipótesis nula es cierta, pero se la rechaza.
6- (4.1) Si en una prueba de hipótesis, con todo lo demás constante, se decide disminuir la
probabilidad de cometer un error tipo I, ¿Qué se espera que ocurra?: aumenta la probabilidad del
error tipo II. Cuándo disminuye la probabilidad del error tipo uno aumenta la probabilidad del
error tipo 2.
8- (4.1) Cuando las dos muestras se han construido de manera que la inclusión de un individuo en
una de las muestras condiciona la selección de otro en la otra muestra considerado:
9- (4.1) En todos los casos y ejercicios de prueba de hipótesis se debe desarrollar una serie de pasos,
el primero de ellos es: Planteamiento de hipótesis definir la hipótesis nula y la hipótesis alternativa.
11- (4.1) La duración promedio de los televisores de cierta marca es de 7 años, según la garantía del
fabricante. Para una muestra aleatoria de 35 televisores al azar de esa marca de una tienda
minorista, la duración promedio medida fue de 6,2 años con una desviación estándar de 2 años. Con
una significación de 0,05, si se desea corroborar si la duración de los televisores recibidos por la
tienda es idéntica a la declarada por la marca, ¿Qué hipótesis nula se plantea?:
13- (5.1) El estadístico de prueba en un test de bondad de ajuste puede asumir valores…:
14- (4.1) ¿Cuál es el propósito principal de una prueba de hipótesis?: El propósito de la prueba de
hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer
Un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro. (Extraído de la web)
18- (4.1) La potencia tiene una probabilidad: (rechazar una hipótesis nula)
19- (5.1) Si la relación entre dos variables es negativa, la pendiente será: negativa, decreciente (en
duda)
20- (5.1) Según el supuesto de independencia de error en la regresión, ¿Cuáles de los siguientes NO
deben estar relacionados?:
21 -Si una prueba de hipótesis, con todo lo demás constante, se decide disminuir la probabilidad de
cometer un Error tipo 1 ¿Qué se espera que ocurra? Aumenta la probabilidad del error de tipo2
22- ¿Qué distribución tiene el estadístico de prueba sobre el valor de la media poblacional, con
varianza poblacional conocida? Normal
23- Definición de Independencia de errores:
24- Definición de Homocedasticidad:
25- El diagrama de dispersión permite visualizar de manera sencilla la posible existencia de una...:
relación entre las variables de interés.
26- La idea básica del ANOVA: es el hecho de que las varianzas pueden ser divididas, es decir,
separadas.
27-(5.1) ¿Dónde se ubica la zona de rechazo en una prueba de bondad de ajuste?:
4 – A fin de comparar la tasa de desocupación entre ambos sexos, se tomaron dos muestras
independientes de una gran población …….
8 – Estadísticas del grupo: …… Los signos de los límites del intervalo de confianza
indican que:
9 – Considere la siguiente tabla: ------ Respecto a las frecuencias relativas simples, se puede
afirmar que …
13 – Indicar cual de las siguientes afirmaciones es correcta: Con las medias de todas las
muestras podemos generar una nueva distribución …..
14 – Se puede afirmar que:
22 – La siguiente tabla se usa para estimar el promedio de edad de una población a partir de
…..