Está en la página 1de 8

UNIDAD IV

TIPOS DE MUESTREO
Existen dos tipos de distribución de muestreo: la distribución de la muestra, que es la que caracteriza la
distribución de los elementos de una muestra extraída de una población, y la distribución muestral, que
describe la conducta esperada de un gran número de muestras aleatorias simples extraídas de la misma
población.

MUESTREO ALEATORIO SIMPLE: es la técnica de muestreo en la que todos los elementos que forman el
universo y que, por lo tanto, tienen la idéntica probabilidad de ser seleccionados para la muestra. Para
obtener una muestra, se numeran los elementos de la población y se seleccionan al azar o aleatoriamente
los N elementos que contiene la muestra.
DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES: Es una distribución de probabilidad de todas las posibles
medias de las muestras, de un determinado tamaño, obtenida de la población .
La medida de tendencia central más utilizada en las distribuciones muestrales es la media aritmética (x) y
en este se puede suponer que la población está distribuida normalmente. Entre varias propiedades de la
media podemos destacar:
1. IMPARCIALIDAD: implica el hecho de que el promedio de todas las medias de las muestras posibles (de
un tamaño de muestra dado n) será igual a la media de la población (µ). Cuando los datos están
disponibles, la media y la desviación estándar pueden calcularse así:
Media: µ= ƸX/N
Desvío: S= √(X-µ)/N

2. EFICIENCIA: se refiere a la precisión de la muestra de estadística como un estimador del parámetro de


población. La media de muestra se acercará más a la media de la población que cualquier otro
estimador imparcial, por lo que la media de muestra es una mejor estimación de la media de la
población.

3. CONSISTENCIA: se refiere al efecto del tamaño de la muestra sobre la utilidad de un estimador. Al


incrementarse el tamaño de la muestra sobre la utilidad, la variación de la media de la muestra de la
media de la población se hace más pequeña, de manera que la media de muestra se vuelve una mejor
estimación de la media de población.

ERROR ESTANDAR (MUESTRA): es la variabilidad de la media de muestra a muestra. El error estándar de la


media es igual a la desviación estándar de la población sobre la raíz cuadrada de n (siendo n el tamaño de
la muestra). Por lo tanto, al incrementarse el tamaño de la muestra, el error estándar de la media
disminuirá.

DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES


Al tratar con una variable categórica, los resultados posibles se les podrían asignar resultados de 1 o 0 para
representar la presencia o ausencia de la característica. Si solo se dispusiera de muestra aleatoria de n
individuos, la media de la muestra para tal variable categórica se encontraría sumando todos los resultados
1 y 0 y luego dividendo por n. Por lo tanto, al tratar con datos categóricos, la media de la muestra X (de los
resultados 1 y 0) es la misma proporción de muestra P, que tiene la característica de interés. Así pues, la
proporción de muestra p, puede definirse como el cociente entre el número de sucesos y el tamaño de la
muestra (p=X/n).
Mientras que la media de la muestra (X) es un estimador de la media de la población (µ), la estadística p, es
un estimador de la proporción de la población P.
ERROR ESTANDAR = √(p (1-P)/n

TEOREMA DEL LÍMITE CENTRAL / LEY DE LOS GRANDES NÚMEROS


El Teorema del Límite Central establece que si se extraen repetidas muestras aleatorias simples de tamaño
N a partir de una población distribuida normalmente, las medias de tales muestras se distribuyen
normalmente. Y si el tamaño N de cada muestra es suficientemente grande, las medias de las muestras
tenderán a distribuirse normalmente (con su respectiva media y desviación).
La primera parte del Teorema dice que las medias de las muestras aleatorias simples extraídas de una
población que se distribuye normalmente darán lugar a una distribución muestral que es también normal,
aunque el tamaño N sea pequeño. Cada una de estas muestras tendrá una media X, que variará
ligeramente de una muestra a otra, pero que tenderán a agruparse alrededor de la media de la población,
distribuyéndose normalmente con una desviación típica que valdrá S/√N. En consecuencia, cuanto mayor
sea el tamaño de la muestra seleccionada, más pequeña será la desviación típica de la distribución normal
y mayor será el agrupamiento de las medias muestrales alrededor de la media de la población.

En efecto, al aumentar el tamaño N de la muestra, la curva normal que representa la distribución muestral
se hace más aguda. Todos los <<casos>> en la distribución muestral son medias pertenecientes a muestras
diferentes.
La segunda parte del Teorema (LEY DE LOS GRANDES NÚMEROS) establece que al extraer repetidas
muestras aleatorias de tamaño N de una población de cualquier forma de media y varianza, cuando N es
suficientemente grande, la distribución muestral de las medias tiende a distribuirse normalmente. Es decir,
cuanto mayor sea N con más facilidad se aproximará la distribución muestral a la curva normal.
La importancia de esta ley es muy grande, ya que al ser la distribución muestral la que se utiliza en las
pruebas de significación, ello quiere decir que cuando N es suficientemente grande no tenemos ya que
preocuparnos de los supuestos referentes a la normalidad de la población, pudiendo emplear las
propiedades de la curva normal en nuestras pruebas de decisión estadística, ya que la distribución
muestral tiende a aproximarse a la normalidad.

TEOREMA DEL LIMITE CENTRAL


Requisitos
 La muestra debe ser aleatoria/azar
 La distribución debe ser normal (x ~ normal)
Si se extraen todas las muestras de una población normal:
1- La media de todas las muestras (x) tiende a ser normal
2- La media de las medias es igual a la media de la población
3- El desvío (error estándar) es igual a: S/√n

LEY DE LOS GRANDES NUMEROS (se la utiliza cuando la TLC falla)


Requisitos:
 N sufrientemente grande = tendencia a la dist. Normal
 Cuanto mayor sea N, más se aproxima a la curva normal

Parte 2
ESTADISTICA INFERENCIAL: estudia cómo sacar conclusiones generales para toda la población a partir del
estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.
ESTIMACION PUNTUAL: consiste en una sola estadística de muestra que se utiliza para estimar el valor
verdadero de un parámetro de la población.

POBLACIO MUESTRA
N
µ x
S s
P p
N n

ESTIMACION POR INTERVALOS: consiste en estimar el valor correctamente el valor verdadero del
parámetro de la población. El intervalo tendrá una confianza o probabilidad de estimar correctamente el
valor verdadero del parámetro de la población.

MEDIA PROPORCION
Ū= X ± z.S/√n p = p ± z.√((p.q)/n)

CONFIANZA PUNTAJE Z
1% 99% 2,57/2,58
5% 95% 1,96
10% 90% 1,64/1,65

TAMAÑO DE MUESTRA
Al determinar el tamaño de la muestra para estimar una porción se deben definir tres incógnitas:
1- El nivel de confianza deseado (en puntaje Z)
2- El error estándar permitido
3- La porción de éxitos (p) y fracasos (q) (siendo p y q complementos)

MEDIA PROPORCION
n= z². S² n= z². p.q
e² e²

Parte 3
PRUEBA DE HIPÓTESIS
La prueba de hipótesis (o metodología de prueba de hipótesis) es una técnica para analizar diferencias y
tomar decisiones. También se evalúa los riesgos implicados al tomar dichas decisiones basándonos en la
información de la muestra.
Pasos:
Plantear las hipótesis nula y de trabajo (o alternativa): La hipótesis nula y alternativa deben establecerse en
términos estadísticos.
H0 = X Bivariado
Ht ≠ X

H0 < X Univariado
Ht >= X
H0 > X
Ht <= X
1- Establecer el nivel de confianza y riesgo (en puntaje Z) + áreas de rechazo/no rechazo.
2- Método/Regla: Debe escogerse la técnica estadística que se utilizara para probar la h0.

a- Zcritico/Zempirico
Zcritico = valor del riesgo en puntaje z
Ze > Zc = rechazo
Ze < Zc = no rechazo

b- P valor: Es la probabilidad de obtener una estadística de prueba igual o más exacta que el resultado
obtenido a partir de los datos de la muestra, dado que la h0 es realmente verdadera.
Pvalor < α = h0 es rechazada
Pvalor > α = h0 no rechazada

c- Estimación por Intervalos de confianza

MEDIA PROPORCION
û= X ± z.S/√n p = p ± z.√((p.q)/n)

3- Construcción empírica: Se reúne los datos estadísticos obtenidos.


4- Conclusión. Se analiza los datos obtenidos y se toma la decisión.

EL USO DE LAS PRUEBAS DE SIGNIFICACIÓN ESTADÍSTICA


Las pruebas de significación estadística sirven para comparar variables entre distintas muestras.
ERROR DE TIPO 1 (o α): se presenta si la hipótesis nula h0 es rechazada cuando es verdadera y debía ser
aceptada. El complemento, (1- α) de la probabilidad de cometer un error de tipo 1 se conoce como
coeficiente de confianza.
ERROR DE TIPO 2 (O ß): se presenta si la hipótesis nula h0 es aceptada cuando, de hecho, es falsa y debía
ser rechazada. El complemento (1- ß) de la probabilidad de cometer un error de tipo 2 se conoce como la
potencia de una prueba estadística.
Ambos errores son inversos, no complementarios.

DISTRIBUCION T DE STUDENT
Si la variable aleatoria X está distribuida normalmente, entonces, la estadística tiene una distribución t con
n-1 grados de libertad.

T de Student (t) = X - µ
S
√n
Propiedades
La distribución t es muy parecida a la distribución normal. Ambas son simétricas y tienen forma de
campana. Sin embargo, la distribución t tiene más área en los extremos y menos en la parte central que en
el caso de la distribución normal. Esto es así porque no se conoce α, y estamos utilizando S para estimarla.
Puesto que no tenemos certeza del valor de α, los valores de t que observamos serán más variables que
para Z.
Sin embargo, a medida que aumentan los grados de libertad, la distribución t gradualmente se aproxima a
la distribución normal, hasta que ambas son idénticas. Esto sucede porque a mayor tamaño de la muestra,
S se va convirtiendo en una mejor estimación de α. Por esta razón, los estadísticos utilizan Z en lugar de t.
En la práctica, la distribución t puede utilizarse en la estimación de la media de la población cuando no se
conoce el valor de α.

UNIDAD V
CONCEPTO DE ASOCIACION ENTRE VARIABLES
El análisis estadístico de la asociación entre variables representa una parte básica del análisis de datos en cuanto que
muchas de las preguntas e hipótesis que se plantean en los estudios que se llevan a cabo en la práctica implican
analizar la existencia de relación entre variables. La existencia de algún tipo de asociación entre dos o más variables
representa la presencia de algún tipo de tendencia o patrón de emparejamiento entre los distintos valores de esas
variables.
En todas esas cuestiones el objetivo es indagar si, al cambiar el valor de una de las variables, varía en forma
coordinada el valor de la otra variable. Esto es la variación conjunta o covariación de dos variables numéricas.
Dos variables (X e Y) están correlacionadas, si al aumentar o disminuir los valores en una de ellas (X) se observa una
modificación definida en los valores observados en la otra variable (Y).

INDEPENDENCIA ESTADÍSTICA Y ASOCIACIÓN PERFECTA EN LOS CUADROS


INDEPENDENCIA ESTADISTICA: Dos variables estadísticas son estadísticamente independientes cuando el
comportamiento estadístico de una de ellas no se ve afectado por los valores que toma la otra; esto es
cuando las relativas de las distribuciones condicionadas no se ven afectadas por la condición, y coinciden
en todos los casos con las frecuencias relativas marginales.
ASOCIACION PERFECTA: Es cuando dos variables están relacionadas varían conjuntamente en algún grado,
existiendo covariación o varianza en común. Cuando la covariación o varianza en conjunto de ambas
variables alcanza su nivel máximo -en que toda la varianza de una variable coincide con la varianza de otra-
existe una asociación perfecta. Cuando se constata una asociación perfecta, es necesario dilucidar por qué
ocurre, contemplando la posibilidad de que se trate, por ejemplo, de dos indicadores de un mismo
concepto.

LA PRUEBA DE CHI CUADRADO


El test de chi cuadrado (χ2) permite establecer si existe relación estadísticamente significativa entre las
variables o si hay independencia estadística. El chi cuadrado nos permite testear si las relaciones entre las
variables e hipótesis observadas en una muestra probabilística puede ser extrapolada al universo con un
determinado nivel de confianza. Esta prueba de hipótesis define el escenario estadístico en que se trabaja.
El test de chi cuadrado nos permite saber si la relación observada entre determinadas variables en nuestra
muestra puede ser inferible, bajo determinados niveles de confianza, al universo de estudio. Para ello pone
en relación la hipótesis nula con la hipótesis de trabajo. Una hipótesis nula es una hipótesis que afirma la
independencia estadística, es decir, la ausencia de asociación entre variables, lo contrario a lo que afirma la
hipótesis de trabajo. Cuando se trabaja con muestras aleatorias el test de hipótesis de chi cuadrado
permite decidir si puede rechazarse la hipótesis nula para un nivel de confianza dado. Si se rechaza la
hipótesis nula, se está descartando, asumiendo determinado riesgo, que se trate de una situación de
independencia estadística y se está aceptando que hay alguna asociación estadística entre las variables de
la hipótesis de trabajo, con determinado nivel de confianza. No rechazar la hipótesis nula implica que la
hipótesis de trabajo no es estadísticamente significativa para determinado nivel de confianza, mas no
implica necesariamente que se acepte la hipótesis nula ni que deba darse por finalizado el análisis de la
relación.
El chi cuadrado no permite analizar las categorías o valores de las variables, sino cómo las unidades de
análisis se distribuyen en los espacios de propiedades, por lo cual puede ser utilizado con variables de
cualquier nivel de medición. Se utiliza para relaciones entre variables nominales u ordinales, puesto que
existen otras pruebas para variables intervalares.
El chi cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la comparación entre las
frecuencias observadas y las frecuencias esperadas. Las frecuencias observadas son simplemente los casos
relevados distribuidos en los espacios de una tabla. Las frecuencias esperadas son aquellas que cabría
esperar si hubiese independencia estadística. Para cada espacio de propiedad de un cuadro, la frecuencia
esperada se obtiene multiplicando las frecuencias marginales entre sí y dividiendo el producto por el total
de casos. De este modo, se obtiene una distribución de los casos en el cuadro que mantiene las frecuencias
marginales observadas de cada variable pero distribuye los casos en los espacios de propiedades, de modo
tal que las frecuencias condicionales sean las que cabría esperar por meras desviaciones en la muestra en
ausencia de asociación en la población.
Es posible elaborar una tabla de frecuencias esperadas o datos teóricos y compararla con la tabla de
frecuencias observadas o datos reales. Si no se observa diferencia entre las mismas se puede decir que hay
una ausencia de asociación entre las dos variables o independencia estadística. Si hay diferencia entre las
frecuencias observadas y esperadas, es necesario evaluar si los datos reales se alejan lo suficiente de la
independencia estadística como para rechazar la hipótesis nula con un nivel de confianza razonable. Para
ello, se realiza el cálculo del chi cuadrado. Siendo Fo las frecuencias observadas y Fe las frecuencias
esperadas, la fórmula de ji cuadrado es:

χ2 = Σ(Fo−Fe)2
Fe
La diferencia entre frecuencias observadas y esperadas de cada espacio se eleva al cuadrado, anulando los
signos negativos. Para normalizar los residuos elevados al cuadrado de cada espacio de propiedad, se
divide por la frecuencia esperada. Al sumar los resultados se obtiene el chi cuadrado empírico (Xe2), que
puede adoptar valores desde cero hasta infinito. Cuanto más pequeño sea el valor de chi cuadrado, más
fácil es no estar en condiciones de rechazar la hipótesis nula. Como el valor de chi cuadrado aumenta con
el tamaño de la muestra, para decidir el rechazo o no rechazo de la hipótesis nula, es necesario compararlo
con el chi cuadrado teórico (Xt2). El chi cuadrado teórico, crítico o de tabla proviene de una distribución
estadística que relaciona valores teóricos de chi cuadrado con sus posibilidades de ocurrencia por el sólo
efecto del error muestral.
La distribución teórica de chi cuadrado permite conocer cuál es el valor con el que comparar el chi
cuadrado empírico, según los grados de libertad de la tabla y el nivel de confianza con que se decida
trabajar. Los grados de libertad de una tabla se determinan según la mínima cantidad de frecuencias
condicionales que necesitan conocerse para poder calcular las restantes, para frecuencias marginales
dadas. Se calcula multiplicando la cantidad de columnas menos uno por la cantidad de filas menos uno.
El nivel de confianza es el complemento del riesgo. Este último es la probabilidad de rechazar la hipótesis
nula siendo esta verdadera, o lo que es lo mismo, la probabilidad de cometer error de tipo I. La situación
inversa es el error de tipo II, o probabilidad de no rechazar la hipótesis nula siendo esta falsa. En ambas
situaciones no se trata de errores en tanto decisiones desacertadas por la impericia del investigador, sino
que son errores estadísticos, probabilidades que quienes investigan asumen como riesgos propios de los
instrumentos estadísticos que se utilizan.
Si al comparar los valores obtenidos, el chi cuadrado teórico es mayor al chi cuadrado empírico (Xt2 > Xe2)
la hipótesis nula no puede ser rechazada, por lo que la hipótesis de trabajo no es aceptada. Por el
contrario, si el chi cuadrado teórico es menor o igual al chi cuadrado empírico (Xt2 ≤ Xe2) la hipótesis nula
se rechaza y se acepta la hipótesis de trabajo, considerando que existe una relación estadísticamente
significativa entre las variables.

Proceso de prueba:
1- Plantear la hipótesis nula (h0) y la alternativa (ht). En la hipótesis nula se planteara la
independencia estadística y en la hipótesis alternativa se planteara la asociación.
2- Establecer nivel de riesgo y confianza
3- Elegir el método/ regla
 Xcritico – Xempirico
 Pvalor
 Grados de libertad
4- Contrastación empírica
5- Conclusión

CARACTERÍSTICAS DE UNA ASOCIACIÓN DE DOS VARIABLES: EXISTENCIA, FUERZA, DIRECCIÓN Y


NATURALEZA
Se puede caracterizar la relación entre dos variables según la existencia de asociación, la fuerza, la
dirección y la naturaleza de la misma.
 La existencia de asociación implica que la distribución de una variable difiere de algún modo entre las
categorías de la segunda variable, alejándose de la independencia estadística, lo cual puede
determinarse a partir del análisis de diferencias porcentuales y de la comparación de las frecuencias
esperadas con las observadas, mediante la prueba de hipótesis de chi cuadrado, esta última para los
casos en que se trabaje con muestras probabilísticas.
 El grado o fuerza de la asociación varía según cuánto se aleje la relación de la independencia
estadística. Como las diferencias porcentuales y la comparación entre frecuencias observadas y
esperadas no varían de una forma predeterminada, se han establecido algunos coeficientes
estandarizados, que varían de forma fija entre un valor mínimo –cero- y un máximo –uno-, facilitando
su interpretación. Estos coeficientes permiten conocer también, cuando las variables son como mínimo
de nivel de medición ordinal, la dirección de la asociación, que puede ser positiva, cuando los valores
altos de una variable se corresponden con los valores altos de la otra -y los valores bajos con los valores
bajos-, o negativa, -cuando los valores altos de una variable se corresponden con los bajos de la
segunda -y viceversa-.
 Por último, la naturaleza es la forma general en que se distribuyen los datos en un cuadro, que puede
ser lineal o diagonal, curvilineal o rinconal e irregular; esta última forma sólo puede ser examinada
mediante la lectura analítica del cuadro, ya que las medidas resumen de asociación no permiten
medirla sino que la presuponen en las operaciones que realizan para calcular la fuerza.

TIPOS DE COEFICIENTES
COEFICIENTES DE ASOCIACION: Los coeficientes de asociación (también conocidos como coeficientes no
paramétricos) no permiten realizar inferencias al universo, sino que indican la fuerza de la relación en la
muestra que se analiza.
Los coeficientes de asociación son medidas resumen de la fuerza de la asociación entre variables y
permiten conocer la dirección. Los coeficientes de asociación son estandarizados, variando entre cero, que
indica independencia estadística y uno, que indica asociación perfecta. A medida que los coeficientes
comienzan a alejarse de 0 están expresando algún tipo de relación entre las variables.

Para realizar un análisis de asociación (solamente en variables cualitativas) es necesario usar tres
herramientas o métodos:
1- LECTURA PORCENTUAL: permite analizar minuciosamente un cuadro, la forma y la naturaleza del
mismo. La lectura de un cuadro no debe ser entendida como un fin en sí mismo sino como un
medio para el análisis e interpretación de los resultados.
2- TEST CHI CUADRADO: permite establecer si existe relación estadísticamente significativa entre las
variables
3- COEFICIENTES DE ASOCIACION: permite examinar la fuerza de la relación y su sentido.

Los análisis de correlación (también conocidos como coeficientes paramétricos) permiten el análisis en
variables cuantitativas.
COEFICIENTE DE CORRELACION (PEARSON): mide la intensidad en la relación entre dos variables de una
población. Sus valores van del -1(correlación perfectamente negativa) al +1 (correlación perfectamente
positiva).

También podría gustarte