Está en la página 1de 14

TEMA 1: CONCEPTOS BÁSICOS DE LA INFERENCIA ESTADÍSTICA

1. MARCO GENERAL DE LA INFERENCIA ESTADÍSTICA EN PSICOLOGÍA

• Análisis de datos (análisis estadístico): conjunto de procedimientos diseñados para


resumir y organizar datos en el objetivo de extraer información y elaborar
conclusiones.
• Este conjunto de procedimientos (del que no solo la psicología hace uso) pertenece
a una rama de las matemáticas conocida con el nombre de Estadística.
• La Estadística se ocupa de la sistematización, recogida, ordenación y presentación
de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre
para su estudio metódico con el objetivo de…

> Hacer previsiones sobre los mismos


> Tomar decisiones
> Obtener conclusiones

• Teniendo en cuenta las funciones de la estadística, podemos considerar dos


grandes áreas:

> Estadística Descriptiva. Mediante ella se organizan y resumen conjuntos


de observaciones procedentes de una muestra o de la población total de
forma cuantitativa.

*Este resumen puede realizarse mediante tablas, gráficos o valores numéricos. Existen
distintos procedimientos que permiten estudiar las características de una variable (p.e.,
índices de tendencia central, estadísticos de variabilidad, asimetría) o más variables (p.e.,
coeficiente de correlación).

> Estadística Inferencial. Mediante ella se realizan inferencias acerca de


una población basándose en los datos obtenidos a partir de una muestra.
Estas inferencias pueden realizarse utilizando dos estrategias distintas,

• Las dos estrategias mediante las que se pueden realizar las inferencias en la
estadística inferencial son: estimación de parámetros y contraste de hipótesis.

• Ambas formas de inferencia permiten abordar el mismo tipo de problemas y llegar


a las mismas conclusiones pero la información que ofrecen no es exactamente la
misma:

> Estimación de parámetros. Intenta averiguar qué valores habrían


correspondido a una población de haber trabajado directamente sobre ella.

> Contraste de hipótesis. Intenta detectar la presencia de un efecto


significativo (una diferencia entre grupos, una relación entre variables).

• En la estimación de parámetros se pueden llevar a cabo dos tipos de estimación:


puntual y por intervalos.
2. VARIABLES Y SU CLASIFICACIÓN

• Variable: característica que medimos y que admite distintos valores.


• Las variables se pueden clasificar considerando diferentes características:

> Nivel de medida:

> Nivel de manipulación:

Vamos a practicar la detección del tipo de variables con algunos ejemplos:

Ejemplo 1. Se desea conocer si las mujeres y los hombres que se dedican


profesionalmente al deporte difieren en el grado de ansiedad cognitiva que presentan.

Según el nivel de medida:


• Sexo: variable cualitativa dicotómica (dos categorías: hombre y mujer).
• Grado de ansiedad cognitiva: variable cuantitativa.

Según el nivel de manipulación:


• Sexo: variable independiente.
• Grado de ansiedad cognitiva: variable dependiente.
Ejemplo 2. Se desea analizar si existen diferencias en el peso entre jóvenes profesionales
que se dedican a diferentes tipos de deporte (atletismo, ciclismo y fútbol

Según el nivel de medida:


• Tipo de deporte: variable cualitativa politómica (tres categorías: atletismo,
ciclismo y fútbol).
• Peso: variable cuantitativa continua.

Según el nivel de manipulación:


• Tipo de deporte: variable independiente.
• Peso: variable dependiente.

Ejemplo 3. Un grupo de investigadores quiere saber si el tipo de deporte (atletismo,


ciclismo y fútbol) y el sexo (mujer y hombre) influyen en el nivel de inteligencia
emocional de deportistas profesionales.

Según el nivel de medida:


• Tipo de deporte: variable cualitativa politómica (tres categorías: atletismo,
ciclismo y fútbol).
• Sexo: variable cualitativa dicotómica (dos categorías: hombre y mujer).
• Nivel de inteligencia emocional: variable cuantitativa.

Según el nivel de manipulación:


• Tipo de deporte y sexo: variables independientes.
• Nivel de inteligencia emocional: variable dependiente.

3. POBLACIÓN, MUESTRA, PARÁMETRO Y ESTADÍSTICO

• Pensad en un equipo de investigación que desea realizar un estudio en el que quiere


evaluar la inteligencia en una población de 1000 personas y el ministerio le ha
subvencionado sólo la recogida de datos para evaluar a 100 personas. ¿Qué
serían las 1000 personas y las 100 personas?

• Por lo general, las conclusiones de los estudios se basan en datos particulares.

• Por ejemplo, si se desea probar la eficacia de un nuevo tratamiento para disminuir


el insomnio en niños, es lógico pensar que no será posible reunir a todos los niños
que padecen insomnio. Habrá que conformarse con aplicar el tratamiento sólo a
algunos.

• Por otro lado, tampoco parece razonable aplicar a todos los niños con insomnio un
tratamiento cuya eficacia se desconoce.

• Utilizar sólo unos pocos elementos del total es algo que casi siempre que se lleva a
cabo un estudio se realiza.

• Por ejemplo, si queremos conocer las actitudes sexuales de los jóvenes españoles
no aplicamos a todos los jóvenes españoles una escala de actitudes sexuales.
• De forma ocasional se tiene acceso a todos los elementos que se desea estudiar,
pero es en el caso de las poblaciones pequeñas.

Por ejemplo, si deseo conocer las actitudes sexuales de los estudiantes de segundo de
psicología de la Universidad de Huelva sí tengo la posibilidad de acceder a todos los
elementos, que serían toda la población.

• Población: conjunto de elementos (personas, objetos, etc.) que poseen una o más
características en común. En general, el término población hace referencia al
conjunto total de elementos que interesa estudiar.

Dependiendo del número de elementos del que constan, las poblaciones pueden
ser:
Ø Finitas: nº de elementos que la forman finito, p.e., nº de alumnos de un
centro de enseñanza o grupo de clase.
Ø Infinitas: nº de elementos que la forman es infinito.

*Normalmente, las poblaciones con las que interesa trabajar son finitas, pero
tan grandes que pueden considerarse infinitas. Por esta razón, lo habitual es
trabajar con muestras.

• Muestra: subconjunto de elementos de una población.

• A diferencia de las poblaciones, que suelen ser de gran tamaño, las muestras
suelen ser de tamaño reducido.

• Para poder describir con exactitud las propiedades de una población cualquiera,
sería necesario examinar todos y cada uno de los elementos que componen esa
población.

• Debido a que las poblaciones que habitualmente interesa estudiar son muy grandes,
son las muestras las que proporcionan la información necesaria para poder describir
las propiedades de las poblaciones objeto de estudio.

• Ahora bien, para que las conclusiones sean válidas es necesario que la muestra
utilizada sea representativa de la población a la que se supone que representa, lo
cual se consigue mediante las técnicas de muestreo. El término muestreo se refiere
al proceso seguido para seleccionar una muestra de una población.

• Imaginad que deseamos evaluar la inteligencia de una población de 1000 personas.


¿Cuántas muestras de 100 personas podemos extraer?

• Tantas variaciones de 1000 elementos tomados de 100 en 100 que son 1.000.100
muestras diferentes.

• Si en la primera muestra el CI es 104, ¿pensáis que será ese el CI medio de las


1000 personas de la población?
• Esto puede depender de diferentes variables, entre las que se encuentran las
características del muestreo.

• Las características principales del muestreo son cuatro: equiprobabilidad,


independencia, representatividad y variabilidad de la muestra.

• Si todas las personas tienen la misma probabilidad de ser seleccionadas existe lo


que se llama equiprobabilidad y esa características hace que ese CI pueda
coincidir con el de la población.

• Si se da el supuesto de independencia, es decir, la elección de un elemento es


independiente de la elección de otro, también puede que ese CI coincida con el de
la población.

• Si esa muestra es representativa, esto es, las características de la muestra son


similares a la de la población, también es posible que los CI coincidan.

• Si la variabilidad de la muestra es muy grande es probable que no coincida. No


es lo mismo que la muestra esté formada por personas con CI entre 85 y 105 que
entre 50 y 120. En la segunda muestra la variabilidad es mayor y es menos
probable que el CI de la muestra coincida con el de la población que en la primera
muestra (donde la variabilidad es menor).

• En las características del muestreo el procedimiento de muestreo es de especial


relevancia.

• Los modelos matemáticos parten de la premisa de que el muestreo es probabilístico


o aleatorio, es decir, todas las personas de la población tienen la misma
probabilidad de ser seleccionadas. Todo lo que se aleje de estos modelos hace que
las inferencias pierdan valor.

• Constantemente los investigadores realizan estudios con muestreos no


probabilísticos.

• Por ejemplo, muestreo por conveniencia o accesibilidad, donde el investigador


selecciona aquella muestra que considera que puede extraer con mayor comodidad
o menor coste.

• Otro tipo de muestreo no probabilístico es el muestreo de bola de nieve, donde un


elemento de la población lleva a otro y así sucesivamente.

• Hay otros tipos de muestreo que no llegan a ser probabilísticos, pero que de alguna
forma buscan la representatividad de la población. Por ejemplo, el muestreo por
cuotas o conglomerados.

• Podemos realizar muestreos por conglomerados de edad o de sexo. Por ejemplo, si


sabemos que el 52% de los jóvenes españoles son mujeres y queremos hacer un
estudio con jóvenes españoles en nuestra muestra el 52% serán mujeres jóvenes
españolas.
• Es muy importante tener en cuenta que, a diferencia de las muestras probabilísticas
o aleatorias, las nos probabilísticas no se rigen por las reglas matemáticas de la
probabilidad.

• Otros conceptos relevantes en la inferencia estadística son el de estadístico y


parámetro.

• Estadístico: valor numérico (una medida) que describe una característica de la


muestra, una característica muestral. Es decir, una propiedad descriptiva de la
muestra.

• Parámetros: valor numérico (una medida) que describe una característica de la


población, una característica poblacional. Es decir, una propiedad descriptiva de la
población.

Un estadístico es a la muestra lo que un parámetro a la población

• Los estadísticos y parámetros más utilizados son la media, la desviación típica, la


varianza y la proporción.

• Podemos observar como se representan algunos estadísticos y parámetros en la


siguiente tabla:
4. DISTRIBUCIÓN MUESTRAL

• La distribución muestral de un estadístico es un concepto central de la inferencia


estadística. Vamos a ver a través de un ejemplo como obtener la distribución
muestral de la media.

• Supongamos que tenemos una caja con tres fichas numeradas del 1 al 3.

• Extraemos de esa población, al azar y con reemplazamiento


(reposición), todas las muestras posibles de tamaño n = 2 (dos
fichas).

• Tras extraer todas las muestras posibles, calculamos la media de


cada una.

• También calculamos la probabilidad de cada una de ellas:

• A través de la distribución de probabilidad podemos observar que:

Ø El valor más frecuente es 2.


Ø El valor más frecuente coincide con el valor medio del estadístico.
Ø El valor más frecuente corresponde con la media poblacional.

• Podemos considerar el estadístico media como una variable aleatoria que toma una
serie de valores, cada uno de ellos con su correspondiente probabilidad. Pues bien,
la distribución muestral de la media será su correspondiente función de
probabilidad. Sabiendo la distribución muestral podemos hacer inferencias del tipo:

La probabilidad de que la media de una muestra seleccionada aleatoriamente de esta


población sea superior a 2,5 es 0,11.
La probabilidad de que la media de una muestra seleccionada aleatoriamente de esta
población sea inferior a 2 es 0,33.

• Por tanto, podemos definir la distribución muestral como una distribución teórica
que asigna una probabilidad concreta a cada uno de los valores que puede tomar
un estadístico en cada muestra.

• Para obtener una distribución muestral deberíamos seguir los siguiente pasos:

1. Recogemos los datos en una muestra.


2. Calculamos el valor de un estadístico w (p.e., media).
3. Para saber cómo de esperable es el valor de w, extraemos todas las posibles
muestras. Pongamos que son k posibles muestras.
4. En cada muestra, se calcula el mismo estadístico w. Contamos con k
medidas de w.
5. Habrá valores de w que se repiten más y otros que se repiten menos.
6. El conjunto de las medidas de w se denomina distribución muestral de w.

• La media de la distribución muestral se utiliza como estimador del parámetro ya


que es igual a la media de la población.

• La desviación típica de la distribución muestral de la media se denomina error


típico de la media.

• El error típico de la media cuantifica las oscilaciones de la media muestral


alrededor de la media poblacional. Se debe usar cuando se pretende cuantificar el
error cometido al estimar la media poblacional mediante la media muestral.

• El error típico no es lo mismo que la desviación típica de la muestra. La


desviación típica se utiliza para describir la variabilidad de una variable continua en
una muestra.

• Existen modelos teóricos que modelizan la distribución muestral para cada


parámetro.

• Uno de los teoremas derivados del cálculo de distribuciones muestrales es el


teorema del límite central.
• En investigación psicológica es poco común que nos interese el CI de María, Pepe,
Juan, etc. Habitualmente nos interesan valores que sean representativos de la
población (valor medio del CI).

• Por ejemplo, si seleccionamos una muestra de dos sujetos (n = 2) aleatoriamente y


calculamos sus valores medios estaríamos realizando una estimación de la media.

• Si seleccionamos otros dos sujetos aleatoriamente y volvemos a estimar su valor


medio la media cambiará. Esto se debe a que la media es una variable aleatoria.

• Esta variable aleatoria es la que se conoce como estimador de la media. Al ser una
variable aleatoria, va a tener una distribución. Pero, ¿cómo será?

• Si seleccionamos una muestra de 5 sujetos (n = 5) y repetimos el proceso un alto


número de ocasiones, llegamos a calcular su distribución.

• Repitiendo este proceso nuevamente nos encontramos ante una variable aleatoria,
aunque en este caso los valores son más parecidos entre sí. Ha disminuido la
variabilidad al aumentar el tamaño de la muestra.

• La distribución muestral de la media se parece a una distribución normal.

• En muchas ocasiones los datos tienen una distribución normal, pero incluso si no es
normal (distribución asimétrica), el proceso de seleccionar una muestra aleatoria y
calcular su media desemboca de forma inevitable en una distribución normal.

• Esto es lo que afirma el teorema del límite central: la distribución muestral de la


media se acerca a una distribución normal cuando aumenta el tamaño de las
muestras.

• Un concepto relevante es el de error típico o error estándar que es la distancia


que va desde el centro hasta el punto de inflexión de la curva y disminuye
conforme aumenta el tamaño de la muestra.

• El error típico no debe confundirse con la desviación típica de la muestra.

• La mayoría de las investigaciones utilizan tamaños muestrales superiores a 30. Esto


se debe a que con este tamaño, la distribución de la media sigue una distribución
normal.

• El error típico también mide la precisión que obtenemos si utilizamos un


estadístico de la muestra para estimar un parámetro de la población. Cuanto menor
es el error típico mayor es la precisión.

• Si se desea garantizar que lo que se calcula tiene cierta precisión, aunque se base en
un proceso aleatorio, es suficiente con tomar muestras grandes, tan grandes hasta
que se considere que el error típico es pequeño
• Para la inferencia estadística es imprescindible conocer la distribución muestral de
los estadísticos.

• La distribución muestral puede obtenerse sin necesidad de tener que extraer todas
las posibles muestras de un tamaño específico como se ha realizado en el ejemplo.

Si aplicamos un test de inteligencia a una muestra de 500 universitarios obtenida al azar, podemos
calcular la media resultante.
Si obtenemos un número infinito de muestras de 500 universitarios, cada una de esas muestras
tendrá una media. Entre esas infinitas medias algunas serán iguales, otras diferentes. Si hacemos
una distribución de esas medias, resultará una distribución muestral de medias.

• La distribución muestral de un estadístico es la distribución de frecuencias de los


valores que ese estadístico toma en las diferentes muestras.
• Una de las distribuciones muestrales que más se utiliza es la distribución muestral
de la media.

• La fórmula de la desviación típica de la distribución muestral (error típico o error


estándar de la media), es:

• Recordad que el error típico de la media:

> Cuantifica las oscilaciones de la media muestral alrededor de la media


poblacional.
> No es lo mismo que la desviación típica de la muestra.
> A medida que aumenta el tamaño de la muestra disminuye.
> Mide la precisión y si es pequeño es un mejor estimador de la media de la
población.

Ejemplo ejercicio distribución muestral de la media: Supongamos que la altura se


distribuye normalmente con media 176 cm y desviación típica 6 cm en la población de
hombres adultos españoles. Si seleccionamos de forma aleatoria una muestra de 25
hombres adultos españoles, ¿cuál es la probabilidad de que la altura media sea superior a
178 cm?

1º. Calculamos el error típico:


6
= 1.2
√25
N (176, 1.2)

2º. Tipificamos el valor 178:


178 − 176
Z = = 1.67
1.2
3º. Buscamos en la tabla de la distribución normal el valor tipificado (Z = 1.67) y le
restamos a 1 lo encontrado en la tabla porque preguntan por superior:

1 - 0.9525 = 0.0475

Por tanto, la probabilidad de que la altura media sea superior a 178 cm es 0.0475

5. ESTIMACIÓN DE PARÁMETROS

• Cuando se utiliza un estadístico para estimar un parámetro se le denomina


estimador. En este sentido, la media de la muestra es un estimador de la media
poblacional y el valor que toma el estimador en una muestra concreta se denomina
estimación o estimación puntual.

• Cuando estimamos un parámetro podemos hacerlo de dos formas:

> Estimación puntual: cuando damos un valor puntual como estimador del
parámetro.
> Estimación por intervalo: cuando damos un intervalo de valores en el que se
espera que esté el parámetro.

• La nomenclatura para el parámetro es y para el estimador puntual del parámetro


es q .

• Por lo general, un estimador no es idéntico al parámetro que estima,


denominándose la diferencia entre ellos error de muestreo

• Entre las características de un buen estimador puntual se encuentran las siguientes:

Ø Insesgado. El valor medio que se obtiene de la estimación para diferentes


muestras debe ser el valor del parámetro. Es decir, la media de la distribución
muestral del estadístico deber ser igual al parámetro.

Ø Consistencia. Cuando el tamaño de la muestra crece arbitrariamente, el valor


estimado debe aproximarse al parámetro desconocido y, por tanto, el error de
muestreo debe disminuir.

Ø Eficiencia. Su dispersión con respecto al valor central debe ser pequeña. Un


estimador (q1) es más eficiente que otro estimador (q2) si la varianza del
primero es menor que la del segundo.

Ø Suficiencia. Si transmite tanta información de la muestra como sea posible


acerca del parámetro. No deber existir otro estimador en la muestra que
proporcione mayor información sobre el parámetro.

• La estimación puntual no proporciona suficiente información.

• En varias muestras es posible obtener un estimador puntual diferente.


• Al estimar la media de la población a partir de una muestra podemos cometer un
error de estimación.

• A partir de la estimación por intervalos podemos acotar el error de estimación con


una alta probabilidad.

• El intervalo de confianza es el intervalo de valores alrededor de un valor muestral


en los que, con una probabilidad (o nivel de confianza, 1-α) determinada, se situará
el parámetro poblacional a estimar.

• Cuanto mayor sea el tamaño de la muestra mayor será la precisión de la estimación


de los parámetros.

• Para construir un intervalo de confianza se siguen los siguientes pasos:

1. Determinar el nivel de riesgo que se quiere tomar: α

2. Buscar la puntuación típica correspondiente a ese nivel en valor absoluto:


|Zα/2|

3. Calcular el error típico de la distribución muestral del estimador: σθ

4. Establecer el error máximo: Emáx = |Zα/2| σθ

5. Obtener límite inferior y superior: Linferior = θ - Emáx y Lsuperior = θ + Emáx

Ejemplo 1 estimación de parámetros por intervalos: Una muestra aleatoria de 100


estudiantes de psicología responde a una prueba de inteligencia espacial, obteniendo una
media de 80 y una desviación típica insesgada de 10. ¿Entre qué límites se hallará la
verdadera inteligencia espacial media de los estudiantes de psicología, con un nivel de
confianza de 0.99?

1. Determinar el nivel de riesgo que se quiere tomar: α à 1 – 0.99 = 0.01

El nivel de significación es 0.01 que es igual a 1 menos el nivel de confianza

2. Buscar la puntuación típica correspondiente a ese nivel en valor absoluto: |Zα/2| à


|Z0.01/2| à |Z0.005|

La puntuación típica correspondiente a 0.005 en valor absoluto es 2.57

3. Calcular el error típico de la distribución muestral del estimador: σθ

σθ = σ/√n = 10/√100 = 1

El error típico de la distribución muestral es igual a 1


4. Establecer el error máximo: Emáx= |Zα/2| σθ

Emáx= 2.57 · 1 = 2.57

El error máximo es igual a 2.57

5. Obtener límite inferior y superior: Linferior = θ - Emáx y Lsuperior = θ + Emáx

Linferior = θ – Emáx = 80 – 2.57 = 77.43


Lsuperior = θ + Emáx = 80 + 2.57 = 82.57

Los límites del intervalo de confianza entre los que se hallará la verdadera
inteligencia son 77.43 y 82.57 [77.43, 82.57]

Ejemplo 2 estimación de parámetros por intervalos: El director de la escuela de


administración desea estimar el número medio de horas por semana que estudian los
alumnos. Una muestra de 49 estudiantes obtuvo una media de 24 h con desviación estándar
de 4 h. ¿Cuál es el intervalo de confianza de 95% para el número promedio de horas por
semana que estudian los alumnos?

1. Determinar el nivel de riesgo que se quiere tomar: α à 1 – 0.95 = 0.05

El nivel de significación es 0.05 que es igual a 1 menos el nivel de confianza

2. Buscar la puntuación típica correspondiente a ese nivel en valor absoluto: |Zα/2| à


|Z0.05/2| à |Z0.025|

La puntuación típica correspondiente a 0.025 en valor absoluto es 1.96

3. Calcular el error típico de la distribución muestral del estimador: σθ

σθ = σ/√n = 4/√49 = 0.57

El error típico de la distribución muestral es igual a 0.57

4. Establecer el error máximo: Emáx= |Zα/2| σθ

Emáx= 1.96 · 0.57 = 1.12

El error máximo es igual a 1.12

5. Obtener límite inferior y superior: Linferior = θ - Emáx y Lsuperior = θ + Emáx

Linferior = θ – Emáx = 24 – 1.12 = 22.88


Lsuperior = θ + Emáx = 24 + 1.12 = 25.12

Los límites del intervalo de confianza entre los que se encuentra el número
promedio de horas semanales que estudian los alumnos son 22.88 y 25.12
[22.88, 25.12]

También podría gustarte