ESTADISTICA

2021
2022
ESTADISTICA
APLICADA A LA
PSICOLOGÍA
PRIMER CURSO
VEGA VICENTE BORREGO
ESTADISTICA APLICADA A LA PSICOLOGÍA
pág. 1
1.INTRODUCCIÓN A LA ESTADISTICA.
Es la ciencia que recoge, ordena y analiza los datos de una muestra, extraída de cierta
población, y que, a partir de esa muestra, valiéndose del cálculo de probabilidades, se
encarga de hacer inferencias acerca de la población.
Población: cualquier conjunto netamente definido de
elementos.
Muestra: cualquier subconjunto de una población.
Parámetro: toda función numérica calculada sobre los valores de una población. Resume
los datos de una población. Los parámetros pueden estimarse a partir de los estadísticos
Estadístico: toda función numérica calculada sobre los valores de una muestra. Resume
los datos recopilados de una muestra.
La estadística en psicología:
- Una herramienta fundamental que permite el estudio objetivo de la conducta
humana.
- Contribuye al desarrollo de la psicología como ciencia.
- Herramienta importante para la aplicación de las diferentes fases del método
científico.
El método científico
La medición (para que se pueda dar debe de existir correspondencia)

Medida: asignación de números a objetos o eventos de acuerdo con ciertas reglas.
Relación biunívoca entre modalidades y números. M1 ↔1, M2 ↔2, etc.
Las diferentes reglas de asignación de números a objetos producen distintos tipos de
escalas, con propiedades matemáticas específicas.
pág. 2
TIPOS DE ESCALAS DE MEDIDA (STEVENS, 1 946)
Escala nominal
Escala más elemental. Las categorías o modalidades deben ser exhaustivas y
mutuamente excluyentes. Los números no tienen propiedades aritméticas, se utilizan
como etiquetas.
• Propiedad: equivalencia.
- Solo podemos verificar la igualdad (=) o desigualdad (≠) entre categorías.
- Mismo valor a la misma modalidad y valores diferentes a distintas
modalidades.
• Datos cualitativos.
• Operaciones admisibles:
- Conteo de frecuencias.
- Ninguna operación aritmética: Madrid (1) + Madrid (1) ≠ Zamora (2)
• Ejemplos: género, estado civil, profesión principal, provincia de nacimiento, etc.
Escala ordinal
• Propiedades: equivalencia y orden (< ó >): podemos ordenar los valores en

función de un criterio.
• No conocemos las distancias entre los datos.
• Datos cuasi-cuantitativos.
• Operaciones admisibles: estadísticos basados en el orden.
• Ejemplos: puntualidad, orden de llegada en una carrera, películas preferidas, etc.
Escala de intervalo
• Podemos ordenar los datos y sí conocemos las distancias entre los datos.
• Unidad de medida arbitraria
• Cero no absoluto (p.ej., la temperatura en °C):
- El cero se sitúa de forma arbitraria y no implica ausencia del atributo
medido.
- Cuidado con la interpretación: 20°+ 10°= 30°, pero 40°≠ 20°x 2
• Datos cuantitativos
• Ejemplos: temperatura en °C, calificaciones académicas, medidas psicológicas.
Escala de razón
• Unidad de medida arbitraria.

• Cero absoluto (0 = ausencia total): Ej. longitud (20 m + 10 m = 30 m y 40 m = 20
m x 2)
• Los números representan cantidad de un atributo.
• Datos cuantitativos.
pág. 3
TIPOS DE DATOS
Constante: Característica que solo puede manifestarse bajo una misma modalidad. (la
nacionalidad para una muestra de sujetos españoles)
Variable: Característica que puede manifestarse según dos o más modalidades distintas.
(Género, edad)
- Cualitativa: Solo a nivel de escala nominal (Lugar de nacimiento, profesión, etc.).
- Cuasi-cuantitava: Como máximo a nivel de escala ordinal. (orden de llegada a la
meta)
o Dicotómica: Consta de 2 modalidades (Tener o no coche propio)
o Policotómica: Consta de al menos 3 modalidades distintas (lugar de
nacimiento)
- Cuantitativa: Como mínimo a nivel de escala de intervalo. (Peso, altura)
o Discreta: No admite siempre modalidades intermedias entre 2
modalidades (nº de hijos)
o Continua: Siempre admite modalidades intermedias entre 2 modalidades
(longitud)
pág. 4
pág. 5
2. ORGANIZACIÓN, DISTRIBUCIÓN Y
REPRESENTACIÓN DE DATOS.
2.1. MÉTODOS PARA DATOS CUALITATIVOS (ESCALAS NOMINALES).
Organización de datos: conteo
- Agrupación por grupos y recuento (tablas)
- Distribución de frecuencias: frecuencia absoluta (f)
- Inclusión en tablas: códigos (1=PSI, 2=DER, 3=BIO)
Estadísticos
▪ Frecuencia absoluta (f): nº de veces que aparece cada modalidad
▪ Tamaño de la muestra (n)
▪ Frecuencia relativa o proporción (p): p = fr = f/n
▪ Porcentaje (P): P = p x 100
Representaciones gráficas para datos cualitativos

- Diagrama de barras: Altura del rectángulo = frecuencia (o proporción)
- Ciclograma o diagrama/gráfico de sectores: Cada sector representa la
proporción de cada modalidad respecto al total del círculo. Habitualmente se
ofrece el porcentaje.
- Pictogramas
Reducción de tablas con datos cualitativos

Cuando el número de modalidades en una distribución de frecuencias sea “demasiado
grande” y cuente con muchas modalidades con frecuencias bajas, podemos agruparlas
en una categoría nueva, por ejemplo, llamándola “otros”. Siempre que la información
no se vea afectada negativamente y que no se pierda información relevante.
2.2. MÉTODOS PARA DATOS CUASI CUANTITATIVOS (ESCALAS ORDINALES)

Organización de datos: conteo y orden en las modalidades
- Agrupación en tablas (de menos a más)
Estadísticos
▪ Frecuencia absoluta (f): nº de veces que aparece cada modalidad
▪ Frecuencia absoluta acumulada (fₐ): se van sumando las anteriores
▪ Tamaño de la muestra (n)
▪ Frecuencia relativa o proporción (p): p = fr = f/n
pág. 6
▪ Frecuencia relativa acumulada (pₐ): se van sumando las anteriores

▪ Porcentaje (P): P = p x 100
▪ Porcentaje acumulado (Pₐ): se van sumando los anteriores
Representaciones gráficas para datos cuasi cuantitativos

Los mismos que con datos cualitativos, pero deberemos reflejar el orden de las
modalidades.
2.3. MÉTODOS PARA DATOS CUANTITATIVOS (ESCALAS DE INTERVALO Y DE RAZÓN)

Organización de datos: Agrupación y recuento
2.3.1. Variables cualitativas discretas:
Representaciones graficas para datos cuantitativos discretos
- Diagrama de barras (También pueden utilizarse ciclogramas o pictogramas,
siempre que transmitan la información con claridad).
2.3.2. Variables cuantitativas continuas:

Distribución de frecuencias:
Al trabajar con datos cuantitativos, a menudo nos encontraremos con muchos valores
distintos con pocas repeticiones. Esto dará lugar a tablas de frecuencias grandes y poco
manejables, que no resultan muy útiles para resumir los datos. Por ello, podemos optar
por prescindir de las tablas y describir los datos únicamente mediante gráficos y
medidas de síntesis. No obstante, si se desea disponer de una tabla, una posibilidad
consiste en agrupar varias modalidades (valores) en intervalos múltiples, reduciendo así
el número de clases.
Características de los datos cuantitativos continuos:

Interpretación continua de valores discretos: teóricamente, los datos cuantitativos
continuos siempre admiten modalidades intermedias entre 2 modalidades. Sin
embargo, el instrumento de medida limitará el número de subdivisiones detectables.
Unidad de medida (u.m.)
Es la variación mínima que hace que dos objetos sean lo más próximos entre si pero
distintos ambos. Variación mínima para pasar de una modalidad a la inmediatamente
anterior o posterior. ej.: la estatura medida en cm.
pág. 7
Intervalos
- Simples o elementales: contienen una única modalidad.
- Compuestos o múltiples: contienen dos o más modalidades.
Límites
Zona de influencia: están todos los valores más próximos a una modalidad exacta
El límite real inferior de una modalidad coincide con el límite real superior de la
modalidad inferior.
La unidad de medida es el intervalo simple que comprende a un valor
u.m. = l.r.s. – l.r.i.
Los límites reales de un valor (X) son: l.r.s. = X+ u.m./2; l.r.i.= X–u.m./2
Amplitud
La amplitud de un intervalo ( i) refleja la dimensión del segmento del continuo de
valores que ocupa una modalidad (si es un intervalo simple) o varias modalidades (si es
un intervalo múltiple).
Cálculo con límites reales: es equivalente a la diferencia entre su límite real superior y
su límite real inferior. ( i ) = l.r.s. – l.r.i.
Cálculo con límites aparentes: es equivalente a la diferencia entre el límite aparente
superior o puntuación mayor del intervalo y el límite aparente inferior o puntuación
menor del intervalo más una unidad de medida. ( i ) = XMayor –Xmenor + 1 u.m.
Amplitud total o recorrido:
La amplitud total o recorrido (A) de los datos de una distribución es la diferencia entre
el límite real superior del intervalo máximo y el límite real inferior del intervalo mínimo.
A = L.R.S. –L.R.I. (de la distribución)
Calculado con límites aparentes: A = XMayor–Xmenor+ 1 u.m.
Distribuciones de frecuencias y estadísticos

Tipos de distribuciones:
- De intervalos simples o elementales y de intervalos compuestos o múltiples.
- Abiertas o cerradas
Punto medio (Xm) de un intervalo (intervalos compuestos): Xm= (l.r.s. + l.r.i.) /2
pág. 8
Representaciones gráficas para datos cuantitativos continuos

- Histograma: Área del rectángulo = frecuencia (o proporción o %, en su caso)
- Polígono de frecuencias: Puntos medios de los intervalos
- Ciclograma: no resulta eficaz cuando hay muchas modalidades en la variable,
- Grafico de tallo y hojas: ancho del tallo (x10), cada hoja es un caso.
- Diagrama de caja y bigotes: En la caja se encuentran la mediana y los percentiles
y representan el 50% de los datos. Los bigotes nos indican el valor mínimo o
máximo no atípico. Si hay casos atípicos, se indican individualmente por
encima/debajo de los bigotes. Realmente son las bisagras de Tukey, muy
próximas a los percentiles 25 y 75, pero no siempre iguales.
- Histograma de frecuencias acumuladas
- Ojiva de frecuencias acumuladas
Reducción de tablas
Si el número de modalidades de una variable es muy elevado, es recomendable
hacer una reducción de tablas, construyendo una distribución de frecuencias de
intervalos múltiples.
Como norma general, lo más recomendable es que el número de intervalos quede
comprendido entre 10 y 20, pues menos de 10 intervalos puede suponer una
notable pérdida de información, y más de 20 seguirían siendo demasiadas clases.
Si dividimos la amplitud total entre la unidad de medida obtendremos el número de
modalidades posibles (A / u.m. = nº de modalidades). Si el resultado es > 20 es
aconsejable realizar una reducción de tablas.
La amplitud del intervalo es igual a la amplitud total dividida por el número de
intervalos. Dividiremos la amplitud total entre un número comprendido entre 10 y
20 que nos dé como resultado un múltiplo exacto. i= A / nºde interv.
Una vez encontrado, construiremos una distribución con esa amplitud en cada uno
de los intervalos, comenzando por la puntuación mínima de la distribución. Todos
los intervalos deben tener la misma amplitud y debe haber continuidad entre ellos.
Si el resultado de la operación no nos da como resultado un múltiplo exacto de la
unidad de medida, tenemos varias opciones:
- Construir una distribución abierta (no es aconsejable).
- Permitir que uno o los dos intervalos extremos de la distribución tengan una
amplitud diferente al resto.
- Incluir nuevas modalidades con frecuencia = 0 en uno o en ambos intervalos
extremos, para que todos los intervalos tengan la misma amplitud.
Por último, si el número de casos y la amplitud total no son excesivamente grandes,
como en este ejemplo, el número de intervalos puede ser inferior a 10.
pág. 9
3. ESTADISTICOS DE TENDENCIA
CENTRAL.
3.1. INTRODUCCIÓN
Herramientas que tenemos para explorar, resumir y describir los datos:
➢ Tablas
➢ Gráficos
➢ Medidas de síntesis o resumen:
- Estudio de 3 propiedades básicas de la distribución (estadísticos de):
• Tendencia central
• Variabilidad o dispersión
• Forma
- Estudio de puntuaciones individuales y su posición dentro del conjunto de datos.
Los estadísticos son cálculos numéricos que nos permiten estudiar datos (percentiles).
Estadísticos de tendencia central: permiten representar con un único valor a todo el

conjunto de datos de una muestra. Representan el centro de los datos.
• Moda: aplicable a datos cualitativos, cuasicuantitativos y cuantitativos.

• Mediana: aplicable a datos cuasicuantitativos y cuantitativos.
• Media: aplicable a datos cuantitativos.
3.2. MODA
➢ Datos cualitativos: modalidad con mayor frecuencia.

➢ Datos cuasi-cuantitativos: rango con mayor frecuencia.
➢ Datos cuantitativos: modalidad que más se repite.
Si varios valores están agrupados en intervalos compuestos, la moda será el
punto medio (Xm) del intervalo de mayor frecuencia. (179-180; moda=179,5)
Propiedades:
• Es el único estadístico de tendencia central aplicable a datos cualitativos (escala

nominal).
• Depende de cómo se hayan construido los intervalos de la distribución
(amplitud y nº de intervalos).
pág. 10
• Puede calcularse en distribuciones abiertas siempre y cuando el intervalo de

mayor frecuencia no coincida con un intervalo abierto (ya que no se puede
calcular Xm).
• No es necesariamente única, puede haber varias modalidades que compartan
las frecuencias más altas:
- Distribución bimodal (2 modas)
- Distribución multimodal (3 o más modas).
3.3. MEDIANA (MDN)
➢ Datos cuasi-cuantitativos: rango que ocupa la posición central cuando los casos
están ordenados (el puesto del medio).
➢ Datos cuantitativos: puntuación que deja por debajo de sí al 50% de los casos
cuando estos están ordenados.
Por tanto, divide a la muestra en dos partes iguales en cuanto a número de casos.
Cálculo:
• Con número impar de casos: puntuación que ocupa el lugar central.
Valores sin ordenar: 6, 3, 9, 7, 4, 5, 8

Mdn = 6
Valores ordenados: 3, 4, 5, 6, 7, 8, 9
• Con número par de casos: promedio de las puntuaciones que ocupan el lugar
central.
Valores sin ordenar: 6, 3, 9, 7, 4, 10, 5, 8
Mdn = (6+7)/2 = 6,5
Valores ordenados: 3, 4, 5, 6, 7, 8, 9, 10
Si los datos se encuentran ordenados en una tabla, agrupados en intervalos simples o

compuestos, deberemos:
1. Localizar el intervalo crítico (I.C.) de la distribución, que es donde se encuentra la

mediana. Para ello, dividimos el tamaño de la muestra entre 2. (n / 2). Hay que
construir la columna de frecuencia acumulada.
2. Aplicar la siguiente fórmula:
pág. 11
Propiedades
• Depende de cómo se hayan construido los intervalos de la distribución.

• Puede calcularse en distribuciones abiertas siempre y cuando el I.C. no coincida
con un intervalo abierto.
• Es útil para dicotomizar (dividir una variable continua en dos partes) muestras.
• La mediana es menos sensible que la media
a las fluctuaciones (variaciones que pueden
ocurrir) de los datos y al efecto de valores
muy alejados del centro de la distribución.
Por ello, es recomendable usar la mediana cuando la distribución es
marcadamente asimétrica.
3.4. MEDIA
Existen varios procedimientos que reciben el nombre de “media”. El más habitual es la

media aritmética.
Definición: la media aritmética de valores es igual a la suma de dichos valores dividida

por el número de ellos.

compuestos, aplicaremos la siguiente fórmula:
Propiedades:
• Depende de cómo se hayan construido los intervalos

de la distribución.
• No puede calcularse en distribuciones abiertas.
• Es función de todos los datos de una distribución. Si
cambia un dato, cambiará la media.
• Es más sensible que la mediana a la variación de una puntuación.
• La suma de las diferencias de las n puntuaciones de una muestra con respecto a
su media es igual a cero.
• La media es el estadístico de tendencia central más utilizado y
deseable para datos cuantitativos. Sin embargo, es más sensible que la mediana
a las fluctuaciones de los datos y al efecto de puntuaciones muy alejadas del
pág. 12
centro de la distribución. Por ello, es recomendable usar la mediana cuando la

distribución es marcadamente asimétrica.
Otras medias
Estadísticos resistentes: son aquellos poco sensibles a la presencia de anomalías en los
datos (distribuciones asimétricas, valores muy alejados del centro de la distribución).
- Media recortada
- Media winsorizada
- Trimedia
- Estimadores M
Media ponderada: es útil cuando queremos dar distinta importancia (o peso) a las
medidas a promediar.
Media total o de varios grupos: permite calcular una media total cuando tenemos
resultados parciales en una misma variable de varias muestras con tamaños diferentes.
Existen otras medias (geométrica, armónica, cuadrática), menos habituales que la

media aritmética, que no desarrollaremos aquí.
pág. 13
4. ESTADISTICOS DE DISPERSIÓN.
4.1. INTRODUCCIÓN
Es importante analizar el grado de dispersión o variabilidad existente en los datos.
Los estadísticos de dispersión o variabilidad nos informan sobre el grado de

aproximación o separación entre los valores de una muestra. Es decir, indican si hay
homogeneidad o heterogeneidad entre los datos. De este modo, completan la
información proporcionada por los estadísticos de tendencia central.
La dispersión en datos cualitativos o cuasi-cuantitativos tiene que ver con la forma en

que los datos están repartidos en las diferentes modalidades (concentrados en pocas
modalidades o muy repartidos entre modalidades). Las tablas de frecuencias y gráficos
aportan información sobre esta cuestión. En variables cuasi-cuantitativas también
podríamos observar qué modalidades corresponden a los valores mínimo y máximo de
los datos. Existen algunos índices estadísticos que permiten evaluar la dispersión en
datos cualitativos, como el índice de variación cualitativa (IVC). Sin embargo, en la
práctica se utilizan relativamente poco.
Por ello, estudiaremos algunos de los estadísticos de dispersión para datos cuantitativos
(amplitud total, rango intercuartil, amplitud semiintercuartil, desviación típica, varianza
y coeficiente de variación), que son los más utilizados en estadística descriptiva.
4.2. AMPLITUD TOTAL
La amplitud total (A), recorrido o rango de los datos de una distribución es la diferencia
entre el límite real superior y el límite real inferior de dicha distribución en su conjunto.
A = L.R.S.–L.R.I. (de la distribución); Con límites aparentes: A= XMayor – Xmenor+ 1 u.m.
Propiedades:
• Estadístico de dispersión más básico.

• Representa la distancia existente entre las dos puntuaciones más extremas de la
distribución.
• Limitación: depende únicamente de los dos valores más extremos de la
distribución, y no nos informa sobre el resto de los datos.
Es muy sensible a la presencia de datos atípicos muy alejados del centro de la
distribución.
pág. 14
4.3. RANGO INTERCUARTIL

El rango intercuartil (RI, o también IQR) o amplitud intercuartil es la distancia existente
entre el tercer cuartil (Q3) y el primer cuartil (Q1) y representa el grado de dispersión
del 50% central de los datos.
Los cuartiles (3 datos) dividen a la distribución en 4 partes iguales en cuanto a número
de casos. El segundo cuartil (Q2) es equivalente a la mediana.
Cálculo:
Si los datos se encuentran ordenados en una tabla, agrupados
en intervalos simples o compuestos, deberemos:
1º. Localizar el intervalo crítico (I.C.) de la distribución en que
se encuentra cada cuartil. Para ello, multiplicamos el tamaño
de la muestra por ¼ (para el Q1) y por ¾ (para el Q3).
2º. Aplicar la fórmula para cada cuartil.
3º. Aplicar la fórmula del rango intercuartil. RI = Q3 – Q1
Propiedades:
• Representa el grado de dispersión del 50% central de los datos.
• Se puede calcular en distribuciones abiertas, excepto si Q1 y/o Q3 coinciden con
un intervalo abierto.
• Otro estadístico relacionado es la amplitud semi-intercuartil
(ASI), equivalente a la semidistanciaentre Q3 y Q1.
• Se recomienda utilizar el rango intercuartil o la amplitud semi-intercuartil como
estadísticos de dispersión cuando la distribución sea marcadamente asimétrica,
complementando la información proporcionada por la mediana.
pág. 15
4.4. DESVIACIÓN TÍPICA Y VARIANZA

Las diferencias entre las puntuaciones de una muestra respecto a su media reflejan la
dispersión de los datos.
Sin embargo, sabemos que la suma de esas diferencias es igual a cero (ver tema 3). Para
evitar este problema al cuantificar dichas diferencias, lo que se hace en el cálculo de la
desviación típica y la varianza es elevarlas al cuadrado.
Varianza : es igual al promedio de las

diferencias al cuadrado de las puntuaciones de una
muestra con respecto a su media.
Desviación típica : es igual a la raíz cuadrada de

la varianza. Tiene la ventaja de que se expresa en
las mismas unidades de medida que la variable.
Propiedades:
• Ambas dependen de todos los datos de una muestra. Por tanto, son sensibles a
la variación e influencia de cada uno de los datos. Por ello, es recomendable
usar el rango intercuartil o la amplitud semi-intercuartil cuando la distribución
sea marcadamente asimétrica.
• La desviación típica se expresa en la misma unidad de medida que la variable, lo
que hace que sea más fácil de interpretar que la varianza, que es el cuadrado de
la unidad de medida.
• Se recomienda utilizar la desviación típica como estadístico de dispersión
cuando la distribución sea simétrica o aproximadamente simétrica,
complementando la información proporcionada por la media.
• Son la base de muchas técnicas estadísticas importantes.
• El resultado del cálculo depende de los intervalos elegidos.
En ocasiones se utiliza una modificación en las fórmulas de la varianza y desviación

típica, que consiste en dividir por 𝑛−1 en lugar de por 𝑛
Dicha modificación de la fórmula corresponde a la llamada varianza insesgada o
cuasivarianza (o, en su caso, a la desviación típica insesgada), y es una corrección que se
utiliza en estadística inferencial para la estimación de parámetros poblacionales.
pág. 16
4.5. COEFICIENTE DE VARIACIÓN
El coeficiente de variación (CV) es igual a la razón entre la desviación típica y la media

de una muestra.
Con frecuencia se expresa como un porcentaje:
Representa el número de veces que la desviación típica contiene a la media.
El valor del CV puede ser comparado entre variables de distinta naturaleza o con
distinta unidad de medida, algo que no podemos hacer con otros estadísticos de
dispersión.
Exige que la variable esté medida en una escala de razón (con 0 absoluto).
pág. 17
5. PUNTUACIONES INDIVIDUALES.
5.1. INTRODUCCIÓN
Los estadísticos de tendencia central y de

dispersión proporcionan información sobre los
datos de una muestra en su conjunto.
Cuando se trabaja con datos cuantitativos, otra

forma complementaria de explorar/resumir/
describir los datos consiste en estudiar de forma
individual alguna/s puntuación/es de la muestra
y la posición que ocupa/n dentro del conjunto
de datos.
5.2. PUNTUACIONES ORDINALES
Las puntuaciones ordinales nos informan

sobre cuál es la posición relativa de una
determinada puntuación dentro del conjunto
de datos de una muestra. Se expresan en una
escala que refleja el orden, pero que no tiene
una unidad de medida constante.
5.2.1. CUARTILES
Los cuartiles (𝑄𝑞) son 3 puntuaciones (𝑄1, 𝑄2, y 𝑄3)

que dividen a la distribución en 4 partes iguales en
cuanto a número de casos. El segundo cuartil (𝑄2) es
equivalente a la mediana.
Cálculo:

1º. Localizar el intervalo crítico (I.C.) de la distribución

en que se encuentra cada cuartil. Para ello,
multiplicamos el tamaño de la muestra (n) por 1/4
(para el Q1), por 2/4 (para el Q2) y por 3/4 (para el
Q3).
2º. Aplicar la fórmula para cada cuartil.
pág. 18
5.2.2. DECILES
Los deciles (𝐷𝑑) son 9 puntuaciones

(𝐷1,𝐷2,𝐷3,𝐷4,𝐷5,𝐷6,𝐷7,𝐷8,𝐷9) que
dividen a la distribución en 10 partes
iguales en cuanto a número de casos.
Cálculo
Si los datos se encuentran ordenados en

una tabla, agrupados en intervalos simples
o compuestos, deberemos:
1º. Localizar el intervalo crítico (I.C.) de la distribución en que se encuentra

el decil deseado. Para ello, multiplicamos el nº de decil deseado por el
tamaño de la muestra y dividimos entre 10.
2º. Aplicar la siguiente fórmula:
5.2.3. CENTILES
Los centiles o percentiles (𝐶𝑐) son 99

puntuaciones que dividen a la distribución en
100 partes iguales en cuanto a número de
casos (𝐶1,𝐶2,…,𝐶99).
Calculo: caso directo
Si los datos se encuentran ordenados en una

tabla, agrupados en intervalos simples o
1º. Localizar el intervalo crítico (I.C.) de la distribución en que se encuentra

el centil deseado. Para ello, multiplicamos el nº de centil deseado por el
tamaño de la muestra y dividimos entre 100.
2º. Aplicar la siguiente fórmula:
Correspondencia entre centiles, deciles y

cuartiles.
pág. 19
Caso inverso: dada una puntuación, calcular con qué centil se corresponde. Para ello,
despejamos la c (el porcentaje) de la fórmula anterior
Y obtenemos la siguiente fórmula:
Cálculo:
1º. Localizar el intervalo crítico (I.C.) en

que se encuentra la puntuación.
2º. Aplicar fórmula:
5.3. PUNTUACIONES CUANTITATIVAS
Como hemos visto, las puntuaciones ordinales solo

proporcionan información a nivel ordinal sobre la
posición relativa de una determinada puntuación.
Las puntuaciones individuales cuantitativas poseen
las propiedades aritméticas de los números.
5.3.1. PUNTUACIONES DIRECTAS
Las puntuaciones directas (PD) son valores sin modificar, obtenidos directamente
durante la recogida de datos (ej: X= 180). Se representan con letras mayúsculas (X, Y, …)
Se expresan en la misma unidad de medida que se ha empleado para medir la variable.
Por sí solas no proporcionan información sobre la posición de un valor con respecto al

resto de datos de la muestra.
5.3.2. PUNTUACIONES DIFERENCIALES
Se representan con letras minúsculas (𝑥𝑥, 𝑦𝑦, …).
Se obtienen restando a cada puntuación directa la media de la variable.
pág. 20
Indican si un valor es superior, inferior o igual a la media de la muestra.
- Si es superior a la media → Signo +

- Si es inferior a la media → Signo –
- Si es igual a la media → 0
Se expresan en la misma unidad de medida que la variable de origen.
La media de las puntuaciones diferenciales es igual a 0, y su desviación típica es igual a

la desviación típica de las puntuaciones directas.
5.3.3. PUNTUACIONES TÍPICAS
Las puntuaciones típicas o puntuaciones 𝑧 indican cuántas desviaciones típicas se

separa un valor de la media, ya sea por encima de la media (signo positivo) o por debajo
de la media (signo negativo).
Se representan con la letra 𝑧 (𝑧𝑥, 𝑧𝑦, …).
Se obtienen mediante la siguiente fórmula: O también:
Y para transformar una puntuación 𝑧 en puntuación directa (X), podemos despejar la X,

obteniendo la siguiente fórmula:
No se expresan en la misma unidad de medida que la variable de origen. Son una

transformación lineal de las puntuaciones directas, y se expresan en unidades de
desviación típica.
La puntuaciones típicas tienen media = 0, y desviación típica = 1.
Además de indicar la posición de una puntuación, tienen la ventaja de que permiten la

comparación de puntuaciones entre diferentes variables o grupos, al estar expresadas
en una escala común.
5.3.4. PUNTUACIONES TÍPICAS DERIVADAS
Las puntuaciones típicas derivadas (PTD) son transformaciones lineales de las

puntuaciones típicas a otras escalas habituales en psicología, que cuentan con valores
fijos de media y desviación
típica.
Principales escalas de PTD:
pág. 21
Para transformar una puntuación 𝑧 a una puntuación típica derivada (T, S, CI: coef.
intelectual, o E: eneatipos), multiplicamos la puntuación 𝑧 por la desviación típica de la
escala deseada (p. ej. T) y le sumamos la media de dicha escala.
Por ejemplo: transformación de la puntuación 𝑧=1,5 a una puntuación T
Equivalencia entre las puntuaciones típicas (𝒛) y los diferentes tipos de puntuaciones
típicas derivadas.
media
pág. 22
pág. 23
6. LA FORMA DE LA DISTRIBUCIÓN Y LA
DISTRIBUCIÓN NORMAL.
6.1. INTRODUCCIÓN: LA FORMA DE LA DISTRIBUCIÓN.
Cuando se trabaja con datos cualitativos o cuasi-cuantitativos, el estudio de la forma de

la distribución básicamente consiste en analizar en qué modalidades de la variable hay
frecuencias más altas y en qué modalidades hay frecuencias bajas o nulas. Las tablas de
frecuencias y especialmente los gráficos son útiles para ello. En el caso de datos cuasi-
cuantitativos, también podemos observar si los datos tienden a agruparse en torno al
centro, o si las frecuencias más altas se hallan desplazadas hacia alguno de los extremos
En este tema, nos focalizaremos en el estudio de la forma de la distribución cuando se

trabaja con datos cuantitativos.
Representación gráfica:
A= campana de gauss
B= distribución bimodal (se pueden dar

dos subconjuntos)
C= predominio de los valores bajos
D= predominio de los valores altos
E= todas las modalidades tienen

aproximadamente la misma frecuencia
F= no hay un patrón claro
6.2. SIMETRÍA Y ASIMETRÍA
Una figura es simétrica cuando es posible dividirla en

dos mitades idénticas entre sí con respecto a un eje.
Tipos de asimetría
pág. 24
La mediana es menos sensible que

la media a las fluctuaciones de los
datos y al efecto de los valores
extremos.
Por ello, es recomendable usar la

mediana cuando la distribución es
marcadamente asimétrica
En una distribución simétrica, la media y la mediana coinciden

en el mismo punto del eje de abscisas, sobre el cual se
levanta el eje de simetría.
Índice de asimetría
6.3. CURTOSIS O APUNTAMIENTO
Es el mayor o menor grado de elevación de la curva del polígono de frecuencias. En

función del grado de curtosis de la curva, se distinguen 3 tipos de curvas: Leptocúrtica,
Mesocúrtica y Platicúrtica.
El término “normal” hace

referencia a la distribución
normal o distribución
gaussiana
Índice de curtosis
pág. 25
¿Cuándo consideramos que los valores están próximos o alejados de 0?
Un método sencillo consiste en dividir el índice de asimetría entre su error estándar. Si

el resultado es <-2, podemos decir que existe una marcada asimetría negativa, y si el
resultado es >2, una marcada asimetría positiva.
De forma similar, podemos dividir el índice de curtosis entre su error estándar. Si el

resultado es <-2, podemos decir que la distribución es marcadamente platicúrtica, y si el
resultado es >2, la distribución es marcadamente leptocúrtica.
Valores entre -2 y 2 nos indicarán que la distribución es aproximadamente simétrica o

mesocúrtica.
6.4. CONCEPTOS BÁSICOS SOBRE PROBABILIDAD.
Definición de probabilidad
➢ Definición clásica: p(X) = sucesos favorables / sucesos posibles (azar)

➢ Definición frecuentista: en función de la frecuencia relativa de ocurrencia.
- La probabilidad (p) es la frecuencia relativa (𝑓𝑓𝑟𝑟) con que tiene lugar un cierto
suceso.
- Modalidad = “suceso”
- Espacio muestral = conjunto de todos los posibles sucesos.
Propiedades de la probabilidad
• Se va a encontrar entre 0 y 1
• Probabilidad de un suceso: 0 ≤ p (X) ≤ 1
• p (suceso cierto) = 1: p (suceso imposible) = 0
Variables aleatorias
Los sucesos probabilísticos constituyen variables que tienen diferentes modalidades

posibles y están regidas por el azar.
Tipos:
- Discretas: no admiten siempre modalidades intermedias (variables cualitativas).

- Continuas: siempre admiten modalidades intermedias.
Frecuencia relativa (probabilidad): fr = f/n = p = p (X).
pág. 26
Distribuciones continuas de probabilidad
En una variable aleatoria continua, sería posible teóricamente aumentar el número de

modalidades hasta un número infinito, obteniéndose una línea curva (función de
densidad).
El área bajo dicha curva es igual a la unidad (área unitaria).
6.5. LA DISTRIBUCIÓN NORMAL Y LA DISTRIBUCIÓN NORMAL STANDARD
Propiedades
➢ El área bajo la curva es igual

a1
➢ Es asintótica
➢ La máxima ordenada está en
la media
➢ Es simétrica
➢ Es mesocúrtica
➢ Media = Mediana = Moda
La distribución normal standard
Esto ocurre cuando pasamos

los datos a la distribución z
pág. 27
6.6. CÁLCULO DE ÁREAS BAJO LA CURVA NORMAL STANDARD
La tabla siempre indica lo que queda por debajo. Solo se cumple cuando es simétrica.
pág. 28
Operaciones con puntuaciones directas (PD)
Para calcular áreas (probabilidad) bajo la curva normal a partir de

puntuaciones directas (X) que pertenezcan a una distribución
normal es necesario transformarlas en puntuaciones z.
Corrección por continuidad: para mayor

exactitud, se utilizarán los límites reales
(inferior y/o superior) de las puntuaciones
directas (aplicar siempre que se calcule una
probabilidad).
Se utilizará un límite u otro en función de si

se desea incluir o no la puntuación directa.
Si se dispone de la puntuación/es z que

delimita/n un área bajo la curva normal y se desea conocer la/s PD, se aplicará la
siguiente fórmula:
pág. 29
7. ORGANIZACIÓN Y REPRESENTACIÓN
DE DATOS ASOCIADOS.
Datos asociados o apareados
- Información en dos o más variables para el mismo conjunto de sujetos u

objetos.
- Los datos asociados pueden ser analizados y representados gráficamente de
forma conjunta, lo cual permite estudiar la asociación o relación entre las
variables.
- Comenzaremos describiendo cada variable por separado, y después las
estudiaremos de forma conjunta.
7.1. ORGANIZACIÓN Y REPRESENTACION DE DATOS ASOCIADOS
7.1.1. DATOS CUALITATIVOS

Análisis univariado: análisis de cada variado por separado (conteo de frecuencias,
representación gráfica, etc.)
Análisis bivariado:
Tabla de doble entrada o tabla de contingencia
- La ubicación de las variables y modalidades es

arbitraria
- La tabla tendrá tantas filas y columnas como
modalidades tengan cada una de las dos variables.
En el ejemplo se muestra una tabla 2 x 2 (4
posibilidades)
- Frecuencias marginales: frecuencias de cada
variable
- Nº total de casos (debe coincidir con la suma de las frecuencias marginales)
Diagrama de barras agrupadas Diagrama de barras apiladas
Al comparar los resultados se debe tener en cuenta que el número total de estudiantes
de Psicología (15) es diferente al de estudiantes de Bellas artes (10).
pág. 30
Diagrama de barras apiladas (distribuciones condicionales)
Para comparar más equitativamente

los resultados de dos grupos, se
pueden separar los casos en función
de la comparación que se quiere
realizar y dividir cada celda por el
total marginal de ese grupo,
obteniéndose proporciones para las
distribuciones condicionales.
Ciclogramas (distribuciones condicionales)
Una distribución condicional es el análisis de la

distribución de una de las variables
condicionada a cada valor de la otra variable
7.1.2. DATOS CUASICUANTITATIVOS

La representación de datos cuasicuantitativos será similar a la organización anterior,
pero manteniendo el orden de las modalidades en la tabla/gráfico.
7.1.3. DATOS CUANTITATIVOS

Diagrama de dispersión: Diagrama de dispersión en 3 dimensiones:
Distribución conjunta de frecuencias:

Tabla de doble entrada
Cuando en un punto se da
más de un caso se utiliza una
escala de grises. Si no, otra
alternativa es trabajar en tres
dimensiones.
pág. 31
Distribuciones marginales:
Distribuciones condicionales:
Son las distribuciones en una variable (p. ej., X) de todos (y solo) aquellos casos que
cumplan una condición en la otra variable (p. ej., Y = 6)
Cálculo de estadísticos en una distribución conjunta de frecuencias: Los estadísticos

descriptivos estudiados en temas anteriores pueden calcularse con los datos de las
distribuciones marginales y condicionales de ambas variables.
7.2 LA DISTRIBUCIÓN NO RMAL BIVARIADA
Propiedades:
1. Normalidad:
- Las distribuciones marginales de X e Y
son normales.
- Las distribuciones condicionales de X
para Y = Yk son normales.
- Las distribuciones condicionales de Y
para X = Xk son
normales.
pág. 32
2. Homocedasticidad (igual dispersión):

- Todas las distribuciones condicionales de X para Y =
Yk tienen la misma desviación típica.
- Todas las distribuciones condicionales de Y para X =
Xk tienen la misma desviación típica.
3. Linealidad:
- Las medias de todas las distribuciones
condicionales de X se encuentran en una misma
línea recta que pasa por la nube de puntos.
- Las medias de todas las distribuciones
condicionales de Y se encuentran en una misma
línea recta que pasa por la nube de puntos.
pág. 33
8. RELACIÓN LINEAL ENTRE VARIABLES

CUANTITATIVAS.
8.1. EL DIAGRAMA DE DISPERSIÓN
La representación gráfica de datos cuantitativos asociados en un diagrama de

dispersión aporta información visual importante sobre el tipo de relación existente
entre dos variables.
Tipos de relación entre 2 variables cuantitativas:
pág. 34
8.2. CÁLCULO DE LA ASOCIACIÓN
La asociación o relación entre dos variables cuantitativas implica la existencia de una

vinculación entre los valores de una variable y los de la otra. Por ejemplo: a mayor
estatura, mayor peso.
Una forma de analizar la asociación entre dos variables es multiplicar las puntuaciones
diferenciales en las variables de cada sujeto y realizar el sumatorio.
pág. 35
8.3. COVARIANZA
El sumatorio de los productos de puntuaciones diferenciales de X e Y (∑xy) depende del

número de casos (n). Cuantos más casos, mayor será el sumatorio (en términos
absolutos), lo que impide comparar de forma equitativa muestras de diferente tamaño.
Para resolver este problema se puede calcular el promedio del sumatorio de dichos
productos, que recibe el nombre de “covarianza” de X e Y. Se representa como 𝒔𝒙y ó
COV (X, Y).
Propiedades de la covarianza:
• Es independiente del número de casos (n) con

que se calcule.
• Oscila entre 0 e infinito (en valor absoluto).
• Depende de las unidades de medida y de las
variables utilizadas. Por tanto, el resultado solo es comparable entre las mismas
variables y con las mismas unidades de medida.
8.4. COEFICIENTE DE CORRELACIÓN DE PEARSO N
El coeficiente de correlación lineal producto-momento de Pearson (𝒓𝒙y) permite

cuantificar el grado de relación lineal entre dos variables cuantitativas con
independencia del tamaño de la muestra y de las unidades de medida empleadas.
Para ello, en lugar de operar con puntuaciones diferenciales, se opera

transformando los datos en puntuaciones típicas (puntuaciones z).
Esta fórmula es equivalente a la razón entre la covarianza y el producto

de las desviaciones típicas de las dos variables.
Propiedades del coeficiente de correlación de Pearson:
• Es independiente del tamaño de la muestra (n).

• Es independiente de las unidades de medida empleadas.
• Su valor siempre se encuentra entre -1 y 1.
• El signo indica si la relación es directa (+) o inversa (-).
Condiciones para el cálculo del coeficiente de correlación de Pearson:
• Solo es calculable con variables cuantitativas (escalas de intervalo o de razón).

• La relación a evaluar entre las dos variables debe ser lineal. El coeficiente de
correlación de Pearson no sirve para evaluar otro tipo de relaciones (curvilíneas)
Por ello, en primer lugar, es importante explorar el tipo de relación entre
variables mediante un diagrama de dispersión, que debe reflejar una tendencia
lineal.
pág. 36
Precauciones para el cálculo del coeficiente de correlación de Pearson:
• Los datos de la muestra deben ser representativos de la población. Debemos

evitar que la selección de la muestra sesgue los resultados.
• Se ha de prestar atención a posibles subgrupos diferenciados dentro de la
muestra que quizá convenga analizar por separado, ya que, de no hacerse así,
podrían camuflar la relación entre las variables o sugerir una falsa relación.
• La presencia de puntuaciones atípicas/extremas en una o en ambas variables
puede sesgar la interpretación de la correlación.
• Recordemos: el coeficiente de correlación de Pearson evalúa el grado de
relación lineal entre dos variables cuantitativas.
Interpretación del coeficiente de correlación de Pearson:
• Siempre se encuentra entre -1 y 1.

- Cuanto más cerca de 0, menor correlación.
- Cuanto más cerca de 1 o de -1, mayor correlación.
• El signo indica si la relación es directa (+) o inversa (-).

• Aunque existen algunos criterios para categorizar el grado de correlación en
función del tamaño de rxy, debe tenerse en cuenta que la interpretación
dependerá del contexto de la investigación.
• Correlación no implica causación/causalidad: que dos variables estén
correlacionadas no quiere decir que una sea la causa de la otra.
Fórmulas:
Existen diferentes fórmulas para el cálculo del coeficiente de correlación de Pearson, en

función del tipo de puntuaciones con que estemos trabajando:
pág. 37
8.5 CORRELACIÓN PARCIAL PARA DATOS CUANTITATIVOS
En ocasiones, existen terceras variables extrañas que interfieren en el cálculo de la

auténtica relación entre otras dos variables, lo que puede llevarnos a interpretaciones
incorrectas.
Por ejemplo, la correlación entre el número de helados vendidos en una playa y el

número de ahogamientos se ve distorsionada por la temperatura, que es una variable
relacionada con las otras dos variables.
La correlación parcial es una técnica estadística que permite eliminar el efecto de una
variable extraña (temperatura) sobre el cálculo de la correlación entre otras dos
variables (venta de helados y ahogamientos).
La fórmula del coeficiente de correlación parcial se basa en el cálculo previo de la

correlación de Pearson existente entre las variables implicadas, tomadas de dos en dos.
El resultado se interpreta igual que una

correlación de Pearson en cuanto a
magnitud y signo.
8.6 CORRELACIÓN MÚLTIPLE
La correlación múltiple es un procedimiento basado en la correlación de Pearson que

permite cuantificar la relación entre una variable (X1) y otras variables (X2, X3, etc.),
consideradas éstas últimas de forma conjunta.
La siguiente fórmula representa el caso de 3 variables:
El resultado será un valor entre 0 y 1. Solo evaluaremos la magnitud de la correlación. Al

haber varias variables implicadas, se producirán distintas relaciones positivas y/o
negativas entre ellas, por lo que no cabe valorar el signo.
pág. 38
pág. 39
9. INTRODUCCIÓN A LA REGRESIÓN
LINEAL.
9.1. INTRODUCCIÓN Y CONCEPTOS PREVIOS
La regresión lineal es un procedimiento estadístico que permite explorar y cuantificar la

relación entre:
- Una variable cuantitativa → Variable Dependiente (Y)

- Y una o más variables cuantitativas o categóricas →Variables Independientes
(X1, X2, etc.)
Es útil para:
- Evaluar el impacto individual y colectivo de las variables independientes (VI)

sobre la variable dependiente (VD).
- Hacer pronósticos sobre los valores de la VD.
Ejemplos:
(1) Analizar qué peso tienen el cociente intelectual, el tiempo de estudio y el nivel
educativo de los padres en el rendimiento académico de los estudiantes.
(2) Pronosticar el rendimiento laboral a partir de la formación, la experiencia laboral y

los rasgos de personalidad de los candidatos para un puesto.
9.2. REGRESIÓN LINEAL SIMPLE
La regresión lineal simple sirve para analizar la dependencia entre dos variables:
permite estudiar cómo cambia una variable (Y) cuando cambia la otra (X).
Concretamente, permite estudiar el comportamiento de una variable cuantitativa Y (VD

o variable respuesta), a partir de una segunda variable X (VI o variable predictora).
La relación de dependencia entre las dos variables no implica que la VI sea la causa de
los cambios en la VD.
Utilidad:
- Valorar el impacto de la VI sobre la VD.

- Pronosticar los valores de la VD a partir
de los valores de la VI.
La regresión lineal se basa en la relación lineal

entre la VI y la VD.
El diagrama de dispersión permite valorar si la

relación entre las variables es lineal o no.
pág. 40
Para describir conjuntamente dos variables cuantitativas podemos recurrir a las 3

propiedades básicas de la distribución:
- Forma → ¿la relación es lineal? → ver diagrama de dispersión.

- Tendencia central → podemos resumir la nube de puntos en una recta.
- Dispersión → valorar el grado de concentración o alejamiento de los puntos
respecto a esa recta.
La recta de regresión
Cuando la relación entre 2 variables sigue una tendencia lineal, la nube de puntos
puede resumirse con una línea recta, cuya ecuación es:
Y’ = A + BX (Ecuación de regresión de Y a partir de X)
La recta que define esta ecuación depende de los valores de los coeficientes de
regresión (A y B):
A → ordenada en el origen,
intercepta o intersección: punto en
el cual la recta corta al eje vertical.
(En este ejemplo A = 2,9071)
Coeficiente de
B → pendiente de la recta: indica relación de Pearson:
el cambio (aumento o
disminución) que se produce en Y’
por cada unidad que aumenta X.
(En este ejemplo B = 0,1591)
Criterio de mínimos cuadrados
El criterio de mínimos cuadrados tiene como objetivo definir la recta que mejor se
adapte a la nube de puntos, de forma que los errores de predicción (residuos) sean lo
más pequeños posible. Este es el más utilizado.
Los errores de predicción (residuos)

son las diferencias entre los valores
observados (Y) y los pronosticados
(Y’), es decir, Y – Y’
El criterio de mínimos cuadrados

consiste en elegir los valores para
los coeficientes de regresión (A y B)
que minimicen la suma de los
residuos al cuadrado, es decir, los
valores que hagan mínima la
siguiente expresión:
pág. 41
PUNTUACIONES DIRECTAS
(Sin hacer ninguna

trasformación, según se
recogen los datos)
Propiedades:
• La media de las puntuaciones directas pronosticadas es igual a la media de las

puntuaciones directas empíricas.
• La varianza de las puntuaciones directas pronosticadas es igual al coeficiente de

correlación al cuadrado por la varianza de las puntuaciones directas empíricas.
• La recta de regresión de Y a partir de X, en puntuaciones directas, pasa por el

punto definido por sus medias.
Ejemplo:
pág. 42
PUNTUACIONES DIFERENCIALES
Distancia entre la puntuación y la media.
Propiedades:
• La media de las puntuaciones diferenciales pronosticadas es igual a la media de

las puntuaciones diferenciales empíricas.
• La varianza de las puntuaciones diferenciales pronosticadas es igual al

coeficiente de correlación al cuadrado multiplicado por la varianza de las
puntuaciones diferenciales empíricas.
• La recta de regresión de y a partir de x, en puntuaciones diferenciales, pasa por

el punto definido por sus medias → (0,0)
• La pendiente de la recta de regresión de y a partir de x en puntuaciones
diferenciales es igual a la pendiente de la recta de regresión en puntuaciones
directas → b = B
Ejemplo:
Puntuaciones
diferenciales:
pág. 43
PUNTUACIONES TÍPICAS
El * lo empleamos para
diferenciar las puntuaciones
típicas de las diferenciales
Propiedades:
- La media de las puntuaciones típicas pronosticadas es igual a la media de las

puntuaciones típicas empíricas.
- La varianza de las puntuaciones típicas pronosticadas es igual al coeficiente de

correlación al cuadrado multiplicado por la varianza de las puntuaciones típicas
empíricas.
- La recta de regresión, en puntuaciones típicas, pasa por el punto definido por

sus medias → (0,0)
Ejemplo:
pág. 44
9.3. ESTIMACIÓN PUNTUAL Y POR INTERVALO
ESTIMACIÓN PUNTUAL
Una vez que conocemos la ecuación de regresión de Y a partir de X podemos hacer

estimaciones:
Las puntuaciones (de los residuos) se

distribuyen por una distribución normal
ESTIMACIÓN POR INTERVALO
Permite obtener un intervalo de puntuaciones con una determinada probabilidad de

contener la auténtica puntuación en Y. Para ello, a la puntuación pronosticada (PP’) se
le suma y se le resta una cierta cantidad (znc) de error típico de estimación (ETE).
PP’ = puntuación pronosticada mediante la ecuación de regresión.
Znc = puntuación típica correspondiente al nivel de confianza elegido.
Znc = 1,96 → 95% de confianza (probabilidad de acertar)

Znc = 2,58 → 99% de confianza (probabilidad de acertar)
ETE = error típico de estimación. Es la desviación

típica de los errores de pronóstico cometidos por la
ecuación de regresión.
Ejemplo:
A una persona que ha estudiado 10 horas

(X = 10) se le ha pronosticado por medio
de la ecuación de regresión una calificación
en el examen de 4,5 puntos (Y’ = 4,5).
¿Cuál sería la estimación por intervalo para
un nivel de confianza del 95%?
pág. 45
10. REGRESIÓN LINEAL, VARIABILIDAD Y

EL COEFICIENTE DE DETERMINACIÓN.
10.1. DISTRIBUCIONES CONDICIONALES Y ESTIMACIÓN POR INTERVALO
La puntuación pronosticada (PP’ o Y’) por la ecuación de regresión es la media de la

distribución condicional de Y para un determinado valor de X.
El error típico de estimación (ETE) es la desviación típica de esa distribución condicional,

donde la media es Y’.
10.2. PROCEDIMEINTOS DE PREDICCIÓN Y ERRORES DE PREDICCION
Si no disponemos de otra información, una forma de pronosticar la puntuación de una

persona (por ejemplo, de Jorge) en una variable Y (calificación en un examen) es
atribuirle como puntuación pronosticada la media de esa variable. [𝑌̅ = 6,85]
Lógicamente, salvo que su calificación real coincidiera exactamente con la media,

cometeremos cierto error en el pronóstico 𝑌 − 𝑌̅ . [8,8 − 6,85 = 1,95 puntos]
Otra forma de pronosticar la calificación de Jorge en el examen consiste en realizar una

predicción a partir de su puntuación en una variable predictora X conocida (p. ej., horas
de estudio), por medio de la ecuación de regresión.
𝑌′ = 𝐴 + 𝐵𝑋 → 𝑌′ = 2,9071 + 0,1591 ∙ 𝑋 → 𝑌′ = 2,9071 + 0,1591 ∙ 34 = 8,32
Este método también conllevará cierto error 𝑌 − 𝑌′, salvo que la relación entre X e Y sea
perfecta; pero en término medio, para un conjunto de datos, este error será menor que
el cometido al emplear la media como pronóstico (excepto si la relación entre X e Y es
igual a cero). En el caso de Jorge: 8,8 − 8,32 = 0,48 puntos
El uso de la ecuación de regresión permite

reducir el error de predicción que se comete al
utilizar la media como pronóstico.
Bondad de ajuste
Aunque la recta de regresión es la recta que

mejor resume una nube de puntos, el grado de
ajuste de dicha recta no es el mismo en todas las
distribuciones, ya que depende del grado de
dispersión (concentración o alejamiento) de los puntos respecto a la recta de regresión.
Por ello, resulta conveniente evaluar el grado de ajuste de la recta de regresión y, por
tanto, su eficacia como método de predicción.
pág. 46
10.3. REGRESIÓN Y VARIABILIDAD
Comenzaremos estudiando la variabilidad existente en la variable dependiente (Y).
El estudio de la variabilidad de un atributo o característica es de gran interés en

psicología y la estadística es una herramienta fundamental para este objetivo.
La variabilidad de una variable puede ser cuantificada por medio de un estadístico de

dispersión como la varianza. La varianza de una variable (p. ej.,
Y) es igual al promedio de las diferencias al cuadrado de las
puntuaciones de una muestra con respecto a su media.
La varianza de las puntuaciones (reales) en la variable dependiente calificación (𝑠y2)

puede entenderse como el error cuadrático medio (ECM) que se comete al atribuir a
una persona la media de la variable (𝑌̅) como pronóstico.
Por otra parte, podemos cuantificar la dispersión de los puntos con respecto a la recta
de regresión, o, dicho de otro modo, podemos evaluar el grado de ajuste de la recta de
regresión a la nube de puntos. Para ello, calcularemos la
varianza de los errores de predicción cometidos por la recta de
regresión o residuos (sy.x2).
La varianza de los errores de predicción o residuos (sy.x2) puede entenderse como el

error cuadrático medio (ECM) que se comete al atribuir a una persona una puntuación
pronosticada por medio de la ecuación de regresión (𝑌′) como pronóstico.
Por último, podemos cuantificar el error cuadrático medio que se deja de cometer (que
se elimina) al utilizar la ecuación de regresión como método de
predicción en lugar de la media. Para ello, calcularemos la
varianza de las puntuaciones pronosticadas por la ecuación de
regresión (sy’2).
Descomposición de la varianza
Por tanto, la varianza total de la variable dependiente (𝑠y2) puede descomponerse del
siguiente modo:
Teniendo en cuenta lo anterior,

podemos calcular qué
proporción del ECM total es
eliminado por la ecuación de
regresión:
A este resultado lo llamaremos Coeficiente de Determinación.
10.4. EL COEFICIENTE DE DETERMINACIÓN.
El Coeficiente de Determinación (C. D.) es la razón entre la varianza de las

puntuaciones pronosticadas por la ecuación de regresión y la varianza de
las puntuaciones reales de la variable dependiente.
pág. 47
Por tanto, el C. D. indica la proporción (entre 0 y 1) de la varianza total de Y asociada a

la variación de X (proporción de varianza común, que comparten X e Y). Es decir, es la
proporción de la varianza de Y que puede explicarse (anticiparse, entenderse) a partir
de X.
El C. D. refleja la proporción del ECM total eliminado por la ecuación de regresión. Es un

índice de la reducción de los errores de predicción al emplearse la ecuación de
regresión para el pronóstico. Por tanto, indica la eficacia predictiva de la ecuación de
regresión.
También es un indicador del grado de ajuste de la recta de regresión a los puntos del
diagrama de dispersión.
Toma valores comprendidos entre 0 y 1. Cuanto mayor es el valor del C.D., mejor es el
ajuste.
Es equivalente al coeficiente de correlación de Pearson elevado al cuadrado.
pág. 48
pág. 49
11. OTROS INDICADORES DE

ASOCIACIÓN
11.1. ASOCIACIÓN ENTRE DOS VARIABLES NOMINALES
Ejemplo:
- Variable 1: consumo de tabaco. (Fumador/a; No fumador/a)

- Variable 2: práctica de deporte. [Sí (“deportista”); No (“no deportista”)]
Este gráfico permite comparar el

porcentaje de personas que hacen deporte
y que no, dentro del grupo de
fumadores/as y dentro del grupo de no
fumadores/as (distribuciones
condicionales).
Una vez descritas las variables por separado y de forma conjunta, podemos evaluar si
ambas variables son independientes o si están relacionadas/asociadas. Dos variables
son independientes cuando los resultados en una variable no dependen de la otra. En el
caso de dos variables categóricas, decimos que son independientes cuando las
distribuciones condicionales de una variable son iguales en todas las categorías de la
otra.
pág. 50
COEFICIENTE DE CONTINGENCIA
El coeficiente de contingencia (C) permite cuantificar la fuerza o grado de asociación

entre dos variables cualitativas (escala nominal) con dos o más categorías cada una.
Se calcula a partir del estadístico 𝜒2 (ji cuadrado), el cual se basa en la comparación

entre las frecuencias empíricas (𝑓e) y las frecuencias teóricas (𝑓t) de los datos.
- Frecuencias empíricas u observadas: son aquellas que realmente se producen en

los datos.
- Frecuencias teóricas o esperadas: son aquellas que cabría esperar si no existiese
ninguna asociación entre las variables.
[𝜒2 oscila entre 0 e infinito. (0 → total independencia entre las variables)]
Ejemplo:
El coeficiente de contingencia toma valores entre 0

y un máximo siempre menor que 1. [0 ≤ 𝐶 < 1]
- 0 → total independencia entre las variables.

- Valores que se aproximan a 1 →mayor
asociación entre las variables.
El valor máximo depende del número de filas y

columnas de la tabla.
Si la tabla tiene el mismo número (𝑘) de

filas y columnas se puede calcular el valor
máximo del
coeficiente de
contingencia 0, 3405
mediante:
pág. 51
Condiciones para el uso de 𝜒2 en el cálculo del coeficiente de contingencia
• Debe haber independencia entre las observaciones.

• Tamaño de las frecuencias teóricas (Carro, 1994):
En tablas 2x2:
- n debe ser > 20
- Si la frecuencia teórica de alguna celdilla es < 5, aplicar la corrección de
Yates* para calcular 𝜒2
En tablas superiores a 2x2:

- Ninguna celdilla puede tener 𝑓𝑡 = 0
- El número de celdillas con 𝑓𝑡 < 5 no debe ser superior al 20% del total de
celdillas de la tabla.
- Si la frecuencia teórica de alguna celdilla es < 5, aplicar la corrección de
Yates para calcular 𝜒2
* Téngase en cuenta, no obstante, que no existe un consenso claro en la literatura
relacionada sobre el uso de la corrección de Yates.
COEFICIENTE V DE CRAMÈR
• Es otra medida de asociación basada en 𝜒2

• k indica el número de filas o columnas más pequeño
de la tabla.
• Aplicable a dos variables nominales con 2 ó más
categorías.
• Oscila entre 0 y 1.
- 0 → total independencia entre las variables. En SPSS recuento
- 1 → asociación perfecta. esperado = frecuencia
teórica
11.2. ASOCIACIÓN ENTRE DOS VARIABLES ORDINALES
COEFICIENTE DE CORRELACIÓN DE SPEARMAN ( 𝑟 S )

• Aplicable a dos variables ordinales.
• Se deriva del coeficiente de correlación de Pearson.
• Su valor oscila entre -1 y 1. (−1 ≤ 𝑟s ≤ +1)
• Su magnitud indica la intensidad de la relación entre las variables (como 𝑟xy).
• Signo positivo: ocupar primeros puestos en X se corresponde con ocupar
primeros puestos en Y (y últimos puestos en X se corresponden con últimos
puestos en Y).
• Signo negativo: ocupar primeros puestos en X se corresponde con ocupar
últimos puestos en Y (y últimos puestos en X se corresponden con primeros
puestos en Y).
pág. 52
11.3. OTRAS MEDIADAS DE ASOCIACIÓN
COEFICIENTE DE CORRELACIÓN BISERIAL PUNTUAL ( 𝑟 B P ):
• Se aplica cuando una variable es cuantitativa y la otra es dicotómica

(convencionalmente codificada con ceros y unos).
• Se deriva del coeficiente de correlación de Pearson.
• Su valor oscila entre -1 y 1. (−1 ≤ 𝑟bp ≤ +1)
• Su magnitud indica la intensidad de la relación entre las variables (como 𝑟xy). El
signo indica el sentido de la correlación y depende de cómo se haya codificado
la variable dicotómica. Es recomendable analizar las frecuencias de la tabla para
interpretar el sentido de la correlación correctamente.
COEFICIENTE RAZÓN DE CORRELACIÓN ( 𝜂)
• Aplicable a dos variables cuantitativas que muestran una relación curvilínea.

• Su valor oscila entre 0 y 1. Su valor indica la intensidad de la relación entre las
variables.
• El sentido de la correlación se obtiene observando la curva del diagrama de
dispersión.
- Positiva: curva ascendente
- Negativa: curva descendente
- Mixta
pág. 53

ESTADISTICA

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ESTADISTICA

Cargado por

Copyright:

Formatos disponibles

2021

La medición (para que se pueda dar debe de existir correspondencia)

TIPOS DE ESCALAS DE MEDIDA (STEVENS, 1 946)

• Propiedades: equivalencia y orden (< ó >): podemos ordenar los valores en

• Unidad de medida arbitraria.

Representaciones gráficas para datos cualitativos

Reducción de tablas con datos cualitativos

2.2. MÉTODOS PARA DATOS CUASI CUANTITATIVOS (ESCALAS ORDINALES)

▪ Frecuencia relativa acumulada (pₐ): se van sumando las anteriores

Representaciones gráficas para datos cuasi cuantitativos

2.3. MÉTODOS PARA DATOS CUANTITATIVOS (ESCALAS DE INTERVALO Y DE RAZÓN)

2.3.2. Variables cuantitativas continuas:

Características de los datos cuantitativos continuos:

Distribuciones de frecuencias y estadísticos

Punto medio (Xm) de un intervalo (intervalos compuestos): Xm= (l.r.s. + l.r.i.) /2

Representaciones gráficas para datos cuantitativos continuos

Herramientas que tenemos para explorar, resumir y describir los datos:

Estadísticos de tendencia central: permiten representar con un único valor a todo el

• Moda: aplicable a datos cualitativos, cuasicuantitativos y cuantitativos.

➢ Datos cualitativos: modalidad con mayor frecuencia.

• Es el único estadístico de tendencia central aplicable a datos cualitativos (escala

• Puede calcularse en distribuciones abiertas siempre y cuando el intervalo de

3.3. MEDIANA (MDN)

• Con número impar de casos: puntuación que ocupa el lugar central.

Valores sin ordenar: 6, 3, 9, 7, 4, 5, 8

Si los datos se encuentran ordenados en una tabla, agrupados en intervalos simples o

1. Localizar el intervalo crítico (I.C.) de la distribución, que es donde se encuentra la

• Depende de cómo se hayan construido los intervalos de la distribución.

Existen varios procedimientos que reciben el nombre de “media”. El más habitual es la

Definición: la media aritmética de valores es igual a la suma de dichos valores dividida

Si los datos se encuentran ordenados en una tabla, agrupados en intervalos simples o

• Depende de cómo se hayan construido los intervalos

centro de la distribución. Por ello, es recomendable usar la mediana cuando la

Existen otras medias (geométrica, armónica, cuadrática), menos habituales que la

Es importante analizar el grado de dispersión o variabilidad existente en los datos.

Los estadísticos de dispersión o variabilidad nos informan sobre el grado de

La dispersión en datos cualitativos o cuasi-cuantitativos tiene que ver con la forma en

4.2. AMPLITUD TOTAL

A = L.R.S.–L.R.I. (de la distribución); Con límites aparentes: A= XMayor – Xmenor+ 1 u.m.

• Estadístico de dispersión más básico.

4.3. RANGO INTERCUARTIL

4.4. DESVIACIÓN TÍPICA Y VARIANZA

Varianza : es igual al promedio de las

Desviación típica : es igual a la raíz cuadrada de

En ocasiones se utiliza una modificación en las fórmulas de la varianza y desviación

4.5. COEFICIENTE DE VARIACIÓN

El coeficiente de variación (CV) es igual a la razón entre la desviación típica y la media

Con frecuencia se expresa como un porcentaje:

Representa el número de veces que la desviación típica contiene a la media.

Los estadísticos de tendencia central y de

Cuando se trabaja con datos cuantitativos, otra

5.2. PUNTUACIONES ORDINALES

Las puntuaciones ordinales nos informan

Los cuartiles (𝑄𝑞) son 3 puntuaciones (𝑄1, 𝑄2, y 𝑄3)

Si los datos se encuentran ordenados en una tabla, agrupados en intervalos simples o

1º. Localizar el intervalo crítico (I.C.) de la distribución

2º. Aplicar la fórmula para cada cuartil.

Los deciles (𝐷𝑑) son 9 puntuaciones

Si los datos se encuentran ordenados en

1º. Localizar el intervalo crítico (I.C.) de la distribución en que se encuentra

2º. Aplicar la siguiente fórmula:

Los centiles o percentiles (𝐶𝑐) son 99

Calculo: caso directo