Está en la página 1de 27

-Análisis de datos -

1. Conceptos básicos y organización de datos


1.1. Introducción.
Estadística: en Psicología se utiliza para cualquier cuestión relacionada con
la medición de variables psicológicas y con la evaluación, ya sea diagnóstica,
de tratamientos, de programas educativos, sociales, etc
Estadística teórica: aspectos matemáticos formales y normativos
Estadística aplicada: aplicación a un campo concreto.

La estadística aplicada ha recibido distintas denominaciones según su


campo de aplicación, tales como bioestadística, psicoestadística o
socioestadística. Algunos autores han propuesto para la estadística aplicada
la denominación de análisis de datos (Botella, Suero y Ximénez, 2012; Garriga
et al., 2009; Merino et al., 2007), término cuyo uso se está extendiendo y que da
nombre a este libro.

Esta disciplina no es popular entre los estudiantes de ciencias sociales y de la


salud, debido posiblemente a la imagen de la Estadística como una rama de
las matemáticas de difícil comprensión y ajena a nuestro día a día.

Sin embargo, diariamente estamos sometidos a un bombardeo de datos


estadísticos. El no ser capaz de distinguir una interpretación rigurosa de unos
datos de una defectuosa, hace que se sea vulnerable a la manipulación.
En ocasiones, las estadísticas presentadas en distintos medios son
incorrectas o engañosas, ya sea por falta de preparación o por voluntad de
«maquillar» los resultados.
Benjamín Disraeli: (primer ministro del Reino Unido) «hay tres tipos de
mentiras: las mentiras, las grandes mentiras y las estadísticas» .

La Estadística nos proporciona las herramientas necesarias para valorar de


manera crítica la información que recibimos.

1.2 LA investigación en la psicología .


Método científico: procedimiento estructurado que utiliza la ciencia para la
ampliación de sus conocimientos. El método científico se caracteriza por ser
sistemático y replicable. Sistemático porque es un proceso que tiene unas
etapas definidas y replicable porque los datos obtenidos mediante su uso
tienen que poder ser replicados o refutados ( en las mismas circunstancias)
por cualquier investigador interesado.
Proporciona una manera de actuar para afrontar una investigación.
FASES .
1.Planteamiento del problema
● Cuestión sin responder que surge del conocimiento previo.
2. Formulación de hipótesis
● Solución tentativa al problema de la investigación.
3.Procedimiento de la recogida de datos:diseño
● Muestra
● Instrumentos, materiales…
● Recogida de datos
4.Análisis de datos

5.Discusión de los resultados

6.Elaboración informe investigación

En primer lugar se define un problema, que puede surgir de teorías ya establecidas,


de la lectura de la bibliografía o de la experiencia directa con los hechos. En la
mayoría de los casos surgen de lagunas o contradicciones en investigaciones
anteriores. A partir de ese problema se plantea una hipótesis, que no es más que una
solución tentativa al problema planteado. Las siguientes tres fases tratan de
contrastar si la hipótesis planteada es compatible con los hechos. Para ello, es
necesario establecer un procedimiento adecuado de recogida de información,
analizar los datos obtenidos y discutir los resultados en busca de conclusiones. Por
último, hay que elaborar un informe de la investigación que se ha realizado para dar a
conocer los resultados obtenidos.
Esta asignatura se ocupa de las fases cuarta y quinta de una investigación: el análisis
de los datos y la interpretación de los resultados obtenidos.

El análisis de datos constituye una parte integral no solo de la actividad


investigadora, sino también en la práctica profesional. En este sentido, resulta crucial
tener unos conocimientos básicos de Estadística para evaluar los resultados de una
investigación, y en general para leer de forma crítica las publicaciones de carácter
psicológico (ya sean artículos científicos, libros, informes de investigación o notas de
prensa).

1.3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA: DESCRIPCIÓN E INFERENCIA .


La Estadística es la rama de las matemáticas que se encarga del estudio de
determinadas características en una población, recogiendo los datos, agrupándolos,
organizándolos en tablas, representándolos gráficamente y analizándolos para sacar
conclusiones de dicha población. Teniendo en cuenta las funciones de la Estadística,
podemos considerar dos grandes áreas: la Estadística Descriptiva y la Estadística
Inferencia!. Mediante la Estadística Descriptiva se organizan y resumen conjuntos de
observaciones cuantificadas procedentes de una muestra o de la población total.
Este resumen puede hacerse mediante tablas, gráficos o valores numéricos. Así, se
dispone de distintos procedimientos que nos permiten estudiar las características de
una o más variables:
En el caso de una variable, podemos recurrir a estadísticos que nos indicarán cuáles
son los valores más habituales de esa variable (índices de tendencia central), hasta
qué punto esos valores son similares o diferentes entre sí ( estadísticos de
variabilidad), en qué grado las observaciones se reparten equilibradamente por
encima y por debajo de la tendencia central ( estadísticos de asimetría) y cómo de
apuntada es la distribución de las puntuaciones de la variable ( estadísticos de
curtosis). Temas 2 y 3.

En el caso de dos variables podemos utilizar índices que nos indiquen hasta qué
punto están ambas variables relacionadas entre sí (índices de asociación), así como
procedimientos que nos permitirán predecir el valor de una variable en función de
otra ( ecuaciones de regresión). Temas 4 y 5.

Estadística Inferencia!: se realizan inferencias acerca de una población basándose en


los datos obtenidos a partir de una muestra. Estas generalizaciones de la muestra a
la población se basan en el cálculo de probabilidades.
Los últimos temas de este texto tratarán sobre probabilidad e inferencia estadística.

En una investigación cualquiera, lo habitual es que se desee conocer un parámetro o


característica de los elementos de una población; sin embargo, la población suele ser
demasiado extensa para estudiarla al completo (conllevaría un coste inabordable).

Por este motivo, se realiza un muestreo con el que se obtiene un conjunto de


elementos que representan a la población y se estudia la característica deseada en la
muestra mediante estadísticos que se util izarán para estimar los parámetros de la
población.

Es importante distinguir entre población y muestra: una población es el conjunto de


todos los elementos que cumplen una determinada característica objeto de estudio y
una muestra es un subconjunto cualquiera de una población . Estos elementos
pueden ser personas, animales o cosas que cumplan una definición compartida por
la población.

En una investigación siempre se trata de caracterizar a la población.

Es preciso distinguir entre parámetro y estadístico. Un parámetro es un índice medido


en una población que la describe de alguna manera, mientras que un estadístico es
un índice medido en una muestra. Utilizando la estadística inferencia! se pronostica el
valor de los parámetros poblacionales a partir de los estadísticos muestrales.

Población: es el conjunto de todos los elementos que cumplen una determinada


característica objeto de estudio.
Muestra: subconjunto cualquiera de una población.
Parámetro: propiedad descriptiva (una medida) de una población. Se denota con
letras griegas.
Estadístico: propiedad descriptiva (una medida) de una muestra. Se denota con letras
latinas.
1.4. VARIABLES: MEDICIÓN Y CLASIFICACIÓN .
Una variable es el conjunto de valores resultantes de medir una característica de
interés sobre cada elemento individual de una población o muestra.

Para representar a las variables se utilizan letras latinas mayúsculas. Para referirnos a
un valor cualquiera de la variable X se utiliza el subíndice i (X¡), siendo n el número de
elementos que componen la muestra, por lo que, de manera genérica, se designa la
variable como: X¡ siendo i = 1, 2, 3 ... , n

Cuando se trata de objetos físicos, el proceso de medición es directo y generalmente


sencillo porque es cuestión de seguir unas reglas prescritas expresadas mediante
determinadas escalas.
El reto al que se enfrenta la Psicología es su necesidad de medir en muchas ocasiones
variables que no son directamente observables.

Medición es el proceso por el cual se asignan números a objetos o sucesos según


determinadas reglas. El proceso de medición es previo al análisis de datos y
especifica el procedimiento de asignación de números a los valores de la variable.

Para medir variables psicológicas en muchas ocasiones se utilizan test psicológicos


diseñados para ese fin. Su aplicación proporciona una puntuación para cada
persona en esa variable.

Otro ejemplo podría ser la valoración de la calidad de vida de un paciente, medida a


través de una pregunta que forma parte de un test amplio y que se incluye en
bastantes investigaciones sobre salud. La regla consiste en asignar un número a cada
una de las opciones de respuesta. Así se podría asignar un 1 a escoger la opción «muy
mala >> , un 2 a «regular», un 3 a «normal», un 4 a «bastante buena» y un 5 a «muy
buena».

En Psicología se utilizan diferentes escalas de medida en función de medir,


entendiendo como escala de medida el conjunto de reglas o modelos desarrollados
para la asignación de números a las variables.

En función de las relaciones matemáticas que puedan verificarse empíricamente entre


los distintos valores de una variable y, siguiendo la clasificación de Stevens (1946),
pueden distinguirse cuatro tipos de niveles o escalas de medida: nominal, ordinal, de
intervalo y de razón.

Escala nominal: solo distinguiremos la igualdad o desigualdad entre dos valores, la


escala ordinal añade la posibilidad de establecer un orden.
Escala de intervalo: se usa una unidad y tienen sentido las diferencias
Escala de razón: se pueden comparar dos medidas mediante un cociente.

Para cada tipo de variable existen unos procedimientos estadísticos apropiados para
hacer el mejor uso de la información que contienen los valores de las variables.

A) ESCALA NOMINAL
La escala de medida nominal consiste en la asignación, puramente arbitraria de
números o símbolos a cada uno de los valores de la variable. Por tanto, la única
relación que se tiene en cuenta es la de igualdad (y la desigualdad), que implica la
pertenencia o no a una categoría determinada. En la escala nominal los valores de la
variable se denominan categorías. Usando una escala nominal podemos decidir si un
sujeto es igual o diferente a otro, pero no podemos establecer relaciones de orden
respecto a esa variable, ni de cantidad.

A las variables que presentan un nivel de medida nominal se les denomina variables
cualitativas o categóricas. Las variables cualitativas se clasifican además, en función
del número de categorías que presentan. Si una variable presenta solo dos categorías
se dice que es una variable dicotómica (por ejemplo, el sexo); si presenta más de dos
categorías se dice que es una variable politómica (por ejemplo, el estado civil).

En ocasiones se categorizan variables que podrían medirse a un nivel superior; en


este caso, decimos que una variable se ha dicotomizado si se han establecido dos
categorías, y politomizado si se han establecido más de dos categorías.

B) ESCALA ORDINAL
En la escala ordinal se asignan números a objetos para indicar la extensión relativa
en que se posee una característica. Los datos pueden utilizarse para jerarquizar u
ordenar las observaciones, pero sin indicar la distancia que hay entre las posiciones.
Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que
se está clasificando. Esta escala no solo permite la identificación y diferenciación de
los sujetos sino que además permite establecer relaciones del tipo «mayor que» o
«menor que», aunque no se plantea una distancia entre unas medidas y otras. En este
caso, la asignación de números a las distintas categorías no puede ser
completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas.
Las variables ordinales también reciben el nombre de cuasicuantitativas.

C)ESCALA DE INTERVALO
Las escalas de intervalos son aquellas que ordenan los objetos según la magnitud del
atributo que representan y proveen intervalos iguales entre las unidades de medida.
Con la escala de intervalo, los números asignados a los objetos, no solo permiten
decidir si un objeto es igual o diferente a otro o si posee en mayor o menor grado la
característica de interés; además, la distancia entre los distintos valores consecutivos
de la variable es la misma. Por convención, las puntuaciones obtenidas de test
psicológicos se consideran que están medidas en una escala de intervalo. Como se ha
visto en el ejemplo, lo que caracteriza a una escala de intervalo es la existencia de una
unidad de medición común y constante. En la escala de intervalo el origen es
arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos
midiendo.

D) ESCALA DE RAZÓN
En la escala de razón los números asignados a los objetos admiten como válidas las
relaciones de igualdad-desigualdad, orden, suma, resta, multiplicación y división. Se
caracteriza porque tiene todas las características de una medida de intervalo y,
además, se le puede asignar un punto de origen verdadero de valor cero, es decir, el
valor cero de esta escala significa ausencia de la magnitud que estamos midiendo.
Dado que el cero ya no es arbitrario, sino un valor absoluto, se puede afirmar que A
tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B. La altura y el
peso son dos ejemplos típicos de escala de razón.

Hay que tener en cuenta que en muchas ocasiones el nivel de medida de una variable
va a depender de cómo se haya definido.

Es muy importante, por tanto, la definición operativa de una variable (cómo se define
y se registra) porque puede determinar su nivel de medida.
La mayoría de las variables psicológicas se considera que están medidas en una
escala de intervalo. Así, si la variable perseverancia, que es un rasgo de personalidad,
se ha medido mediante una prueba psicológica o test, su nivel de medida es de
intervalo. Sin embargo, si se define perseverancia como el número de intentos o
ensayos que realiza una persona para conseguir un objetivo se trata de una escala de
razón.
Si la variable discriminación visual sólo puede tomar dos valores (discrimina/no
discrimina) estamos en una escala nominal. Si definimos discriminación visual como,
por ejemplo, número de veces que una persona discrimina en 20 ensayos, se trataría
de una escala de razón. Las variables medidas en escala de intervalo y de razón son
variables cuantitativas. Las variables cuantitativas se clasifican, además, en función
de los valores numéricos que pueden asignarse en continuas y discretas.

Una variable continua es aquella para la que, dados dos valores, siempre se puede
encontrar un tercer valor que esté incluido entre los dos primeros. Un ejemplo de
variable continua es el peso, ya que entre los valores 79 y 80 kg. se pueden considerar
uno, dos, tres o todos los decimales que se quiera. Una variable discreta es aquella
que adopta valores aislados. Por tanto, fijados dos valores consecutivos, no se puede
tomar ninguno intermedio. Un ejemplo de variable discreta es el número de hijos
(huelga decir que se pueden tener dos hijos o tres, pero nunca un valor intermedio
entre ambos) .

1.5. DESCRIPCIÓN DE VARIABLES: DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN


GRÁFICA

en Psicología se trabaja con valores de variables que pueden ser nominales, ordinales,
de intervalo o de razón, con las características propias de cada escala. En cualquier
caso, una vez que el investigador ha recabado la información a través del proceso de
medida y recogido los datos correspondientes, dispone de un listado o base,
comúnmente llamado matriz de datos. La generación de una base de datos supone la
codificación previa de las observaciones, la introducción de los datos en algún
programa informático, la depuración de los datos ya grabados (detección y
tratamiento de los errores de grabación y valores perdidos), y eventualmente la
realización de transformaciones de variables que faciliten su posterior tratamiento
estadístico. Hay muchos programas estadísticos que se pueden utilizar para
organizar y analizar los datos. En concreto, en el curso virtual de la asignatura hay
disponibles tutoriales sobre el uso de Excel para hacer distribuciones de frecuencia,
gráficos y diversos análisis. Codificar datos es asignar números a las variables
cualitativas y cuasicuantitativas, y registrar los valores de las variables cuantitativas
que constituyen la base de datos, así como asignar un código (que puede ser un
espacio en blanco o un valor numérico) a los valores perdidos (aquellos que no han
sido registrados u observados). En la matriz de datos, los casos se sitúan en las filas y
las variables en las columnas.

Los datos perdidos son valores que no han sido registrados, habitualmente porque el
participante no ha consignado ese dato. Existen procedimientos de imputación de
datos, basados en los valores válidos de otros casos que se utilizan en ocasiones en
variables cuantitativas. Un dato atípico es un valor muy diferente al resto de valores
de la misma variable. Suelen ser ocasionados por errores al introducir los datos o por
valores extremos. Los datos atípicos distorsionan los resultados de los análisis, y por
esta razón hay que identificarlos y tratarlos de manera adecuada, generalmente
excluyéndolos del análisis.
Una vez depurada, la base de datos se utiliza para extraer la información relevante. Si
tenemos muy pocos datos es posible que la simple inspección visual de los mismos
sea suficiente para describir el fenómeno estudiado. Pero esto no es nada frecuente.
Habitualmente el número de datos es elevado, por lo que se hace necesario organizar
la información mediante una distribución de frecuencias. Una distribución de
frecuencias es una tabla en la que se resume la información disponible de una
variable. Se sitúan los valores de la variable por filas y en las columnas se dispone el
número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las
agrupaciones en frecuencias es facilitar la lectura de la información que contienen los
datos. Además de la organización de los datos, la distribución de frecuencias cumple
dos funciones fundamentales: ofrecer la información necesaria para realizar
representaciones gráficas y facilitar los cálculos para obtener los estadísticos que
serán objeto de estudio en los próximos temas.

1.5.1. Descripción de variables cualitativas

La descripción de una variable cualitativa consiste básicamente en una distribución


de frecuencias y en su representación gráfica mediante un diagrama de barras o de
sectores. En la distribución de frecuencias de variables cualitativas habitualmente se
muestran las frecuencias absolutas, las frecuencias relativas y los porcentajes. Para
construir la tabla de distribución de frecuencias se inspeccionan en primer lugar los
valores que toma la variable. En este caso se trata de una variable de carácter
cualitativo (nominal) que puede adoptar tres valores distintos. En la primera columna
se especifican los valores que adopta la variable X o el número asignado a ese valor
(en la Tabla 1.3 se muestran ambos) . En la segunda columna aparece la frecuencia
absoluta (n¡) que es el número de observaciones en cada categoría. En la siguiente
columna aparece la frecuencia relativa o proporción de cada categoría (p¡), que se
obtiene dividiendo la frecuencia absoluta, n¡, entre el número total de observaciones,
que se representa por n. La frecuencia relativa también se expresa en términos de
porcentaje (P¡) para lo cual hay que multiplicar cada una de las proporciones por cien
(cuarta columna)

Los dos gráficos más habituales en la descripción de variables cualitativas son los
gráficos de barras y los gráficos de sectores. En los gráficos de barra los distintos
valores de la variable se sitúan en el eje horizontal y las frecuencias o los porcentajes
en el eje de ordenadas. Cada barra representa una categoría de la variable a
representar, siendo su altura igual a su frecuencia (o porcentaje). En los gráficos de
sectores cada sector representa una categoría de la variable y su ángulo central debe
ser proporcional a su frecuencia (o porcentaje). En la Figura 1.2 se muestra el
diagrama de barras y el diagrama de sectores de la variable Bachillerato elegido. El
diagrama de barras se ha construido sobre las frecuencias absolutas de la variable y
el diagrama de sectores sobre los porcentajes.

1.5.2. Descripción de variables ordinales o cuasicuantitativas

En el caso de variables ordinales se procede de la misma manera, aunque con los


valores situados en la tabla de acuerdo a un determinado orden.

En esta tabla se han añadido tres columnas más: la frecuencia absoluta acumulada
(na), la frecuencia relativa acumulada o proporción acumulada (pª) y el porcentaje
acumulado (Pª), para cada una de las categorías de respuesta. Para obtener estos
valores, simplemente hay que ir acumulando (sumando), desde la categoría de menor
valor de la variable a la de mayor valor, las frecuencias absolutas, proporciones o
porcentajes, de cada categoría de respuesta. Por ejemplo, la frecuencia absoluta
acumulada en el caso de Bachillerato es 29, resultado de sumar las frecuencias de los
valores anteriores (7 + 11 = 18) y la suya propia (18 + 11 = 29), indicando que 29 personas
presentan un nivel de estudios de Bachillerato o inferior. En las variables nominales
carece de sentido el cálculo de las frecuencias acumuladas, ya que sus valores no
establecen un orden determinado.

Frecuencia absoluta (n;}: número de veces que se repite cada uno de los valores de
una variable. La suma de todas las frecuencias absolutas representa el total de la
muestra (n).
Proporción o frecuencia relativa (p¡): cociente entre la frecuencia absoluta de cada
valor de la variable (n;) y el número total de observaciones (n).
Formalmente P; = n;fn.
Porcentaje (P¡): valor de la frecuencia relativa (P;) multiplicado por cien.
Formalmente P; = P; x 100
Frecuencia absoluta acumulada (n0 ): número de veces que se repite cada valor o
cualquiera de los valores inferiores.
Proporción acumulada o frecuencia relativa acumulada (p11 ): cociente entre la
frecuencia absoluta acumulada y el total de observaciones.
Formalmente Pa = n0 /n.
Porcentaje acumulado (P11 ): valor de la frecuencia relativa acumulada multiplicado
por cien.
Formalmente: Pª = Pa x 100.

Al igual que las variables cualitativas, las variables ordinales generalmente se


representan con un diagrama de barras o un diagrama de sectores. El diagrama de
barras también se puede realizar sobre las frecuencias, proporciones o porcentajes
acumulados, siempre teniendo en cuenta que es necesario respetar el orden de los
valores de la variable representada. En este caso, se ha elegido un diagrama de
barras que contiene en el eje horizontal la tabla con los datos que representa el
gráfico.

1.5.3. Descripción de variables cuantitativas

Al trabajar con variables cuantitativas puede suceder que el número de valores que
tome la variable sea reducido (como la variable n° de hijos, que habitualmente no
adopta valores mayores de 4) o sea muy amplio (como las variables ansiedad ante los
exámenes y horas de estudio semanales de la Tabla 1.2). En el primer caso, para
elaborar la distribución de frecuencias se procede de la forma indicada para
variables ordinales y en el segundo será necesario agrupar la variable en intervalos.

En estos casos se recurre a la agrupación en intervalos, que consiste en formar


grupos de valores consecutivos de la variable. Para ello, se sitúa cada uno de estos
grupos en una fila, y se calculan las frecuencias de cada grupo o intervalo de valores,
y no de cada valor de la variable. En primer lugar, hay que decidir qué número de
intervalos tendrá la distribución de frecuencias. Siempre habrá varias posibilidades
pudiendo optar desde establecer un número muy pequeño de intervalos muy amplios
hasta muchos intervalos de muy pequeña amplitud. A la hora de tomar esta decisión
hay que tener presente que al establecer intervalos siempre se pierde información, ya
que ahora la frecuencia no estará referida a un solo valor de la variable, sino a todos
los contenidos en el intervalo. Por tanto, esta decisión dependerá del tratamiento que
el investigador quiera dar a la variable en su estudio, tratando de encontrar el
equilibrio entre la precisión que necesite y la manejabilidad de los datos.
Estos valores constituyen los límites aparentes del intervalo. Para cada intervalo existe
un límite inferior y un límite superior.

Estos límites aparentes tienen la misma unidad de medida que los valores de la
variable. Esto es, si los datos son enteros, entonces los límites aparentes son enteros.
Si los datos contienen decimales, los límites aparentes tendrán el mismo número de
decimales que los datos recogidos. En nuestro ejemplo, los datos son números
enteros, por lo que los límites aparentes no contienen decimales. Con los límites
aparentes en la distribución existe discontinuidad entre un intervalo y el siguiente, ya
que el límite superior de un intervalo no coincide con el límite inferior del siguiente
intervalo. Con los límites exactos de una distribución no existe discontinuidad entre
un intervalo y el siguiente, ya que el límite superior exacto de un intervalo coincide
con el límite inferior exacto del intervalo siguiente. El Límite Inferior Exacto (LIE) se
calcula restando al valor del límite inferior aparente media unidad de medida y el
Límite Superior Exacto (LSE) se calcula sumando al valor del límite superior aparente
media unidad de medida. Por tanto, los límites exactos del intervalo 1-5 son 0,5-5,5, los
del intervalo 6-10 son 5,5-10,5 y así sucesivamente, de forma que el límite superior
exacto de un intervalo coincide con el límite inferior exacto del siguiente (ver Tabla 1.6).
A partir de los límites aparentes o de los límites exactos se calcula el punto medio del
intervalo, que es la semisuma del límite superior e inferior del intervalo. Como se verá
en los Temas 2 y 3, el punto medio del intervalo es el valor que se utilizará para el
cálculo de algunos índices estadísticos con distribuciones agrupadas en intervalos.

Intervalo: cada uno de los grupos de valores que ocupan una fila en una distribución
de frecuencias.
Límites aparentes: son los valores que delimitan el grupo de valores que constituyen
un intervalo. Para cada intervalo existe un Límite Inferior Aparente (LIA), que es el valor
menor del intervalo y un Límite Superior Aparente (LSA), que es el valor mayor incluido
en el intervalo.
Límites exactos o reales: son aquellos que no presentan discontinuidad entre un
intervalo y el siguiente. Para cada intervalo existe un Límite Inferior Exacto (LIE) y un
Límite Superior Exacto (LSE). El límite inferior exacto es el valor que resulta de restar al
límite inferior aparente media unidad de medida. El límite superior exacto es el valor
que resulta de sumar al límite superior aparente media unidad de medida.
Punto medio del intervalo (PM): es la suma de los límites exactos o de los límites
aparentes de un intervalo dividido entre dos.
Formalmente: PM = LIE + LSE 2 ó PM = LIA + LSA 2
Amplitud del intervalo: es la diferencia entre el límite superior exacto y el límite inferior
exacto. A un intervalo que no tiene límite inferior o límite superior se le denomina
intervalo abierto.

Los gráficos más habituales para representar a una variable cuantitativa discreta son
el diagrama de barras y el diagrama de líneas. En el caso de variables cuantitativas
continuas agrupadas en intervalos en lugar del diagrama de barras se utiliza el
histograma.

El histograma es una extensión del diagrama de barras que dibuja los rectángulos
unidos entre sí, indicando de este modo que existe continuidad en los valores de las
variables. Un histograma, es por tanto, un gráfico de variable continua dividida en
intervalos en los que se eleva un rectángulo con área proporcional a su frecuencia. El
histograma puede construirse sobre frecuencias absolutas, frecuencias relativas o
porcentajes, ya sean o no acumulados.
En el eje horizontal de un histograma se sitúan los límites exactos de los intervalos o
su punto medio.

El diagrama de líneas se construye situando un punto a una altura proporcional a la


frecuencia en cada valor o en el punto medio de cada intervalo (si la variable está
agrupada en intervalos). Finalmente se unen los puntos para formar una línea. A este
gráfico también se le denomina polígono de frecuencias.

1.6. TENDENCIA CENTRAL, VARIABILIDAD V FORMA DE UNA VARIABLE: APROXIMACIÓN


GRÁFICA
En los dos próximos temas se explicará cómo describir las variables mediante los
índices estadísticos adecuados. Estos índ ices se utilizan para medir la tendencia
central, variabilidad y forma de la distribución de una variable.

se tratará de ver gráficamente qué característica de la variable pretenden evaluar.


Para hacerlo, se utilizarán curvas suavizadas, que son histogramas basados en un
gran número de observaciones, cuyos ángulos se han suavizado. Así, si disponemos
de los datos de una muestra en una variable X (Figura 1.6. A) y hacemos esos intervalos
más pequeños (Figura 1.6. B), y más pequeños aún (Figura 1.6. C), al trazar un diagrama
de líneas sobre los puntos medios de esos intervalos, la línea resultante será una
curva.

A) TENDENCIA CENTRAL

La tendencia central de una distribución se refiere al lugar donde se centra una


distribución particular en la escala de valores.

Esta centralidad o tendencia central puede cuantificarse mediante unos índices


conocidos como estadísticos de tendencia central, que se explicarán en el próximo
tema.

B) VARIABILIDAD

Esta propiedad se refiere al grado de concentración de los valores entre sí o con


respecto a un valor central de la distribución. Una distribución de frecuencias es
homogénea (tiene poca variabilidad) si los valores de la distribución están cercanos al
promedio y es heterogénea (tiene mucha variabilidad) si los valores se dispersan
mucho con respecto al promedio.

En este caso, además de una tendencia central distinta ( el grupo B presenta, en


líneas generales, un nivel mayor de inteligencia que el grupo A) podemos apreciar que
las puntuaciones en inteligencia del grupo de estudiantes con altas capacidades
están más próximas entre sí que las del otro grupo. Por tanto, el grupo A presenta una
mayor variabilidad en inteligencia que el grupo B.

C) FORMA

Para estudiar la forma de una variable se analiza su asimetría y su curtosis. La


asimetría se refiere al grado en que los datos se reparten equilibradamente por
encima y por debajo de la tendencia central. Una distribución será simétrica cuando
al dividirla en dos partes iguales, las dos mitades se superponen. Una distribución
tiene asimetría positiva cuando la mayor concentración de puntuaciones se produce
en la parte baja de la escala y asimetría negativa cuando la mayor parte de las
puntuaciones se sitúan en la parte alta de la escala.
La curtosis se refiere al grado de apuntamiento de los datos (ver Figura 1.10). Si la
distribución de frecuencias es muy apuntada se llama leptocúrtica (A), y si es muy
aplastada se denomina platicúrtica (C). Si su grado de apuntamiento es intermedio se
denomina mesocúrtica (B).

2. Índices de tendencia central y de posición

2.1. INTRODUCCIÓN
Como se ha mencionado en el tema anterior, una de las propiedades más importantes
a estudiar de una distribución de frecuencias es la tendencia central de las
puntuaciones. Esta característica de la distribución se puede resumir en un valor o
puntuación que refleje esa tendencia central de la distribución y que represente al
conjunto de observaciones. Con el fin de cuantificar esta propiedad, se han
desarrollado una serie de medidas o estadísticos de tendencia central que indican
sobre qué puntuación se concentran las observaciones. En este tema se van a
presentar los principales índices de tendencia central: la media aritmética, la mediana
y la moda. Además de exponer el procedimiento de cálculo de estos estadísticos, se
discuten las principales ventajas e inconvenientes de cada uno de ellos y se ofrecen
criterios para su aplicación. Posteriormente, se abordan las medidas de posición, las
cuales son útiles para informar sobre la posición relativa en la que se encuentra un
sujeto con respecto al conjunto al que pertenece, a partir de su puntuación en la
variable. Se describen los tres índices de posición más utilizados en la práctica: los
percentiles, los cuartiles y los deciles.
2.2. ÍNDICES DE TENDENCIA CENTRAL
En lo que respecta a la tendencia central de la distribución, nos interesa calcular un
valor central que actúe como resumen numérico para representar al conjunto de
datos. Estos valores centrales de la variable se denominan medidas, índices o
estadísticos de tendencia centra l. Estos estadísticos permiten representar toda la
distribución de frecuencias con un único valor y, además, facilita n la comparación de
diferentes conj untos de puntuaciones de una variable. Por ejemplo, si medimos el
nivel de autoestima en una muestra de 200 niños (1 00 niños y 100 niñas), además de
estudiar la tendencia central en niños y niñas de forma conjunta, los índices de
tendencia central posibilitan la comparación de niños y niñas en su grado de
autoestima. Así, podemos averiguar si el nivel medio de autoestima es mayor en los
niños que en las niñas, o viceversa. Trabajando directamente con las 200
observaciones iniciales, no podríamos, de forma eficiente, ni describir la tendencia
central de niños y niñas, ni comparar las distribuciones de ambos en su grado de
autoestima. A continuación se van a describir las tres medidas de tendencia central,
representativas de la distribución, más utilizadas en el análisis de datos: la media
aritmética, la mediana y la moda.
2.2.1. Media aritmética
La media aritmética, también llamada promedio o simplemente media, es el
estadístico de tendencia central más conocido y usado en la práctica. Esto se debe,
básicamente, a la sencillez de su cálculo y a que es el fundamento de un gran número
de técnicas estadísticas. La media aritmética indica la tendencia general de una
distribución de frecuencias de una variable y es el valor central alrededor del cual
están la mayoría de las observaciones. De hecho, desde una perspectiva geométrica,
la media aritmética se puede interpretar como el «centro de gravedad» de la
distribución de frecuencias (Amón, 1999). Por otro lado, a diferencia de otros índices de
tendencia central, sólo puede calcularse para variables cuantitativas (nivel de medida
de intervalo o de razón).
La media aritmética de una variable X, denotada por X, se define como la suma de
todos los valores observados de la variable divididos por el número total de
observaciones. Se expresa matemáticamente de la siguiente manera:
Cálculo de la media en tablas de distribución de frecuencias Media aritmética a partir
de una distribución de frecuencias absolutas:

n es el número total de observaciones X; es el valor í en la variable X o el punto medio


del intervalo n; es la frecuencia absoluta del valor o intervalo í

sin;= 1 para todos los valores de X,

Media aritmética a partir de una distribución de frecuencias relativas:

P; es la frecuencia relativa o proporción de observaciones

En estos ejemplos se ha calculado la media a partir de las frecuencias absolutas y las


relativas. Sin embargo, con las frecuencias absolutas acumuladas (ne) no se puede
calcular la media . Si se tiene una distribución de frecuencias en las que sólo se
dispone de las frecuencias absolutas acumuladas (n0 ) y no de las frecuencias
absolutas (n¡), es necesario obtener las frecuencias absolutas a partir de las
frecuencias absolutas acumuladas para, a continuación, calcular la media.

Por otra parte, como se ha podido observar, la media aritmética aprovecha toda la
información disponible en los datos, ya que para su cálculo es necesario utilizar todas
las puntuaciones de los participantes. Como se verá posteriormente, esto no ocurre
con otros estadísticos.

Propiedades de la media aritmética La media aritmética presenta una serie de


propiedades matemáticas, de las que podemos destacar las siguientes: 1. En una
distribución, la suma de las desviaciones de cada valor con respecto a su media es
igual a cero. Matemáticamente se expresa como:

2. Si a cada puntuación X; de la variable X le sumamos una constante a ( elegida


arbitrariamente), la media de las nuevas puntuaciones es igual a la media de X más la
constante. En términos matemáticos: si Y¡ = X; + a, entonces Y = X+ a. Esto implica que,
cuando se suma una constante cualquiera (a) a las puntuaciones de una distribución
(X;), la media de esa distribución (X) se ve afectada, y para obtener la nueva media (Y)
también se debe sumar esa constante a la media original (Y = X + a). 3. Si cada
puntuación X; de la variable X se multiplica por una constante b (elegida
arbitrariamente), la media de las nuevas puntuaciones es igual a la media de X
multiplicada por la constante. En términos matemáticos: si Y; = b • X;, entonces Y = b •
X. En otras palabras, podríamos decir que cuando multiplicamos una constante
cualquiera (b) por cada una de las puntuaciones de una distribución (X;), la media de
esa distribución (X) se ve afectada y para obtener la nueva media (Y) también
debemos multiplicar esa constante a la media original (Y = b . X) .

4. La media de J muestras o media ponderada: Hasta ahora se ha hablado de la


media de una variable en una muestra con n casos u observaciones. Sin embargo, en
ocasiones se cuenta con la media de varios grupos en una variable e interesa
conocer la media de todas las observaciones juntas. Para ello, supongamos que
disponemos de las puntuaciones en la variable X en J muestras distintas o grupos
con n1, n2 , ... ,n1 observaciones y con medias X1,X2, ... ,X1, respectivamente. La media
total de los J grupos, que incluye las puntuaciones de todas las muestras, es igual a:
En el numerador aparece la media de cada grupo o muestra multiplicada por el
número de observaciones de dicho grupo, mientras que en el denominador figura la
suma del número de observaciones de los J grupos, que es igual al número de
observaciones total (n). Como se puede apreciar, la media de los J grupos no es más
que una ponderación de las medias de cada grupo en base al número de
observaciones de dicho grupo (n1 ). Es decir, la media de cada grupo tiene un peso en
la media total que está en función del tamaño de la muestra o número de casos de
cada grupo. Por ese motivo, a la media total (la media de todas las puntuaciones) se le
denomina media ponderada (X p). Un aspecto relevante que refleja esta propiedad, y
por ende el con - cepto de media ponderada, es que no podemos calcular la media de
una variable medida en distintos grupos como, simplemente, la media de las medias
de los grupos. Es necesario tener en cuenta el peso de la media de cada grupo a
través del número de casos de cada grupo (n1 . X 1). En el caso particular en el que
todos los grupos presentan el mismo número de observaciones (k), es decir, n 1 = n2 = ...
= n1 = k, la fórmula de la media ponderada se simplifica y es igual a:

donde J es el número de grupos o muestras. En este situación en la que los J grupos


tienen el mismo número de observaciones (k), la media total sí se corresponde con la
media de las medias de los grupos. Cuando los grupos difieren en el número de casos
es necesario aplicar la fórmula de la media ponderada general descrita previamente.

Limitaciones de la media aritmética

a) Cuando los datos están agrupados en intervalos, la media no se puede calcular si


el intervalo máximo no tiene límite superior y/o el intervalo mínimo no tiene límite
inferior. Por ejemplo, en la siguiente distribución de frecuencias:

b) La media es sensible a la existencia de unas pocas observaciones con valores


extremos en la distribución de frecuencias. Esta circunstancia se da en distribuciones
marcadamente asimétricas, por lo que no es recomendable la utilización de la media
en este tipo de distribuciones debido a que afecta a su representatividad como valor
central de la distribución. Estos valores extremos pueden ser bien producto de errores
en la recogida o grabación de los datos, o bien valores que aportan información
relevante de la variable. En el primer caso, se eliminan estas observaciones y la
distribución se vuelve más simétrica, por lo que podría calcularse la media aritmética.
En el segundo caso, se recomienda aplicar otros índices de tendencia central menos
sensibles a los valores extremos como la mediana, que se tratará en el siguiente
epígrafe.

2.2.2. Mediana

Tal y como se ha mencionado en el apartado anterior, cuando la distribución es


asimétrica una buena alternativa a la media aritmética para resumir la tendencia
central de las puntuaciones es la mediana. A diferencia de la media, la mediana no se
ve afectada por los valores extremos que pueda adoptar la variable debido a que en
su cálculo no intervienen todos los valores de la distribución sino únicamente los que
ocupan las posiciones centrales. Por tanto, en distribuciones asimétricas, la mediana
es un valor más apropiado para representar la tendencia central de la distribución.
Por otro lado, la mediana se puede obtener en todo tipo de variables, excepto en
variables cualitativas. Asimismo, conviene señalar que el valor de la mediana no tiene
por qué coincidir con un valor real de la variable (especialmente en variables
cuantitativas discretas). Se trata de un valor que cuantifica la tendencia central de la
distribución y que se ajusta a la siguiente definición:
La mediana de una variable X, representada por Md, se define como el valor que
divide la distribución de frecuencias de la variable en dos partes iguales, conteniendo
cada una el 50% de las observaciones.

Supongamos que hemos obtenido la puntuación de n participantes en una variable.


Para el cálculo de la mediana con pocos casos se procede de la siguiente manera: 62
1. En primer lugar, se ordenan las n puntuaciones de menor a mayor.
2. En segundo lugar, se observa si el número de observaciones n es impar o par.
■ Si n es impar, el valor de la mediana es el de la observación que ocupa la posición
central, dentro de ese conjunto de observaciones ya ordenadas. Esa posición central
coincide con la posición (n+l)/2.
■ Sin embargo, si el número de observaciones n es par, la mediana es la media
aritmética de los dos valores centrales de la distribución. Los dos valores centrales
son los que ocupan las posiciones n/2 y (n/2)+ l. Por lo tanto, la mediana es igual a:

donde Xn12 es el valor de la variable en la posición n/2 y X (n/ 2 )+l es el valor en la


posición (n/2)+1.

Como ocurría con la media aritmética, lo normal es que el número de observaciones


no sea tan pequeño, que aparezcan valores de observaciones repetidos y, que por
ello, los datos se presenten en tablas de distribución de frecuencias agrupados o no
en intervalos. En este caso, el intervalo en el que se encuentra la mediana se
denomina intervalo crítico y se corresponde con aquél en el que la frecuencia
absoluta acumulada n0 es igual o superior a !2 o la proporción acumulada (p0 ) es
igual o mayor a 2 0,50. La mediana se obtiene con la siguiente fórmula:

L; = Límite inferior exacto del intervalo crítico


n = Número de observaciones
nd = Frecuencia absoluta acumulada por debajo del intervalo crítico
ne = Frecuencia absoluta del intervalo crítico
I = Amplitud del intervalo crítico

La mediana se puede calcular en cualquier distribución de frecuencias de variables,


excepto cuando se trata de una variable cualitativa o de una variable agrupada en
intervalos en la que existe un intervalo abierto y éste es el intervalo crítico en el que se
encuentra la mediana. El motivo de no poder obtener la mediana en este último caso
es que necesitamos conocer la amplitud del intervalo crítico, valor que se desconoce
si el intervalo es abierto

2.2.3. Moda

La moda de una distribución, que se representa por Mo, se define como el valor o
categoría de la variable con mayor frecuencia absoluta.

Cuando en una variable existe un único valor con la frecuencia absoluta máxima, la
distribución presenta una única moda y es unimodal. Sin embargo, la distribución de
una variable no tiene por qué tener una única moda. De hecho, si son dos los valores
con la frecuencia más alta la distribución es bimodal, si son tres los valores sería
trimodal, ... En la Figura 2.2, la distribución de arriba es unimodal y la moda es el valor
X3 , mientras que la de abajo es bimodal, siendo las dos modas los valores X2 y X3 •
También puede ocurrir que una distribución no tenga moda, lo que se denomina
distribución amodal. Esto sucede cuando todos los valores tienen la misma frecuencia
absoluta; en este caso no se puede calcular la moda.

Cálculo de la moda según el tipo de variable:

En el caso de una distribución de una variable cualitativa, la moda es la categoría con


la máxima frecuencia.

En una distribución de una variable cuantitativa con los datos no agrupados en


intervalos, la moda es el valor con la mayor frecuencia absoluta.

Finalmente, si se trata de una distribución de una variable cuantitativa con los datos
agrupados en intervalos, se localiza el intervalo modal (que es el intervalo con la
frecuencia máxima) y la moda es el punto medio de dicho intervalo.

Por último, completando lo dicho hasta aquí, las principales características de la


moda son las siguientes:

a) Es un índice de cálculo sencillo y de fácil interpretación.


b) De los tres índices de tendencia central estudiados, la moda es el único que,
además de aplicarse a variables cuantitativas, se puede calcular en variables
cualitativas.
c) Cuando los datos están agrupados en intervalos y existen intervalos abiertos, la
moda se puede calcular, excepto si el intervalo modal coincide con el intervalo abierto.

2.2.4. Elección de un índice de tendencia central


Cuando se ha medido una variable en una muestra den observaciones, y se desea
seleccionar un valor que resuma adecuadamente la tendencia central de la
distribución de frecuencias, la primera pregunta a plantearse es: ¿qué medida de
tendencia central se debe utilizar? Como primera opción se recomienda la media
aritmética, porque en ella están basadas un gran número de técnicas estadísticas de
gran importancia y de uso frecuente que se estudiarán posteriormente. Únicamente
se desaconseja su utilización cuando la distribución es asimétrica, con unos pocos
valores extremos que pueden distorsionar la representatividad de la media como
tendencia central de la distribución.

Ahora la media aumenta mucho su valor y es igual a 19,8, pero la mediana no se ve


afectada por este valor extremo y sigue siendo igual a 5. En este caso, la media ya no
sería un índice representativo adecuado de los datos, mientras que la mediana sigue
resumiendo apropiadamente la tendencia central de las puntuaciones.

Por otra parte, la media es un índice que no tiene sentido calcular, tanto en el caso en
el que el nivel de medida de la variable sea nominal u ordinal, o cuando los datos
estén agrupados y existan intervalos abiertos en los extremos de la distribución.

Cuando la media no se pueda aplicar (o no sea recomendable su utilización), la


siguiente opción disponible es la mediana. Como se ha señalado previamente, la
mediana es más resistente a los valores extremos que generan asimetría en la
distribución (como en el ejemplo anterior), se puede obtener en variables con nivel de
medida ordinal, y, además, se puede calcular en distribuciones con datos agrupados
en intervalos con intervalos abiertos. Sin embargo, en ocasiones no se puede obtener
la mediana. Esto puede ocurrir por dos motivos: 1) el nivel de medida de la variable es
nominal o 2) con datos agrupados en intervalos, la mediana se encuentra en el
intervalo abierto. En esa situación, la única alternativa posible es utilizar la moda. Por
otro lado, como ya sabemos, la moda no se puede calcular cuando la distribución sea
amodal (no tiene moda) o el intervalo abierto coincide con el intervalo modal.

Hoy en día, con el uso de programas informáticos para el análisis estadístico de los
datos, se recomienda, siempre y cuando sea pertinente, el cálculo de los tres índices
para el estudio de la tendencia central de la distribución. Cuando las variables son
cualitativas únicamente puede utilizarse la moda como medida de tendencia central.
Sin embargo, en el caso de variables con nivel de medida ordinal, se pueden obtener
tanto la moda como la mediana. Por último, si la variable es cuantitativa se pueden
calcular los tres índices de tendencia central, lo que implica disponer de mayor
información para estudiar esta propiedad de las distribuciones. Es interesante
resaltar que cuando la distribución de una variable cuantitativa es simétrica y
unimodal, coinciden los valores de la media, mediana y moda.

2.3. ÍNDICES DE POSICIÓN


En la primera parte de este tema hemos definido medidas que representaban al
conjunto de datos. Interesaba disponer de un indicador o resumen numérico de la
tendencia central de todas las puntuaciones. Pues bien, ahora la cuestión que nos
planteamos va dirigida a un sujeto o dato particular y la podríamos formular de la
siguiente manera : en una distribución de frecuencias de una variable, un sujeto «s»
obtiene una puntuación X5 , ¿qué posición ocupa este sujeto en la distribución con
respecto al resto de participantes?, ¿qué puntuación tendría que obtener para
superar a un porcentaje determinado de participantes de la distribución? Por
ejemplo, en un test de creatividad administrado a los 30 niños de una clase, podemos
plantearnos las siguientes cuestiones: ¿qué puntuación debe alcanzar un alumno
para superar al 50% de sus compañeros?, ¿qué puntuación debe obtener para estar
entre el 25% de los más creativos? Imaginemos que un alumno obtiene una
puntuación de 15, ¿qué posición le corresponde a X = 15 en el conjunto de
puntuaciones de los alumnos de la clase?, ¿está entre los más creativos de la clase?,
lqué porcentaje de sus compañeros están por debajo de él en creatividad o qué
porcentaje le superan en dicha variable? Los índices estadísticos de posición
responden a este tipo de preguntas. Informan acerca de la posición relativa de un
sujeto con respecto a su grupo de referencia, dentro de la distribución de frecuencias
de la variable. Es decir, indican la situación de una puntuación con respecto a un
grupo, utilizando al grupo como marco de referencia.

Dado que se trata de localizar la posición de un sujeto en una distribución, para


construir un estadístico de posición, debemos dividir la distribución en un número de
partes o secciones iguales entre sí en cuanto al número de observaciones. Por
ejemplo, si queremos dividir una distribución en dos partes iguales, necesitamos un
único valor para esa partición, que coincide con la mediana de la distribución
(recuerde que la mediana divide la distribución en dos partes, cada una con el 50% de
las observaciones). En el caso de querer dividirla en tres partes, cada una con un
tercio de las observaciones, se necesitan dos valores de la variable, y así
sucesivamente. Dependiendo de cuantos valores de la variable se utilicen para dividir
la distribución, se puede hablar de diferentes medidas de posición. A continuación se
describen tres índices estadísticos de posición: los percentiles, los cuartiles y los
deciles. Se usan con mucha frecuencia en la presentación de resultados estadísticos,
especialmente los dos primeros. En Psicología, por ejemplo, se utilizan para las
normas de interpretación de las puntuaciones de los tests o baremos, como se verá
en la asignatura de Psicometría el próximo curso. Asimismo, es conveniente señalar
que la aplicación de estos índices requiere al menos de un nivel de medida ordinal en
la variable objeto de estudio.
2.3.1. Percentiles
Los percentiles, también denominados centiles, son los 99 valores que dividen en 100
partes iguales la distribución de frecuencias de la variable. El percentil k, denotado
por Pk, es un valor que deja por debajo de sí un porcentaje k de observaciones, donde
k = 1, 2, ... 99 de la variable de interés.

Aunque el concepto de percentil es sencillo y fácil de entender, lo cierto es que no hay


una única manera de calcularlo. En la literatura estadística se recogen numerosos
métodos que, por lo general, proporcionan valores similares pero no idénticos entre sí.
De hecho no es de extrañar que dependiendo del procedimiento aplicado y el
software informático utilizado obtengamos percentiles ligeramente distintos, aunque
todos válidos según la definición general de lo que es un percentil. En este capítulo se
va a utilizar el método más sencillo para su realización a mano, que es la manera en la
que el alumno puede consolidar mejor el aprendizaje de la materia. Como se deriva de
la definición previa, el percentil 50, P50, de una distribución deja por debajo de sí al
50% de las observaciones y por en - cima al otro 50%. El lector puede percatarse que
esa definición coincide con la de mediana de una distribución estudiada previamente.
En efecto, el valor de la mediana coincide con el percentil 50 de la distribución. De
este modo, la mediana es uno de los 99 posibles percentiles de una distribución, en
concreto, el percentil 50. Por este motivo, el cálculo de los percentiles lo vamos a
realizar utilizando una extensión del método expuesto para la mediana. La diferencia
entre el cálculo de la mediana y de los percentiles, estriba en que, en la mediana se
trataba de localizar la posición de !2 en la columna de las frecuencias absolutas
acumuladas. 2 En cambio, en los percentiles y de forma más general, se hace en base
al número n · k, donde n es el número de casos y k es el percentil que 100 n -k
deseamos obtener. -- es el número de casos que se correponden con 100 el k% del
percentil y se obtiene a partir de una sencilla regla de tres: sin observaciones son el
100% de los participantes, ¿cuántas observaciones serán el k% de los participantes? n
observaciones ➔ 100% de los participantes ⇒ x = n x k x ➔ k% de los participantes 100

Este número, ~~i, es igual a ~ cuando calculamos el percentil 50. En n • k n • 50 n efecto,


k = 50 por lo que -- = - - = - .

Cálculo de los percentiles con datos agrupados en intervalos:

El primer paso consiste en saber qué número de casos, de todos los que tenemos (n),
deja por debajo de sí el percentil k. Ese valor lo obtenen -k mos calculando el valor de
--. 100 A continuación localizamos el intervalo en el que se encuentra el percentil k.
Este intervalo se denomina interva lo crítico y se corresponde con aquél en el que la
frecuencia absoluta acumulada nª es igual o superior a ~~i, es decir, al k% den. Por
último, obtenemos el percentil k aplicando la siguiente fórmula:

nd = Frecuencia absoluta acumulada por debajo del intervalo crítico ne = Frecuencia


absoluta del intervalo crítico L; = Límite inferior exacto del intervalo crítico I = Amplitud
del intervalo

Es interesante resaltar que cuando n · k es exactamente igual a la frecuencia


acumulada hasta un valor o intervalo, como en este caso, el percentil se corresponde
directamente con el límite superior exacto del intervalo crítico.

Con el método descrito se puede calcular el valor de cualquiera de los 99 percentiles


de una distribución. Sin embargo, puede suceder que se t enga un valor o puntuación
de la variable, X;, y nos interese saber qué percentil ocupa ese valor en la distribución.
Es decir, ¿qué percentil le corresponde a la puntuación X¡? Realmente se está pidiendo
el valor de k, dado el valor de X;, Para realizar ese cálculo hay que despejar k de la
ecuación anterior, obteniendo la siguiente fórmula: Cálculo de k para X;:

Cuando se calcula a qué percentil corresponde una puntuación determinada, puede


ocurrir que obtengamos un valor con decimales como en el ejemplo anterior. En este
caso, y dado que los percentiles son 99 valores enteros, tomamos la cantidad entera
más próxima. Para ello seguimos la siguiente regla: si el primer decimal es igual o
mayor a cinco, entonces tomamos el número entero superior; si es menor que cinco
tomamos el número entero inferior. En este ejemplo el resultado es P9 1, 5 = 20, con k =
91,5. La cantidad entera más próxima a 91,5 es 92, por lo que el percentil es 92, P92 = 20.

Otra situación que nos podemos encontrar es que se pida el percentil de una
puntuación que es, al mismo tiempo, el límite exacto superior de un intervalo y el límite
exacto inferior del siguiente intervalo. En este caso se puede elegir cualquiera de los
dos intervalos como intervalo crítico y obtendríamos el mismo resultado.

2.3.2. Cuartiles y deciles

Los cuartiles y deciles son dos estadísticos de posición en los que las secciones o
partes en las que se divide la distribución de frecuencias son muchas menos que en
los percentiles.

Los cuartiles son tres valores de la distribución que dividen en cuatro partes de igual
frecuencia a la distribución. El primer cuartil, que se representa por Q1, deja por
debajo de sí al 25% de las observaciones y por encima al 75% restante. Como se puede
deducir fácilmente, se corresponde con el percentil 25 de la distribución, esto es, Q1 =
P25 . El segundo cuartil, Q2, deja por debajo de sí al 50% de las observaciones y por
encima al otro 50%. Es equivalente al percentil 50, y, por ende, a la mediana de la
distribución, Q2 = P50 = Md. Por último, el tercer cuartil, Q3, deja por debajo de sí al
75% de las observaciones y por encima al 25% restante. Se corresponde con el
percentil 75 de la distribución, Q3 = P75 .

Debido a la equivalencia con los percentiles, para el cálculo de los tres cuartiles se
utilizan los métodos propuestos para los percentiles. En concreto, Q1 se calcula
mediante P25 , Q2 con P50, y Q3 con P75 . Por otra parte, los cuartiles se utilizan para
construir índices para el estudio de la variabilidad de una distribución de frecuencias,
como se verá en el próximo tema.

Los deciles son nueve valores que dividen en diez partes iguales a la distribución. Se
representan por O¡, donde i = 1,2, ... ,9. El primer decil, 0 1 deja por debajo de sí al 10% de
las observaciones, el 0 2 al 20%, el 0 3 al 30% y así hasta el 0 9 que deja por debajo de
sí al 90% de las observaciones. De este modo, 0 1 = P10 , 0 2 = P20 , .. . , 0 5 = P50 = Md, .. . 0
9 = P90 . también se pueden calcular los deciles a partir de los percentiles
correspondientes.
3. Medidas de variabilidad y forma

3.1. INTRODUCCIÓN

En este tema se van a abordar dos nuevas propiedades de una distri bución de
puntuaciones: la variabilidad o dispersión y la forma de la distribución. La segunda
propiedad de una distribución de frecuencias, y de la misma importancia que la
tendencia central estudiada en el tema anterior, es la variabilidad o dispersión de los
datos. La variabilidad hace referencia al grado en que las puntuaciones se asemejan
o diferencian entre sí, o se aproximan o alejan de una medida de tendencia central
como la media aritmética. Se han propuesto numerosos índices para medir la
variabilidad de una distribución. En este tema se describen los índices de dispersión
más habituales en la práctica como son la amplitud total, la varianza y desviación
típica, y la amplitud intercuartil. Además, se presenta un índice, el coeficiente de
variación, que resulta útil para comparar distintas distribuciones de frecuencias en
términos de su variabilidad. Posteriormente, se analiza la forma de la distribución a
través del estudio de la asimetría y de la curtosis de la distribución de frecuencias.
Como se ha visto en el primer tema, mediante la representación gráfica se puede
analizar si una distribución es más o menos simétrica, qué tipo de asimetría la
caracteriza y el grado de apuntamiento de los datos. En este tema se describen dos
índices de asimetría así como un coeficiente de curtosis que ofrecen resultados
numéricos sobre ambos aspectos de la forma de la distribución. A continuación se
presenta el diagrama de caja, un tipo de representación gráfica que permite una
inspección visual rápida de la asimetría y de los posibles valores atípicos de la
distribución. Por último, con el fin de poder comparar a los sujetos entre sí y en
diferentes variables, se describen dos puntuaciones que se derivan de las
puntuaciones directas: las puntuaciones diferenciales y las típicas. Se presentan sus
principales propiedades y la información que proporcionan ambos tipos de
puntuaciones.

3.2. MEDIDAS DE VARIABILIDAD


el estudio de una distribución resultaría incompleto sin el análisis de una segunda
propiedad tan importante como la tendencia central; esto es, la variabilidad de los
datos. La variabilidad o dispersión hace referencia al grado de variación que hay en
un conjunto de puntuaciones.

En la Figura 3.l(a) las puntuaciones están muy próximas entre sí y concentradas en


torno al valor promedio, por lo que parece que existe poca dispersión en los datos. En
la Figura 3.l(b), las puntuaciones están más alejadas entre sí y no están tan
concentradas alrededor de la media, existiendo mayor variabilidad. De este modo,
cuanto menor es la variabilidad en una distribución, más homogénea es la muestra
de sujetos en la variable que estamos midiendo. En el caso extremo y poco habitual
de máxima homogeneidad, todos los valores de la variable serían iguales entre sí y a
la media, y no habría variabilidad en los datos. Por otro lado, cuando existe cierta
dispersión en los datos, la muestra es más o menos heterogénea y las puntuaciones
difieren entre sí. Con el fin de cuantificar la dispersión presente en los datos, se han
definido numerosas medidas o índices de variabilidad. Dos tipos de índice se pueden
distinguir: aquellos que miden el grado en el que las puntuaciones se asemejan o
diferencian entre sí, y aquellos otros en los que la dispersión se mide con respecto a
alguna medida de tendencia central como la media aritmética. En este tema se van a
estudiar dos índices del primer tipo: la amplitud total o rango y la amplitud
intercuartil. Del segundo tipo, y de gran importancia en la estadística, se van a
describir la varianza y la desviación típica. Tanto unos como otros son útiles para el
estudio de la variabilidad de una distribución de frecuencias, pero resultan poco
adecuados cuando se trata de comparar la dispersión de dos o más distribuciones.
Para realizar dicho análisis, un índice apropiado y que se presenta en este tema es el
coeficiente de variación, que se basa en la relación entre la desviación típica y la
media de cada distribución de frecuencias.

3.2.1. Amplitud total o rango


Una primera aproximación a la dispersión de los datos es el índice de amplitud total,
también denominado rango o recorrido de las observaciones. La amplitud total,
denotada como AT, de un conjunto de puntuaciones es la distancia que hay en la
escala numérica entre los valores que representan la puntuación máxima y la
puntuación mínima. Es decir:

En variables agrupadas en intervalos la puntuación máxima es el límite superior


exacto del intervalo máximo y la puntuación mínima es el límite inferior exacto del
intervalo mínimo.

Como se puede apreciar, este índice es muy sencillo de calcular y utiliza muy poca
información del conjunto de puntuaciones, ya que se trata sólo de la diferencia entre
el mayor valor (XmaJ y el menor valor (Xmin) de la variable. Por otro lado, y como
consecuencia de lo anterior, su principal inconveniente es que es sensible únicamente
a los valores extremos de la distribución. Por esta razón, este índice no captura la
poca o mucha dispersión que pueda existir entre los restantes valores, que son la
gran mayoría de las puntuaciones. Aun así, en el análisis de los datos se recomienda
incluir el valor de la amplitud total como información complementaria de otras
medidas de dispersión más relevantes como la varianza y la desviación típica, que se
estudiarán a continuación.

3.2.2. Varianza y desviación típica


La medida de variabilidad también se puede basar en la distancia entre las
puntuaciones y un valor central de la distribución como la media aritmética. De este
modo, una distribución con poca variabilidad es aquella en la que la mayoría de las
puntuaciones están muy próximas a la media, mientras que en una distribución con
mucha variabilidad, las puntuaciones están alejadas o muy alejadas del valor medio
de la variable.

promedio de las desviaciones o diferencias de cada puntuación

El problema de este índice es que, según vimos en la primera propiedad de la media


en el tema anterior, el sumatorio del numerador siempre es igual a cero, por lo que
carece de sentido como índice.

Con el fin de poder utilizar un índice con estas desviaciones, evitando que sea igual a
cero, se han propuesto dos soluciones. La primera consiste en calcular el valor
absoluto de cada desviación antes de realizar la suma, obteniendo un índice
denominado desviación media cuya expresión es:
La desviación media se emplea muy poco en la actualidad, debido a que es poco
manejable matemáticamente por el uso del valor absoluto, lo que ha llevado a que
apenas existan técnicas estadísticas basadas en este índice. Una segunda alternativa
al problema del signo de las desviaciones con - siste en basarnos en el cuadrado de
las diferencias y así obtenemos la varianza que se define de la siguiente manera:

La varianza de un conjunto de n puntuaciones en una variable X, denotada por s;, se


define como el promedio de los cuadrados de las desviaciones de las puntuaciones
con respecto a la media. Formalmente se expresa como:

Es importante resaltar que para el cálculo de la varianza primero se elevan al


cuadrado las diferencias y después se obtiene el promedio de esas desviaciones al
cuadrado. Otra forma alternativa de calcular la varianza, que se deriva de la fórmula
anterior y que simplifica los cálculos, es la sig

Por otra parte, cuando los datos se presentan en tablas de distribución de


frecuencias es necesario tener en cuenta la frecuencia de cada intervalo. En estos
casos, la varianza se puede obtener utilizando las dos expresiones equivalentes
siguientes:

Varianza a partir de una distribución de frecuencias absolutas:

donde:
n es el número total de observaciones
X¡ es el valor i en la variable X o el punto medio del intervalo
n¡ es la frecuencia absoluta del valor o del intervalo

Varianza a partir de una distribución de frecuencias relativas:

donde:
p¡ es la frecuencia relativa o proporción de observaciones del valor o del intervalo i

Como se puede observar, la varianza, al basarse en diferencias al cuadrado, es un


número positivo que se expresa en las unidades de la variable al cuadrado. Por
ejemplo, supongamos que la variable X se mide en metros. En este caso, las
desviaciones de las puntuaciones con respecto a la media (x; - x), también vendr~n
expresadas en metros, mientras que al elevarlas al cuadrado, (x; - x) las unidades se
elevan al cuadrado. Por lo tanto, la varianza viene expresada en las mismas unidades
que la variable pero al cuadrado, en este ejemplo, en metros cuadrados. Con el fin de
lograr una medida de dispersión en las mismas unidades que la variable y que sea
más fácilmente interpretable, se calcula la raíz cuadrada de la varianza y se obtiene
un índice que se denomina desviación típica.

La desviación típica de un conjunto de n puntuaciones, que se representa por Sx, es


la raíz cuadrada positiva de la varianza, y la fórmula para calcularla es:

Tanto la varianza como la desviación típica son índices de dispersión muy útiles en el
desarrollo posterior de la estadística inferencia!, estando en la base de numerosas
técnicas estadísticas. Por lo general, a la hora de cuantificar la variabilidad de los
datos, la desviación típica se suele utilizar más que la varianza debido a que se
expresa en las mismas unidades de medida que la variable objeto de estudio.
Asimismo, ambos índices presentan una serie de propiedades de las que pueden
destacarse las siguientes: 1. El cálculo de la varianza y la desviación típica, a
diferencia de otros índices de dispersión, requieren el uso de todas las puntuaciones
observadas en la distribución. 2. La varianza y la desviación típica miden la
variabilidad de los datos con respecto a la media aritmética, por lo que únicamente
deben aplicarse si es apropiado utilizar la media como medida de tendencia central.
3. La varianza y la desviación típica siempre son no negativas, es decir, pueden ser
iguales o mayores que cero. Son iguales a cero únicamente si todas las puntuaciones
son iguales entre sí. En este caso, no habría variabilidad o dispersión en los datos. En
el resto de los casos, la varianza y la desviación típica son positivas, siendo sus
valores mayores a medida que aumenta la variabilidad de las puntuaciones. 4. Si a las
puntuaciones de la variable X les aplicamos una transformación lineal: Y¡ = bX¡ + a la
varianza de las nuevas puntuaciones Y será 5~ = b2 5; y la desviación típica será Sy =
lbl S x · Es decir, si a una variable X se le suma o resta una constante a, la varianza y
desviación típica de la variable original no se ven afectadas y siguen siendo las
mismas. En cambio, cuando multiplicamos los valores de X por una constante b, la
varianza queda multiplicada por la constante al cuadrado y la desviación típica por el
valor absoluto de dicha constante.

cuasivarianza

se divide por n - 1, en lugar den como en la varianza.

cuasidesviación típica

La cuasivarianza y la cuasidesviación típica son medidas de dispersión que se utilizan


en inferencia estadística.

3.2.3. Coeficiente de variación

por lo general, las variables objeto de estudio se miden en unidades distintas no tiene
sentido compararlas en base a los valores de sus varianzas o desviaciones típicas.
Para paliar este inconveniente es necesario definir un índice de variabilidad relativa
que no dependa de las unidades de medida. Un coeficiente que cumple con estos
requisitos es el coeficiente de variación, que se expresa en porcentajes y se define
como:

El coeficiente de variación está definido para variables con X > O y es recomendable


que su resultado se acompañe de la media y desviación típica de la distribución a
partir de las cuales ha sido calculado. Es importante resaltar que, cuando
comparamos dos conjuntos de puntuaciones obtenidas de la misma variable, también
es necesario el coeficiente de variación para comparar la dispersión de ambas
distribuciones. Únicamente es posible utilizar la desviación típica cuando la media de
ambos grupos es la misma y, en ese caso, llegaríamos a las mismas conclusiones con
ambos índices.

3.2.4. Amplitud intercuartil

La varianza y la desviación típica, junto con la media aritmética, son los estadísticos
recomendados para estudiar la variabilidad y la tendencia central de una
distribución de frecuencias. Sin embargo, como se ha mencionado previamente, en
ocasiones, y debido a la asimetría de la distribución, no es aconsejable el uso de estos
índices y debemos buscar una alternativa. En estas circunstancias, un índice
resistente de dispersión adecuado, que se utilizaría junto con la mediana como
medida de tendencia central, sería la amplitud intercuartil.

La amplitud intercuartil, A1Q, o rango intercuartil es la diferencia entre el tercer y el


primer cuartil. Es decir:

Como se puede observar, este índice no informa de la variabilidad del conjunto de


puntuaciones, sino del 50% de las mismas comprendidas entre el percentil 25 y el 75
de la distribución.

3.3. MEDIDAS DE FORMA

Otro aspecto importante a considerar en la distribución de frecuencias es la forma


que presenta la distribución. La forma se estudia a través de dos propiedades, la
asimetría y la curtosis. A continuación se van a describir dos índices de asimetría y
un coeficiente de curtosis, que aportan datos numéricos a ambas propiedades de la
forma de la distribución

3.3.1. Asimetría de una distribución


La asimetría de una distribución nos indica el grado en el que las puntuaciones se
reparten por debajo y por encima de la medida de tendencia central. Existen
diferentes índices para cuantificar esta propiedad, sin embargo, en este apartado
vamos a describir los dos índices de asimetría que se utilizan con más frecuencia: el
de Pearson y el de Fisher. Índice de asimetría de Pearson: se basa en la relación entre
la media y la moda, y matemáticamente se expresa de la siguiente manera:
Se trata de un índice adimensional (no tiene unidades de medida) que se aplica a
distribuciones unimodales (con una única moda). Cuando la distribución es simétrica,
la media y la moda coinciden, por lo que el numerador se anula y el valor de Ap = O.
En distribuciones con asimetría positiva, la media es mayor que la moda, por lo que
Ap > O. Por otro lado, cuando la asimetría es negativa, el valor de la moda es superior
al de la media y, en consecuencia Ap< O.

A continuación se describe un segundo índice para cuantificar la asimetría de una


distribución de frecuencias denominado Índice de asimetría de Fisher. Se basa en las
distancias de las puntuaciones respecto a su media elevadas al cubo, por lo que su
valor puede ser positivo, negativo o cero. Su expresión matemática es:

Para el caso en que los datos se presenten en tablas de distribución de frecuencias,


su expresión es:

Este índice tiene en cuenta todas y cada una de las puntuaciones de la muestra por
lo que puede considerarse el mejor índice de asimetría. Al igual que el índice de
Pearson su valor es O si la distribución es simétrica (AF= O); menor que O si la
distribución es asimétrica negativa (AF< O); y mayor que O si es asimétrica positiva
(AF> O) .

3.3.2. Índice de curtosis

Como ya se estudió en el primer tema, la curtosis se refiere al grado de apuntamiento


de los datos en la distribución de frecuencias. Tomando como referencia la curva
normal, que se estudiará en el Tema 8, la distribución puede adoptar tres formas
diferentes: a) leptocúrtica: si la distribución es muy apuntada; b) platicúrtica: si es muy
aplastada; y c) mesocúrtica: si muestra un grado de apuntamiento intermedio. A
continuación se presenta un índice que cuantifica el grado de apuntamiento de la
distribución de frecuencia s. El índice de curtosis se basa en las distancias de cada
puntuación respecto a la media elevadas a la cuarta potencia, y matemáticamente se
expresa como:

Una distribución en la que el índice sea O (Cr= O) se dice que es mesocúrtica y tiene
un grado de apuntamiento similar al de la curva normal. Si el índice es positivo (Cr> O)
la distribución es leptocúrtica y el apuntamiento es mayor que en la distribución
normal. Por el contrario, si el índice es negativo (Cr< O) la distribución es platicúrtica y
el grado de curtosis o apuntamiento es menor que en la curva normal.

3.4. DIAGRAMA DE CAJA

El diagrama de caja o también llamado gráfico de caja y bigotes (boxplots o box and
whiskers) fue propuesto por Tukey ( 1977). Se trata de una presentación visual que
resulta útil para estudiar la asimetría de una variable cuantitativa, así como para
detectar si hay valores extremos o atípicos (outliers) en la distribución de frecuencias
(sin agrupar en intervalos). El diagrama se representa mediante una caja rectangular
(ver Figura 3.3), cuya altura se corresponde con la amplitud o rango intercuartil A1Q =
Q3 - Q1 = P7s - P 2s. Dentro de la caja se dibuja una línea para indicar dónde se sitúa la
mediana, que como ya se ha estudiado, coincide con el segundo cuartil o Q2• La caja
es atravesada por una línea vertical llamada bigote, en cuyos extremos se sitúan los
valores mínimos y máximos de la variable (sin considerar los valores atípicos en caso
de que existan). Los límites que determinan si un valor es atípico se calculan
multiplicando la amplitud intercuartil (A1Q) por 1,5 y restando este resultado al primer
cuartil Q1 (cálculo del límite inferior) o sumándolo al tercer cuartil Q3 (cálculo del límite
superior). O lo que es lo mismo:

Cuando existen casos extremos o atípicos, éstos aparecen como un círculo pequeño
por encima o por debajo de los bigotes del diagrama de caja. En la Figura 3.3 se
puede apreciar que en la parte baja de la distribución no hay casos atípicos (no
figura ningún círculo por debajo del bigote), mientras que se puede observar un caso
atípico en los valores altos, por encima del bigote superior. Por otra parte, para
estudiar la asimetría se va a tener en cuenta la longitud de los bigotes y el número de
casos atípicos en ambas colas de la distribución: si los bigotes tienen la misma
longitud y el mismo número de casos atípicos en ambos lados, diremos que es
aproximadamente simétrica. Por otro lado, si los bigotes son de igual longitud pero
hay más casos atípicos en un extremo en una cola de la distribución, entonces
diremos que la distribución presenta asimetría (Pardo, Ruiz y San Martín, 2009). Por
último, si los bigotes presentan diferente longitud estamos ante una distribución
asimétrica, como es el caso que se ha representado en la Figura 3.3, en el que la
longitud del bigote superior es mayor que la del bigote inferior.

3.5. PUNTUACIONES TÍPICAS


Estos son los primeros datos de los que habitualmente disponemos, pero la
comparación de las puntuaciones directas de un mismo sujeto en dos variables
distintas puede llevarnos a confusión, ya que las puntuaciones directas nos ofrecen
muy poca información. De hecho, conocida una puntuación directa no sabemos si se
trata de un valor alto o bajo porque esto depende del promedio del grupo.

Si a una puntuación directa X; le restamos la media de su grupo obtenemos una


puntuación diferencial o de diferencia, que representamos por X; (minúscula) y que,
por tanto, viene definida así:

Las puntuaciones diferenciales aportan más información: nos indican si la


puntuación coincide con la media de su grupo, es inferior o es superior a ella. Estas
puntuaciones presentan las siguientes propiedades:

a) su media es cero: x = O

b) la varianza de las puntuaciones diferenciales es igual a la varianza de las


puntuaciones directas:
Por tanto, al restar a las puntuaciones directas su media hemos obtenido una nueva
escala con media O y con idéntica varianza a las puntua - ciones directas. Sin
embargo, dos puntuaciones diferenciales idénticas pueden tener un significado muy
diferente en función de la media y de la varianza de las distribuciones de las que
proceden. Para eliminar este inconveniente se utilizan las puntuaciones típicas. Las
puntuaciones típicas van más allá y nos permiten no sólo comparar las puntuaciones
de un sujeto en dos variables distintas, sino también comparar dos sujetos distintos
en dos pruebas o variables distintas.

Una puntuación típica o tipificada viene definida por:

Al proceso de obtener puntuaciones típicas se llama tipificación. En realidad una


puntuación típica indica el número de desviaciones típicas que se aparta de la media
una determinada puntuación.

Las puntuaciones típicas tienen las siguientes propiedades:

a) su media es cero

b) su varianza es igual a 1

Las puntuaciones típicas reflejan las relaciones entre las puntuaciones con
independencia de la unidad de medida. Por este motivo permiten hacer
comparaciones entre distintos grupos e incluso entre distintas variables.

4. Relación entre variables 1 (pág 153)

4.1. INTRODUCCIÓN
4.2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS
4.2.1. Tabla de contingencia
4.2.2. Representación gráfica: diagrama de barras
conjunto
4.2.2.1. Diagrama de barras adosadas
4.2.2.2. Diagrama de barras apiladas
4.2.3. Medidas globales de asociación entre variables
cualitativas
4.2.3.1. Independencia y x2
4.2.3.2. Coeficiente C de Contingencia
4.2.3.3. Coeficiente V de Cramer
4.2.3.4. Coeficiente <p
4.3. RELACIÓN ENTRE VARIABLES ORDINALES
4.3.1. Coeficiente de correlación por rangos de
Spearman

5. Relación entre variables II (pág 195)

5.1. INTRODUCCIÓN
5.2. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS
5.2.1. Representación gráfica de la relación: diagrama de dispersión
5.2.2. Covarianza
5.2.3. Coeficiente de correlación lineal de Pearson
5.2.3.1. Cálculo
5.2.3.2. Interpretación y características
5.2.3.3. Casos particulares
5.2.3.3.1. Relación entre variables ordinales
5.2.3.3.2. Relación entre variables dicotómicas
5.2.3.3.3. Relación entre una variable dicotómica y otra cuantitativa
5.3. COEFICIENTES DE CORRELACIÓN EN FUNCIÓN DEL TIPO DE VARIABLE: TABLA
RESUMEN
5.4. REGRESIÓN LINEAL SIMPLE
5.4.1. Cálculo de los coeficientes de regresión
5.4.2. Valoración del modelo
5.4.2.1. La varianza error
5.4.2.2. El coeficiente de determinación
5.4.3. Características del modelo de regresión
S.S. REGRESIÓN LINEAL MÚLTIPLE

También podría gustarte