Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En el caso de dos variables podemos utilizar índices que nos indiquen hasta qué
punto están ambas variables relacionadas entre sí (índices de asociación), así como
procedimientos que nos permitirán predecir el valor de una variable en función de
otra ( ecuaciones de regresión). Temas 4 y 5.
Para representar a las variables se utilizan letras latinas mayúsculas. Para referirnos a
un valor cualquiera de la variable X se utiliza el subíndice i (X¡), siendo n el número de
elementos que componen la muestra, por lo que, de manera genérica, se designa la
variable como: X¡ siendo i = 1, 2, 3 ... , n
Para cada tipo de variable existen unos procedimientos estadísticos apropiados para
hacer el mejor uso de la información que contienen los valores de las variables.
A) ESCALA NOMINAL
La escala de medida nominal consiste en la asignación, puramente arbitraria de
números o símbolos a cada uno de los valores de la variable. Por tanto, la única
relación que se tiene en cuenta es la de igualdad (y la desigualdad), que implica la
pertenencia o no a una categoría determinada. En la escala nominal los valores de la
variable se denominan categorías. Usando una escala nominal podemos decidir si un
sujeto es igual o diferente a otro, pero no podemos establecer relaciones de orden
respecto a esa variable, ni de cantidad.
A las variables que presentan un nivel de medida nominal se les denomina variables
cualitativas o categóricas. Las variables cualitativas se clasifican además, en función
del número de categorías que presentan. Si una variable presenta solo dos categorías
se dice que es una variable dicotómica (por ejemplo, el sexo); si presenta más de dos
categorías se dice que es una variable politómica (por ejemplo, el estado civil).
B) ESCALA ORDINAL
En la escala ordinal se asignan números a objetos para indicar la extensión relativa
en que se posee una característica. Los datos pueden utilizarse para jerarquizar u
ordenar las observaciones, pero sin indicar la distancia que hay entre las posiciones.
Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que
se está clasificando. Esta escala no solo permite la identificación y diferenciación de
los sujetos sino que además permite establecer relaciones del tipo «mayor que» o
«menor que», aunque no se plantea una distancia entre unas medidas y otras. En este
caso, la asignación de números a las distintas categorías no puede ser
completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas.
Las variables ordinales también reciben el nombre de cuasicuantitativas.
C)ESCALA DE INTERVALO
Las escalas de intervalos son aquellas que ordenan los objetos según la magnitud del
atributo que representan y proveen intervalos iguales entre las unidades de medida.
Con la escala de intervalo, los números asignados a los objetos, no solo permiten
decidir si un objeto es igual o diferente a otro o si posee en mayor o menor grado la
característica de interés; además, la distancia entre los distintos valores consecutivos
de la variable es la misma. Por convención, las puntuaciones obtenidas de test
psicológicos se consideran que están medidas en una escala de intervalo. Como se ha
visto en el ejemplo, lo que caracteriza a una escala de intervalo es la existencia de una
unidad de medición común y constante. En la escala de intervalo el origen es
arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos
midiendo.
D) ESCALA DE RAZÓN
En la escala de razón los números asignados a los objetos admiten como válidas las
relaciones de igualdad-desigualdad, orden, suma, resta, multiplicación y división. Se
caracteriza porque tiene todas las características de una medida de intervalo y,
además, se le puede asignar un punto de origen verdadero de valor cero, es decir, el
valor cero de esta escala significa ausencia de la magnitud que estamos midiendo.
Dado que el cero ya no es arbitrario, sino un valor absoluto, se puede afirmar que A
tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B. La altura y el
peso son dos ejemplos típicos de escala de razón.
Hay que tener en cuenta que en muchas ocasiones el nivel de medida de una variable
va a depender de cómo se haya definido.
Es muy importante, por tanto, la definición operativa de una variable (cómo se define
y se registra) porque puede determinar su nivel de medida.
La mayoría de las variables psicológicas se considera que están medidas en una
escala de intervalo. Así, si la variable perseverancia, que es un rasgo de personalidad,
se ha medido mediante una prueba psicológica o test, su nivel de medida es de
intervalo. Sin embargo, si se define perseverancia como el número de intentos o
ensayos que realiza una persona para conseguir un objetivo se trata de una escala de
razón.
Si la variable discriminación visual sólo puede tomar dos valores (discrimina/no
discrimina) estamos en una escala nominal. Si definimos discriminación visual como,
por ejemplo, número de veces que una persona discrimina en 20 ensayos, se trataría
de una escala de razón. Las variables medidas en escala de intervalo y de razón son
variables cuantitativas. Las variables cuantitativas se clasifican, además, en función
de los valores numéricos que pueden asignarse en continuas y discretas.
Una variable continua es aquella para la que, dados dos valores, siempre se puede
encontrar un tercer valor que esté incluido entre los dos primeros. Un ejemplo de
variable continua es el peso, ya que entre los valores 79 y 80 kg. se pueden considerar
uno, dos, tres o todos los decimales que se quiera. Una variable discreta es aquella
que adopta valores aislados. Por tanto, fijados dos valores consecutivos, no se puede
tomar ninguno intermedio. Un ejemplo de variable discreta es el número de hijos
(huelga decir que se pueden tener dos hijos o tres, pero nunca un valor intermedio
entre ambos) .
en Psicología se trabaja con valores de variables que pueden ser nominales, ordinales,
de intervalo o de razón, con las características propias de cada escala. En cualquier
caso, una vez que el investigador ha recabado la información a través del proceso de
medida y recogido los datos correspondientes, dispone de un listado o base,
comúnmente llamado matriz de datos. La generación de una base de datos supone la
codificación previa de las observaciones, la introducción de los datos en algún
programa informático, la depuración de los datos ya grabados (detección y
tratamiento de los errores de grabación y valores perdidos), y eventualmente la
realización de transformaciones de variables que faciliten su posterior tratamiento
estadístico. Hay muchos programas estadísticos que se pueden utilizar para
organizar y analizar los datos. En concreto, en el curso virtual de la asignatura hay
disponibles tutoriales sobre el uso de Excel para hacer distribuciones de frecuencia,
gráficos y diversos análisis. Codificar datos es asignar números a las variables
cualitativas y cuasicuantitativas, y registrar los valores de las variables cuantitativas
que constituyen la base de datos, así como asignar un código (que puede ser un
espacio en blanco o un valor numérico) a los valores perdidos (aquellos que no han
sido registrados u observados). En la matriz de datos, los casos se sitúan en las filas y
las variables en las columnas.
Los datos perdidos son valores que no han sido registrados, habitualmente porque el
participante no ha consignado ese dato. Existen procedimientos de imputación de
datos, basados en los valores válidos de otros casos que se utilizan en ocasiones en
variables cuantitativas. Un dato atípico es un valor muy diferente al resto de valores
de la misma variable. Suelen ser ocasionados por errores al introducir los datos o por
valores extremos. Los datos atípicos distorsionan los resultados de los análisis, y por
esta razón hay que identificarlos y tratarlos de manera adecuada, generalmente
excluyéndolos del análisis.
Una vez depurada, la base de datos se utiliza para extraer la información relevante. Si
tenemos muy pocos datos es posible que la simple inspección visual de los mismos
sea suficiente para describir el fenómeno estudiado. Pero esto no es nada frecuente.
Habitualmente el número de datos es elevado, por lo que se hace necesario organizar
la información mediante una distribución de frecuencias. Una distribución de
frecuencias es una tabla en la que se resume la información disponible de una
variable. Se sitúan los valores de la variable por filas y en las columnas se dispone el
número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las
agrupaciones en frecuencias es facilitar la lectura de la información que contienen los
datos. Además de la organización de los datos, la distribución de frecuencias cumple
dos funciones fundamentales: ofrecer la información necesaria para realizar
representaciones gráficas y facilitar los cálculos para obtener los estadísticos que
serán objeto de estudio en los próximos temas.
Los dos gráficos más habituales en la descripción de variables cualitativas son los
gráficos de barras y los gráficos de sectores. En los gráficos de barra los distintos
valores de la variable se sitúan en el eje horizontal y las frecuencias o los porcentajes
en el eje de ordenadas. Cada barra representa una categoría de la variable a
representar, siendo su altura igual a su frecuencia (o porcentaje). En los gráficos de
sectores cada sector representa una categoría de la variable y su ángulo central debe
ser proporcional a su frecuencia (o porcentaje). En la Figura 1.2 se muestra el
diagrama de barras y el diagrama de sectores de la variable Bachillerato elegido. El
diagrama de barras se ha construido sobre las frecuencias absolutas de la variable y
el diagrama de sectores sobre los porcentajes.
En esta tabla se han añadido tres columnas más: la frecuencia absoluta acumulada
(na), la frecuencia relativa acumulada o proporción acumulada (pª) y el porcentaje
acumulado (Pª), para cada una de las categorías de respuesta. Para obtener estos
valores, simplemente hay que ir acumulando (sumando), desde la categoría de menor
valor de la variable a la de mayor valor, las frecuencias absolutas, proporciones o
porcentajes, de cada categoría de respuesta. Por ejemplo, la frecuencia absoluta
acumulada en el caso de Bachillerato es 29, resultado de sumar las frecuencias de los
valores anteriores (7 + 11 = 18) y la suya propia (18 + 11 = 29), indicando que 29 personas
presentan un nivel de estudios de Bachillerato o inferior. En las variables nominales
carece de sentido el cálculo de las frecuencias acumuladas, ya que sus valores no
establecen un orden determinado.
Frecuencia absoluta (n;}: número de veces que se repite cada uno de los valores de
una variable. La suma de todas las frecuencias absolutas representa el total de la
muestra (n).
Proporción o frecuencia relativa (p¡): cociente entre la frecuencia absoluta de cada
valor de la variable (n;) y el número total de observaciones (n).
Formalmente P; = n;fn.
Porcentaje (P¡): valor de la frecuencia relativa (P;) multiplicado por cien.
Formalmente P; = P; x 100
Frecuencia absoluta acumulada (n0 ): número de veces que se repite cada valor o
cualquiera de los valores inferiores.
Proporción acumulada o frecuencia relativa acumulada (p11 ): cociente entre la
frecuencia absoluta acumulada y el total de observaciones.
Formalmente Pa = n0 /n.
Porcentaje acumulado (P11 ): valor de la frecuencia relativa acumulada multiplicado
por cien.
Formalmente: Pª = Pa x 100.
Al trabajar con variables cuantitativas puede suceder que el número de valores que
tome la variable sea reducido (como la variable n° de hijos, que habitualmente no
adopta valores mayores de 4) o sea muy amplio (como las variables ansiedad ante los
exámenes y horas de estudio semanales de la Tabla 1.2). En el primer caso, para
elaborar la distribución de frecuencias se procede de la forma indicada para
variables ordinales y en el segundo será necesario agrupar la variable en intervalos.
Estos límites aparentes tienen la misma unidad de medida que los valores de la
variable. Esto es, si los datos son enteros, entonces los límites aparentes son enteros.
Si los datos contienen decimales, los límites aparentes tendrán el mismo número de
decimales que los datos recogidos. En nuestro ejemplo, los datos son números
enteros, por lo que los límites aparentes no contienen decimales. Con los límites
aparentes en la distribución existe discontinuidad entre un intervalo y el siguiente, ya
que el límite superior de un intervalo no coincide con el límite inferior del siguiente
intervalo. Con los límites exactos de una distribución no existe discontinuidad entre
un intervalo y el siguiente, ya que el límite superior exacto de un intervalo coincide
con el límite inferior exacto del intervalo siguiente. El Límite Inferior Exacto (LIE) se
calcula restando al valor del límite inferior aparente media unidad de medida y el
Límite Superior Exacto (LSE) se calcula sumando al valor del límite superior aparente
media unidad de medida. Por tanto, los límites exactos del intervalo 1-5 son 0,5-5,5, los
del intervalo 6-10 son 5,5-10,5 y así sucesivamente, de forma que el límite superior
exacto de un intervalo coincide con el límite inferior exacto del siguiente (ver Tabla 1.6).
A partir de los límites aparentes o de los límites exactos se calcula el punto medio del
intervalo, que es la semisuma del límite superior e inferior del intervalo. Como se verá
en los Temas 2 y 3, el punto medio del intervalo es el valor que se utilizará para el
cálculo de algunos índices estadísticos con distribuciones agrupadas en intervalos.
Intervalo: cada uno de los grupos de valores que ocupan una fila en una distribución
de frecuencias.
Límites aparentes: son los valores que delimitan el grupo de valores que constituyen
un intervalo. Para cada intervalo existe un Límite Inferior Aparente (LIA), que es el valor
menor del intervalo y un Límite Superior Aparente (LSA), que es el valor mayor incluido
en el intervalo.
Límites exactos o reales: son aquellos que no presentan discontinuidad entre un
intervalo y el siguiente. Para cada intervalo existe un Límite Inferior Exacto (LIE) y un
Límite Superior Exacto (LSE). El límite inferior exacto es el valor que resulta de restar al
límite inferior aparente media unidad de medida. El límite superior exacto es el valor
que resulta de sumar al límite superior aparente media unidad de medida.
Punto medio del intervalo (PM): es la suma de los límites exactos o de los límites
aparentes de un intervalo dividido entre dos.
Formalmente: PM = LIE + LSE 2 ó PM = LIA + LSA 2
Amplitud del intervalo: es la diferencia entre el límite superior exacto y el límite inferior
exacto. A un intervalo que no tiene límite inferior o límite superior se le denomina
intervalo abierto.
Los gráficos más habituales para representar a una variable cuantitativa discreta son
el diagrama de barras y el diagrama de líneas. En el caso de variables cuantitativas
continuas agrupadas en intervalos en lugar del diagrama de barras se utiliza el
histograma.
El histograma es una extensión del diagrama de barras que dibuja los rectángulos
unidos entre sí, indicando de este modo que existe continuidad en los valores de las
variables. Un histograma, es por tanto, un gráfico de variable continua dividida en
intervalos en los que se eleva un rectángulo con área proporcional a su frecuencia. El
histograma puede construirse sobre frecuencias absolutas, frecuencias relativas o
porcentajes, ya sean o no acumulados.
En el eje horizontal de un histograma se sitúan los límites exactos de los intervalos o
su punto medio.
A) TENDENCIA CENTRAL
B) VARIABILIDAD
C) FORMA
2.1. INTRODUCCIÓN
Como se ha mencionado en el tema anterior, una de las propiedades más importantes
a estudiar de una distribución de frecuencias es la tendencia central de las
puntuaciones. Esta característica de la distribución se puede resumir en un valor o
puntuación que refleje esa tendencia central de la distribución y que represente al
conjunto de observaciones. Con el fin de cuantificar esta propiedad, se han
desarrollado una serie de medidas o estadísticos de tendencia central que indican
sobre qué puntuación se concentran las observaciones. En este tema se van a
presentar los principales índices de tendencia central: la media aritmética, la mediana
y la moda. Además de exponer el procedimiento de cálculo de estos estadísticos, se
discuten las principales ventajas e inconvenientes de cada uno de ellos y se ofrecen
criterios para su aplicación. Posteriormente, se abordan las medidas de posición, las
cuales son útiles para informar sobre la posición relativa en la que se encuentra un
sujeto con respecto al conjunto al que pertenece, a partir de su puntuación en la
variable. Se describen los tres índices de posición más utilizados en la práctica: los
percentiles, los cuartiles y los deciles.
2.2. ÍNDICES DE TENDENCIA CENTRAL
En lo que respecta a la tendencia central de la distribución, nos interesa calcular un
valor central que actúe como resumen numérico para representar al conjunto de
datos. Estos valores centrales de la variable se denominan medidas, índices o
estadísticos de tendencia centra l. Estos estadísticos permiten representar toda la
distribución de frecuencias con un único valor y, además, facilita n la comparación de
diferentes conj untos de puntuaciones de una variable. Por ejemplo, si medimos el
nivel de autoestima en una muestra de 200 niños (1 00 niños y 100 niñas), además de
estudiar la tendencia central en niños y niñas de forma conjunta, los índices de
tendencia central posibilitan la comparación de niños y niñas en su grado de
autoestima. Así, podemos averiguar si el nivel medio de autoestima es mayor en los
niños que en las niñas, o viceversa. Trabajando directamente con las 200
observaciones iniciales, no podríamos, de forma eficiente, ni describir la tendencia
central de niños y niñas, ni comparar las distribuciones de ambos en su grado de
autoestima. A continuación se van a describir las tres medidas de tendencia central,
representativas de la distribución, más utilizadas en el análisis de datos: la media
aritmética, la mediana y la moda.
2.2.1. Media aritmética
La media aritmética, también llamada promedio o simplemente media, es el
estadístico de tendencia central más conocido y usado en la práctica. Esto se debe,
básicamente, a la sencillez de su cálculo y a que es el fundamento de un gran número
de técnicas estadísticas. La media aritmética indica la tendencia general de una
distribución de frecuencias de una variable y es el valor central alrededor del cual
están la mayoría de las observaciones. De hecho, desde una perspectiva geométrica,
la media aritmética se puede interpretar como el «centro de gravedad» de la
distribución de frecuencias (Amón, 1999). Por otro lado, a diferencia de otros índices de
tendencia central, sólo puede calcularse para variables cuantitativas (nivel de medida
de intervalo o de razón).
La media aritmética de una variable X, denotada por X, se define como la suma de
todos los valores observados de la variable divididos por el número total de
observaciones. Se expresa matemáticamente de la siguiente manera:
Cálculo de la media en tablas de distribución de frecuencias Media aritmética a partir
de una distribución de frecuencias absolutas:
Por otra parte, como se ha podido observar, la media aritmética aprovecha toda la
información disponible en los datos, ya que para su cálculo es necesario utilizar todas
las puntuaciones de los participantes. Como se verá posteriormente, esto no ocurre
con otros estadísticos.
2.2.2. Mediana
2.2.3. Moda
La moda de una distribución, que se representa por Mo, se define como el valor o
categoría de la variable con mayor frecuencia absoluta.
Cuando en una variable existe un único valor con la frecuencia absoluta máxima, la
distribución presenta una única moda y es unimodal. Sin embargo, la distribución de
una variable no tiene por qué tener una única moda. De hecho, si son dos los valores
con la frecuencia más alta la distribución es bimodal, si son tres los valores sería
trimodal, ... En la Figura 2.2, la distribución de arriba es unimodal y la moda es el valor
X3 , mientras que la de abajo es bimodal, siendo las dos modas los valores X2 y X3 •
También puede ocurrir que una distribución no tenga moda, lo que se denomina
distribución amodal. Esto sucede cuando todos los valores tienen la misma frecuencia
absoluta; en este caso no se puede calcular la moda.
Finalmente, si se trata de una distribución de una variable cuantitativa con los datos
agrupados en intervalos, se localiza el intervalo modal (que es el intervalo con la
frecuencia máxima) y la moda es el punto medio de dicho intervalo.
Por otra parte, la media es un índice que no tiene sentido calcular, tanto en el caso en
el que el nivel de medida de la variable sea nominal u ordinal, o cuando los datos
estén agrupados y existan intervalos abiertos en los extremos de la distribución.
Hoy en día, con el uso de programas informáticos para el análisis estadístico de los
datos, se recomienda, siempre y cuando sea pertinente, el cálculo de los tres índices
para el estudio de la tendencia central de la distribución. Cuando las variables son
cualitativas únicamente puede utilizarse la moda como medida de tendencia central.
Sin embargo, en el caso de variables con nivel de medida ordinal, se pueden obtener
tanto la moda como la mediana. Por último, si la variable es cuantitativa se pueden
calcular los tres índices de tendencia central, lo que implica disponer de mayor
información para estudiar esta propiedad de las distribuciones. Es interesante
resaltar que cuando la distribución de una variable cuantitativa es simétrica y
unimodal, coinciden los valores de la media, mediana y moda.
El primer paso consiste en saber qué número de casos, de todos los que tenemos (n),
deja por debajo de sí el percentil k. Ese valor lo obtenen -k mos calculando el valor de
--. 100 A continuación localizamos el intervalo en el que se encuentra el percentil k.
Este intervalo se denomina interva lo crítico y se corresponde con aquél en el que la
frecuencia absoluta acumulada nª es igual o superior a ~~i, es decir, al k% den. Por
último, obtenemos el percentil k aplicando la siguiente fórmula:
Otra situación que nos podemos encontrar es que se pida el percentil de una
puntuación que es, al mismo tiempo, el límite exacto superior de un intervalo y el límite
exacto inferior del siguiente intervalo. En este caso se puede elegir cualquiera de los
dos intervalos como intervalo crítico y obtendríamos el mismo resultado.
Los cuartiles y deciles son dos estadísticos de posición en los que las secciones o
partes en las que se divide la distribución de frecuencias son muchas menos que en
los percentiles.
Los cuartiles son tres valores de la distribución que dividen en cuatro partes de igual
frecuencia a la distribución. El primer cuartil, que se representa por Q1, deja por
debajo de sí al 25% de las observaciones y por encima al 75% restante. Como se puede
deducir fácilmente, se corresponde con el percentil 25 de la distribución, esto es, Q1 =
P25 . El segundo cuartil, Q2, deja por debajo de sí al 50% de las observaciones y por
encima al otro 50%. Es equivalente al percentil 50, y, por ende, a la mediana de la
distribución, Q2 = P50 = Md. Por último, el tercer cuartil, Q3, deja por debajo de sí al
75% de las observaciones y por encima al 25% restante. Se corresponde con el
percentil 75 de la distribución, Q3 = P75 .
Debido a la equivalencia con los percentiles, para el cálculo de los tres cuartiles se
utilizan los métodos propuestos para los percentiles. En concreto, Q1 se calcula
mediante P25 , Q2 con P50, y Q3 con P75 . Por otra parte, los cuartiles se utilizan para
construir índices para el estudio de la variabilidad de una distribución de frecuencias,
como se verá en el próximo tema.
Los deciles son nueve valores que dividen en diez partes iguales a la distribución. Se
representan por O¡, donde i = 1,2, ... ,9. El primer decil, 0 1 deja por debajo de sí al 10% de
las observaciones, el 0 2 al 20%, el 0 3 al 30% y así hasta el 0 9 que deja por debajo de
sí al 90% de las observaciones. De este modo, 0 1 = P10 , 0 2 = P20 , .. . , 0 5 = P50 = Md, .. . 0
9 = P90 . también se pueden calcular los deciles a partir de los percentiles
correspondientes.
3. Medidas de variabilidad y forma
3.1. INTRODUCCIÓN
En este tema se van a abordar dos nuevas propiedades de una distri bución de
puntuaciones: la variabilidad o dispersión y la forma de la distribución. La segunda
propiedad de una distribución de frecuencias, y de la misma importancia que la
tendencia central estudiada en el tema anterior, es la variabilidad o dispersión de los
datos. La variabilidad hace referencia al grado en que las puntuaciones se asemejan
o diferencian entre sí, o se aproximan o alejan de una medida de tendencia central
como la media aritmética. Se han propuesto numerosos índices para medir la
variabilidad de una distribución. En este tema se describen los índices de dispersión
más habituales en la práctica como son la amplitud total, la varianza y desviación
típica, y la amplitud intercuartil. Además, se presenta un índice, el coeficiente de
variación, que resulta útil para comparar distintas distribuciones de frecuencias en
términos de su variabilidad. Posteriormente, se analiza la forma de la distribución a
través del estudio de la asimetría y de la curtosis de la distribución de frecuencias.
Como se ha visto en el primer tema, mediante la representación gráfica se puede
analizar si una distribución es más o menos simétrica, qué tipo de asimetría la
caracteriza y el grado de apuntamiento de los datos. En este tema se describen dos
índices de asimetría así como un coeficiente de curtosis que ofrecen resultados
numéricos sobre ambos aspectos de la forma de la distribución. A continuación se
presenta el diagrama de caja, un tipo de representación gráfica que permite una
inspección visual rápida de la asimetría y de los posibles valores atípicos de la
distribución. Por último, con el fin de poder comparar a los sujetos entre sí y en
diferentes variables, se describen dos puntuaciones que se derivan de las
puntuaciones directas: las puntuaciones diferenciales y las típicas. Se presentan sus
principales propiedades y la información que proporcionan ambos tipos de
puntuaciones.
Como se puede apreciar, este índice es muy sencillo de calcular y utiliza muy poca
información del conjunto de puntuaciones, ya que se trata sólo de la diferencia entre
el mayor valor (XmaJ y el menor valor (Xmin) de la variable. Por otro lado, y como
consecuencia de lo anterior, su principal inconveniente es que es sensible únicamente
a los valores extremos de la distribución. Por esta razón, este índice no captura la
poca o mucha dispersión que pueda existir entre los restantes valores, que son la
gran mayoría de las puntuaciones. Aun así, en el análisis de los datos se recomienda
incluir el valor de la amplitud total como información complementaria de otras
medidas de dispersión más relevantes como la varianza y la desviación típica, que se
estudiarán a continuación.
Con el fin de poder utilizar un índice con estas desviaciones, evitando que sea igual a
cero, se han propuesto dos soluciones. La primera consiste en calcular el valor
absoluto de cada desviación antes de realizar la suma, obteniendo un índice
denominado desviación media cuya expresión es:
La desviación media se emplea muy poco en la actualidad, debido a que es poco
manejable matemáticamente por el uso del valor absoluto, lo que ha llevado a que
apenas existan técnicas estadísticas basadas en este índice. Una segunda alternativa
al problema del signo de las desviaciones con - siste en basarnos en el cuadrado de
las diferencias y así obtenemos la varianza que se define de la siguiente manera:
donde:
n es el número total de observaciones
X¡ es el valor i en la variable X o el punto medio del intervalo
n¡ es la frecuencia absoluta del valor o del intervalo
donde:
p¡ es la frecuencia relativa o proporción de observaciones del valor o del intervalo i
Tanto la varianza como la desviación típica son índices de dispersión muy útiles en el
desarrollo posterior de la estadística inferencia!, estando en la base de numerosas
técnicas estadísticas. Por lo general, a la hora de cuantificar la variabilidad de los
datos, la desviación típica se suele utilizar más que la varianza debido a que se
expresa en las mismas unidades de medida que la variable objeto de estudio.
Asimismo, ambos índices presentan una serie de propiedades de las que pueden
destacarse las siguientes: 1. El cálculo de la varianza y la desviación típica, a
diferencia de otros índices de dispersión, requieren el uso de todas las puntuaciones
observadas en la distribución. 2. La varianza y la desviación típica miden la
variabilidad de los datos con respecto a la media aritmética, por lo que únicamente
deben aplicarse si es apropiado utilizar la media como medida de tendencia central.
3. La varianza y la desviación típica siempre son no negativas, es decir, pueden ser
iguales o mayores que cero. Son iguales a cero únicamente si todas las puntuaciones
son iguales entre sí. En este caso, no habría variabilidad o dispersión en los datos. En
el resto de los casos, la varianza y la desviación típica son positivas, siendo sus
valores mayores a medida que aumenta la variabilidad de las puntuaciones. 4. Si a las
puntuaciones de la variable X les aplicamos una transformación lineal: Y¡ = bX¡ + a la
varianza de las nuevas puntuaciones Y será 5~ = b2 5; y la desviación típica será Sy =
lbl S x · Es decir, si a una variable X se le suma o resta una constante a, la varianza y
desviación típica de la variable original no se ven afectadas y siguen siendo las
mismas. En cambio, cuando multiplicamos los valores de X por una constante b, la
varianza queda multiplicada por la constante al cuadrado y la desviación típica por el
valor absoluto de dicha constante.
cuasivarianza
cuasidesviación típica
por lo general, las variables objeto de estudio se miden en unidades distintas no tiene
sentido compararlas en base a los valores de sus varianzas o desviaciones típicas.
Para paliar este inconveniente es necesario definir un índice de variabilidad relativa
que no dependa de las unidades de medida. Un coeficiente que cumple con estos
requisitos es el coeficiente de variación, que se expresa en porcentajes y se define
como:
La varianza y la desviación típica, junto con la media aritmética, son los estadísticos
recomendados para estudiar la variabilidad y la tendencia central de una
distribución de frecuencias. Sin embargo, como se ha mencionado previamente, en
ocasiones, y debido a la asimetría de la distribución, no es aconsejable el uso de estos
índices y debemos buscar una alternativa. En estas circunstancias, un índice
resistente de dispersión adecuado, que se utilizaría junto con la mediana como
medida de tendencia central, sería la amplitud intercuartil.
Este índice tiene en cuenta todas y cada una de las puntuaciones de la muestra por
lo que puede considerarse el mejor índice de asimetría. Al igual que el índice de
Pearson su valor es O si la distribución es simétrica (AF= O); menor que O si la
distribución es asimétrica negativa (AF< O); y mayor que O si es asimétrica positiva
(AF> O) .
Una distribución en la que el índice sea O (Cr= O) se dice que es mesocúrtica y tiene
un grado de apuntamiento similar al de la curva normal. Si el índice es positivo (Cr> O)
la distribución es leptocúrtica y el apuntamiento es mayor que en la distribución
normal. Por el contrario, si el índice es negativo (Cr< O) la distribución es platicúrtica y
el grado de curtosis o apuntamiento es menor que en la curva normal.
El diagrama de caja o también llamado gráfico de caja y bigotes (boxplots o box and
whiskers) fue propuesto por Tukey ( 1977). Se trata de una presentación visual que
resulta útil para estudiar la asimetría de una variable cuantitativa, así como para
detectar si hay valores extremos o atípicos (outliers) en la distribución de frecuencias
(sin agrupar en intervalos). El diagrama se representa mediante una caja rectangular
(ver Figura 3.3), cuya altura se corresponde con la amplitud o rango intercuartil A1Q =
Q3 - Q1 = P7s - P 2s. Dentro de la caja se dibuja una línea para indicar dónde se sitúa la
mediana, que como ya se ha estudiado, coincide con el segundo cuartil o Q2• La caja
es atravesada por una línea vertical llamada bigote, en cuyos extremos se sitúan los
valores mínimos y máximos de la variable (sin considerar los valores atípicos en caso
de que existan). Los límites que determinan si un valor es atípico se calculan
multiplicando la amplitud intercuartil (A1Q) por 1,5 y restando este resultado al primer
cuartil Q1 (cálculo del límite inferior) o sumándolo al tercer cuartil Q3 (cálculo del límite
superior). O lo que es lo mismo:
Cuando existen casos extremos o atípicos, éstos aparecen como un círculo pequeño
por encima o por debajo de los bigotes del diagrama de caja. En la Figura 3.3 se
puede apreciar que en la parte baja de la distribución no hay casos atípicos (no
figura ningún círculo por debajo del bigote), mientras que se puede observar un caso
atípico en los valores altos, por encima del bigote superior. Por otra parte, para
estudiar la asimetría se va a tener en cuenta la longitud de los bigotes y el número de
casos atípicos en ambas colas de la distribución: si los bigotes tienen la misma
longitud y el mismo número de casos atípicos en ambos lados, diremos que es
aproximadamente simétrica. Por otro lado, si los bigotes son de igual longitud pero
hay más casos atípicos en un extremo en una cola de la distribución, entonces
diremos que la distribución presenta asimetría (Pardo, Ruiz y San Martín, 2009). Por
último, si los bigotes presentan diferente longitud estamos ante una distribución
asimétrica, como es el caso que se ha representado en la Figura 3.3, en el que la
longitud del bigote superior es mayor que la del bigote inferior.
a) su media es cero: x = O
a) su media es cero
b) su varianza es igual a 1
Las puntuaciones típicas reflejan las relaciones entre las puntuaciones con
independencia de la unidad de medida. Por este motivo permiten hacer
comparaciones entre distintos grupos e incluso entre distintas variables.
4.1. INTRODUCCIÓN
4.2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS
4.2.1. Tabla de contingencia
4.2.2. Representación gráfica: diagrama de barras
conjunto
4.2.2.1. Diagrama de barras adosadas
4.2.2.2. Diagrama de barras apiladas
4.2.3. Medidas globales de asociación entre variables
cualitativas
4.2.3.1. Independencia y x2
4.2.3.2. Coeficiente C de Contingencia
4.2.3.3. Coeficiente V de Cramer
4.2.3.4. Coeficiente <p
4.3. RELACIÓN ENTRE VARIABLES ORDINALES
4.3.1. Coeficiente de correlación por rangos de
Spearman
5.1. INTRODUCCIÓN
5.2. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS
5.2.1. Representación gráfica de la relación: diagrama de dispersión
5.2.2. Covarianza
5.2.3. Coeficiente de correlación lineal de Pearson
5.2.3.1. Cálculo
5.2.3.2. Interpretación y características
5.2.3.3. Casos particulares
5.2.3.3.1. Relación entre variables ordinales
5.2.3.3.2. Relación entre variables dicotómicas
5.2.3.3.3. Relación entre una variable dicotómica y otra cuantitativa
5.3. COEFICIENTES DE CORRELACIÓN EN FUNCIÓN DEL TIPO DE VARIABLE: TABLA
RESUMEN
5.4. REGRESIÓN LINEAL SIMPLE
5.4.1. Cálculo de los coeficientes de regresión
5.4.2. Valoración del modelo
5.4.2.1. La varianza error
5.4.2.2. El coeficiente de determinación
5.4.3. Características del modelo de regresión
S.S. REGRESIÓN LINEAL MÚLTIPLE