Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contacto
Adolfo López Suárez
Psicólogo, investigador titular del Instituto de
Estudios sobre la Universidad y profesor de la
Facultad de Ciencias de la Conducta de la
Universidad Autónoma del Estado de México.
adolfolopezsuarez@yahoo.com.mx
obviarse en los cursos. En la tercera se revisan las técnicas para organizar los datos
y en la cuarta la representación gráfica. Las seis lecciones restantes se destinan al
estudio de las medidas estadísticas: de proporción, ubicación, tendencia central,
variabilidad, forma y correlación. Al término de cada una de estas lecciones, se
plantean problemas-tipo para cada competencia a desarrollar. Para facilitar el
aprendizaje, los temas estudiados se presentan como lecciones, las cuales fueron
organizadas bajo un riguroso orden lógico-psicológico.
COMPETENCIAS
Al término del curso el alumno:
1. Conocerá el desarrollo histórico de la estadística.
2. Conceptualizará la estructura de esta disciplina.
3. Conceptualizará la masa de datos y obtendrá sus parámetros.
4. Organizará los datos conforme a sus características y propiedades.
5. Representará gráficamente los datos conforme a sus características y
propiedades.
6. Obtendrá e interpretará medidas de proporción.
7. Obtendrá e interpretará medidas de ubicación.
8. Obtendrá e interpretará medidas de tendencia central.
9. Obtendrá e interpretará medidas de variabilidad.
10. Obtendrá e interpretará medidas de forma.
11. Obtendrá e interpretará medidas de correlación bivariable.
SUGERENCIAS
1. Revise continuamente la Estructura del curso y la Tabla de términos clave para
que vaya construyendo paulatinamente una estructura conceptual del curso.
2. Observe que tanto las lecciones como los párrafos están numerados. Esto nos
permite dirigirnos de forma inequívoca a cualquier parte del texto. Por ejemplo, para
referirnos al séptimo párrafo de la cuarta lección, daremos la dirección: [4:7].
3. Es muy importante comprender que este material no pretende sustituir la lectura
de libros y otras fuentes documentales. En el mismo texto se hace referencia a
bibliografía especializada, cuyas fichas se presentan al final con un breve
comentario anexo. Este texto resultará realmente útil cuando impulse al alumno al
estudio independiente, buscando en diversas fuentes para obtener información y
comprender críticamente los temas de estudio.
4. Conviene, lo antes posible, leer este material por completo. Con esta primera
lectura no se pretende lograr una comprensión cabal del contenido, sino más bien
integrar una visión preliminar, panorámica, que deberá ir ganando precisión
conforme se avance en el curso.
5. Posteriormente, habrá que leer a fondo el material que se discutirá en la
siguiente clase, para lo cual puede apoyarse en diccionarios, enciclopedias y, sobre
todo, en las fuentes que se refieren aquí mismo. Debe observarse que casi cualquier
libro de estadística propone lo mismo sobre un tema dado, aunque desde luego
varían los enfoques y los matices; esto ampliará la comprensión del tema. De esta
forma el alumno estará desarrollando verdaderos hábitos de estudio independiente.
6. Una vez que el alumno, por sí mismo, haya estudiado el material, podrá aprove-
charse el tiempo dentro del aula para discusiones que aclaren dudas y profundicen
en los temas de interés para cada estudiante. Estaremos desterrando la exposición
rígida por parte del maestro y se entrará a auténtica una dinámica de enseñanza-
aprendizaje.
7. Deben resolverse los reactivos de la Guía de evaluación que vienen al final de
cada lección. Para ello hay que notar que también los reactivos se numeran para
que puedan contestarse por separado, identificarse por lección y confrontar las
respuestas en la sección correspondiente. De este modo el estudiante podrá
depurar sus respuestas.
8. Pero lo más importante, como en cualquier curso de matemáticas, es que el
alumno habrá de esforzarse en resolver los ejercicios antes de la sesión en la que
vayan a trabajarse, aun cuando tenga dudas. Cuando posteriormente se resuelvan
en clases, podrá confrontar y corregir sus respuestas. Esto será decisivo para su
aprendizaje y para su rendimiento en los exámenes de acreditación de la asignatura.
9. La estrategia educativa que aquí se propone se orienta al desarrollo –y, por
supuesto, a la evaluación– de competencias, por lo cual todos los reactivos
consisten en la solución de problemas, estrictamente del tipo presentados en cada
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
8
Descriptiva
Estadística Inferencial
Proyectiva
Variable Continua
2. Nociones básicas Discreta
Dato Puntual
Intervalar
Clasificación
Agrupación Puntual
Distribución de frecuencias Intervalar
Clasificación Circulograma
5. Representación gráfica Gráfica de barras
6. Proporción
7. Ubicación
Media
8. Tendencia central Mediana
Modo
Rango
Medidas estadísticas Rango semintercuartilar
9. Variabilidad Desviación media
Desviación estándar
Varianza
Nominal
11. Correlación Ordinal
Intervalar
TÉRMINOS CLAVE
Variable Algoritmo
Dato
Medida de proporción
• Puntual
• Porcentaje
• Intervalar
Dígito
Nivel de medición
Cifra
• Nominal Redondeo
• Ordinal Ajuste de sumas
• Intervalar Límite exacto
• De razón Medida de ubicación
Dígito • Fractil
Cifra • Rango percentilar
Estadística Tendencia
• Descriptiva Tendencia central
• Inferencial • Media
o Paramétrica o Aritmética
o No paramétrica o Ponderada
• Proyectiva • Mediana
Población • Modo
Muestra Variabilidad
Parámetro • Rango
Estadígrafo
• Rango semiintercuartilar
Masa de datos
• Desviación media
• Pequeña / Grande
• Desviación estándar
• Cualitativa / Cuantitativa
• Varianza
• Univariable / Bivariable / Multivariable
Forma de una distribución
Frecuencia
• Sesgo
Distribución
• Curtosis
• Empírica
Correlación
• Teórica
• Simple
Clasificación
Plano coordenado • Múltiple
• Abscisa • Lineal
• Ordenada • No lineal
• Punto • Coeficiente de correlación
o Negativo
• Nube de puntos
o Neutro
Gráfica
o Positivo
• Gráfico de barras
• Predictor
• Circulograma
• Criterio
• Histograma
• Recta de tendencia
• Polígono de frecuencias
• Parámetros de la recta
• Gráfico de escalera
• Regresión
• Ojiva
• Gráfico de dispersión
1. La teoría de la probabilidad, fundamental para comprender la psicología moderna, requiere de todo un curso
aparte. Aquí sólo la mencionamos para avanzar hacia una concepción completa de la estadística.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
20
Población
Comportamiento
observado
Muestreo Comportamiento
Inferencia
estadística proyectado
Muestra Descripción
estadística Tiempo
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
21
Organización de datos
• Clasificación
• Ordenación
• Distribución de frecuencias
Representación gráfica
• Clasificación
Masa • Distribución de frecuencias Descripción
de datos estadística
Medidas estadísticas
• Proporción
• Ubicación
• Tendencia central
• Variabilidad
• Forma
• Correlación
2. En realidad, los conceptos de variable, dato, medición, población, muestra y otros relacionados, no
corresponden a la estadística, sino a los métodos de investigación. Una discusión más completa puede
encontrarse en López [2001].
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
23
Metodología de Investigación
• Selección de sujetos
Masa
• Definición operacional de variables de datos
• Proceso de medición
• ...
Procesamiento estadístico
Entrada Salida
Masa Descripción
de datos estadística
Sea
N Número de elementos (tamaño o cardinalidad) de la masa de datos
DEFINICIÓN
N 25 Masa de datos pequeña
N > 25 Masa de datos grande
procesamientos que podemos aplicar válidamente a una masa de datos dada. Con
este criterio, identificamos dos tipos de masas de datos.
a) Cualitativas. Cuando tenemos datos nominales, que por definición carecen de
sentido cuantitativo, procede la clasificación en categorías mutuamente
excluyentes. Por ejemplo, si medimos la variable sexo, sólo podremos clasificar
a los sujetos en dos categorías: masculino o femenino, y no tendrá sentido
preguntar cuál es mayor o tratar de ordenarlas, ni menos aún operar
aritméticamente con los datos.
b) Cuantitativas. Cuando disponemos de datos medidos a nivel ordinal o superior,
aparece el sentido cuantitativo, que ya permite operaciones aritméticas, además
de la simple clasificación.
Del carácter cualitativo o cuantitativo de los datos depende, por supuesto, el tipo de
procesamiento estadístico que se pueda realizar sobre ellos.
MEDIDAS DE LA MASA DE DATOS
9. Para comenzar a describir una masa de datos debemos obtener medidas que la
caractericen. Conforme al tipo de datos con que trabajemos, podemos obtener las
siguientes medidas:
Sea
X Un dato
XMIN Dato menor
XMAX Dato mayor
MEDIDAS DE LA MASA DE DATOS
Nivel nominal Nivel ordinal o superior
N N
XMIN
XMAX
(61, 72) (39, 76) (64, 90) (39, 92) (42, 76) (50, 74) (45, 73) (64, 75) (47, 82) (40, 69)
(40, 79) (54, 59) (48, 94) (59, 78) (54, 79) (60, 69) (59, 93) (48, 74) (64, 78) (55, 77)
(56, 68) (38, 66) (59, 74) (49, 72) (63, 57) (51, 57) (45, 65) (67, 82) (44, 63) (69, 72)
(42, 56) (56, 77) (44, 83) (53, 72) (40, 79) (59, 78) (70, 80) (37, 82) (70, 84) (55, 74)
(59, 90) (42, 72) (54, 80) (64, 70) (63, 75) (54, 93) (46, 78) (52, 83) (52, 74) (66, 85)
(37, 74) (57, 78) (37, 77) (47, 78) (46, 67) (39, 62) (68, 64) (65, 73) (70, 67) (40, 71)
(43, 78) (49, 80) (51, 78) (54, 75) (60, 79) (53, 82) (57, 64) (44, 75) (59, 85) (66, 73)
(54, 63)
a) ¿En qué nivel se midió cada una de las variables? Justifique su respuesta.
b) ¿Tenemos una masa de datos grande o pequeña? Justifique su respuesta.
c) ¿Cuáles son sus medidas? Considere las dos variables
PARA APRENDER MÁS
1. Podemos afirmar que:
a) Una población finita w es un conjunto de tamaño N.
b) Una muestra m es un subconjunto de w, con tamaño n.
Ahora, aplicando la teoría de conjuntos a las dos proposiciones anteriores:
i. ¿Cómo se relacionan w y m?
ii. Explique la relación entre N y n como cardinalidad de los conjuntos W y m
respectivamente.
iii. Explique otras relaciones entre N y n.
Puede encontrar información en Winkler [1975]; Budnick [1992]; Lipschultz [1980].
2. Escriba un ensayo explicando la Ley de los grandes números en sus versiones
débil, mediana y fuerte. Relaciónela con los conceptos de masa de datos grande
y masa de datos pequeña. Puede consultar a Winkler [1975]; Lipschultz [1979];
Johnson [1979].
3. Proponga un ejemplo en las ciencias del comportamiento de una masa de datos
multivariable (k>2), indique sus medidas, clasifíquela por tamaño y determine el
nivel en que se midió cada una de las variables involucradas. Puede encontrar
información en Daniel [1982] y en Runyon [1985].
Sea
Ci Categoría (o clase) i-ésima
f Frecuencia con que aparece el dato
k Número de categorías
FORMA GENERAL DE UNA CLASIFICACIÓN
X f
C1 f(C1)
... ...
Ck f(Ck)
Sea
R Rango de una masa de datos
entonces
R = XMAX–XMIN+1
Por el momento basta con aplicar esta fórmula. Más adelante, cuando estudiemos
las medidas de variabilidad, se analizará con mayor detalle el concepto de rango.
LA ORDENACIÓN
9. Esta forma de organización de datos se aplica cuando:
a) Tenemos datos medidos a nivel ordinal o superior; y
b) La masa de datos es pequeña [3: 4-7]
10. Una ordenación es un arreglo en que los datos se organizan de menor a mayor.
un arreglo ascendente.
11. Nótese que una simple ordenación ya se aproxima a una distribución y nos
proporciona mucha información sobre la configuración del grupo: cuántas veces se
repite cada dato y, en su caso, qué datos no aparecen (llamamos a estos datos
ausentes huecos en la distribución, es decir, datos con frecuencia cero).
LA DISTRIBUCIÓN DE FRECUENCIAS
12. Esta forma de organización de datos se aplica cuando:
a) La masa de datos es cuantitativa; y
b) La masa de datos es grande [3: 4-7].
13. Cualquier distribución de frecuencias adopta la siguiente forma general:
Sea
X Dato
f Frecuencia con que aparece el dato
FORMA GENERAL DE UNA DISTRIBUCIÓN DE FRECUENCIAS
Dato Frecuencia
XMIN f(X)
... ...
XMAX f(X)
Sea
fa Frecuencia acumulada
FORMA COMPLETA DE UNA DISTRIBUCIÓN DE FRECUENCIAS
X f fa fX X2 fX2
Sea
Suma total
TAB Tabulación
ALGORITMO PARA CONSTRUIR UNA DISTRIBUCIÓN DE FRECUENCIAS PUNTUAL
COMIENZA
PASO 4. Construir la columna fa, sumando cada frecuencia con las anteriores.
PASO 5. Obtener f.
PASO 6. SI (f N) o (faMAX N) ENTONCES existe error en la tabulación.
PASO 7. Construir la columna fX.
PASO 8. Obtener fX.
PASO 9. Construir la columna X2.
PASO 10. Construir la columna fX2.
PASO 11. Obtener fX2.
TERMINA
Sea
i Tamaño del intervalo
Sabemos que
XMIN = 22
XMAX = 89
R = 68
Entonces
Si i=3 entonces 68/3 = 22.67
Si i=5 entonces 68/5 = 13.60
X f
21-25
26-30
31-35
36-40
41-45
46-50
51-55
56-60
61-65
66-70
71-75
76-80
81-85
86-90
22. Pasemos a otro concepto. El punto medio (también llamado marca de clase) de
un intervalo está dado por
Sea
PM Punto medio del intervalo
IMIN Dato menor del intervalo
IMAX Dato mayor del intervalo
entonces
PM = (IMIN+IMAX)/2
Sea
X Dato de la variable X
Y Dato de la variable Y
f(X,Y) Frecuencia de la pareja (X,Y)
FORMA GENERAL DE UNA DISTRIBUCIÓN DE FRECUENCIAS BIVARIABLE
XMIN ... XMAX
YMIN f(X,Y) ... f(X,Y)
... ... ...
YMAX f(X,Y) ... f(X,Y)
28. Para construir una distribución de frecuencias bivariable, ya sea con datos
puntuales o intervalares, se aplican los mismos criterios que si se tratara de una
distribución con una sola variable.
29. Aquí nos limitaremos al caso bivariable, porque resultará necesario para
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
39
7. Las gráficas son quizá el recurso más usado para hacer que los datos digan lo
que conviene a quien los manipula. Puede ocurrir que quien presenta los datos
tenga interés en que el receptor de la información los perciba de determinada forma
y, para lograr esto, las gráficas pueden diseñarse de modo que, aún sin alterar los
datos, las imágenes induzcan a quien las vea a interpretar la información conforme
a los intereses de quien las presenta.
8. Los usos tendenciosos de la construcción de gráficas son bastante comunes.
Basta con analizar con cuidado los apoyos gráficos de informes de dependencias
públicas o empresas para comprobar que la representación gráfica suele contener
muchas trampas perceptuales difíciles de detectar, sobre todo porque se encubren
con mensajes escritos y recursos estéticos que, al hacer atractiva la imagen,
distraen la atención y conducen al observador a creer lo que se le propone, sin
mayor crítica. Tal es el poder de la comunicación tendenciosa, y toda gráfica no es
más que un medio de comunicación. He aquí un área de estudio para la psicología
de la percepción.
9. En cambio, la información numérica no puede ser deformada sin caer en un error
demostrable, por lo que siempre será preferible a la gráfica. Sin embargo, para ser
comprendida la información numérica requiere de un público con mayor
preparación, mientras que la gráfica, sobre todo si se diseña para ser atractiva,
cualquiera puede verla y creer que la entiende, aunque muchos no resistirían la
menor prueba para demostrar que realmente la comprendieron.
10. Pero no debemos llegar a conclusiones apresuradas, las gráficas son de gran
utilidad para comunicar información estadística, incluso para detectar relaciones
complejas en grandes grupos de datos, por lo que no podemos simplemente
renunciar a ellas. Lo que debemos hacer es estudiar algunas técnicas que nos
permitan comunicar objetivamente los datos a través de gráficas y que, a la vez, nos
capaciten para detectar posibles trampas perceptuales.
CRITERIOS PARA LA CONSTRUCCIÓN DE GRÁFICAS
11. Veamos algunos criterios para construir gráficas, cualquiera que sea su tipo.
Aplicándolos, podremos preservar la objetividad y comunicar los datos con claridad.
12. Origen métrico. Cuando las gráficas utilizan alguna forma de espacios
coordenados, debemos recordar que siempre el cruce de los ejes X (abscisa) y Y
(ordenada) constituye el origen y corresponden a cero. Cuando resulte necesario,
puede contraerse uno cualquiera o incluso los dos ejes, pero si lo hacemos se debe
indicar claramente, de manera que los ejes se crucen siempre en cero y el origen
del espacio de la gráfica quede ubicado sin ambigüedad.
Cuando se elaboren gráficas con forma circular, debe evitarse desplazar el centro
o rotar la gráfica en su conjunto de manera que se distorsione.
13. Ubicación de las variables en los ejes. En los casos de distribuciones
univariables, el eje X debe utilizarse para representar los datos y el Y para las
frecuencias. En principio, nada impide que se haga al revés, pero no se percibe
igual una distribución cuando está colocada verticalmente que cuando lo está
horizontalmente. No representa lo mismo una gráfica de frecuencias que un perfil
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
44
psicológico.
14. Graduación de los ejes. Debe indicarse con claridad la graduación de cada eje,
conforme a la escala que se represente.
15. Proporción entre ejes. Las proporciones entre altura y ancho tienen un gran
efecto sobre la percepción total de la gráfica, por lo que suelen utilizarse para
manipular la percepción de la información que contiene. Para evitar esto, se
recomienda que la longitud del eje Y sea entre el 70% y el 80% de la que tenga el
eje X.
16. Rotulación. Los ejes, barras o sectores que representen el espacio numeral de
las variables deben rotularse claramente para facilitar su identificación. Siempre que
sea necesario, también se indicarán frecuencias y/o proporciones para facilitar la
comunicación cuantitativa.
17. Datos generales. Toda gráfica debe indicar:
a) Título, indicando claramente lo que se representa.
b) Fecha a que corresponden los datos.
c) Fuente de donde se obtuvieron los datos.
d) Responsable de la elaboración, sea este particular o institucional.
e) Fecha en que se elaboró la gráfica.
Más los datos que se estimen necesarios, conforme al caso particular de que se
trate.
TIPOS DE GRÁFICAS
18. Existen muchos tipos de gráficas; en realidad puede haber tantos como nuestras
necesidades de comunicar información lo requieran y nuestra imaginación nos
permita crear, pero aquí sólo veremos los principales.
En la tabla siguiente se resumen los tipos de gráficas que estudiaremos en esta
lección y las condiciones en que puede aplicarse cada tipo.
Sea
Ci Categoría (o clase) i-ésima
f Frecuencia con que aparece el dato
% Porcentaje respecto al total
FORMA GENERAL DE UN CIRCULOGRAMA
C1
f(Ci)
%(Ci)
Cn
...
f(Cn)
%(Cn)
Sea
Ang Ángulo de la categoría i-ésima
ALGORITMO PARA CONSTRUIR UN CIRCULOGRAMA
COMIENZA
EL GRÁFICO DE BARRAS
22. El gráfico de barras se aplica para representar datos medidos a nivel ordinal.
Las barras se colocan en el orden jerárquico que implica la escala y deben estar
separadas entre sí para enfatizar su carácter discreto.
23. El gráfico de barras asume la siguiente forma general:
X
X1 X2 XN
PASO 1. Trazar un plano coordenado en que la longitud del eje Y sea entre 70% y
80% de la de X.
PASO 2. Marcar en X las barras necesarias y rotular bajo el eje, cuidando de que
todas las barras estén ordenadas, tengan el mismo ancho y queden separadas por
distancias iguales.
PASO 3. Graduar Y desde 0 hasta la frecuencia más alta de la distribución.
PASO 4. Trazar las barras hasta la altura de su frecuencia.
PASO 5. Rotular los ejes y completar datos generales.
TERMINA
EL HISTOGRAMA
25. El histograma se utiliza para representar distribuciones de frecuencias
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
47
X
XMIN ... XMAX
PASO 1. Trazar un plano coordenado en que la longitud del eje Y sea entre 70% y
80% de la de X.
PASO 2. Marcar en X las graduaciones desde XMIN hasta XMAX y rotularlas cuidando
de que todas las barras tengan el mismo ancho, y rotular cada marca con el
intervalo correspondiente.
PASO 3. Graduar Y desde 0 hasta la frecuencia más alta de la distribución.
PASO 4. Trazar las barras hasta la altura de su frecuencia.
PASO 5. Rotular los ejes y completar datos generales.
TERMINA
EL POLÍGONO DE FRECUENCIAS
28. El polígono de frecuencias se aplica para representar distribuciones de
frecuencias puntuales. Los puntos coordenados se unen entre sí con líneas rectas,
que representan el carácter continuo de los datos. Si reducimos la distancia entre
las graduaciones del eje X –lo que implicaría aumentar la precisión de la medida–
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
48
los ángulos tienden a suavizarse y se acercan a la forma de una curva; por esta
razón al polígono de frecuencias también se le conoce como curva de frecuencias.
Lo que debe quedar claro es que el polígono de frecuencias representa datos que
realmente tienen naturaleza continua. Cuando tengamos duda sobre la naturaleza
realmente continua de la variable, debe preferirse al histograma para representar
los datos.
29. El polígono de frecuencias asume la siguiente forma general:
X
XMIN ... XMAX
PASO 1. Trazar un plano coordenado en que la longitud del eje Y sea entre 70% y
80% de la de X.
PASO 2. Marcar en X las graduaciones necesarias conforme a la columna de datos
de la distribución, comenzando en el dato anterior a X MIN y terminando en el dato
posterior a XMAX; cuidando que todas tengan la misma distancia.
PASO 3. Graduar Y desde 0 hasta la frecuencia más alta de la distribución.
PASO 4. Trazar los puntos coordenados (dato, frecuencia).
PASO 5. Unir los puntos coordenados con líneas rectas, comenzando en el dato
anterior a XMIN y terminando en el dato posterior a XMAX.
PASO 6. Rotular los ejes y completar datos generales.
TERMINA
EL GRÁFICO DE ESCALERA
31. El gráfico de escalera, también llamado ojiva discreta, se utiliza para
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
49
fa
X
XMIN ... XMAX
PASO 1. Trazar un plano coordenado en que la longitud del eje Y sea entre 70% y
80% de la de X.
PASO 2. Marcar en X las graduaciones necesarias desde XMIN hasta XMAX, cuidando
de que todas tengan el mismo ancho.
PASO 3. Graduar Y desde 0 hasta la N, que es la frecuencia acumulada más alta
en la distribución.
PASO 4. Trazar los escalones hasta la altura de su frecuencia acumulada.
PASO 5. Trazar las líneas verticales para cerrar la escalera a izquierda y derecha.
PASO 6. Rotular los ejes y completar datos generales.
TERMINA
LA OJIVA
34. La ojiva, también llamada gráfico acumulativo, es el equivalente al gráfico de
escalera. Se utiliza para representar distribuciones puntuales de frecuencias
acumuladas. Pero, al igual que en el caso del polígono de frecuencias, en la ojiva
los cruces de coordenadas se unen entre sí con líneas rectas para enfatizar su
carácter continuo.
35. La ojiva asume la siguiente forma general:
X
XMIN ... XMAX
PASO 1. Trazar un plano coordenado en que la longitud del eje Y sea entre 70% y
80% de la de X.
PASO 2. Marcar en X las graduaciones necesarias comenzando en XMIN y
terminando en XMAX, cuidando de que todas tengan la misma distancia.
PASO 3. Graduar Y desde 0 hasta N, que es la frecuencia acumulada más alta de
la distribución.
PASO 4. Trazar los puntos coordenados (dato, frecuencia acumulada).
PASO 5. Unir los puntos coordenados con líneas rectas, comenzando en X MIN y
terminando en XMAX.
PASO 6. Rotular los ejes y completar datos generales.
TERMINA
una de las razones por la que cualquier ciencia del comportamiento tiene una
naturaleza estadística. Cuando, para estudiar un fenómeno conductual, medimos
alguna variable, obtenemos un grupo de datos, los organizamos en una distribución
de frecuencias y a partir de ella construimos un histograma o un polígono de
frecuencias, podemos esperar que la gráfica tenderá a tomar la forma de una
campana. La mayor densidad de frecuencias se ubicará en el centro y el techo de
la distribución se aproximará continuamente hacia el piso conforme se aleje hacia
cada uno de los extremos. Esto implica que en las ciencias del comportamiento las
distribuciones tienden a adoptar una forma característica que se conoce como curva
normal o distribución gaussiana.
DISTRIBUCIÓN NORMAL
f
3. Aplicamos la notación más usual en nuestro medio, aunque no la aceptada internacionalmente. En la notación
que usaremos, en una cifra el punto separa la parte entera de la decimal. En la parte entera, de derecha a
izquierda, agrupamos los dígitos de tres en tres, separando el primer periodo con una coma, el siguiente con un
apóstrofe, el tercero con coma y así sucesivamente. De este modo se facilita la lectura de cifras grandes y se
reducen los errores de escritura y trascripción.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
55
REDONDEO
5. El redondeo de una cifra es un procedimiento que permite ajustar la fracción
decimal a un número de dígitos preestablecido.
6. ¿Cuántos dígitos debe tener la fracción decimal? Desde luego que no existe una
sola respuesta a esta pregunta, pero en este curso convendremos en aplicar dos
criterios:
a) Si la cifra representa una proporción, la fracción decimal se redondeará a cuatro
dígitos. Esto permitirá que cuando la proporción se transforme a porcentaje su
fracción decimal quede con dos dígitos.
b) En otro caso, la fracción decimal se redondeará a dos dígitos.
Siempre que sea necesario, la fracción decimal se completará con ceros a la
derecha hasta ajustar el número de dígitos definido.
7. Puede aplicarse el siguiente algoritmo para redondear una cifra cualquiera:
Sea
X La cifra que será redondeada (XR).
d Número de dígitos decimales que tendrá la cifra redondeada.
u Último dígito decimal correspondiente a d.
s Sucesor de d.
ALGORITMO PARA REDONDEAR UN NÚMERO REAL
COMIENZA
PROPORCIONES
8. Una proporción es el resultado de dividir la cardinalidad de un conjunto a entre
la cardinalidad de un conjunto b.
Debemos observar que ésta es una definición general de proporción, pero
adecuándola a nuestro tema de estudio, a puede ser un dato o un rango de datos y
b generalmente es igual a N, el tamaño de la masa de datos que se está analizando.
9. Cuando una proporción se multiplica por 100 obtenemos un porcentaje.
Sea
a Cardinalidad del conjunto a
b Cardinalidad del conjunto b
p Proporción de a respecto a b
X% Porcentaje de a respecto a b
Entonces
DEFINICIÓN DE PROPORCIÓN
p = a/b
X% = p100
Sea
p Proporción de X respecto a N
pa Proporción acumulada hasta X
Sea
p Proporción
pa Proporción acumulada
ALGORITMO PARA CONSTRUIR UNA DISTRIBUCIÓN DE PROPORCIONES
COMIENZA
GUÍA DE EVALUACIÓN
1. ¿Qué es un digito?
2. ¿Qué es una cifra o guarismo?
3. ¿Cómo se llama la parte ubicada a la izquierda del punto decimal en un número
real?
4. ¿Cómo se llama la parte que queda a la derecha del punto decimal en un número
real?
5. Cuando se tiene una cifra grande, ¿cómo se escribe la parte entera para facilitar
su lectura y reducir los errores de transcripción?
6. Aplicando la notación estricta, lea los siguientes números:
84.2
7,421
56.34567
76,485’204,002.3
7. ¿Qué es el redondeo?
8. ¿A cuántos dígitos decimales debe redondearse una cifra?
9. ¿Qué es una proporción?
10.¿Qué es un porcentaje?
11.¿En qué nivel de medición deben medirse las variables para que puedan
calcularse proporciones?
12.¿Qué forma de organización de datos se requiere para construir una distribución
de proporciones?
13.¿tendría sentido calcular proporciones acumuladas con variables medidas a
nivel nominal? Justifique su respuesta.
14.¿Cuánto deben sumar las proporciones de una distribución? Justifique su
respuesta.
15.¿Qué significa que la suma de una distribución de proporciones sea 1.0000?
16.¿Qué debe hacerse cuando la suma de una distribución de proporciones es
diferente de 1.0000 debido a imprecisiones por redondeo?
EJERCICIOS
69 70 71 72 73 74 75 76 77 puntajes
límite superior exacto del antecesor es el mismo que el límite inferior exacto del
sucesor (esta es la noción de límite).
5. El concepto de límites exactos supone continuidad en la variable y, por tanto,
para aplicarlo se requieren medidas a nivel intervalar o de razón, pues las nominales
y ordinales implican discreción.
LOS FRACTILES
6. Las medidas de ubicación permiten posicionar datos individuales (y, por tanto,
al sujeto que tiene el dato) dentro de su masa de datos (grupo), en términos de
proporciones.
7. Pueden definirse medidas de ubicación para limitar cualquier proporción de la
distribución. Por ejemplo:
a) Si dividimos una distribución en dos partes iguales, cada una de ellas contendrá
el 50% de los datos; a la medida que limita la mitad de la distribución se le llama
mediana.
b) Si dividimos la distribución en cuatro partes iguales, cada una de ellas contendrá
el 25% de los datos y se les llama cuartiles.
c) Si la dividimos en diez partes, cada una se llamará decil y contendrá 10% de la
distribución.
d) Si la dividimos en cien partes, cada una se llamará centil y contendrá 1% de la
distribución.
8. En la siguiente tabla se presentan algunos ejemplos de medidas de ubicación.
FRACTILES Y PROPORCIONES
fp
EL RANGO PERCENTILAR
13. Definimos al rango percentilar como la proporción de la distribución que queda
limitada por un dato dado.
14. El rango percentilar es la medida inversa al fractil. Cuando calculamos un fractil
partimos de una proporción determinada de la distribución para encontrar el dato
que la limita por la derecha; al calcular el rango percentilar hacemos exactamente
lo contrario: dado un dato, calculamos la proporción limitada por él.
15. El rango percentilar se calcula con el siguiente:
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
64
16. Concluimos esta lección insistiendo en que RP, el resultado obtenido al aplicar
el algoritmo, es la proporción de casos que limita el dato dado (X). Multiplicando
RP100, obtendremos el porcentaje del grupo que obtuvo puntajes iguales o
menores a X.
GUÍA DE EVALUACIÓN
1. ¿Cómo se obtiene el límite exacto entre dos datos sucesivos?
2. ¿Podemos establecer los límites exactos de una variable medida a nivel nominal
u ordinal? Justifique su respuesta.
3. El límite inferior exacto del sucesor es el mismo que el límite superior exacto del
antecesor. Discuta esta proposición.
4. ¿Para qué se utilizan las medidas de ubicación?
5. ¿Qué es un fractil?
6. ¿Qué fractil debe calcularse para encontrar el Octil 7?
7. ¿Qué fractil debe calcularse para encontrar el Quintil 3?
8. P50 = Md = D5 = Q2 = F0.5000. Discuta esta proposición.
9. ¿Qué fractil debe calcularse para encontrar el Percentil 57.36?
10.¿Qué es un rango percentilar?
11.Explique la relación entre fractil y rango percentilar.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
65
EJERCICIOS
7.1. Utilizando la distribución de frecuencias del Ejercicio 4.3, calcule las siguientes
medidas
a) Decil 7
b) Mediana
c) Cuartil 3
Media
f
Mediana
Modo
Aritmética
Media Ponderada
...
Medidas de tendencia central
Mediana
Modo
LA MEDIA ARITMÉTICA
5. Suele utilizarse el término promedio como sinónimo de media aritmética pero,
estrictamente, esto no es correcto. Un promedio, como su nombre lo indica, es una
medida que se ubica en el medio (del latín pro, por y medio), es decir, hacia el centro
de la distribución. En este sentido, las tres medidas de tendencia central son
promedios, pues todas tienden al centro.
6. La media aritmética es el dato que constituye el punto de equilibrio de una
distribución de frecuencias. Esto significa que en términos de área o de masa,
tomando como límite a la media aritmética, el lado izquierdo de la distribución tiene
la misma área o peso.
7. Decimos que una medida estadística es confiable (o estable) cuando en
diferentes procesos de medición tiende a mantenerse constante (desde luego,
dentro de ciertos límites de error). El concepto de confiabilidad resultará
fundamental en próximos cursos, cuando se estudie la construcción de instrumentos
de medición.
8. En estos términos, la media aritmética es la medida de tendencia central más
confiable y por tanto:
a) Es la medida más utilizada en la estadística para describir la tendencia central de
un grupo de datos.
b) Las medidas de variabilidad que más se utilizan se calculan precisamente a partir
de la media aritmética, como veremos en la próxima lección.
9. Cuando la media aritmética se calcula a partir de una masa de datos, está dada
por:
la siguiente:
11. Comparando las dos fórmulas anteriores, resulta claro que son totalmente
equivalentes, porque trabajando con distribuciones puntuales
ΣfX = ΣX
pues cada producto fX equivale a sumar f veces X.
12. En el caso de trabajar con una distribución de frecuencias intervalar, pueden
aparecer (y casi siempre aparecen) pequeñas diferencias entre los resultados de
las dos sumas, diferencias que se deben al nivel de medición y no a la fórmula
aplicada. Es claro que, siguiendo con distribuciones intervalares, ΣX es más preciso
que ΣfX; por tanto la diferencia entre ambas es un error debido al nivel intervalar de
medición. Lo mismo ocurre con cualquier otra medida calculada a partir de
distribuciones de frecuencias intervalares, ya que trabajar con intervalos involucra
una menor precisión que la que se obtiene con mediciones a nivel de razón. Para
comprender esto conviene revisar [4: 15-24].
LA MEDIA PONDERADA
13. Cuando calculamos la media aritmética, al sumar los datos (X) y dividir el
resultado entre el número de sumandos (N), asumimos implícitamente que todos
los datos tienen el mismo peso.
Pero existen casos en que debemos considerar que los datos difieren entre sí en
cuanto a su peso. Esto es, algunos datos “pesan” más que otros, y esto debe
considerarse al calcular la media. En estos casos se aplica la media ponderada (o
media pesada).
14. La media ponderada está dada por:
LA MEDIANA
15. La mediana es una medida menos confiable que la media aritmética, pero lo es
más que el modo.
16. La mediana se define como el dato que limita a la mitad de las frecuencias de
la distribución; esto es, la mitad de los datos quedan a cada lado de la mediana.
TERMINA
EL MODO
20. El modo es la medida de tendencia central más fácil de obtener, pero también
es la menos confiable.
21. El modo se define simplemente como el dato más frecuente de una distribución.
22. Aplicando esta definición, puede ocurrir que en una distribución:
a) Exista más de un modo. Es decir, podemos encontrar distribuciones bimodales,
trimodales o, en general, polimodales.
b) No exista modo, lo que ocurriría en el caso de que todos los datos de una
distribución tengan la misma frecuencia; esto ocurre cuando se tiene una
distribución uniforme.
23. Esto implica que el modo no se calcula, simplemente se localiza buscando en la
distribución el dato que presente la frecuencia más alta.
GUÍA DE EVALUACIÓN
1. Explique la noción matemática de tendencia.
2. ¿Por qué la media, la mediana y el modo se llaman medidas de tendencia
central?
3. Media aritmética y promedio son sinónimos. Discuta esta proposición.
4. ¿Qué es la media aritmética?
5. Cuando calculamos medidas estadísticas a partir de una distribución de
frecuencias intervalar, siempre obtenemos exactamente el mismo resultado que
si lo hacemos a partir de una masa de datos. Discuta esta proposición.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
70
MEDIDAS DE VARIABILIDAD
f
Esto es, al contrario que las medidas de tendencia central, las medidas de
variabilidad miden el alejamiento de los datos del centro hacia los extremos.
4. Comparando las nociones de tendencia central y variabilidad, tenemos:
A
A B
A la izquierda vemos dos distribuciones con igual variabilidad (sus formas son
idénticas) pero con diferente tendencia central; tomando la media como referencia,
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
74
Rango
Rango semintercuartilar
Medidas de variabilidad Desviación media
Desviación estándar
Varianza
RANGO
6. El rango (también llamado amplitud total, oscilación o recorrido) mide la
distancia exacta entre el dato menor y el dato mayor de una distribución.
7. El rango está dado por:
(Q1 = F0.2500) y tres (Q3 = F0.7500). Por lo tanto la distancia entre ambos (Q3–Q1)
constituye el rango intercuartilar, esto es, la amplitud total de los dos cuartiles
internos de la distribución5; en otras palabras, el rango intercuartilar es la amplitud
total de la zona que contiene a la mitad central de la distribución. Naturalmente, la
mitad del rango intercuartilar será el rango semintercuartilar.
10. Por tanto, el rango semintercuartilar está dado por:
15. Aquí queda claro que la media, la medida de tendencia central más confiable
[8: 5-12], es el punto de referencia para determinar cuánto se aleja un dato
cualquiera del grupo. Esto le da una gran confiabilidad a la desviación media, así
como a una medida derivada de ella: la desviación estándar.
16. También es muy importante observar que la desviación media generalmente se
calcula a partir de la media aritmética, pero no necesariamente tiene que ser así,
5. Nótese que aquí no se suma uno a la diferencia porque los fractiles son medidas exactas, pues
se obtienen a partir de un límite inferior exacto.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
76
6. En la sección Para aprender más de la Lección 8 se apunta la existencia de otros tres tipos de
media además de la aritmética y la ponderada (geométrica, cuadrática y armónica), que pueden
utilizarse como parámetro de tendencia central para representar a un grupo. ¿Cuál es el tipo de
media más adecuado? Eso depende de la naturaleza de los datos con se trabaje y de los fines que
se persigan. En cualquier caso, la diferencia de valores entre los tipos de media no suele ser
demasiado grande. Por otra parte, insistimos, el tipo más usado es la media aritmética, al grado que
llega a pensarse que esta es la única que existe.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
77
26. Esta fórmula supone que estamos calculando la desviación estándar de una
población. Cuando se calcula la desviación estándar de una muestra, debe restarse
uno al denominador para corregir por grados de libertad, lo que hace que la fórmula
quede:
S = (Σ(X–)2/(N–1))
Donde S representa a la desviación estándar muestral ( es poblacional). Pero este
es un tema de estadística inferencial, específicamente de estimación de
parámetros, por lo cual aquí no profundizaremos en él.
27. Para calcular la desviación estándar en una distribución de frecuencias la
fórmula anterior se adapta para quedar como sigue:
= ((ΣfX2–((ΣfX)2/N))/N)
VARIANZA
28. La varianza se representa por 2 y, como lo indica su símbolo, se define
simplemente como el cuadrado de la desviación estándar.
29. Sería trivial presentar una fórmula para calcular la varianza, pues para obtenerla
basta con eliminar la raíz cuadrada en la fórmula de la desviación estándar o, como
es más común, elevar la desviación estándar al cuadrado.
30. La desviación estándar se calcula a partir de desviaciones medias y, por tanto,
mide distancias a la media. La varianza, en cuanto valor cuadrado, mide áreas.
GUÍA DE EVALUACIÓN
1. ¿Qué miden las medias de variabilidad?
2. Todas las medidas de variabilidad se obtienen en relación con las medidas de
tendencia central. Discuta esta proposición.
3. ¿Qué es el rango de una distribución?
4. ¿Cuál es la utilidad principal del rango?
5. ¿Con qué otros nombres se conoce al rango?
6. ¿Por qué para obtener el rango se suma uno a la distancia entre los datos mayor
y menor?
7. ¿Qué es el rango semintercuartilar?
8. ¿Cuál es la utilidad principal del rango semintercuartilar?
9. ¿En relación con qué medida de tendencia central debe utilizarse el rango
semintercuartilar?
10.¿Qué es la desviación media?
11.¿Cuándo debe aplicarse la desviación media?
12.La desviación media sólo se calcula en relación con la media aritmética. Discuta
esta proposición.
13.Explique el significado de los signos en la desviación media.
14.En cualquier distribución, la suma de sus desviaciones medias es igual a cero.
Discuta esta proposición.
15.La desviación media permite posicionar a un sujeto respecto a su grupo de la
misma forma que lo hace el rango percentilar. Discuta esta proposición.
16.Explique la noción de estandarización en psicometría.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
79
TIPOS DE SESGO
SESGO
8. La distribución normal es simétrica, lo que significa que una ordenada vertical
colocada en el centro, corresponderá exactamente a la media, la mediana y el
modo. En consecuencia, las dos mitades son idénticas, pero inversas.
9. El sesgo es un coeficiente que mide el grado en que una distribución se aleja
del modelo normal en cuanto a la tendencia central. Conforme una distribución
empírica pierde simetría, tiende a cargarse hacia uno u otro lado de la media, lo que
da origen a tres tipos de sesgo:
a) Sesgo negativo, cuando está coleada hacia la izquierda, lo que implica que los
datos mayores a la media aritmética constituyen más del 50% de la distribución.
b) Sesgo cero, la distribución es perfectamente simétrica. En este caso media,
mediana y modo asumen el mismo valor (se ubican en el mismo punto de la
abscisa), y exactamente la mitad de los datos queda a cada lado de la media.
c) Sesgo positivo, prevalecen los datos menores a la media aritmética.
10. Ya sabemos que la media es el parámetro de tendencia central más estable,
seguido por la mediana. Por ello se utiliza a estos dos parámetros para medir el
sesgo. El sesgo puede entonces calcularse aplicando la siguiente fórmula
CURTOSIS
11. Se llama curtosis o apuntamiento de una distribución al grado en que la curva
eleva su techo sobre el piso y, en consecuencia, adelgaza su base. La curtosis
mide el grado en que una distribución se aleja del modelo normal en términos de
variabilidad.
TIPOS DE CURTOSIS
16. De este modo, conociendo tanto el sesgo como la curtosis de una distribución
empírica cualquiera, podemos conocer la medida en que se ajusta al modelo teórico
de la distribución normal.
17. Debe notarse que sesgo y curtosis, como ya se dijo, sólo miden el ajuste de la
distribución empírica al modelo normal en cuanto a simetría y apuntamiento. En este
sentido, son medidas descriptivas. Existen pruebas de bondad de ajuste que miden
la aproximación de dos distribuciones punto por punto de su techo, pero
nuevamente esto queda para un curso de estadística inferencial.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
84
GUÍA DE EVALUACIÓN
1. ¿Qué es una distribución empírica?
2. ¿Qué es una distribución teórica?
3. ¿Qué miden las medidas de forma?
4. ¿Cuáles son las medidas de forma?
5. ¿Qué mide el sesgo?
6. Explique los tres tipos de sesgo.
7. Explique la relación entre sesgo y tendencia central.
8. ¿Qué mide la curtosis?
9. Explique los tres tipos de curtosis.
10.¿Cuál es el valor de la curtosis en la distribución normal?
11.Sesgo y curtosis son medidas mutuamente dependientes. Discuta esta
afirmación.
12.Explique la relación entre curtosis y variabilidad en una distribución.
EJERCICIOS
13. Como suele suceder en matemáticas, los casos límite son teóricos.
Habitualmente estos valores extremos no se encuentran en casos empíricos en
ciencias de la conducta.
Las correlaciones perfectas solo suelen encontrarse en la teoría matemática. Por
ejemplo, sea un círculo plano de circunferencia c y radio r, entonces la
circunferencia está dada por c = 2r. Si calculamos r para n valores dados de c y
tabulamos los resultados, encontraremos que el coeficiente de correlación entre las
variables c y r será 1.00. En otras palabras, en un círculo plano la circunferencia y
el radio están correlacionados perfectamente. Observemos además que c y r,
indistintamente, pueden utilizarse como variable predictora o criterio; esto es, dada
la circunferencia podemos determinar el radio del círculo, y viceversa.
Pero esto no sucede en los casos empíricos en las ciencias del comportamiento.
Cuando estudiamos fenómenos conductuales es prácticamente imposible encontrar
dos variables que presenten una correlación perfecta, sea ésta positiva o negativa.
Lo mismo ocurre con la correlación cero, no se encuentra que dos variables
cualesquiera carezcan por completo de correlación. En la realidad encontramos
coeficientes de correlación con valores que se ubican dentro del rango ya definido.
En ciencias del comportamiento no hablamos de correlaciones de –1, 0 ó 1.
Generalmente hablamos de cierto grado de correlación que corresponde a valores
intermedios.
Por tanto, cuando disponemos de un coeficiente de correlación debemos probar su
significación; esto es, debemos demostrar matemáticamente si el valor de la
correlación es suficientemente grande para que aceptemos que X y Y están
correlacionadas. A este proceso se le conoce como prueba de hipótesis. La prueba
de hipótesis es un tema de estadística inferencial y no lo abordaremos aquí, pero
éste es su fundamento conceptual.
LA RECTA DE TENDENCIA
14. En un análisis de correlación simple y lineal, asumiendo que X es la variable
predictora, a partir de un valor observado de X puede calcularse el valor esperado
de la variable criterio, a este valor se le llama Y esperada y se le representa por Yc.
Calculando las Yc para diferentes X puede ubicarse una línea que se conoce como
recta de tendencia (o recta de predicción o recta de regresión). Esta línea
constituye el conjunto de los valores esperados para Y a partir de su X asociada.
La recta de tendencia es tal que minimiza las distancias a los puntos coordenados.
15. Si representamos la recta de tendencia en un plano coordenado, tomando
siempre a X como variable predictora, podemos observar que:
a) Cuando la correlación es negativa, la recta de tendencia describe un ángulo
menor a 90°, medido desde la izquierda respecto de la abscisa.
b) Cuando la correlación es positiva, la recta de tendencia describe un ángulo
mayor a 90°, medido desde la izquierda respecto de la abscisa.
c) Cuando la correlación es nula, la recta de tendencia es paralela con la abscisa.
16. Hasta aquí hemos asumido implícitamente que la línea de correlación es una
recta, pero realmente este es un caso especial. Cuando la correlación traza una
línea recta tenemos una correlación lineal; cuando la línea resultante no es recta
(sea curva o de cualquier otro tipo), decimos que es una correlación no lineal. En
este curso solo estudiaremos el caso de la correlación lineal.
EL SIGNO DE LA CORRELACIÓN
17. Siguiendo con la correlación lineal. Con estos conceptos, ya debe resultarnos
claro que el signo de un coeficiente de correlación debe interpretarse como sigue:
a) Un coeficiente de correlación negativo significa que cuando X aumenta, Y
disminuye y cuando X disminuye, Y aumenta. Esto es, entre ambas variables
existe una correlación inversa.
b) Un coeficiente de correlación positivo significa que cuando X aumenta, Y
aumenta y cuando X disminuye, Y también lo hace. La correlación es directa.
c) Un coeficiente de correlación cero significa que cuando X aumenta o disminuye,
en cualquier proporción, Y no cambia su valor. En otros términos, podríamos
decir que la correlación no existe, es nula8.
Y Y Y
X X X
r<0 r=0 r>0
Correlación Correlación Correlación
negativa nula positiva
8. En cursos de estadística inferencial habrá que relacionar estos conceptos con los de hipótesis
nula e hipótesis alternativa.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
90
EL DISPERSIGRAMA
Y
+
+++++
+
++++++
++
++ +++
+
+ X
23. Por otra parte, podemos ordenar los tres métodos conforme a su capacidad para
detectar la correlación entre dos variables9:
9. En realidad la “capacidad para detectar la correlación” que tiene un método se evalúa por su
potencia pero, nuevamente, este concepto deberá estudiarse en un curso de estadística inferencial.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
91
Sea
rc Coeficiente de contingencia
fo Frecuencia observada.
fe Frecuencia esperada.
2 Chi-cuadrada.
ALGORITMO PARA CALCULAR EL COEFICIENTE DE CONTINGENCIA
COMIENZA
EL COEFICIENTE DE SPEARMAN
32. Podemos aplicar este método cuando disponemos de variables medidas a nivel
ordinal o transformadas a él.
33. A diferencia del coeficiente de contingencia, el de Spearman ya tiene signo y
puede producir valores en todo el rango.
34. Para calcular el coeficiente de Spearman se aplica el siguiente algoritmo:
EL COEFICIENTE DE PEARSON
35. Este método puede aplicarse cuando las dos variables fueron medidas a nivel
intervalar o superior. Es la medida de correlación más potente y permite la
predicción de cualquier valor de Y a partir de su X asociada.
36. Para calcular el coeficiente de Pearson se aplica el siguiente algoritmo:
39. Para terminar, regresemos a un concepto que será de gran utilidad para futuros
cursos. Dado un valor cualquiera en Y, se llama regresión a la distancia que separa
a su valor observado (Yo) de su valor predicho (Yc), tal que:
Regresión = Yo–Yc
Es claro que el signo de la regresión indica si queda sobre (+) o bajo (–) la recta de
tendencia. Su interpretación diagnóstica depende de cada caso.
GUÍA DE EVALUACIÓN
1. ¿Qué es una correlación?
2. Distinga entre correlación simple y correlación múltiple.
3. En una correlación, los cambios en Y son causados por los cambios en X.
Discuta esta proposición
4. Explique la predicción como aplicación de la correlación.
5. ¿Cómo se llama a X en un análisis de correlación?
6. ¿Cómo se llama a Y en un análisis de correlación?
7. En un análisis de correlación, el carácter de predictor o criterio se asigna
arbitrariamente. Discuta esta proposición.
8. En un análisis de correlación, a X puede llamársele variable independiente y a Y
variable dependiente. Discuta esta proposición.
9. Distinga entre correlación lineal y correlación no lineal.
10.¿Qué es un coeficiente de correlación?
11.Explique el rango de un coeficiente de correlación.
12.Explique los tres valores límite que puede asumir un coeficiente de correlación.
13.Explique el ángulo que describe la recta de tendencia respecto a la abscisa en
un plano coordenado.
14.En estudios empíricos del comportamiento es frecuente encontrar coeficientes
de correlación con valores límite (-1, 0, ó 1). Discuta esta proposición.
15.Explique el signo de un coeficiente de correlación.
16.Explique la relación entre el nivel en que se midieron las variables y el método
de correlación.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
96
11.3. Con los datos del ejercicio 4.5, defina al examen de admisión como variable
predictora y al promedio general de carrera como variable criterio y:
a) Calcule el coeficiente de Pearson.
b) Construya el dispersigrama.
c) Ubique la recta de tendencia.
d) José es el sujeto número 33 de la masa de datos, obtuvo los puntajes (48, 94).
Calcule el valor esperado (predicción) que debería haber obtenido como
promedio general de carrera, calcule su regresión e interprete el resultado.
EPÍLOGO
El concepto de ciencia en la actualidad hace referencia a una rama del conocimiento
que tiene como objeto de estudio a los entes empíricos, cuya existencia se prueba
por percepción sensorial. Sin embargo, para salvar algunas disputas
epistemológicas, al conocimiento científico a veces se le llama conocimiento fáctico
porque es un conocimiento de hechos, a diferencia del conocimiento metafísico.
Para crear conocimiento científico se aplica un método que, en esencia, se compone
de cuatro pasos: 1) Formular hipótesis; 2) obtener evidencia empírica en forma de
datos, aplicando la teoría de la medición; 3) someter los datos a un procesamiento
y análisis del que se obtengan consecuencias que apunten a la veracidad o falsedad
de la hipótesis, y; 4) concluir.
Debemos hacer varias observaciones para comprender la importancia de la
estadística en las ciencias del comportamiento. Una característica fundamental del
tercer paso del método científico consiste en que el procesamiento de datos siempre
es de carácter matemático; no existe ciencia alguna que pueda prescindir de la
matemática. Respecto al cuarto paso, es importante comprender que en el caso de
las ciencias del comportamiento las conclusiones siempre implican un cierto grado
de incertidumbre, nunca son deterministas. Por otra parte, el conocimiento científico
postula verdades que siempre serán provisionales y serán sometidas a revisión
continua, de manera que evolucionan continuamente; en la ciencia no existen las
verdades eternas.
Entonces, no puede estudiarse científicamente el comportamiento sin matemáticas.
A diferencia de la ciencia (fáctica, si se desea agregar), la matemática es una
disciplina formal que se ocupa del estudio de entes abstractos (cantidades,
relaciones, formas), los cuales no necesariamente existen en el mundo empírico, en
el mundo que podemos percibir. El método que se aplica en matemáticas es muy
diferente al método científico. La matemática parte de proposiciones cuya verdad
tiene que ser demostrada mediante razonamiento lógico (no mediante observación
empírica). Cuando una proposición matemática se demuestra verdadera, se tiene
un teorema. A diferencia de las científicas, las verdades matemáticas son absolutas
y atemporales, en términos estrictos, son eternas. El Teorema de Pitágoras no
acepta discusión alguna y no es perecedero, será verdadero por siempre, aun
cuando ya no existan hombres.
Ahora centremos la atención en las ciencias de la conducta. Lo primero que debe
observarse es que todo conocimiento científico sobre la conducta de los organismos
vivos tiene un carácter probabilista, no se conoce ninguna ley científica del
comportamiento de los organismos vivos que sea determinista. Además, la
conducta individual no puede interpretarse sin recurrir a la población a la que
pertenece; solo comparando la conducta del sujeto con su grupo es posible hacer
interpretaciones y, eventualmente, construir leyes científicas. Esto implica que las
ramas de la matemática aplicables al estudio científico de la conducta son dos, la
teoría de la probabilidad, que es parte de la matemática pura y se encarga del
Las medidas de tendencia central se llaman así porque, principalmente con datos
conductuales, todas tienden a localizarse en el centro de la distribución. La medida
de tendencia central más elemental es el modo, que indica cuál es el puntaje más
frecuente de la distribución; es una medida tan inestable, que en una distribución
puede encontrarse más de un modo. La mediana es el puntaje que limita a la mitad
de la distribución, en términos de frecuencias; es claro que la mediana es una
medida de tendencia central, pero también es una medida de ubicación, que
corresponde al fractil 0.5000. Modo y mediana pueden calcularse con datos
nominales, pues ambos solo implican contar frecuencias. La media ya requiere
datos cuantitativos, de nivel ordinal o superior. La media es el punto de equilibrio (o
centro de masa) de una distribución, lo que implica que, en cualquier distribución,
los datos menores a la media (la suma de desviaciones medias negativas) pesan lo
mismo que los datos mayores (desviaciones medias positivas). La media es la
medida de tendencia central más confiable. Pueden definirse varios tipos de media,
en este curso solo vimos la media aritmética (que es la más usual, tanto que llega
a creerse que es la única) y la media ponderada.
El complemento de las medidas de tendencia central son las medidas de
variabilidad, que miden el grado en que se dispersan los datos de una distribución.
Las medidas de variabilidad ya requieren de datos cuantitativos, de nivel ordinal o
superior. El rango mide la distancia completa (considerando los límites exactos)
entre el puntaje mayor y el menor. El rango semintercuartilar mide la mitad de la
distancia entre los dos cuartiles centrales; a partir de él se mide cuánto se aleja la
distribución que estudiamos del modelo normal, concepto esencial para probar
normalidad, un constructo básico en ciencias del comportamiento. La desviación
media indica cuánto se aleja un dato individual de la media, lo que permite
posicionar con precisión a un individuo respecto a su grupo; cuando la desviación
media es positiva, el individuo se encuentra en el grupos superior, cuando es
negativa está en el grupo inferior. La desviación estándar es la medida de
variabilidad más confiable y se obtiene promediando los valores absolutos de las
desviaciones medias. Finalmente, la varianza no es más que el cuadrado de la
desviación estándar.
Con las medidas de forma introducimos el concepto de los modelos distribución,
también llamados modelos teóricos, en este curso centramos la atención en el
modelo normal. El sesgo mide cuánto se aleja nuestro grupo de datos del modelo
normal; cuando el sesgo es positivo, indica que en el grupo de datos prevalecen los
sujetos bajo la media, cuando es positivo prevalecen los sujetos altos; esto es, el
sesgo permite conocer la prevalencia en el grupo de sujetos altos o bajos respecto
a la media. Para evaluar la forma de un grupo de datos, el complemento del sesgo
es la curtosis, que mide cuánto se aleja, en términos de variabilidad, la distribución
que estudiamos del modelo normal; cuando la curtosis es mayor que la normal
(leptocúrtica) indica que la distribución empírica varía menos que la normal, cuando
es menor (planocúrtica) la distribución que estudiamos tiene mayor variabilidad que
la normal. Desde luego, las medias de forma pueden aplicarse a modelos distintos
al normal, pero ese tema ya excede los límites de este curso.
Hasta aquí vimos medidas que involucran una sola variable. Terminamos el curso
estudiando la correlación simple y lineal, que mide el grado en que dos variables
están asociadas. Existen varios métodos para medir la correlación entre dos
variables, pero aquí solo vimos los tres casos más usuales: el coeficiente de
contingencia aplicable a variables medidas a nivel nominal, el coeficiente de
Spearman para medidas ordinales y el coeficiente de Pearson para medidas
intervalares o superiores.
La estadística descriptiva es la forma más simple de análisis de los datos, pero
constituye la base misma sobre la que se construye la teoría de la probabilidad, así
como la inferencia y la proyección estadística. Tal es su importancia.
NOTACIÓN
+ Suma Asignar el término de la derecha
BIBLIOGRAFÍA
Anastasi, A.: “TESTS PSICOLOGICOS”. Ed. Aguilar, España, 1973. (680 pp)
Texto clásico sobre psicometría, indispensable para quienes quieran internarse en los problemas
de evaluación y construcción de instrumentos, más allá de su mero procedimiento de aplicación.
Ayres, F.: “ALGEBRA MODERNA”. Ed. McGraw-Hill, México, 1979. (242 pp.)
Como todos los textos de la serie Schaum, éste presenta un mínimo de explicación conceptual y
pone el énfasis en los ejercicios. Muy útil para practicar el proceso matemático.
Johnson, R.: “ESTADISTICA ELEMENTAL”. Ed. Trillas, México, 1979. (515 pp.)
Como su nombre lo indica, es un texto elemental, pero muy útil para introducirse al estudio de la
estadística a partir de conocimientos básicos de matemáticas.
Spiegel, M.: “ESTADISTICA”. Ed. McGraw-Hill, Serie Schaum, México, 1975. (357
pp.)
Otro texto de ejercicios de la Serie Schaum.
Winkler, R. & Hays, W.: “STATISTICS: Probability, inference and decision”. Ed. Holt,
Rinehart and Winston, USA, 1975. (889 pp. más índices)
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
107
Respuestas
a) Se midió a nivel ordinal, porque puede afirmarse que 5>4>3>2>1, pero no se
establecen intervalos (distancias numéricamente iguales).
b) Es una masa de datos pequeña, porque su cardinalidad no es mayor que 25.
c) N = 23; XMIN = 1; XMAX = 5.
EJERCICIO 3.3
En un estudio realizado en 2001 por la Unidad de Recursos Humanos de la empresa Seguros Total,
se midió aprovechamiento escolar en un grupo de aspirantes a ingresar a la empresa. Se midieron
los promedios finales de carrera y se redondearon a enteros. Se obtuvo la siguiente masa de datos
7, 8, 8, 6, 7, 7, 8, 7, 7, 8,
8, 9, 7, 8, 8, 6, 7, 6, 8, 7,
7, 7, 10, 8, 7, 9, 9, 7, 6, 10,
9, 6, 7, 8, 7, 7, 7, 8, 8, 7,
9, 8, 6, 8, 9, 8, 8, 8, 8, 8,
8, 9, 9, 8, 6, 7, 7, 9, 9, 10,
8, 8, 6.
104, 99, 109, 114, 108, 106, 116, 111, 101, 105,
111, 109, 111, 100, 118, 111, 109, 115, 121, 116,
103, 110, 112, 118, 114, 103, 124, 95, 107, 109,
117, 94, 101, 107, 91, 112, 112, 111, 122, 105,
106, 116, 108, 96, 111, 101, 113, 108, 92, 108,
119, 97, 106, 103, 105, 100, 108, 126, 113, 125,
103, 105, 107, 91, 109, 105, 120, 96, 119, 104,
102, 98, 113, 106, 97, 115, 107, 122, 113, 122,
100, 114, 98, 108, 110, 113, 117, 107, 94, 127,
106, 108, 109, 102, 105, 116, 99, 110, 102.
Respuestas
a) Ambos son puntajes de aprovechamiento escolar, que se obtienen dividiendo
aciertos sobre total de reactivos. Sin embargo, al igual que en los dos ejemplos
anteriores, tenemos que decir que se midió a nivel intervalar, porque cada puntaje
constituye un intervalo entre dos puntos de corte para el redondeo. Por ejemplo,
8 representa al intervalo (7.5 – 8.5).
b) Es una masa de datos grande, porque su cardinalidad es mayor a 25.
c) XMIN = 37; XMAX = 70 ; YMIN = 56; YMAX = 94; N = 91.
EJERCICIO 4.1
Utilizando la masa de datos del Ejercicio 3.1, construya la clasificación:
Respuesta
Estado civil TAB f
Soltero |||| |||| |||| |||| 19
Casado |||| ||| 8
Divorciado || 2
Unión libre |||| 4
Total 33
EJERCICIO 4.2
Utilizando la masa de datos del Ejercicio 3.2, construya la ordenación:
Respuesta
1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5.
ΣX = 58; N = 23
EJERCICIO 4.3
Utilizando la masa de datos del Ejercicio 3.3, construya la distribución de frecuencias puntual, en su
forma completa:
Respuesta
X TAB f fa fX X2 fX2
6 |||| ||| 8 8 48 36 288 f = 63
7 |||| |||| |||| |||| 19 27 133 49 931
fX = 485
8 |||| |||| |||| |||| ||| 23 50 184 64 1,472
9 |||| |||| 10 60 90 81 810 fX2 = 3,801
10 ||| 3 63 30 100 300
EJERCICIO 4.4
Utilizando la masa de datos del Ejercicio 3.4, construya la distribución de frecuencias intervalar, en
su forma general. Aplique i=5; primer intervalo (90–94).
Respuesta
X PM TAB f fa fX X2 fX2
90-94 92 |||| 5 5 460 8,464 42,320
95-99 97 |||| |||| 9 14 873 9,409 84,681
100-104 102 |||| |||| |||| 15 29 1,530 10,404 156,060
105-109 107 |||| |||| |||| |||| |||| |||| 29 58 3,103 11,449 332,021
110-114 112 |||| |||| |||| |||| 20 78 2,240 12,544 250,880
115-119 117 |||| |||| ||| 12 90 1,404 13,689 164,268
120-124 122 |||| | 6 96 732 14,884 89,304
125-129 127 ||| 3 99 381 16,129 48,387
f = 99
fX = 10,723
fX2 = 1’167,921
EJERCICIO 4.5
Utilizando la masa de datos del Ejercicio 3.5, construya la distribución de frecuencias intervalar, en
su forma general. Aplique i = 5; primer intervalo en X (36-40); primer intervalo en Y (56-60).
Respuesta
Tabulando la masa de datos del Ejercicio 3.5 y completando los cálculos tenemos
la siguiente distribución de frecuencias bivariable en su forma general:
X
36-40 41-45 46-50 51-55 56-60 61-65 66-70 PMY fY faY fY Y2 fY2
56-60 1 2 2 58 5 5 290 3364 16820
61-65 1 2 1 1 1 1 63 7 12 441 3969 27783
66-70 3 2 1 2 1 1 68 10 22 680 4624 46240
71-75 2 4 4 4 1 4 2 73 21 43 1533 5329 111909
Y
76-80 5 2 4 5 6 2 2 78 26 69 2028 6084 158184
81-85 2 2 2 3 1 3 83 13 82 1079 6889 89557
86-90 1 2 1 1 88 5 87 440 7744 38720
91-95 1 1 1 1 93 4 91 372 8649 34596
fX 14 11 15 17 14 10 10
faX 14 25 40 57 71 81 91
PMX 38 43 48 53 58 63 68
fX 532 473 720 901 812 630 680
X2 1444 1849 2304 2809 3364 3969 4624
fX2 20216 20339 34560 47753 47096 39690 46240
X Y
f = 91 f = 91
fX = 4,748 fY = 6,863
fX = 255,894 fY2 = 523,809
2
Unión libre
4 empleados
12.12%
Soltero
Divorciado Casado 19 empleados
2 empleados 8 empleados 57.58%
6.06% 24.24%
EJERCICIO 5.2
Utilizando la ordenación del Ejercicio 4.2, construya un gráfico de barras.
Respuesta
8
6
5
3
1
EJERCICIO 5.3
Utilizando la distribución de frecuencias intervalar del ejercicio 4.4, construya el histograma.
Respuesta
Cocientes intelectuales de policías de la Región IV
f
30
20
10
X
0 90-94 100-104 110-114 120-119
95-99 105-109 115-119 125-129
EJERCICIO 5.4
Utilizando la distribución de frecuencias puntual del ejercicio 4.3, construya el polígono de
frecuencias.
Respuesta
20
10
X
0 5 7 9 11
6 8 10
EJERCICIO 5.5
Utilizando la distribución de frecuencias intervalar del ejercicio 4.4, construya el gráfico de escalera.
Respuesta
80 78
60 58
40
29
20 14
0
X
90-94 100-104 105-109 110-114 115-119 120-124 125-129
95-99
EJERCICIO 5.6
Utilizando la distribución de frecuencias puntual del ejercicio 4.3, construya la ojiva.
Respuesta
40
20
X
0 5 7 9
6 8 10
EJERCICIO 6.1
Redondeé las siguientes cifras:
Respuesta
a) La varianza del grupo fue 347.63597 347.64
b) La proporción de alumnos no aprobados en el curso fue 0.333333... 0.3333
c) La media de aprovechamiento escolar fue 89.0029928 89.00
d) La proporción de trabajadores afiliados al sindicato fue 0.4947621 0.4948
e) El promedio de desempeño en el grupo fue 89.6547993 89.65
f) La suma de cuadrados de la distribución fue 444’397,651.0971 444’397,651.10
g) La suma de los tiempos de respuesta fue 3,842.004932 3,842.00
h) La proporción de sujetos con CI menor a normal fue 0.345 0.3450
i) El total de errores fue 267 267.00
EJERCICIO 6.2
Utilizando la clasificación del Ejercicio 4.1
a) Construya la distribución de proporciones.
Respuesta
Del ejercicio 4.1 sabemos que:
Estado civil f
Soltero 19
Casado 8
Divorciado 2
Unión libre 4
Total 33
Por tanto, la distribución de proporciones es:
Estado civil p
Soltero 0.5758
Casado 0.2424
Divorciado 0.0606
Unión libre 0.1212
p = 1.0000
Observaciones: 1) No fue necesario ajustar la suma de proporciones. 2) Cuando se
trabaja con una variable medida a nivel nominal, que necesariamente implica la no
existencia de orden en los datos, no procede calcular proporciones acumuladas.
b) ¿Cuál es la proporción de empleados casados?
Respuesta
P(Casado) = 0.2424 = 24.24%
c) ¿De empleados no solteros?
Respuesta
P(Casado ó Divorciado ó Unión Libre) = 1.0000 - 0.5758 = 0.4242
o bien
P(Casado ó Divorciado ó Unión Libre) = 0.2424 + 0.0606 + 0.1212 = 0.4242
EJERCICIO 6.3
Utilizando la Ordenación del Ejercicio 4.2
a) Construya la distribución de proporciones.
Respuesta
Del ejercicio 4.2 tenemos la ordenación
1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5.
Su distribución de frecuencias es:
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
120
X f
51
62
83
34
15
N = 23
X p pa
90-94 0.0505 0.0505
95-99 0.0909 0.1414
100-104 0.1515 0.2929
105-109 0.2929 0.5858
110-114 0.2020 0.7878
115-119 0.1212 0.9090
120-124 0.0606 0.9696
125-129 0.0304 1.0000
ajuste
D7 p = 0.7000
pN = 0.7000 63 = 44.10
R1 = 8 (este renglón contiene frecuencias de 27.51 a 50.50)
Li = 7.50
Fa = 27
fp = 23
i=1
Observación: Puesto que trabajamos con una distribución puntual, eliminamos i de
la fórmula. Lo mismo aplica en los demás incisos de este ejercicio.
F0.7000 = 7.50+((44.10–27)/23)
F0.7000 = 8.24
Esto significa que 70.00% de los aspirantes tuvieron promedios de carrera de 8.24
o menor.
b) Mediana
Respuesta
N = 63
Md p = 0.5000
pN = 0.500063 = 31.50
R1 = 8 (este renglón contiene frecuencias de 27.51 a 50.50)
Li = 7.50
Fa = 27
fp = 23
i = 1 (por tanto, se omite en la fórmula)
F0.5000 = 7.50 + ((31.50 – 27) / 23)
F0.5000 = 7.70
Esto es, la mitad (50.00%) de los aspirantes presentaron promedios de carrera de
7.70 o menor.
c) Cuartil 3
Respuesta
N = 63
Q3 p = 0.7500
pN = 0.7500 63 = 47.25
R1 = 8 (este renglón contiene frecuencias de 27.51 a 50.50)
Li = 7.50
Fa = 27
fp = 23
F0.7500 = 7.50 + ((47.25 – 27) / 23)
F0.7500 = 8.38
El 75.00% de los aspirantes presentaron promedios de carrera de 8.38 o menor.
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
124
EJERCICIO 7.2
Utilizando la distribución de frecuencias del Ejercicio 4.4, conteste lo siguiente:
Del ejercicio 4.4. sabemos que:
X f fa
90-94 5 5
95-99 9 14
100-104 15 29
105-109 29 58
110-114 20 78
115-119 12 90
120-124 6 96
125-129 3 99
a) Será aceptado a un curso de formación el 12% superior del grupo. ¿A partir de qué CI serán
aceptados los aspirantes?
Respuesta
En este caso nos dan la proporción (12.00%) superior, pero sabemos los fractiles
limitan a la proporción inferior, es decir, la que queda a la izquierda de la distribución.
Por tanto, buscamos (100–12 = 88%). Veámoslo con un croquis:
12.00%
88.00%
CI
De donde:
N = 99
p = 0.8800
pN = 0.880099 = 87.12
R1 = [115-119] (este renglón contiene frecuencias de 78.51 a 90.50)
Li = 114.50
Fa = 78
fp = 12
i=5
Aplicando la fórmula:
F0.8800 = 114.50+(((87.12–12)/99)5)
F0.8800 = 118.30
EJERCICIO 7.3
Utilizando la distribución de frecuencias del Ejercicio 4.4, construya la tabla de normas.
Respuesta
Primero completamos la distribución de proporciones.
Norma % p pa
Deficiente 8.00 0.0800 0.0800
Muy bajo 11.50 0.1150 0.1950
Bajo 16.25 0.1675 0.3575
Medio 28.50 0.2850 0.6425
Alto 16.25 0.1625 0.8050
Muy alto 11.50 0.1150 0.9200
Superior 8.00 0.0800 1.0000
Ahora podemos representar gráficamente el esquema de proporciones:
0.9200
0.8050
0.6425
0.3575
0.1950
0.0800
X f fa
pN = 7.92
90-94 5 5
pN = 19.31
95-99 9 14
100-104 15 29 pN = 35.39
105-109 29 58 pN = 63.61
110-114 20 78 pN = 79.70
115-119 12 90
pN = 91.08
120-124 6 96
125-129 3 99
Norma Límites
Muy alto 116 120
Superior 121
Con esta tabla podemos interpretar el CI de cualquier policía del grupo.
EJERCICIO 8.1
Utilizando la ordenación del Ejercicio 4.2:
a) Calcule la media aritmética.
Respuesta
Del ejercicio 4.2 sabemos que:
ΣX = 58
N = 23
Entonces
= ΣX/N
= 58/23
= 2.52
Observación: Revisando la definición de la variable se observa que el autoconcepto
de los guardias penitenciarios estudiados se acerca más a Medio que a Bajo.
b) Localice la mediana.
Respuesta
Sabemos que N = 23, por tanto la mediana es el dato central.
Md = 3
c) Localice el modo.
Respuesta
Vemos que 3 es el dato que más se repite (f = 8), por tanto:
Mo = 3
EJERCICIO 8.2
= 485/63
= 7.70
b) Calcule la mediana.
Respuesta
Buscamos F0.5000, ya conocemos el proceso de cálculo.
F0.5000 = 7.50+((31.50–27)/23)
F0.5000 = 7.70
Observación: Coincidentemente, media y mediana cayeron en el mismo dato en
este ejemplo.
c) Localice el modo.
Respuesta
Mo = 8
EJERCICIO 8.3
Utilizando la distribución de frecuencias del Ejercicio 4.4:
a) Calcule la media aritmética.
Respuesta
Sabemos que:
ΣfX = 10,723
N = 99
Por tanto:
= ΣfX/N
= 10,723/99
= 108.31
b) Calcule la mediana.
F0.5000 = 104.50+(((49.50–29)/29)5)
F0.5000 = 108.03
c) Localice el modo.
Mo = [105 – 109]
Observación: El modo está contenido en el intervalo 105 a 109. No se puede decir
más.
EJERCICIO 8.4
Utilizando la distribución de frecuencias bivariable del Ejercicio 4.5:
Respuesta
Primero, de la distribución bivariable podemos derivar las distribuciones de X y Y
X PM f fa Y PM f fa
36-40 38 14 14 56-60 58 5 5
41-45 43 11 25 61-65 63 7 12
46-50 48 15 40 66-70 68 10 22
51-55 53 17 57 71-75 73 21 43
56-60 58 14 61 76-80 78 26 69
61-65 63 10 81 81-85 83 13 82
66-70 68 10 91 86-90 88 5 87
91-95 93 4 91
fX = 4,748 fy = 6,863
X Y
Mo = [51-55] Mo = [76-80]
EJERCICIO 8.5
Se midió aprendizaje terminal en matemáticas en los egresados de tres escuelas y se obtuvo:
Escuela Número de egresados Media
A 897 6.43
B 86 8.74
C 411 7.33
a) Calcule la media aritmética general.
Respuesta
La media aritmética general es la media de las medias, por tanto:
= Σ /N
= (6.43+8.74+7.33)/3
= 22.50/3
= 7.50
Respuesta
En este caso, la media aritmética es la media de las calificaciones, por tanto:
= ΣX/N
= (8.30+6.81+9.43+7.12+8.83)/5
= 8.10
b) Calcule la media ponderada, conforme a la carga horaria de cada asignatura.
Respuesta
En este caso el criterio de ponderación es la carga horaria de cada asignatura, por
tanto:
MP = Σ(w×X)/w
MP = ((8.302)+(6.814)+(9.433)+(7.126)+(8.832))/(2+4+3+6+2)
MP = 7.79
c) Compare la media aritmética con la ponderada y explique la diferencia.
Respuesta
Vemos de () > (), lo que implica que el promedio de este alumno se reduce cuando
sus calificaciones se ponderan conforme al número de horas que se dedican al
estudio de cada asignatura; es decir, se asume que mientras mayor es su carga
horaria, mayor es su importancia.
d) ¿Cuál de las dos medias sería más representativa de la población general de egresados?
Respuesta
Ocurre lo mismo que en el ejercicio 7.5. Pero esto solo es una coincidencia. No
debe pensarse que siempre que se calcule una media ponderada el valor del
promedio se reducirá.
EJERCICIO 9.1
Utilizando la ordenación del Ejercicio 4.2:
a) Calcule el rango.
Respuesta
Sabemos que:
XMAX = 5
XMIN = 1
por tanto
R = XMAX–XMIN+1
R = 5–1+1
R=5
Esto es, existen cinco puntajes en el rango (1, 2, 3, 4, 5).
b) JOSÉ ES UN GUARDIA DEL GRUPO Y TUVO UN PUNTAJE DE 4; CALCULE E INTERPRETE SU DESVIACIÓN
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
133
MEDIA.
Sabemos que
X(José) = 4
y del ejercicio 8.1
= 2.52
Por tanto:
DM(José) = 4–2.52
DM(José) = 1.48
José tiene un autoconcepto superior en 1.48 a la media de su grupo.
c) Calcule la desviación estándar.
= ((X–)2 / N)
De la ordenación, abreviando, tenemos
= ((5(1–2.52)2+6(2–2.52)2+8(3–2.52)2+3(4–2.52)2+(5–2.52)2 )/23)
= 1.10
d) Calcule la varianza.
2 = 1.21
EJERCICIO 9.2
Utilizando la distribución de frecuencias del Ejercicio 4.3:
a) Calcule el rango.
Respuesta
Sabemos que:
XMAX = 10
XMIN = 6
Entonces:
R = XMAX–XMIN+1
R = 10–6+1
R=5
b) Calcule el rango semintercuartilar.
Respuesta
Comencemos por calcular los fractiles con el procedimiento que ya conocemos:
F0.7500 = 7.50+((47.25–27)/23)
F0.7500 = 8.38
F0.2500 = 6.50+((15.75–8)/19)
F0.2500 = 6.91
Ahora podemos calcular RSIC:
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
134
RSIC = (8.38–6.91)/2
RSIC = 0.74
c) Pedro es un aspirante del grupo y tuvo un puntaje de 7; calcule e interprete su desviación media.
Respuesta
Sabemos que:
= 7.70
Entonces
DM(Pedro) = 7–7.70
DM(Pedro) = –0.70
Pedro tiene un promedio general de carrera inferior en 0.70 a la media de su grupo.
d) Calcule la desviación estándar.
Respuesta
Sabemos que:
ΣfX = 485
ΣfX2 = 3,801
N = 63
Entonces:
= ((ΣfX2–((ΣfX)2/N))/N)
= ((3,801–(4852/63))/63)
= 1.03
e) Calcule la varianza.
Respuesta
2 = 1.07
EJERCICIO 9.3
Utilizando la distribución de frecuencias del Ejercicio 4.4:
a) Calcule el rango.
Respuesta
Sabemos que:
XMAX = 129
XMAX = 90
Entonces:
R = XMAX–XMIN+1
R = 129–90+1
R = 40
b) Calcule el rango semintercuartilar.
Respuesta
Para calcular el F0.7500:
F0.7500 = 109.50+((74.25–58)/20)5
F0.7500 = 113.56
Para el F0.2500:
F0.2500 = 99.50+((24.75–14)/15)5
F0.2500 = 103.08
Ahora el RSIC:
RSIC = (F0.2500–F0.2500)/2
RSIC = (113.56–103.08)/2
RSIC = 5.24
c) Luis es un policía del grupo y tuvo un CI de 92; calcule e interprete su desviación media.
Respuesta
Del ejercicio 7.3 sabemos que:
= 108.31
y
CI (Luis) = 92
Por tanto
DM(X) = X–
DM(Luis) = 92–108.31
DM(Luis) = –16.31
Luis tiene un CI inferior en 16.31 a la media de su grupo.
d) Calcule la desviación estándar.
Respuesta
Sabemos que:
ΣfX =10,723
ΣfX2 =1'167,921
N = 99
Entonces:
= ((ΣfX2–((ΣfX)2/N))/N)
= ((1’167,921–((10,723)2/99))/99)
= 8.09
e) Calcule la varianza.
Respuesta
2 = 65.45
EJERCICIO 9.4
Utilizando la distribución de frecuencias bivariable del Ejercicio 4.5:
a) Calcule y compare los rangos en X y Y.
Respuesta
Sabemos que:
XMAX = 70
XMIN = 36
YMAX = 95
YMIN = 56
Por tanto:
R = XMAX–XMIN+1 R = XMAX–XMIN+1
R(X) = 70–36+1 R(Y) = 95–56+1
R(X) = 35 R(Y) = 40
Comparación: Primero tenemos que observar que las dos variables, el examen de
admisión y el promedio general de carrera, se miden en la misma escala (0 a 100),
por lo cual es válido compararlas directamente.
Ahora, puesto que R(X) < R(Y), podemos afirmar que existe menor amplitud en la
distribución del examen de admisión que del promedio general de carrera. Esto se
puede observar desde la distribución de frecuencias pues, con el mismo tamaño de
intervalo, X tiene siete renglones y Y ocho. Ya desde el rango se observa que existe
menor variabilidad en el examen de admisión (X) que el el promedio general de
carrera (Y).
b) Calcule y compare los rangos semintercuartilares en X y Y.
Respuesta
Nuevamente, puesto que ya conocemos el procedimiento, calculamos directamente
los fractiles en las dos variables.
X Y
F0.7500 = 55.50+(((68.25–57)/14)5) F0.7500 = 75.50+((68.25–43)/26)5
F0.7500 = 59.52 F0.2500 = 80.36
Respuesta
Del ejercicio 8.2 sabemos que:
= 7.70
F0.5000 = 7.70
y del ejercicio 9.2:
= 1.03
So = 0.1038
Lo que significa que esta distribución está sesgada positivamente con un coeficiente
de sesgo de 0. 1038.
b) Calcule e interprete la curtosis
Respuesta
Calculando los fractiles:
F0.7500 = 113.56
F0.2500 = 103.08
F0.9000 = 119.13
F0.1000 = 97.22
K = ((113.56–103.08)/ 2)/(119.13–97.22)
K = 0.2392
Por lo que concluimos que tenemos una distribución planocúrtica.
EJERCICIO 10.3
Utilizando la distribución de frecuencias del Ejercicio 4.5,
Respuesta
Puesto que ambas variables están medidas en el nivel nominal, el coeficiente de
contingencia es el método aplicable.
EJERCICIO 11.2
En una empresa se midió autoritarismo del supervisor (en escala de 1 a 3) y accidentes laborales y
se obtuvieron los siguientes datos:
Supervisor Nivel de autoritarismo Accidentes laborales
1 2 4
2 3 2
3 1 3
4 1 4
5 3 1
6 2 2
7 1 5
8 3 1
9 3 2
a) Calcule el coeficiente de Spearman.
Respuesta
Comenzamos por definir el nivel de medición de las variables: el nivel de
autoritarismo (X) es una variable ordinal, pues podemos afirmar que cada puntaje
implica un orden de magnitud; por ejemplo, un puntaje de 3 implica mayor nivel de
autoritarismo que un puntaje de 2. Por otra parte, la variable accidentes laborales
podría medirse a nivel intervalar o aún a nivel de razón (indicando número de
accidentes por cierta unidad de tiempo); en cualquier caso, su nivel de medición no
es inferior al ordinal y por tanto puede transformarse a ordinal.
Después se rankean los puntajes ordenándolos de menor a mayor y promediando
sus ordinales cuando hay puntajes repetidos. Por ejemplo: En X el valor menor es
1 y aparece tres veces, por tanto sus ordinales son 1, 2 y 3; entonces, el rango que
corresponde a los supervisores que obtuvieron 1 en autoritarismo es
R(X=1) = (1+2+3)/3 = 2.00, que es el que anota en la tabla de cálculo:
Supervisor X (NA) Y (AL) R(X) R(Y) d d2
1 2 4 4.50 7.50 –3.00 9.00
2 3 2 7.50 4.00 3.50 12.25
3 1 3 2.00 6.00 –4.00 16.00
4 1 4 2.00 7.50 –5.50 30.25
5 3 1 7.50 1.50 6.00 36.00
6 2 2 4.50 4.00 0.50 0.25
7 1 5 2.00 9.00 –7.00 49.00
8 3 1 7.50 1.50 6.00 36.00
9 3 2 7.50 4.00 3.50 12.25
Σd2 = 201.00
X
36-40 41-45 46-50 51-55 56-60 61-65 66-70
86-90 1 2 1 1
91-95 1 1 1 1
Entonces, para construir la tabla de cálculo solo requerimos los puntos medios de
los intervalos en X y en Y, así como las frecuencias. Además, para simplificar
omitimos las celdas vacías (huecos, frecuencia cero). De este modo tenemos la
tabla de cálculo:
X Y f fX fY fXY X2 fX2 Y2 fY2
38 63 1 38 63 2394 1444 1444 3969 3969
38 68 3 114 204 7752 1444 4332 4624 13872
38 73 2 76 146 5548 1444 2888 5329 10658
38 78 5 190 390 14820 1444 7220 6084 30420
38 83 2 76 166 6308 1444 2888 6889 13778
38 93 1 38 93 3534 1444 1444 8649 8649
43 58 1 43 58 2494 1849 1849 3364 3364
43 63 2 86 126 5418 1849 3698 3969 7938
43 73 4 172 292 12556 1849 7396 5329 21316
43 78 2 86 156 6708 1849 3698 6084 12168
43 83 2 86 166 7138 1849 3698 6889 13778
48 63 1 48 63 3024 2304 2304 3969 3969
48 68 2 96 136 6528 2304 4608 4624 9248
48 73 4 192 292 14016 2304 9216 5329 21316
48 78 4 192 312 14976 2304 9216 6084 24336
48 83 2 96 166 7968 2304 4608 6889 13778
48 88 1 48 88 4224 2304 2304 7744 7744
48 93 1 48 93 4464 2304 2304 8649 8649
53 58 2 106 116 6148 2809 5618 3364 6728
53 63 1 53 63 3339 2809 2809 3969 3969
53 68 1 53 68 3604 2809 2809 4624 4624
53 73 4 212 292 15476 2809 11236 5329 21316
53 78 5 265 390 20670 2809 14045 6084 30420
53 83 3 159 249 13197 2809 8427 6889 20667
53 93 1 53 93 4929 2809 2809 8649 8649
58 63 1 58 63 3654 3364 3364 3969 3969
58 68 2 116 136 7888 3364 6728 4624 9248
58 73 1 58 73 4234 3364 3364 5329 5329
58 78 6 348 468 27144 3364 20184 6084 36504
58 83 1 58 83 4814 3364 3364 6889 6889
58 88 2 116 176 10208 3364 6728 7744 15488
58 93 1 58 93 5394 3364 3364 8649 8649
63 58 2 126 116 7308 3969 7938 3364 6728
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
145
Respuesta
El puntaje obtenido por José en el examen de admisión fue de 48, por tanto:
X(José) = 48
Yc(José) = 73.85+(0.03*48)
Yc(José) = 75.29
Esto es, conforme al desempeño de José en el examen de admisión (variable
predictora), el valor esperado para el promedio general de carrera es de Yc = 75.29:
sin embargo, el valor observado fue de Yo = 94. En consecuencia, su regresión es:
REGRESIÓN(José) = 94.00-75.29
REGRESIÓN(José) = 18.71
Esto significa que José desempeñó en la carrera 18.71 puntos por encima de lo que
predijo el examen de admisión.
EJERCICIO 11.4
Para evaluar la validez predictiva de un test de inteligencia emocional sobre el desempeño en el
puesto en mediadores judiciales se definió:
X ≡ Puntaje de inteligencia emocional
Y ≡ Puntaje de desempeño en el puesto.
Se midieron las variables y se obtuvieron los siguientes datos:
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 114 102 118 125 109 101 117 119 115 122 117 121 109 116 117
Y 88 76 92 86 77 72 80 88 73 86 75 86 76 79 83
a) Calcule el coeficiente de Pearson.
Respuesta
Construimos la tabla de cálculo directamente de la masa de datos;
Sujeto X Y XY X2 Y2
1 114 88 10032 12996 7744
2 102 76 7752 10404 5776
3 118 92 10856 13924 8464
4 125 86 10750 15625 7396
5 109 77 8393 11881 5929
6 101 72 7272 10201 5184
7 117 80 9360 13689 6400
8 119 88 10472 14161 7744
9 115 73 8395 13225 5329
10 122 86 10492 14884 7396
11 117 75 8775 13689 5625
12 121 86 10406 14641 7396
13 109 76 8284 11881 5776
14 116 79 9164 13456 6241
15 117 83 9711 13689 6889
Σ = 1722 1217 140114 198346 99289
Estadística descriptiva en ciencias del comportamiento Adolfo López Suárez
148