Está en la página 1de 22

Tema 5 (B).

El procesamiento estadístico de los datos

En la fase o etapa del proceso investigativo, una vez que fueron validados los instrumentos de
recolección de la información para ofrecer una información suficientemente confiable, en que ya se
aplicaron éstos y se organizó la información así obtenida, se está en condiciones de hacer el
procesamiento de la misma y, una vez realizado éste, poder hacer algunas inferencias, es decir, arribar a
algunas conclusiones. Precisamente es de lo que se tratará en esta segunda parte del tema, o sea, de cómo
procesar los datos recolectados.
Una vez que los datos se han codificado, transferidos a una matriz o tabla de doble entrada y guardados
en un archivo es necesario analizarlos. Actualmente este análisis puede ser realizado con ayuda de una
computadora, con programas preparados convenientemente para ello.
Lo importante no es el procedimiento de cálculo sino la interpretación de los resultados y y los métodos,
procedimientos o técnicas de análisis cuantitativo.
El procedimiento de cálculo se esquematiza de la forma siguiente:

Tomas de decisiones Elaboración del


respecto a los análisis a Ejecución del Obtención de
programa de programa en la los Análisis
realizar. análisis
(Problema estadístico) computadora
estadístico)

¿Qué análisis se pueden realizar con estos datos?


El análisis depende de tres factores:
1. Del nivel de medición de las variables.
2. De la manera como se han formulado las hipótesis
3. Del interés del investigador

Nivel de medición de una variable


¿Qué es una variable?
Una variable es una propiedad o característica de un objeto que es susceptible de cambiar generalmente
por la acción de algún factor que lo provoca. Por ejemplo:
 la temperatura ambiente.
 la distancia recorrida por una jabalina.
 el sexo
 la edad
 etc.
Las variables pueden ser discretas o continuas (entre otras, en dependencia del criterio de clasificación
que se asuma, ver el tema 3).
Por ejemplo: los resultados académicos de una evaluación cualitativa: Excelente (5), Muy Bien (4),
Bien (3), Regular (2), Insuficiente (1). Esta es una variable discreta pues entre 5 y 4, o entre cualquiera
de estos valores no existen otros intermedios. Las variables discretas pueden ser politómicas, como la
expresada, otro ejemplo puede ser el temperamento humano, cuando se dice que una persona es colérica,
sanguínea, flemática u otras categorías.
También las variables discretas pueden ser dicotómicas, como es el caso del sexo, se es masculino o
femenino; también puede ser el resultado de un examen, o se aprueba o se desaprueba; o sea, si pertenece
a una categoría se excluye la otra.
Las variables continuas son aquellas que toman valores intermedios entre dos valores enteros límites que
determinan un intervalo. Por ejemplo la edad, las calificaciones en una evaluación cuantitativa de 0 a 100,
la distancia recorrida por una pelota lanzada, el tiempo empleado en recorrer una distancia, etc.

Las variables son susceptibles de ser medidas. La medición es un proceso en el que se establece la
comparación o correspondencia entre las características de un fenómeno estudiado con una unidad o
patrón de referencia expresando las veces que ese patrón está contenido en la propiedad o característica
que se está midiendo.
Para medir las variables se utilizan diferentes escalas de medición o niveles de medición estas pueden
ser escalas categóricas o métricas, las primeras son a su vez nominales y ordinales, así las escalas
nominales se utilizan para medir variables discretas, tanto dicotómicas como politómicas.
Las escalas ordinales, que establecen un orden y en esencia contienen a las nominales, por ejemplo, la
escala en que se mide la evaluación cualitativa es una escala ordinal.
Escalas métricas, que se utilizan para medir variables continuas y que pueden ser a su vez de intervalos o
de razón, de relación o proporción.
La escala para medir la distancia lanzada es decir la longitud alcanzada por un implemento de campo o la
edad, el tiempo para recorrer una distancia es una escala de intervalos, ella contiene como caso particular
a la ordinal.
La escala de razón o proporción es aquella en la que se establece un cero absoluto por debajo del cual no
existe ningún otro valor, como es el caso de la escala de temperaturas absoluta. En estas se puede
establecer una proporcionalidad entre los valores de las variables, es decir dos veces mayor 1/3 de un
determinado valor, etc. La escala de razón es en esencia de intervalo.

En resumen, existen varias escalas de medición entre las que se encuentran las siguientes:
1. Escala de denominaciones o escala nominal.
2. Escala de orden u ordinal.
3. Escala de intervalos.
4. Escala de relaciones, de razón o proporción.

Escala nominal: Es la más sencilla y simple, los números desempeñan papel de señales y sirven para
detectar y diferenciar los objetos estudiados.
Ejemplo:
La numeración de los jugadores de un equipo de fútbol, los peloteros, etc.
No tienen que tener un orden, pueden intercambiar sus lugares. No pueden sumarse ni restarse pero si
pueden contarse todas las veces necesarias.

Escala de orden: Es donde se le da un orden a los fenómenos, 1er, 2do, 3er Lugar. Se puede medir cual es
más fuerte o mas débil pero no se puede decir cuan más fuerte o más débil es uno de otro.
El lugar ocupado en la escala de orden se denomina rango, mientras que la propia escala se denomina de
rango o no métrica.
En este lugar los números que la componen se encuentran ordenados por rangos (es decir el lugar que
ocupan pero los intervalos entre ellos no se pueden medir, 1____ 2____ 3
Aquí se puede establecer >,<, Mejor o peor, etc.

Escala de intervalos: En ésta los números no sólo se encuentran ordenados por rango sino que también
están divididos en determinados intervalos.
El cero de la escala se selecciona de manera arbitraria.
Ejemplo: El tiempo calendario (cuando comienza un año).
El ángulo de articulación puede ser cero o 180.
La temperatura.
Los datos de la escala de intervalos dan respuesta a la pregunta ¿Cuánto es Mayor?, pero no permite
confirmar que un valor de la magnitud medida sea tantas veces mayor o menor que otra.
Ejemplo: La temperatura aumentó de 100º a 200ºC. No se puede decir que hizo 2 veces más calor.

Escala de relaciones: Esta se distingue porque a diferencia de la de la escala de intervalos está


estrictamente definida o determinada la posición del cero de la escala.
Ejemplo: La velocidad, la fuerza, la distancia, etc.

Procedimientos
Escalas Operaciones Básicas Ejemplos
Matemáticos Permisibles
Nominal Establecimiento de igualdad Números de casos, Moda, Numeración de
Correlación de sucesos deportistas en un Equipo,
casuales. resultados de sorteo.
De orden Establecimiento de las Mediana, correlación de Lugar ocupado en la
correlaciones Mayor o rangos. Comprobación de las
competencia. Resultados
Menor. hipótesis. de la categorización de
los deportistas por un
grupo de expertos.
De intervalos Establecimiento de igualdad El valor promedio, la Las fechas calendarios, el
de los intervalos desviación media (cuadrática, tiempo, el ángulo
estándar), la correlación articular, etc.
De relaciones Establecimiento de la El coeficiente de variación. La longitud, la fuerza, el
igualdad de las relaciones La media geométrica peso, velocidad, etc.

De lo expresado se infiere que no debe ser el análisis que se aplica a una variable nominal igual al que se le
aplique a una por intervalos.
Lo primero que hace el investigador es describir los datos y luego efectúa análisis estadísticos para
relacionar variables, es decir, realiza análisis de estadística descriptiva para cada una de las variables para
luego describir la relación entre éstas.
Los tipos de procedimientos y análisis son variados, cada procedimiento tiene su razón de ser y un
propósito específico; no deben hacerse más análisis de los necesarios, pues la estadística es solo una
herramienta, no es un fin, sirve para analizar los datos.
Se pueden hacer análisis dentro de la:

 Estadística descriptiva, y de la
 Estadística inferencial.

En esta primera parte, precisamente, se hace una breve incursión en la Estadística Descriptiva

En el procesamiento de la información, lo primero es describir los datos, valores o puntuaciones obtenidos


para cada variable, por ejemplo, si se hace una prueba de rendimiento físico en un área de participación
deportiva, ¿Cómo pueden describirse los datos obtenidos de la medición de las variables?
Una manera es describiendo las distribuciones o puntuaciones o frecuencias.

¿Qué es una distribución de frecuencia?


Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías.

Por ejemplo:
Supongamos que un grupo de expertos enjuician una estrategia de entrenamiento para incrementar el
rendimiento de un grupo de atletas. Esta estrategia tiene 5 aspectos y 153 especialistas dan su opinión de
acuerdo con una escala categórica (ordinal) de 5 a 1. Así la variable estrategia de entrenamiento (discreta)
fue evaluada de modo tal que los aspectos de la misma recibieron las siguientes categorías

Categorías Código Frecuencias


Excelente (E) 5 50
Muy Bien (MB) 4 88
Bien ( B) 3 12
Regular (R) 2 3
Insuficiente (1) 1 0
TOTAL 153
Estos datos no están agrupados.

Otro ejemplo pudiera ser los resultados de una prueba o examen calificada en escala métrica de 0 a 100,
así, si consideramos como variables: Calificación del examen final de Estadística, tendríamos.

Categoría Frecuencia Categoría Frecuencia


48 1 73 2
55 2 74 1
56 3 75 4
57 5 76 3
58 7 78 2
60 1 80 4
61 1 82 2
62 2 83 1
63 3 84 1
64 2 86 5
65 1 87 2
66 1 89 1
68 1 90 3
69 1 92 1

Total de examinados 63
Aveces las frecuencias de las categorías son tantas que hace falta resumirlas. Examinando la distribución anterior, la misma
se puede resumir del modo siguiente:
Categ. Frec. Categ. Frec. Categ. Frec.
55 o < 3 66-70 3 81-85 4
56-60 16 71-75 7 86-90 11
61-65 9 76-80 4 91-95 1

Esta distribución de frecuencias contiene los datos agrupados en intervalos, en este caso aparecen 9 de
ellos.
¿Cómo se determina el número de intervalos para agrupar los datos?

1. Se determinan los valore extremos observados.

X.min. (Valor mínimo observado)= 48


Xmáx. (Valor máximo observado)= 92
Esto forma un intervalo (48, 92)

2.- Se divide este intervalo en r subintervalos, llamados intervalos de clases o clases (se recomienda que
estos subintervalos sean de igual tamaño).

Procedimiento
Se determina el rango o amplitud del intervalo, es decir, la diferencia entre el valor mínimo observado y el
máximo.
Rango = Xmax-Xmin. = 92-48=44

Entonces se le da un valor a r de acuerdo al número de subintervalos que se desean forman, este caso
como son 9 los subintervalos , R=5, pero 44 dividido por 5 no es 9, en este caso se le añade 1 al rango
para que el cociente sea exacto, así:

Número de intervalos de clases 45/5= 9.


De modo que C (Número de intervalos de clases)= Rango dividido por r
C= R/r
Un elemento importante es el concepto de marca de clases, es decir, el punto medio de cada intervalo de
clase.
Por ejemplo en el segundo intervalo de la distribución de puntuaciones C2 = (56,60); C2/2 (Marca de
clase) es 58, es decir, C2 = (60+56)/2= 116/2 = 58.

¿Qué otros elementos tienen una distribución de frecuencias?


En las distribuciones de puntuaciones pueden aparecer frecuencias absolutas, frecuencias relativas,
frecuencias acumuladas, absolutas y relativas, veamos en qué consisten.

Otras formas de representar las distribuciones de frecuencias.


Estas se pueden representar por medios de gráficos

Para el ejemplo mostrado veamos:

50 56 60 66 70 76 80 86 90 96

El gráfico obtenido es un gráfico de barras que se llama histograma, en este caso un histograma de
frecuencias absolutas.
Se pueden hacer histograma de cada uno de los tipos de frecuencias.
Si se unen las marcas de clases de cada uno de los intervalos en los puntos superiores del histograma (en
cada barra) se obtiene otro tipo de gráfica que se llama polígono de frecuencias; los cuales resultan útiles
para el análisis de los datos.
En resumen para cada una de las variables que se mueven se obtiene su distribución de frecuencias de ser
posible:
 Su gráfica de barra u otro tipo (la de pastel, por ejemplo)
 Se traza el polígono de frecuencias correspondientes.

EJERCICIOS DE ESTSDÍSTICA PARA EL TALLER #1

1.- Describa los valores que puede tomar la variable asociada y diga en qué tipo de escala podemos
realizar su medición.

a) Sexo de cada alumno de un grupo


b) Cantidad de estudiantes de un grupo.
c) Calificaciones de un grupo de alumnos en una prueba de Matemática
d) Estado de salud de un grupo de alumnos.
e) El peso de los alumnos de un grupo.

2.-La siguiente situación muestra el estrato del contenido de una encuesta.

Señala con una cruz (X) donde corresponda.

SEXO ESTADO CIVIL


A Femenino ___ A Soltero ____
B Masculino ___ B Casado____
C Viudo ____
D Separado ____
Las prácticas de mi asignatura se basan en
A Ejercicios libres B Ejercicios dirigidos.

LA encuesta anterior se aplicó a una muestra representativa de profesores de secundaria básica. Veamos la
respuesta de 10 sujetos.

C1: Variable sexo.


C2: Estado civil
C3: Tipo de práctica

Sujetos C1 C2 C3
1 A B B
2 A A A
3 B C A
4 A D B
5 B C A
6 B A B
7 A A A
8 A B A
9 B B B
10 A C A

a) Haga la distribución de frecuencias.


b) Las variables utilizadas en esta encuesta ¿Cómo son?
c) Hay diferencias notables entre los casados, viudos y solteros.
d) ¿Quiénes son más frecuentes los hombres o las mujeres?

3.- Las notas finales de Geografía de 80 estudiantes de secundaria están registrados en la tabla siguiente.

68 84 75 82 68 90 62 88
73 79 88 73 60 93 71 59
61 65 75 87 74 62 95 78
66 78 82 75 94 77 69 74
96 78 89 61 75 95 60 79
79 62 67 97 78 85 76 65
65 80 73 57 88 78 62 76
86 67 73 81 72 63 76 75
76 85 63 68 83 71 53 85
93 75 72 60 71 73 74 77

Halla:

a) La calificación más alta.


b) A calificación más baja
c) La nota de los 5 estudiantes de más alta calificación.
d) La nota de los 5 estudiantes de más baja calificación
e) La calificación del estudiante que ocupa el 10mo lugar
f) ¿Cuántos estudiantes tuvieron notas igual o más alta que 75?
g) ¿Cuántos tuvieron notas por debajo de 85?

4.- En una investigación antropométrica se midieron los pesos de 40 estudiantes de institutos técnicos
(peso en libras)

138 165 150 132 144 125 149 157


145 158 140 147 136 148 152 144
168 126 138 173 163 119 154 165
145 173 142 147 135 153 140 135
161 145 135 142 150 156 145 129

a) Haga una distribución de frecuencias con 12 clases.


b) Determine las marcas de clase.
c) Determine las frecuencias absolutas y acumulada
d) Determine las frecuencias relativas.
e) Determine las frecuencias relativas acumuladas.
f) Haga el histograma y polígono de frecuencias de esa distribución.

Otro concepto estadístico importante son las medidas de tendencia central.

¿Cuales son las medidas de tendencia central más generalizadas?


Las medidas de tendencia central son puntos o valores de una distribución, son los valores medios o
centrales de ésta y ayudan a ubicarlas dentro de una escala de medición.

Las medidas de tendencias central más generalizadas o más utilizada son la Moda, la Mediana y la
Media Aritmética.
El nivel de medición o escala utilizada para la medición de las variables determina cual es la medida de
tendencia central más adecuada o apropiada.

Concepto y Características de la Moda

La moda: Es un estadígrafo de posición que representa el valor más típico en una distribución, indica los
valores o el valor que aparece con mayor frecuencia y se denota por Mo.
La moda es la categoría o puntuación que ocurre con mayor frecuencia, en la tabla corresponde al
criterio de los expertos sobre la estrategia para entrenar, la categoría que más se repite o sea la más
frecuente es Muy Bien (4), luego en esta distribución de una variable discreta con datos no agrupados esa
categoría Muy Bien (4) es la moda pues se repite 88 veces; es decir es la que representa mayor
frecuencia.
En la tabla que corresponde al ejemplo mostrado de la evaluación en una escala métrica de intervalos, el
intervalo más frecuente es el segundo (56,60) en tanto aparece 16 veces, quiere decir que en ese intervalo
debe estar la moda de las puntuaciones, la puntuación 58, en efecto está en ese intervalo, y es la que más
se repite (7 veces ); Luego 58 es la moda de los puntuaciones o calificaciones otorgadas.
Obsérvese que este valor coincide con la marca de clase de dichos intervalo.
De modo que cuando se tiene datos agrupados, primero se determina el intervalo de clase que mas se
repite (intervalo modal) y la moda se asume como la marca de clase de dicho intervalo.
La moda puede utilizarse con cualquier nivel de medición de la variable. Una distribución puede tener más
de una moda o no tener moda.

Concepto y Característica de la mediana

Mediana: Dado un conjunto de observaciones ordenadas x1, x2, x3 ,....., xn se define como mediana y se
denota por Me a aquel valor que supera a más de la mitad de las observaciones y a la ves es
superado por no más de la mitad de las observaciones.
O sea la mediana es la puntuación que divide a la distribución en dos partes iguales; cuando están
ordenados de menor a mayor o viceversa. Esto es la mitad de los casos caen por debajo de
la mediana y la otra por encima de ella. La mediana refleja la posición media de la
distribución.

En el caso de los datos no agrupados, por ejemplo.


2 3 5 7 8 9 11
La mediana es 7, pues la mitad de los datos inferiores están por debajo de 7 y la otra mitad con
puntuaciones superiores está por encima del valor de mediana.
Si la distribución fuera un número par de datos, por ejemplo 2 3 5 7 8 9, la mediana no aparece, entonces
se asume que está entre 5 y 7 y se calcula por la semisuma de estos valores, es decir (5+7)/2 = 6.

Para el caso de los datos agrupados, primero se determina el intervalo de mediana, que es aquel que
divide al conjunto de intervalos en dos partes iguales, para el ejemplo que hemos venido utilizando, el
intervalo sería (71-75), siendo entonces la marca de clase de este intervalo el valor de que se asume como
el valor de mediana, en este caso es 73.
También la mediana se puede encontrar de la siguiente forma:
n
 (  fi )
Me  Li  ( 2fmediana )h donde,
Li: Es el límite inferior de la clase en que se encuentra el pto que divide el histograma en el 50% de la
frecuencia.
n: Es el número total de datos.
( fi ) : Es la suma de todas las clases anteriores a la clase límite Li.
Fmediana: Es la frecuencia absoluta de la clase mediana.
h: Es el tamaño de la clase.

¿Cómo concebir la posición que ocupa la mediana?

Para el caso de los datos no agrupados, cuántos datos integran la distribución del ejemplo, estos son 7 si
los sumamos y si le sumamos 1 nos da 8, divido por dos, nos da el cuarto valor.
Es decir (N+1)/2 es la expresión para encontrar el lugar o la posición de la mediana, no así el valor de
mediana , que es aquella puntuación que ocupa ese lugar (4, Lugar); 7 para el ejemplo mostrado.
En el caso de los datos agrupados por intervalos n=9 y entonces n+1/2=5, es decir, el intervalo de
mediana es el quinto, siendo como se expresa la marca de clase de este intervalo el valor que se hace
coincidir con el valor de mediana.
La mediana es una medida de tendencia central en escalas o niveles de medición ordinales y métricas, no
tiene sentido en los nominales, porque esto no existe sentido de jerarquía, no hay noción de “ por encima”
ni “por debajo” .
También es útil cuando existen valores extremos o límites en la distribución, es decir, o valores muy bajos
o muy altos en relación con la mayoría de los datos.
¿Qué es la media aritmética?

Esta medida de tendencia central es la más utilizada, y en ocasiones no adecuadamente. Se define como el
promedio aritmético de una distribución. Se suele denotar por x y se puede expresar así:

x
x1  x 2  x3  ...  x n
x N
 1
N i

Para el ejemplo dado:

N=63 el total de puntuaciones

x i  x1  x2  x 3  ...  xn  48  2(35)  ...  92  4457  x  1


63
(4457)  70.74

De hecho lo expresado es el modo de proceder para datos no agrupados.

Cuando los datos están agrupados por intervalos se procede del modo siguiente:

1.- Se determinan las maracas de clase o puntos medios de cada uno de los intervalos, así:

Categ. X fa faX
55 o < 53 3 159
56-60 58 16 928
61-65 63 9 567
66-70 68 3 204
71-75 73 7 511
76-80 78 4 702
81-85 83 4 332
86-90 88 11 968
91-95 93 1 93
4464

2.- Se multiplica la marca de clase por el valor de la frecuencia absoluta de cada intervalo faX.
3.- Se halla la suma de los productos anteriores  f a x = 4464
4.- Se divide este resultado por el total de puntuaciones o de casos y esto entonces es el valor de la
media:
 fa x
x 4464
63
 70.8 63= 0.8 es decir, x N

La diferencia entre este valor y el anteriormente hallado aplicando la diferenciación de medias aritméticas
estriba en que se tomó 53 como marca de clase en el cual el valor 48 se escapa a ese intervalo en
realidad. El valor 53 se repite 2 veces que sería 106 y si se le agrega 48 eso nos daría 154 y no 159,
luego

La media no es aplicable en escalas categóricas (normal u ordinal) sino solo en escalas métricas y tampoco
es válida cuando existen valores extremos o límites.

ACTIVIDAD DE SISTEMATIZACION
Un técnico de cultura física está haciendo una investigación en varios barrios de la comunidad donde
labora y hace una distribución por edades de niños adolescentes y jóvenes.
Cantidad de
niños,
adolescentes y
jóvenes
Edad X fa Fr fa Fr faX
1-3 2 10 10/94 10 10/94 20
4-6 5 12 12/94 22 22/94 60
7-9 8 15 15/94 37 37/94 120
10-12 11 20 20/94 57 57/94 220
13-15 14 15 15/94 72 72/94 210
16-18 17 12 12/94 84 84/94 204
19-21 20 10 10/94 94 94/94 200

a). Qué representa las cifras de niños, adolescentes y jóvenes.


b). Complete la tabla hallando el resto de las frecuencias correspondientes
c). La edad promedio.
x  N a  1034
f x
94
 11
d). La edad más frecuente del grupo.
11 años, que es la moda , es decir la marca de clase del intervalo modal, o sea, el más frecuente.
e). La edad que representa el 50% del grupo.
11 años, es la mediana, es decir, la marca de clase del intervalo de mediana, es el que divide en dos
partes iguales el número de intervalos.
f). Hasta que edad representa el 50% del grupo
hasta 10 años.

g). Hasta que edad se localiza el 25% de los individuos .


hasta los 5 años.
h). Que cantidad de individuos tiene 15 años o menos.
72 individuos.
i). Que cantidad de niños, adolescentes y jóvenes tiene 18 años o menos.
84 ó 84/94% que es lo mismo que el 89%
j). Que porcentaje de individuos tiene hasta 21 años.
100%
k). Haga el histograma y el polígono de frecuencias de esta distribución.

fa

20

15

12
10

1 2 3 4 5 6 7 8 9 10 1112 13 14 15 16 1718 19 20 21

Del ejemplo analizado se aprecia que cuando un conjunto de datos se coloca en un orden de magnitud , el
valor medio que divide al conjunto en dos partes iguales es la mediana, y si dividimos el conjunto de
datos en cuatro partes iguales, los valores correspondientes a esos puntos Q1, Q2, Q3, son denominados
1ro, 2do, 3er cuartil o cuartila, respectivamente, de modo que Q2 = Me (mediana).
Quiere decir que :
 El primer cuartil: Q1 limita la cuarta parte de los datos o sea el 25%.
 Segundo cuartil: Q2 limita la mital de los datos, el 50 %.
 Tercer cuartil : Q3 limita el 75% de los datos las ¾ partes.
 El Cuarto cuartil: Q4 por supuesto el total de los datos.

De igual modo, los valores que dividen el conjunto de los datos en 10 partes iguales se llama decilas o
deciles y se denotan D1, D2, ....D10.

Los valores que dividen los datos en 100 partes iguales se llaman percentiles y se denotan por P 1,
P2,P3,.....P 100.

Se observa que la quinta decila D5 es igual al percentil 50 , P50 y coincide con el cuartil dos Q2; que es
la mediana.
Por tanto P50=D5=Q2=Me
Al conjunto de cuartiles, decilas, percentiles y otros valores obtenidos por subdivisiones iguales son
denominados cuantilas o cuantiles.

EJERCICIOS PARA EL TALLER DE ESTADÍSTICA # 2.

1.- La mayoría de los salarios de los trabajadores de una empresa capitalista son bajos, pocos lo tienen
alto. Se entrevista al director y al delegado sindical y se le pregunta ¿Cuál es el salario más
representativo del salario de los trabajadores de la empresa? ¿Qué medida de tendencia central cree
usted que usaría cada uno? ¿Por qué?

2.-Los siguientes datos corresponden al resultado de las calificaciones obtenidas en una prueba de
ortografía aplicada a 136 alumnos.

5 10 21 33 42 40 51 45 17 42 43 25
12 3 43 52 22 9 4 13 25 38 44 15
24 39 46 18 23 36 47 53 54 55 27 30
48 42 39 42 90 93 89 87 76 52 43 50
40 56 49 38 30 91 89 67 80 78 78 71
60 69 68 40 58 47 51 49 63 57 64 65
56 66 66 50 70 77 62 79 60 54 53 54
72 79 78 82 95 97 48 98 99 83 88 89
76 84 77 75 68 69 67 59 57 59 33 39
73 74 55 73 56 61 57 62 58 77 56 63
37 75 38 73 74 64 73 84 63 74 83 64
75 85 65 66

a) Calcular la media, la moda y la mediana.


b) Hallar el cuartel Q3 e interprete su significación.
c) A partir de qué puntuación se encuentran el 80% de los datos.
3.-Las siguientes distribuciones de frecuencias representan el aprovechamiento de dos grupos A y B.

a) Halle la media y la mediana para ambos grupos.


b) Un alumno del grupo A ocupa el lugar 10 y otro alumno del grupo B ocupa el lugar 14. ¿Cuál
alumno tiene mejor posición en su grupo?

Anotaciones Grupo A Grupo B


24 – 28 3 2
29 – 33 6 7
34 – 38 12 8
39 – 43 10 13
44 – 48 16 11
49 – 53 23 19
54 – 58 15 18
59 – 63 12 20
64 – 68 10 16
69 – 73 8 9
74 – 78 7 8
79 – 83 6 8

4.- Usted está presenciando la exposición de un trabajo investigativo y el ponente se refiere a que "ha
obtenido el promedio de las mediciones realizadas".
1. ¿De qué promedio usted sospecha que esté hablando el ponente?
2. Cuál de las dos expresiones debió haber sido la más correcta. Justifique su respuesta.
1. ¿Se obtuvo el promedio?
2. ¿Se obtuvo un promedio?
3. ¿Qué término le aconsejaría usted utilizar?

5. Suponga que usted está asistiendo junto a otra persona en la exposición de un trabajo investigativo
y el ponente hace referencia primero al valor mediano y posteriormente denomina a este mismo valor
mediano como el del percentil 50. Su acompañante le pregunta; ¿por fin de lo que está hablando es de
la mediana o del percentil 50? ¿Qué le respondería usted?

¿En que consisten las medidas de dispersión o variabilidad de los datos?. ¿Cuáles son las más
utilizadas?

Las medidas de variabilidad indican la dispersión de los datos en la escala de medición, de ahí el nombre
de medida de dispersión que también se les da. Responden a la interrogante:
¿Dónde están diseminadas las puntuaciones o valores?

Mientras que las medidas de tendencia centran son valores o puntos en una distribución, las medidas de
dispersión o variabilidad son intervalos, es decir distancias o un número de unidades en la escala de
medición. Las más utilizadas son: rango, desviación estándar y varianza.
El rango, recorrido o amplitud: Es el intervalo comprendido entre la menor puntuación y la mayor,
indica el número de unidades o puntuaciones en la escala de medición necesaria para incluir los valores
máximos y mínimos.
Estos se calculan de la siguiente manera:
R= Xmáx. – Xmín. = 92-48 = 44 (tomado del ejemplo que hemos desarrollado).
Mientras mayor sea el rango mayor dispersión de los datos existirá en la distribución.

Desviación estándar: Esta constituye el promedio de la desviación o separación de las puntuaciones


respectos a la media aritmética; y se expresa en las mismas unidades en que se miden los datos de la
distribución. Su interpretación se hace en relación con la media aritmética mientras mayor sea la
dispersión de los datos respecto a la media aritmética, mayor es el valor de la desviación estándar.

Suele representarse por S ó  y se calcula de la siguiente forma:

s   Ni
( x  x) 2
, donde

: Es el cuadrado de las desviaciones de cada dato respecto al valor de la media.

: Suma de los valores anteriores

N: Número total de puntuaciones

Es decir, que a la suma de las desviaciones cuadráticas respecto a la media, dividida por el total de datos,
cuando se obtiene la raíz cuadrada de ese cociente dará el valor de la desviación estándar.
Procedimiento para su calculo
1. Se ordenan las puntuaciones: Supongamos que las puntuaciones obtenidas en un ejercicio por 7
sujetos, restringidos en una escala de 0 a 10 fueron (ya ordenados ) en forma descendente:
X: 9,7,6,6,5,4,3

2. Se calcula la media

x 1
N x i 
9  7  2( 6 )  5  4  3
7
 40
7
 5,714

3. Se obtiene la desviación de cada una de las puntuaciones respecto al valor de la media:

(9’5,7) = 3,3 (5-5,7)= 0,7 (7-5,7)= 1,3 (4-5,7)= - 1,7


2(6-5,7)= 2(0,3) (3-5,7)= -2,7
4. Se eleva al cuadrado cada una de las desviaciones. Eso significa que las desviaciones se pueden hallar
indistintamente como ( xi  x) o como ( x  xi ) , se suman estos resultados.

(9-5,7)2+(5-5,7)2 + (7-5,7)2 + (4-5,7)2 + 2(6-5,7)2 + (3-5,7)2 = 23,41


( X i  x)2

5. Se aplica la fórmula s  N1 ( ( xi  x) 2 sustituyendo queda s  237, 41  3,34  1,18


( X i  x)2

Evidentemente el procedimiento ejemplificado es válido en el caso de datos no agrupados.
Procedimiento para el caso de datos agrupados
Para el caso en que los datos estén agrupados en una distribución de frecuencias se procedería de la forma
siguiente:

Utilicemos los datos de la distribución de frecuencias del primer ejemplo :


Categ. X fa faX X(fax) =fax2
55 o < 53 3 159 8427
56-60 58 16 928 53824
61-65 63 9 567 35721
66-70 68 3 204 13872
71-75 73 7 511 37303
76-80 78 4 702 54756
81-85 83 4 332 27556
86-90 88 11 968 85184
91-95 93 1 93 8649
4464 325292

1) Se hallan las marcas de clases, es decir, los valores correspondientes a los puntos medios de cada
intervalo (los valores correspondientes a la columna de las X de la tabla)
2) Se multiplica cada marca de clase por la frecuencia absoluta (fa x), los valores que aparecen en la
columna x fa.
3) Se halla la suma de los valores anteriores, es decir,  f a x  4464
4) Se aplica la expresión para hallar la media y se eleva al cuadrado .

x  N a 
f x 4464
63
 70,8 ( x ) 2  5012,64
5) Se multiplican los valores de la columna faX por las marcas de clase y se conforma la columna faX2 y
se suman estos valores.  f a x  325292
2

6) Se aplica la siguiente fórmula: s   f a x 2  ( x) 2 , en nuestro ejemplo quedaría:


N

s 325292
63
 5012,64  150,72  12,67

Es decir cada valor o puntuación de la distribución se desvía un promedio de 12,67 de la media aritmética
(70,8).

Supongamos que un atleta salta como promedio 7,8 metros y la desviación estandar es 0,3 metros.
La interpretación es que si se salta 10 veces, el valor de cada salto se separa, un promedio de 0,3 metros
de la media de los saltos que es 7,8 metros.

¿Qué es la varianza?
La varianza es la desviación estándar elevada al cuadrado, así S2 = 150,72 , esto es del ejemplo anterior.
Este es un concepto estadístico muy importante pues muchas pruebas estadísticas inferenciales se
fundamenten en él . Es decir muchas teorías estadísticas inferenciales parten del análisis de la
varianza.
Pero en el caso de la estadística descriptiva es más utilizado el concepto de la desviación estándar.

Coeficiente de variación
El coeficiente de variación es la razón o el cociente entre la desviación estandar y la media aritmética y
esta se suele expresar en porciento, es decir: C.V  Sx
El expresa como es la variación relativa de los datos.
Puede suceder que dos distribuciones tengan igual la desviación estándar pero diferente medias, entonces
el coeficiente de variación es distinto.
La dispersión de los datos será mayor en el caso en que el coeficiente sea mayor.
Por Ejemplo.
x  70,8 , entonces C.V  70,8 =0,17= 17%
1267
S= 12,67 y
Veamos en un esquema como se interpretan las medidas de tendencia central y de varabilidad.
Supongamos que aplicamos una escala para medir actitudes (una de este tipo de escala se llama de Lkert)
a un grupo de adolescentes para conocer su actitud frente a su práctica del deporte, si la escala abarcaba
18 afirmaciones y sus resultados calificados de 1 a 5 de la manera siguiente:
Totalmente desfavorable 1
Desfavorable 2
Ni desfavorable ni favorable 3
Favorable 4
Totalmente favorable 5

1 2 3 4 5

Supongamos que los resultados obtenidos fueron respecto a la variable: Actitud hacia la práctica
deportiva.
Moda: 4 Puntuación Máxima: 5
Mediana: 3, 9 Puntuación Mínima: 2
Media ( x ): 4,2
Desviación El Rango es : 3
Estándar: 0.7
Moda
Podemos hacer la siguiente representación:
Mediana Media ( x )
1 2 3 4 5

3,9 4,2 S=0,7

Rango

De los resultados se puede concluir lo siguiente:


- Existe una actitud favorable hacia la práctica deportiva de los encuestados. ¿pro qué?
- La moda es 4 ( fue la frecuencia mayor)
- El 50% de los que emitieron sus juicios está por encima de 3,9 y el restante 50% está por
debajo de ese valor.
- El promedio de los evaluados se ubicaron en 4,2 (pr´ximo a la categoría de favorable)
- Ninguno de los encuestados emitió juicios desfavorable totalmente (no aparece la categoría)
- Las puntuaciones se ubican en los valores medio o elevados

¿Cómo la situación si los resultados hubieran sido?


Moda: 1 Desviación estándar: 0,4
Mediana: 1,5 Rango (3-1)= 2
Media: 1,3

Calculemos el Coeficiente de Variación en ambos casos

Situación 1 Situación 2

C.V = 0,7/4,2 = 1/6 C.V = 0,4/1,3 = 4/13 = 1/3


1
CV( 2 )
CV (1)
 3
1  2 Existe 2 veces mayor variabilidad de los datos o mayor dispersión en la situación 2 que en
6

la situación 1.

Otros elementos estadísticos descriptivos que suelen tenerse en cuenta


Veamos la representación gráfica para los siguientes datos observados de las respuestas correcta dad por
80 atletas a las 100 temas que contenía el instrumento.
a
f
Intervalos fa
(10-20) 6

(20-30) 10
(30-40) 14
(40-50) 20
(50-60) 14
(60-70) 10
(70-80) 6

10 20 30 40 50 60 70 80

Se aprecia que la moda es 20, así como la media y la median. Si observamos los datos a izquierda de la
mediana vemos que coincide con los de la derecha de la mediana. Cuando esto ocurre se dice que la
distribución es simétrica, si trazamos el polígono de frecuencias absolutas y doblamos la representación
gráfica por la línea de la mediana, la rama de la derecha del referido polígono coincide con la de la
izquierda, característica de una curva simétrica.
Si lo descrito anteriormente no se cumpliera, la gráfica sería asimétrica, o sea, carece de simetría.

Los polígonos de frecuencias en la medida que el intervalo de clases disminuye, también disminuye el
carácter “quebrado” de los polígonos, se van “suavizando “ los vértices y va comportándose como una
curva que se asemeja a la siguiente:

fa

una curva como la representada recibe el nombre de “Curva o distribución normal”, la cualconstituye una
distribución teórica, un modelo de distribución.
Si la curva es simétrica se cumple:
_ Median= Media aritmética=Moda.

Para establecer cuan distanciada está un distribución de frecuencia de la curva normal se utilizan dios
conceptos estadístico o estadigrafos, la asimetria y la curtosis.
Existen distribuciones tales que x  Me  Mo , así por ejemplo.
Asimetria con la cola a la derecha,
Asimetria positiva donde

x MeMo
MoMe x

Asimetria con cola a la izquierda,


Asimetria negativa.

x Me Mo
x MeMo
El estadígrafo que denota la asimetria se denomina coeficiente de asimetria de pearson y se denota por S kp
y se calcula :

S kp  x  Mo
S

S: es la desviación estandar
Mo: Moda
X: es la media aritmètica
En la expresión anterior, existe una desventaja que es que incluye la moda, la cual puede ser que no exista,
puede no ser única y en el caso de datos agrupados no es facil obtenerla.
Para evitar esto suele utilizarse la relación aproximada entre la media, la moda y la mediana.
Mo=3Me – 2x luego:
x  ( 3 Me  2 x ) 3( x  Me )
S kp  S
 3 x  3 me
S
 S

El coeficiente de asimetria en una distribución normal vele cero (0). Pues la media es igual a la mediana.
El coeficiente de asimetria será:

Skp= 0 ; x = Me=Mo Simétrica

Skp > 0 ; x MeMo Asimetria positiva

Skp < 0 ;
x Me Mo Asimetria negativa

La medida de asimetria más ampliamente empleada se denomina  3 y se define como el promedio de las
desviaciones elevadas al cubo, dividido por el cubo de la desviación estandar.
3   S 3
1
( xi  x ) 3
N Para datos no agrupados

 3  N  Si 3 a
1
( x  x )3 f
Para datos agrupados.

Si la distribución es muy asimétrica a la izquierda (negativa)  3 = -3, y si es muy asimétrioca a la derecha


(positiva)  3 = +3, por tanto
3 = 0 para las simétricas
3 > 0 Asimetria a la derecha o positiva
3 < 0 Asimetria a la izquierda o negativa.

¿Que es la curtosis?
La curtosis da cuenta de la agudeza o no de la distribución, es decir de su apuntamiento o encorvadura.
La medida de la curtosis la da el coeficiente de curtosis.  4 ; este se define como el promedio de las
cuartas potencias de las desviación de la media dividida por la cuarta potencia de las desviaciones
respecto a la media dividida por la cuarta potencia de la desviación estandar.

4  n  S 4
1
( xi  x ) 4
Para datos no agrupados

 4  n  S 4i f a
1
( x  x )4
Para datos agrupados

si las distribuciones son muy agudas se le denominan leptocurticas, si son muy aplanadas se llamman
platicúrticas.

La cueva normal es mesocurtica.

El coeficiente de curtosis  4 =3 en la mesocúrticas, es mayor que 3 en las leptocúrticas y es menor que 3


en las platicúrticas.

Leptocúrtica Mesocúrtica Platicúrtica

En resumen

3 = 0  4 =3 Curva normal Simétrica y Mesocúrtica


3 > 0  4 >3 Asimetria a la derecha o positiva y Leptocúrtica
3 < 0  4 <3 Asimetria a la izquierda o negativa y Platicúrtica

Pero se puede dar el caso de combinaciones cruzadas, es decir, asimétrica positiva, y curtosis negativas y
viceversa.
¿Que son las puntuaciones Z y para que se utilizan?.

Las puntuaciones Z o valores estandar son transformaciones que se pueden hacer a los valores o
puntuaciones obtenidos en las escalas de medición expresadas en unidades de desviación estandar para
hacer comparaciones respecto al valor de la media de las puntuaciones.
Una puntuación Z mos indica la dirección y grado en que el valor individual obtenido se aleja del valor
medio, una escala que adopta como unidad de medición la desviación estandar.
Las puntuaciones Z, constituyen el método más comunmente utilñizado para estandarizar laescala o nivel
de desición de una variable que se ha medido en una escala métrica.

Para convertir una puntuación o valor en una puntuación Z, se aplica la expresión:

Z  x S x donde,
x: Es la puntuación o valores a transformar.
x : Es es el valor medio de la distribución.
S: Es la desviación estandar de la distribución.

Por su puesto el resultado Z es la puntuación transformada en unidades de desviación estandar.

Ejemplo:
Si en una distribución de frecuencia se obtuvo una media de 60 y una desviación estandar de 10 ( pueden
ser las puntuaciones obtenidas en un examen medido en una escala de intervalos de 0 a 100), por
supuesto para transformar una puntuación de 50 en puntuaciones Z, la obtendríamos aplicando la
expresión anterior:

Z 50  60
10  1
esto significa que la puntuación obtenida está en una desviación estandar por debajo de la media de la
distribución, del mismo modo podríamos aseverar qoe 30 estará a –3 desviaciones estandar de la media.
Esto es lo que se llama proceso de estandarización, el cual permite comparar puntuaciones de
distribuciones distintas aunque con la misma forma de ser medidas.
De esta menera se pueden comparar distribuciones obtenidas en una prueba de entrada (al inicio del
experimento) que en una de salida (al final del experimento)

Supongamos que queremos comparar los resultados obtenidos en dos grupos que realizan un ejercicio de
atlatismo.
Un sujeto obtuvo 65 puntos en la prueb, siendo la media de su grupo 60, con una desviación estandar de
10. Otro grupo realizó la misma prueba y un sujeto obtuvo 68 pto, siendo la media de su grupo 70, con
una desviación estandar de 9,8. ¿Es mejor el comportamiento del segundo sujeto que el del primero?
Si comparaos los resultados obtenidos absolutos 68>65, pero para poder hacer una comparación más
adecuada, se deben transformar estas puntuaciones a puntuaciones Z.
Z1  X S x  6510 60  0,5 Z 2  X S x  689,870  0,2
Se aprecia perfectamente que en terminos absolutos, 68 es mayor que 65, pero en términos relativos no,
pues 68 esta por debajo de la media en 0,2 unidades mientras que 65 está por encima de la media en 0,5
unidades.
La distribución de puntuaciones Z no cambia la forma de la distribución original, pero si modifica sus
unidades originales a “Unidades de desviación estandar”.
La distribución de puntuaciones Z tiene una media 0 y una desviación estandar 1.
-35 -25 -15 0 15 25 35
0.5

-0.2

La spuntuaciones Z tambien sirven para coparar mediciones de distintas pruevas o escalas aplicadas a los
m,ismos sujetos (los valores obtenidos en cada escala se transforman a puntuaciones Z y se comparan).
No debe olvidarse que en la formula de stimación se utilizan los valores de la media y la desviación
estandar que corresponde al valor a transformar, es decir de su misma distribución.

GUÍA PARA EL TALLER #3 DE ESTADÍSTICA.

1. Aun grupo de asistentes a una conferencia sobre problemas contemporáneos de la pedagogía, se le


preguntó la edad. El que impartió la conferencia le orienta a usted calcular la edad media de los
asistentes, así como la variación en años que representa la edad de cada uno en relación con la
edad media.

A esos efectos se confeccionó la siguiente tabla de distribución de frecuencias.

EDAD CANTIDAD
ASISTENTES
22 – 26 10
27 – 31 30
32 – 36 50
37 – 41 70
42 – 46 25
47 – 51 10
52 – 56 5

2.- Un grupo de estudiantes ha sido ordenados en función de su estatura, originándose la distribución de


frecuencias siguientes.

ESTATURA(cm) CANTIDAD
PERSONAS.
149 - 154 10
155 - 160 20
161 - 166 30
167 - 172 40
173 - 178 130
179 - 184 200
185 - 190 130
191 - 196 40
197 - 203 30
204 - 209 20

Determine en qué intervalos se encuentra el 68% de los datos.

3.- Un grupo de alumnos ha realizado dos exámenes, uno de Geografía y el otro de Historia. Con las
notas del examen de Geografía se confeccionó una distribución de frecuencias cuya media aritmética es
de 75 puntos y con una desviación típica de 5 puntos. Con las notas de historia se confeccionó otra
distribución cuya media es de 81 puntos y una desviación típica de 3 puntos.

Si un alumno obtuvo en Geografía 90 puntos y en historia 88 puntos. En qué asignatura resultó más
destacado con respecto al resto de sus compañeros.
4.- Los datos siguientes representan las notas de 5 alumnos calificados sobre 10 puntos: 6; 2; 8; 7; 5.
a) Halle las puntuaciones Standard de cada uno
b9 Pruebe utilizando las puntuaciones Standard anteriores que la media y la deviación Standard de un
conjunto de puntuaciones Standard es o y 1 respectivamente.

5.- A los efectos de analizar la composición de su fondo salarial en el mes de diciembre de 2004, el centro
escolar x agrupó a sus docentes de acuerdo con el salario que devengaron durante dicho mes,
confeccionando la siguiente distribución de frecuencias.

SALARIO NUMERO DE
EN PESO TRABAJADORES
85 – 109 25
110 – 134 80
135 – 159 215
160 – 184 120
a) 185 – 209 30 y polígono de frecuencia.

210 – 234 20
235 – 259 10

La dirección de ese centro escolar desea conocer:


b) Salario medio por trabajador en el mes analizado
c) La desviación típica con respecto al promedio.
d) ¿Entre qué salarios se encuentra lo devengado por el 95% de los trabajadores? (suponiendo que la
distribución es aproximadamente normal)
e) El salario a partir del cual devenga el 50% de los trabajadores.
f) ¿Cuál de los salarios es el más frecuente?
g) ¿Hasta qué salario está comprendido el devengado por la cuarta parte de los trabajadores?
h) ¿De qué salario en adelante percibe el 80% de los trabajadores?
i) Si los trabajadores del centro Y, similar al X, obtuvieron durante el propio mes de diciembre, un
salario medio de $170.00 con una desviación típica de $80.00¿En qué centro los salarios han
resultado más consistentes respecto al promedio?
Represente gráficamente la distribución de frecuencias mediante un histograma

Resumiendo

 En un proceso estadístico descriptivo se obtiene una distribución de frecuencia de cada


variable.
 Se calculan los estadígrafos descriptivos para cada variable, pero solo aquellos que sean
necesarios acorde con las propósitos u objertivos que se persiguen.
 La puntuaciones Z constituyen un elemento importante de la estadística descriptiva que
permite analizar los datos que se han obtenidos.

Estadística Descriptiva

Tablas Gráfico Moda Media


Distribuciones Medidas de Medidas de Simetría, curtosis,
de frecuencias tendencia central desviación puntuaciones Z
Rango Varianza

Mediana
Histograma Otras
Desviación estándar

Polígono