Está en la página 1de 15

ESTADISTICA

Prof: Dr. Jorge Luis Morales Martínez

Análisis descriptivo de datos

Sumario.

1. Variables aleatorias continuas y discretas.


2. Niveles de medición.
3. Características numéricas de las variables aleatorias

Introducción

El primer paso en cualquier investigación estadística consiste en “explorar” o “describir” los datos
recolectados. Este proceso puede ser útil incluso para depurar errores.

La estadística está catalogada por varios autores como un instrumento imprescindible para la toma de
decisiones en escenarios de incertidumbre. Ella se divide en dos grandes grupos: estadística descriptiva y
estadística inferencial, en la clase de hoy se estudiará la primera.

Estadística descriptiva: rama de la estadística que se ocupa de describir y caracterizar un grupo de datos sin
sacar conclusiones o inferencias sobre un grupo de datos mayor.

Datos primarios: datos que no han pasado por ningún tipo de procesamiento.

Ejemplos:

1. conjunto de estaturas de 100 estudiantes de ciencia de la computación.

2. diagnóstico de un conjunto de pacientes que asisten a la consulta X de cierto hospital psiquiátrico,


(1.-retardo mental, 2.-mentalmente enfermo, 3.- físicamente enfermo).

3. cantidad de barcos que llegan diariamente al puerto de La Habana.

Trataremos desde el principio con fenómenos aleatorios cuyo resultado directamente observado es uno o
más números.

Ejemplos:

1. El resultado del lanzamiento de un dado (número del 1 al 6).


2. El peso y la estatura de un grupo de personas.
3. El rendimiento de cierto cultivo cosechado bajo determinadas condiciones, etc.
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
Niveles de Medición:

La clasificación de las variables aleatorias en discretas y continuas (o en tercera instancia mixta) debe
a veces precisarse desde el punto de vista práctico con el concepto de “niveles de medición”. Sin pretender
dar definiciones demasiado exactas que solo dificultarían las ideas intuitivas, diremos que:
Escala Nominal
◼ Se dice que una variable es del tipo nominal cuando se limita a clasificar una población en dos o
más clases a partir de una categoría.
◼ Por Ejemplo:
 Grupo Sanguíneo: A, B, AB, O.
 Sexo: Femenino, Masculino
 Estado Civil: Soltero, Casado, Divorciado, Viudo.
◼ Es posible identificar cada categoría con un número, pero estos números sólo juegan un papel
formal. No tiene sentido comparar los valores de este tipo variables.
Escala Ordinal

◼ Se dice que una variable es del tipo ordinal cuando la variable es de tipo nominal pero es posible
establecer una relación de orden entre los mismos.

◼ Por ejemplo:

 Grado de recuperación: Nada, Poco, Moderado, Bueno, Muy Bueno.

 Apreciaciones de sabor: Malo, Regular, Bueno.

 Calificaciones: Suspenso, Aprobado, Sobresaliente.

 En este caso también se le puede asignar un número a cada categoría, pero su papel seguirá
siendo formal.

Escala de Intervalo

◼ Se dice que una variable tiene una escala de intervalo cuando es una escala ordinal y tiene una
distancia definida entre sus valores. Los números tienen sentido cuantitativo y en las escalas de
intervalos las unidades de medida son iguales

◼ Por Ejemplo:

 La Temperatura.
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
 Los Resultados de los Exámenes.

◼ Permite además operaciones aritméticas entre sus elementos, cuántas unidades de medida está un
sujeto por encima o por debajo de otro. En esta escala el valor cero no implica la ausencia del
atributo que se analiza.

Escala de Razón o Proporción

◼ Se dice que una variable tiene una escala de razón cuando es una escala de intervalo pero posee un
cero absoluto, o sea un valor que indica la ausencia total del atributo o categoría que se analiza.

◼ Por Ejemplo:

 Medidas de Longitud, de Peso.

 La Edad.

 La Capacidad.

Escalas

◼ En las ciencias sociales las escalas más frecuentes son las nominales y las ordinales.

◼ Las variables también se pueden codificar de otra manera:

 Cuantitativas:

◼ Escala de Razón.

◼ Escala de Intervalo.

 Cualitativas:

◼ Escala Nominal.

◼ Escala Ordinal.

Distribución de frecuencias: procedimiento mediante el cual se ordenan los datos primarios.

Vamos ahora las tablas de distribuciones de frecuencia acordes a la clasificación de las variables aleatorias
en discretas o continuas.
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
Distribución de frecuencias para variables aleatorias discretas

En una población determinada de n individuos descrita según una variable C cuyos valores han sido
agrupados en k categorías, que denotamos mediante c1 , c2, . . . , ck. Para cada una de estas clases podemos
introducir los siguientes conceptos:

◼ Frecuencia absoluta de la clase ci (ni): es el número de observaciones que tiene un valor


perteneciente a esa clase.

◼ Frecuencia relativa de la clase ci (fi): es el cociente entre las frecuencias absolutas de dicha clase y
el número total de observaciones. (ni/n)

◼ Frecuencia absoluta acumulada (Ni): es el número de elementos de la población cuyos valores


son inferiores o iguales al valor ci. (n1+…+ni).

◼ Frecuencia relativa acumulada (Fi): es el tanto por uno de los elementos de la población que están
en alguna de las clases y que toman valores inferiores o iguales al de la clase ci. (Ni/n)

Utilizando los conceptos anteriores se puede construir una tabla a partir de los datos con toda esa
información. Al conjunto de datos con sus frecuencias absolutas se le puede llamar distribución de
frecuencia.

Ejemplo

Suponga que se observan por 20 días la cantidad de barcos que llegan al puerto de La Habana.

2 0 3 4 3 1 4 5 1 2 0 3 2 4 3 4 5 3 4 2
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
Los datos pueden ordenarse de la siguiente manera:

Valores Frecuencias Frecuencias Frecuencias Frecuencias


xi ni acumuladas relativas relativas
Ni fi acum.
Fi
0 2 2 0.10 0.10
1 2 4 0.10 0.20
2 4 8 0.20 0.40
3 5 13 0.25 0.65
4 5 18 0.25 0.90
5 2 20 0.10 1.00
Total 20 1.00
Propiedades de la Tabla

1. ni, Ni son enteros positivos

2.

3. fi, Fi son números fraccionarios

4.

5.

6.

Pueden hacerse gráficos asociados a las tablas de distribución de frecuencias como se muestran a
continuación. Por lo general se prefiere presentar gráficos a tablas.

Histograma de Frecuencias absolutas (eje x: valores de la variable. Eje Y: Frecuencia absoluta(ni))


ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez

Histograma de frecuencias absolutas acumuladas (eje x: valores de la variable. Eje Y: Frecuencia


absoluta acumulada (Ni))

Distribución de frecuencias para variables aleatorias continuas

Procedimiento para la construcción de la tabla de la frecuencia

1. Se toma un Xmin y un Xmax (puede o no pertenencer al conjunto) y se toman preferentemente


enteros.

2. Se determina :Amplitud de la case

3. Se forman las clases con amplitud C hasta incluirlos a todos los datos primarios.

4. Se construye la tabla.

Supongamos ahora que tenemos las notas (0 - 100) de 50 estudiantes de la enseñanza media. Los datos
pueden ordenarse de la siguiente manera:
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez

Clases Marca de Frecuencias Frecuencias Frecuencias Frecuencias


clases absolutas absolutas relativas relativas
di ni acumuladas fi acumuladas.
Ni Fi
(50,60] 55 5 5 0.10 0.10
(60,70] 65 10 15 0.20 0.30
(70,80] 75 25 40 0.50 0.80
(80,90] 85 8 48 0.16 0.96
[90,100] 95 2 50 0.04 1.00
Total 50 1.00
Vean que ahora se incluyo una nueva columna con respecto a la tabla de distribución de frecuencia para el
caso discreto. En este caso es la columna denominada marcas de clase(di). Las marcas de clase no van a ser
otra cosa que los puntos medios de cada una de las clases =55: =65, y así sucesivamente.

Las ni van a tener una variación con respecto al caso discreto en que representaban la cantidad de veces
que aparece un valor, en este caso van a ser la cantidad de valores que están en determinadas clases(en la
clase 50-60 hay 5 valores, en la clase de 60-70 hay 10 etc…)

Características numéricas de las variables aleatorias

Asociadas con las variables aleatorias y su distribución existen una serie de características numéricas que
explican tendencias generales de la distribución y que en algún sentido su conocimiento permite precisar la
misma. A continuación se muestran algunas de ellas:

Medidas de posición

Media aritmética para los datos discretos


• media: es el promedio clásico que todos conocemos desde la primaria.
n

x i
x= i =1
→ Datos primarios
n

Ejemplo:

1+ 4 + 7
1,4,7 x = =4
3
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
n

n x i i
x= i =1
→ Datos agrupados
n

Ejemplo:

X 1 4 6

ni 2 1 4

2 •1 + 1• 4 + 4 • 6
x= = 4.3 (Recuerden que las ni es la cantidad de veces que aparece un valor, es decir
7
que el valor 1 aparece 2 veces, el 4 una vez y el 6, aparece 4 veces por lo tanto estamos hablando de 7 datos
(2+1+4))

La media es susceptible a observaciones extremas, puede verse altamente afectada por ellas.

Media aritmética para los datos continuos

Si los datos no estuvieran agrupados la media se calcula de la misma forma ya definida para datos
primarios.
Cuando los datos están agrupados la media puede calcularse así:
k

d i ni
x= i =1

Ejemplo:

Calcular la media en el ejemplo de las notas de los estudiantes

55 • 5 + 65 • 10 + 75 • 25 + 85 • 8 + 95 • 2
x= = 73.4
50

La media puede aplicarse a v.a.d.o. o a v.a.c.

• mediana: valor que divide a la muestra en dos partes iguales.

Ejemplos:

Cuando la cantidad de datos es impar


ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
Nota1: 3 3 4 5 5 Me=4

Cuando la cantidad de datos es par

3+ 4
Nota2: 3 3 4 4 Me = (promedio de los valores centrales)
2

Conclusión: la mediana no tiene que pertenecer al conjunto.

Mediana para datos Continuos

n
− N j −1
Me = L j −1 + 2 C
nmed

L j −1 (Límite inferior de la clase mediana)

N j −1 (frecuencia absoluta acumulada anterior a la clase mediana)

nmed (frecuencia absoluta de la clase mediana)

C (amplitud de la clase mediana)

La idea está en determinar cual es la clase mediana (para determinar la clase mediana hay que buscar en las
Ni cual es el primer valor que sobrepasa la mitad de los datos)

Ejemplo: (notas de los estudiantes)

Tenemos que la cantidad total de datos es 50(por tanto, la mitad de los datos es 25) y el primer valor que
sobrepasa la mitad de los datos en las Ni es 40(por tanto, la clase que va desde 70-80 es la clase mediana)

L j −1 (70) N j −1 (15) nmed (25) C (10)

25 − 15
Me = 70 + 10 = 74
25

• moda: valor que más se repite, (valor de mayor frecuencia absoluta) (para el caso discreto).

Puede aplicarse en v.a.d. tanto nominales como ordinales

Ejemplos:

Nota1: 3 3 3 4 5 Mo=3

Nota2: 3 2 4 5 No hay moda


ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
Nota3: 3 3 4 4 5 Mo=3, Mo=4

Conclusión: la moda no es única y no siempre existe.

Moda para el caso Continuo

n j − n j −1
Mo = L j −1 + C
(n j − n j −1 ) + (n j − n j +1 )

L j −1 (Límite inferior de la clase modal)

n j −1 (frecuencia absoluta anterior a la clase modal)

n j (frecuencia absoluta de la clase modal)

n j +1 (frecuencia absoluta posterior a la clase modal)

C (amplitud de la clase modal)

La idea está en determinar cual es la clase modal (para determinar la clase modal hay que buscar en las ni
cual es la clase que tiene mayor frecuencia es decir en que clase hay mayor cantidad de elementos)

Ejemplo: notas de los estudiantes

Como se puede observar en la clase 70-80 hay 25 estudiantes por lo tanto esa es la clase Modal(clase que
contiene mayor cantidad de estudiantes).

L j −1 (70) n j −1 (10) n j (25) n j +1 ( 8) C (10)

25 − 10
Mo = 70 + 10 = 74.68
(25 − 10) + (25 − 8)

Estadígrafos de dispersión

• varianza: medida cuadrática de variabilidad. Es la media de las desviaciones al cuadrado de cada valor
xi con respecto a la media aritmética del conjunto.

Para el caso discreto

V (X ) =
1 n
(xi − x )2 → Datos primarios V (X )  0

n i =1
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez

V ( X ) =  ni (xi − x ) → Datos agrupados


1 n 2

n i =1

Para el caso Continuo

V (X ) =
1 n
 i in (d − d )2
donde d =
1 n
 ni d i
n i =1 n i =1

• desviación típica: medida de variabilidad.


s = + V (X ) s0

s
Cv =
• coeficiente de variación: medida de dispersión relativa x

Ejemplo: ingreso mensual de dos grupos de personas:

Grupo 1 x = 150 s=50 Cv=0.33

Grupo 2 x = 500 s=50 Cv=0.10

A pesar que las dispersiones son iguales en ambos grupos, existe una mayor variabilidad en el grupo 1,
pues su coeficiente de variación es mayor. Una variación de 50 en el salario n afecta tanto al segundo grupo
como al primero.

• Rango o amplitud: medida de variabilidad rango = máximo – mínimo

Conclusiones

1. Las variables aleatorias se clasifican en:

a. Discretas nominales

b. Discretas ordinales

c. Continuas

2. Es importante recordar las distribuciones estudiadas en Probabilidades, así como sus propiedades.
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez

Ejercicios Propuestos

1. Los talleres de mecánica pertenecientes a varias empresas del MINAZ en la región central de Cuba,
necesita información acerca de la composición de sus trabajadores, para ello se recogió la edad de
cada uno de ellos a partir de una encuesta. Los datos fueron agrupados en la siguiente tabla:

Edades
16 - 25 220
26 - 35 400
36 - 45 0.9
46 - 55 0.05
56 - 65
Total 500

1ro - Diga qué tipo de variable representan los datos.


2do - Complete la tabla a partir de los datos que se reflejan.
3ro - Responda las siguientes preguntas:
¿Cuál es el rango de edad que más predomina?
¿Cuántos están por debajo de 35 años y qué porciento representan?
4to - Represente la variable en un histograma de frecuencias absolutas.

2. A partir de los datos agrupados en la pregunta 1, calcule: la media aritmética y la varianza.

3. Los talleres de mecánica pertenecientes a varias empresas del MINAZ en la región central de Cuba,
necesita información acerca de la composición de sus trabajadores, para ello se recogió el nivel
escolar de cada uno de ellos a partir de una encuesta. Los datos fueron agrupados en la siguiente
tabla:
Nivel
Secundario 0.05
Pre-
0.4
Universitario
Técnico Medio 300
Universitario
Total 500

1ro - Diga qué tipo de variables representan los datos.


2do - Complete la tabla a partir de los datos que se reflejan.
3ro - Responda las siguientes preguntas:
¿Cuál es el nivel de escolaridad que mas predomina?, ¿Qué porciento representa en los talleres?
¿Cuántos no tienen nivel universitario?

4. En la siguiente distribución de frecuencias, X corresponde al tiempo (en minutos) en que un


grupo de pacientes se recuperó de un ataque de asma luego de ingerir un medicamento.
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez

ni
12
10
8
5

X
4 8 12 16 20

1ro - ¿Cuál fue el tiempo promedio de cura de los pacientes?


2do - Calcule la varianza, moda y mediana.
3ro - ¿Que % de los pacientes demoró al menos 12 minutos en curarse?
4to - Construya una tabla de distribución de frecuencias a partir del gráfico.

5. En la siguiente distribución de frecuencias, X corresponde a la cantidad de insulina (mg) que se le


suministra a un grupo de diabéticos en un policlínico.

ni
12
10
8
5

X
6 10 14 18 22
1ro - ¿Cuál fue la cantidad de insulina media suministrada?
2do - Calcule la varianza, moda y mediana.
3ro - ¿A qué % de los pacientes se le inyectó al menos 14 mg de insulina?
4to - Construya una tabla de distribución de frecuencias a partir del gráfico.

6. En una investigación farmacológica se realizaron experimentos para analizar las drogas que
actuaban como depresoras del sistema nervioso central, obteniéndose los siguientes resultados: (se
da una escala de 0 a 15 puntos de acuerdo al número de animales que reaccionan positivamente)
8 6 7 8 8 9 10 12

1ro - Clasifique los datos en discretos o continuos.


2do - Construya una tabla de distribución de frecuencias para los datos anteriores.
3ro - Calcule la media, la varianza, la desviación típica, la moda y la mediana para los datos agrupados en
el inciso anterior.

7. En una epidemia, se ha recogido el número de muertos en 40 ciudades de un país, obteniéndose la


siguiente tabla:
Nro de muertos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez
1ro - Clasificar los datos anteriores en discretos o continuos.
2do - Agruparlos en una tabla de distribución de frecuencias.
3ro - Calcular media, la varianza y la desviación típica para los datos agrupados en el inciso anterior
4to - Calcular la mediana y la moda para los datos primarios.
5to - Determinar el porcentaje de ciudades con al menos 2 muertos.
6to - Determinar el porcentaje de ciudades con a lo sumo 5 muertos.

8. Realizada una encuesta en una región del país, se han agrupados los establecimientos hoteleros por
el número de cuartos, obteniéndose la siguiente distribución:
Cuartos No. de Hoteles
0 - 100 25
100 - 200 37
200 - 300 12
300 - 400 22
400 - 500 21
500 - 600 13
600 - 700 5
700 - 800 3

1ro - Determine el número de establecimientos hoteleros con más de 300 cuartos.


2do - Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400.
3ro - Represente gráficamente la distribución.
4to - ¿Qué tipo de variable es esta?
5to - ¿Qué argumento puede dar usted para que siendo esa variable, la tabla de frecuencia tenga esta
forma?

9. Los siguientes datos corresponden a las longitudes (en cm.) de las tilapias capturadas en una presa
de la provincia de La Habana, a fin de estudiar la velocidad de crecimiento de esta variedad. Las
longitudes se reflejan a continuación:
25 33 35 37 55 27 40 33 39 28 34 29 44 36 22 51 29 21
28 29 33 42 15 36 41 20 25 38 47 32 15 27 27 33 46 10
16 34 18 14 46 21 19 25 19 17 24 21 27 16

1ro - Agrupe los datos en una tabla de frecuencias


2do - Represente gráficamente la distribución de frecuencias obtenida (frecuencia absoluta y relativa
acumulada)
10. En una fábrica se pagan los siguientes salarios:

Salarios No. Trabajadores


$120 5
$130 3
$140 10
$150 9
$160 8
$170 5
ESTADISTICA
Prof: Dr. Jorge Luis Morales Martínez

1ro - ¿Cual es el salario medio?


2do - ¿Qué grupo de trabajadores es el que pesa más en la formación del salario medio y cuál es el del
menor peso?
3ro - ¿A qué grupo de trabajadores corresponde el punto medio de la escala salarial que tiene la fábrica?
4to - ¿Cuál es el monto de salarios recibidos más frecuentemente?

11. En la tabla de frecuencias que se da a continuación faltan algunos datos. Complétela y represéntalas
gráficamente.

Valores ni fi Ni Fi
0 2
1 5 7.
2 9 8.
3 14 0.70 9.
4 0.2
5
12. En la tabla de frecuencias que se brinda a continuación faltan algunos datos. Complétela y
represéntala gráficamente.

Clases ni fi Ni Fi
20-24 0.10
24-28 0.25
-32 11 0.55
32- 0.85
-40 1

13. Durante el transcurso de una investigación agrícola se determinó la producción total(Kilogramos) de un


cierto cultivo, el cual fue sembrado en 20 parcelas experimentales. Los resultados obtenidos
fueron:Producción(Kilogramo)

40 35 38 40 41 37 41 40 38 20
25 33 27 25 28 44 22 20 29 36
a) Construya una distribución de frecuencia con 5 clases.
b) Represéntela gráficamente dicha distribución.

También podría gustarte