Está en la página 1de 35

Sesión 2: Organización de datos

Clasificación de datos estadísticos.


Variables cualitativas (atributos)
Variables cuantitativas:
Continuas y Discretas.
Ejercicios aplicativos.
Organización de datos
Los datos generalmente requieren de métodos que permiten
extraer información para comprender mejor las situaciones que
representan y poder así tomar decisiones acertadas.
Algunas técnicas de análisis de datos son sorprendentemente
simples de aprender y usar, aún cuando el sustento matemático sea
muy complejo.
Análisis de los datos
La Estadística destaca las características de interés mediante
el análisis de los datos y por ello se utiliza en casi todas las
áreas del conocimiento.

El método estadístico consiste en recolectar, organizar,


presentar y analizar los datos observados, a partir de los
cuales se infieren conclusiones que permitan la toma de
decisiones.

La Estadística no es un fin en sí, es una herramienta para


analizar datos.

El análisis estadístico puede referirse a una o más variables.


El método estadístico
La elección del método de análisis se basa tanto en el tipo de
datos disponibles como en la forma en que fueron
recolectados.

La aplicación incorrecta de métodos estadísticos en un trabajo


científico o en un informe técnico puede culminar en
conclusiones equivocadas, más aún sabiendo que no son
exactas las estimaciones estadísticas.

La ventaja de los métodos estadísticos es que aplicados sobre


datos obtenidos a partir de muestras aleatorias permiten
cuantificar el error que se puede cometer en tal estimación.
Datos estadísticos
Dato es todo valor observado para la variable en estudio.
En consecuencia, los datos se clasifican conforme a las variables:
Cualitativos: nominales u ordinales.
Cuantitativos: discretos o continuos.
De acuerdo al sector y/o periodo en estudio, pueden ser: cronológicos,
geográficos, históricos, demográficos, económicos, deportivos, etc.
De acuerdo a su procedencia: internos y externos.
Presentación de los Datos
Los datos se organizan para presentarlos en tablas y/o gráficos.
Sexo, lugar nacimiento, edad, presión arterial sistólica son variables
que describen a una persona. Su sexo, su lugar de nacimiento, su
edad, etc. son los valores que estas variables toman para esa
persona.

Hay varias formas simples e interesantes de organizar los datos en


gráficos que permiten detectar tanto las características que
sobresalen como las características inesperadas.

Otro modo de describir los datos es resumirlos en uno o dos


números que permiten caracterizar el conjunto con la menor
distorsión o pérdida de información posible.
Recuérdese que, cuando existen datos para toda la población, no
hay necesidad de realizar muestras, ya que es posible calcular
exactamente los parámetros de interés. En el censo poblacional,
por ejemplo, se registra el sexo de todas las personas censadas,
que son prácticamente toda la población, así que es posible
conocer exactamente la proporción de habitantes de los dos
sexos.
Pautas para el Análisis de datos
1. Las variables numéricas se deben registrar con la misma
exactitud con que fueron obtenidas, no redondear ni
categorizarlas para registrarlas.

2. Cuando el mismo sujeto es observado más de una vez, por


ejemplo durante el control de embarazo o a lo largo de un
ensayo, se obtienen medidas repetidas sobre el mismo
individuo. No debe considerarse cada visita de un sujeto como
un registro independiente. Es incorrecto tratar registros
múltiples de un individuo como si fueran registros de distintos
individuos
3. Asignar un nombre de no más de 10 letras a cada variable.

4. La carga de datos se hace más simple, rápida y exacta si se codifican


todas las variables cualitativas.

5. Cuando se trata de fechas es importante definir el formato que se


usará para la variable: dd/mm/aa, mm/dd/aa, aa/mm/dd, etc.
6. Usualmente no se puede saber si los datos son correctos, pero
sí se deben asegurar que sean posibles.

7. Analizar los datos para lograr la consistencia del archivo. No se


espere solucionar todos los errores, pero sí eliminar los más
groseros.

8. La consistencia de los datos implica identificar los errores y de


ser posible, corregirlos.

9. Primero se debe chequear si el tipeo ha sido correcto: cuando


el archivo es pequeño se imprime y se controla. Cuando es
grande, conviene tipearlo dos veces y comparar ambas versiones.
10. Si los datos son cualitativos, chequear si todos los valores de la
variable son posibles. Ejemplo: Grupo sanguíneo: O, A, B, AB.

11. Es aconsejable hacer un listado de todas las tablas de frecuencia


de las variables cualitativas antes de comenzar con el análisis
estadístico de los datos.

12. Si los datos son numéricos, para cada variable se debe listar el
rango de valores esperados. Ejemplo: Edad materna al parto: 12 a 50
años, Presión arterial sistólica: 70 a 250 mg de Hg.

13. Un error frecuente es colocar mal la coma o el punto decimal.

14. Valores fuera del rango esperado no necesariamente son errores.


Existen valores poco probables y valores imposibles. Valores poco
probables pero posibles deberían ser corregidos sólo cuando hay
evidencia de error
15. Chequeo lógico: Hay cierta información que sólo destaca en
ciertos casos. Por ejemplo, número de embarazos es relevante si
sexo = femenino, pero para sexo = masculino, esta variable debería
ser ‘- ‘ o “no corresponde”; es poco probable que un niño nacido con
30 semanas de gestación pese 3800 g., coherencia entre las fechas y
edad del encuestado.

16. Análisis exploratorio de los datos : Antes de analizar los datos es


importante presentarlos en tablas y gráficos que permitan detectar
rápidamente datos anómalos o comportamientos atípicos.

17. El tipo de gráfico a seleccionar depende del tipo de variable que


interesa representar, por lo que se deben distinguir gráficos para
variables cualitativas y para variables numéricas.
Variables y Frecuencias
Variable: Característica de estudio en la población o muestra.
Frecuencia: Veces que se repite un valor de la variable.
Clases de variables: Cualitativas (nominales y ordinales).
Cuantitativas (discretas y continuas).
Tipos de frecuencia: Absoluta y relativa, ambas pueden ser de
carácter individual o acumuladas.

Tabla de distribución de frecuencias : Presentación de los datos en


forma de tabla. Se utiliza con variables cualitativas o categóricas y
con variables cuantitativas (discretas y continuas)

Una alternativa para la Tabla de distribución de frecuencias es el


diagrama Tallo-hojas.
Tabla de Distribución de frecuencias

Xi fi Fi hi Hi
0 4 4 0,08 0,08
1 5 9 0,1 0,18
2 6 15 0,12 0,3
3 10 25 0,2 0,5
4 5 30 0,1 0,6
5 11 41 0,22 0,82
6 2 43 0,04 0,86
7 7 50 0,14 1
Ejercicios Elaboración Tabla de Distribución de frecuencias:
1. Durante el mes de junio, en la ciudad Equis se han
registrado las siguientes temperaturas diarias máximas:

32, 31, 28, 29, 32, 32, 31, 30, 31, 31,29, 28, 29, 30, 32,
31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 32, 30, 31, 29.

2. El número de inasistencias a una entidad estatal en los dos


últimos meses registra lo siguiente:

2, 3, 1, 4, 5, 3, 2, 4, 1, 3, 3, 1, 2, 1, 4, 6, 4, 2, 4, 5,
3, 3, 2, 4, 6, 4, 2, 3, 1, 4, 5, 3, 2, 4, 5, 4, 2, 3, 4, 3
TAREA
Distribución de frecuencias agrupadas: Cuando existe un número
grande de valores o la variable es continua. Se determina Rango y
número de clases con intervalos de la misma amplitud. Los extremos
de cada clase son sus límites y su valor medio es la Marca de clase. En
todos los casos, el límite superior pertenece a la clase siguiente

Las tablas de frecuencia organizan datos de una sola variable a la vez.


Cuando se desean comparar dos variables se usa una tabla de
contingencia.

Ejercicio.- Sean:
6, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17,
7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37,
34, 32, 35, 28, 38, 41, 48, 15, 32, 13, 14, 19, 26, 11, 8.
ORGANIZACIÓN DE DATOS

I.-Población-Muestra-Variables-Categorías-Clases-
Observaciones o Datos.
II.-Distribución de Frecuencias o Tabla de Frecuencias:
1.Rango.-Intervalo de clase-Amplitud-Límites.
2.Clasificación de datos.
3.Conteo de datos-Frecuencia de clase-Punto medio o
Marca de clase.
* Técnica alternativa: Diagrama Tallo-hojas (datos
cuantitativos).
III.-Criterios a seguir:
1.Clases representativas, de preferencia no
abiertas.
2.Intervalos de clase de igual tamaño .
3.No superponer las clases.

IV.-Clases de frecuencias:
- Absolutas y relativas.
- Absolutas acumuladas y Relativas
acumuladas.
V. Gráficos:
-Histograma: Eje de coordenadas-Clases en eje horizontal
y frecuencias de clase en eje vertical-Alturas representan
la frecuencia.
-Polígono de frecuencias: Une puntos medio de clases con
segmentos de recta. Permite comparaciones en un mismo
cuadro. Incluso, con frecuencias relativas si datos no fueran
semejantes.
-Polígono de frecuencias acumuladas “menor que”:
Límites superiores de clase en eje X, frecuencias
acumuladas en eje Y, en unidades. En una paralela hacia la
derecha escala en porcentajes.
-Gráfico o Diagrama de barras: Horizontal o vertical-Con
todas las escalas de medición.

-Gráfico lineal: Representan cambio de una variable a


través del tiempo (en eje horizontal)-Permite comparar
variables en un período.

-Gráfico o Diagrama circular: Para datos de nivel


nominal. Se recomienda distinguir las particiones.
Recomendaciones:
Generalmente, el titulo de la tabla va encima de ésta,
mientras que el título de una figura va por debajo. El título,
de ambas, sólo debe llevar la primera palabra en mayúscula y
no va subrayado.
Para el gráfico de barras:
El empleo de sombreado o colores facilita la diferenciación de
las barras.
El punto cero se indica en el eje de ordenadas y se deben
establecer las unidades en los ejes.
La longitud de los ejes debe ser suficiente para comprender la
extensión de la barra.
Las barras pueden ser horizontales o verticales.
Estas gráficas no se recomiendan cuando existen intervalos
abiertos o cuando los intervalos no son iguales.
Es importante señalar que se pueden representar en la misma
gráfica, utilizando las mismas escalas horizontales y verticales,
varios datos correspondientes a las mismas variables producto
de varias observaciones. Esto produce una gráfica con varias
series, correspondiendo cada una de ellas a cada observación
de la muestra (o población), y teniéndose una gráfica
compuesta. Es conveniente que cada serie de datos (u
observaciones) sean coloreados de igual manera entre sí, pero
distinta de las demás.
Gráficas circulares:
Denominadas también gráfica de pastel, se utilizan para
mostrar porcentajes y proporciones. El número de elementos
comparados dentro de un gráfico circular, no deben ser más de
7, ordenando los segmentos de mayor a menor, iniciando con el
más amplio en el punto 0=360°
Las reglas generales para formar distribuciones de frecuencias para datos
agrupados en intervalos son:
Calcular el Rango (R).- También llamado recorrido o amplitud total. Es la
diferencia entre el valor mayor y el menor de los datos.

Seleccionar el Número de Intervalos de clase (ni).- No debe ser menor de 5 ni


mayor de 12, ya que un número mayor o menor de clases podría oscurecer
el comportamiento de los datos. Para calcular el número de intervalos se aplica
la regla del matemático alemán Sturges (1926), donde n es el tamaño de la
muestra;

Calcular el Ancho del Intervalo (i).- Se obtiene dividiendo el Rango entre el


número de intervalos

Cuando el valor de i no es exacto, se debe redondear al valor superior más


cercano:
Cálculo del Intervalo de clase:
i = Valor más alto-Valor más bajo/Número de clases

Cálculo del Número de clases, donde N es el tamaño de la


muestra:

a) Número de clases = 1+ 3.322 (log N)

b) Ó: 2𝑝 ≥ N
p*log 2 ≥ log N  p ≥ log N / log 2 )

c) Opción: Juicio profesional.


Ejercicios de Diseño de Gráficos

1.-Luego de trabajar con datos no agrupados, se tiene:


Mlls.de S/. fi Pto. Medio F
12 a 15 8 13.5 8
15 a 18 23 16.5 31
18 a 21 17 19.5 48
21 a 24 18 22.5 66
24 a 27 8 25.5 74
27 a 30 4 28.5 78
30 a 33 1 31.5 79
33 a 36 1 34.5 80
Total 80

Elaborar Histograma, Polígono de frecuencias y Polígono de


frecuencias acumuladas “menor que”.
2.-Elaborar Gráfico circular:
Destino de fondos %
• Educación 56
• Salud 23
• Vivienda 10
• Social 9
• Defensa 2
• ----------
• Total 100
• Construya la tabla correspondiente si el total de la
población es de 18,000 elementos.
3.- Los datos que se dan a continuación corresponden a los
pesos en Kg. de ochenta personas:
• (a) Obténgase una distribución de datos en intervalos de
amplitud 5, siendo el primer intervalo [50; 55].
• (b) Calcúlese el porcentaje de personas de peso menor que
65 Kg.
• (c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg.
pero menor que 85?
60;66;77;70;66;68;57;70;66;52;75;65;
6 9 ; 7 1 ; 5 8 ; 6 6 ; 6 7 ; 7 4 ; 6 1 ;6 3 ; 6 9 ; 8 0 ; 5 9 ; 6 6 ;
70;67;78;75;64;71;81;62;64;69;68;72;
83;56;65;74;67;54;65;65;69;61;67;73;57
62;67;68;63;67;71;68;76;61;62;63;76 61;
6 7 ; 6 7 ; 6 4 ; 7 2 ; 6 4 ; 7 3 ; 7 9 ;5 8 ; 6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9
70;66;62;63;66;
4.- Dada la distribución siguiente, constrúyase una
tabla estadística en la que aparezcan las
frecuencias absolutas, las frecuencias relativas y las
frecuencias acumuladas relativas crecientes:
• xi 1 2 3 4 5 6
• ni 5 7 9 6 7 6
5.- Las edades de los empleados de una determinada empresa
son las que aparecen en la siguiente tabla:
• Edad N° empleados
• Menos de 25 22
• Menos de 35 70
• Menos de 45 121
• Menos de 55 157
• Menos de 65 184
• Sabiendo que el empleado más joven tiene 18 años,
escríbase la distribución de frecuencias acumuladas
decrecientes (o «más de»).
5. Dada la distribución de frecuencias: xi ni
1 9
2 22
3 13
4 23
5 8
6 25
(a) Constrúyase una tabla en la que aparezcan frecuencias
absolutas, frecuencias relativas, frecuencias acumuladas
absolutas crecientes (o «menos de») y decrecientes (o «más
de»).
(b) Represéntese mediante un diagrama de barras la
distribución dada y su polígono de frecuencias correspondiente.
(c) Obténgase el polígono de frecuencias absolutas acumuladas
crecientes y decrecientes.
6.-Represéntese gráficamente la siguiente distribución de
frecuencias:
• Clases fi
• 0-10 22
• 10-20 26
• 20-30 92
• 30-40 86
• 40-50 74
• 50-60 27
• 60-70 12
• Déle un nombre apropiado a la distribución.
• 75686595865755458542664648434331456585
47435349426342413631244624742464467585
76565756454165655546255654435594365732
447421827455755158567667752565853655
• 32.2, 31.6, 28.9, 29.5, 33.2, 32.4, 31.8, 30.9, 31.3, 31.5, 27.7, 28.9,
29.2, 30.1, 32.2, 31.4, 31.6, 30.8, 30, 29.3, 29.6, 30.9, 30, 31.2, 30,
31.5, 34.8, 33.7, 33.6, 29.4, 29.

También podría gustarte