Tema 5 Análisis de Datos

TEMA 5 ANÁLISIS DE DATOS
5.1 ESQUEMA BÁSICO ESTADÍSTICA TIPOS DE VARIABLES MATRIZ DE DATOS DISTRIBUCIÓN DE

FRECUENCIAS REPRESENTACIONES GRÁFICAS MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE
VARIABILIDAD Y DISPERSIÓN
Esquema básico estadística:
TIPOS DE VARIABLES
1. Cualitativas: Las características no son cuantificables .
2. Cuantitativas: Características cuantificables o numéricas
- Discretas: Numéricas que toman valores enteros
- Continuas: Numéricas que toman valores en un intervalo continuo o si influyen, lo hacen de
modo homogéneo en todos los grupos
MATRIZ DE DATOS
Una Matriz de Datos es una cuadrícula compuesta por filas y columnas, donde cada celda es la
intersección de una fila (casos) y una columna (variables). La forma misma de la Matriz y la definición,
conducen a los 3 Principios de la recolección de datos establecidos por Galtung, J.:
1. Principio de Comparabilidad: Cada combinación de Unidad de Análisis/Variable debe tener
sentido, esto es, debe ser verdadero o falso que dicha combinación brinde un determinado
valor.
Principio de Clasificación: Implica que el sistema de categorías de una variable debe cumplir
con dos requisitos lógicos: debe ser exhaustivo (en el sentido que ninguna unidad quede fuera
del sistema de categorías) y excluyente (de manera que cada unidad asuma un valor y sólo
uno en cada variable).
2. Principio de Integridad: No dejar ninguna celda vacía. Lo que antecede significa que hay que
intentar que la cantidad de celdas sin información, es decir, "No sabe"/"No contesta", se
mantenga lo más baja posible.
Luego de confeccionar la matriz de datos, se procede a la tabulación de los mismos. La tabulación es
el proceso mediante el cual los datos recopilados se organizan y concentran, en base a determinadas
ideas o hipótesis, en tablas o cuadros para su tratamiento estadístico. Determinar qué resultados de
las variables se van a presentar y que relaciones entre las mismas se van analizar, porque den
respuesta al problema y los objetivos formulados.
Ejemplos:
➔ Población total por intervalos de edad según sexo
➔ Población por intervalos de edad según lugar de nacimiento
➔ Nivel de instrucción de la población encuestada según edad y sexo
➔ Meses de vida y número de controles.
DISTRIBUCIÓN DE FRECUENCIAS
Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas
categorías y generalmente se presenta como una tabla. Una distribución de frecuencias puede
contener:
➔ Frecuencia Absoluta: Define la cantidad de veces en la que se repite cada categoría
➔ Frecuencia Relativa: Representa el cociente entre la frecuencia Absoluta y la cantidad de
datos. Ésta puede ser representada en forma de fracción, decimal y porcentaje.
➔ Frecuencia Acumulada: Constituye lo que aumenta en cada categoría en la frecuencia
absoluta. La última categoría contiene el número total de la muestra.
En variables discretas:
ni Frecuencias absolutas
Ni Frecuencias acumuladas
fi Frecuencias relativas
Fi F. Relativas Acumuladas
Fi= f1 + f2 +...+ fi
Ejemplo: Preguntamos a 30 deportistas en un gimnasio el número de lesiones que han tenido en los
últimos 5 años. X es el número de lesiones y Xi es el valor de la variable número de lesiones X1= 1,
X2= 2, X3= 3, X4= 4. El Rango es 4-1=3
ni Frecuencias absolutas
Ni Frecuencias acumuladas
fi % Frecuencias relativas
Fi % F. Relativas Acumuladas
Fi= f1 + f2 +...+ fi
En variables continuas:
xi Marca de clase (punto medio de cada intervalo)

xi = (Ei-1 + ei ) /2
ai Amplitud (distancia entre los extremos) ai = ei - Ei-1
Ejemplo: Se recoge los datos de la tasa o coste de matrícula de 50 colegios privados españoles y se
obtiene la siguiente tabla:
Queremos agrupar en las siguientes clases:
Ejemplo:
PRESENTACIONES GRÁFICAS
Con variables cualitativas:
Con variables cuantitativas:

MEDIDAS DE TENDENCIA CENTRAL
Son los valores medios centrales de una distribución. Las principales medidas son: Moda, mediana y
media.
➔ Moda: Es el valor que se presenta u ocurre con la mayor frecuencia.
➔ Mediana: Valor de la variable que ocupa el lugar central en una serie de datos ordenados. El
50% de los elementos de la población tienen un valor de la variable menor o igual que la
mediana, y el otro 50% tienen un valor mayor. Es más representativa de los datos, que la
media, si existen valores extremos.
➔ Media Aritmética: La suma de todas las medidas dividida por el número de datos recogidos.
Moda: Mo
El dato que aparece con mayor frecuencia, n4 = 10, es x4 = 7 = Mo
El intervalo con mayor frecuencia es

250, 500 , Mo = xc 1 = 375
Mediana: Me
★ Para un número impar de datos recogidos: {13,14,15,16,17,25,26,26,29}.
N/2 = 9/2 = 4.5 entonces Me = x5 = 17
- Si tenemos tabla de frecuencias:
N/2 = 35/2 = 17.5 entonces Me = x18 = 7 (para identificar que valor tiene
x18 nos fijamos en la frecuencia acumulada) Educational Research Me
★ Para un número par de datos recogidos: {13,14,15,16,17,25,26,26,29,30}.

N/2 = 10/2 = 5 entonces Me = (17+25)/2 = 42/2 =21
- Si tenemos tabla de frecuencias:
N/2 = 32/2 = 16 entonces Me = (x16 +x17)/2 = 6
- Si tenemos tabla de frecuencias con variable continua:
N/2 = 671/2 = 335.5 entonces el intervalo de la

Mediana es el tercero: 450 ≥ 335.5
Fórmula diapos:
Media Aritmética: X
➔ Si tenemos una muestra de datos discretos:
➔ Si tenemos tabla de frecuencias con variable discreta:

➔ Si tenemos tabla de frecuencias con variable continua:
Propiedades:
- El cálculo incluye todos los datos/valores de la muestra
- Es sensible a los valores extremos
- Se localiza en el centro de la distribución
Ejemplo: La tabla recoge la edad de los maestro de primaria en un colegio:
CUANTILES
Puntos tomados a intervalos regulares de la distribución de una variable aleatoria. Se hace una
división de datos ordenados en k datos esencialmente de igual tamaño (subconjuntos) formando
k-cuantiles. Los cuantiles son los valores de los datos que marcan los límites entre subconjuntos
consecutivos.
Cuartiles: Son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro
partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de
los datos. Q2 coincide con la mediana. Se calcula la posición del dato mediante la expresión: k ·N/4.
Numeros de datos par
Impar
➔ Si los datos son variables discretas:

Paso 1 Ordenar los valores.
Paso 2 Calculamos la posición de cada cuartil (Q1, Q2, Q3) usando la fórmula: kN/4 N es el
número de datos, k es 1, 2 o 3
Paso 3 Si N es 20, entonces la posición de Q1 será 1⋅20/4=5 El dato con la posición 5 en la
fila de datos, será Q1 Si los datos son: 5,5,6,7,7,8,8,8,8,8,8,8,9,9,9,9,9,10,10,10 El que ocupa
la posición 5 es Q1= 7.5 Análogamente se encuentra Q2 y Q3
➔ Si los datos son variables continuas:
Paso 1 Buscamos el intervalo donde se encuentra el primer cuartil: k " N/4 = 1"65/4= 16.25
La clase de Q1
Paso 2 Buscamos el intervalo del segundo cuartil k " N/4 = 2"65/4= 32.5
La clase De Q2 es
Paso 3 Buscamos el intervalo del tercer cuartil: k " N/4 = 3"65/4= 48.75 La clase de Q3 es
Deciles: Son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan
los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide con la mediana.
Percentiles: Son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles
dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana.
Ejemplo: ¿Qué significa que un niño esté en en el percentil 10 de peso? Si lo comparamos con 100
niños de su misma edad, habrá́ solo 10 que pesen menos, mientras que los otros 90 pesarán más
que él.
MEDIDAS DE VARIABILIDAD Y DISPERSIÓN

Consideremos el siguiente ejemplo: Datos recogidos del coste de matrícula en dos países distintos:
- País A: Media 1000; Mediana 1000
- País B: Media 1000; Mediana 1000
Podríamos pensar que el costo de la educación es el mismo en los dos países considerados, aunque
las muestras son:
- País A: {999, 1000, 1001}
- País B: {500, 1000, 1500}
El promedio o media del país B no es representativo.
Solución: Podemos complementar la información proporcionada por el promedio mediante la
inclusión de una medida de dispersión.
Las Medidas de Dispersión, también llamadas medidas de variabilidad:

- Muestran la variabilidad de una distribución, indicando por medio de un número si las
diferentes puntuaciones de una variable están muy alejadas de la media.
- Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea
será a la media. Indican si todos los casos son parecidos o varían mucho entre ellos.
- Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la
distribución.
Medidas: Rango, Varianza y desviación estándar, Coeficiente de variación.
Rango o recorrido (R): Está determinado por los dos valores extremos de los datos muestrales, es la
diferencia entre la mayor y menor observación. Es una medida de dispersión absoluta, ya que
depende solamente de los datos y permite conocer la máxima dispersión.
R = xmax – xmin
Varianza (S2): El objetivo de este parámetro es el mismo que el de la desviación media, detectar las
variaciones de cada valor respecto a la media aritmética. Para el cálculo se elevan esas diferencias al
cuadrado, así se evita posibles compensaciones y se "exagera" estas diferencias (un número menor
que uno al elevarlo al cuadrado se hace menor y uno mayor que uno se hace mayor). El promedio de
dichas diferencias se denomina varianza.
Varianza:
El principal inconveniente que presenta la varianza es que las unidades

no son las mismas que las de los datos de la distribución.
Desviación estándar (S): La desviación típica o estándar se define como la raíz cuadrada positiva de
la varianza. La ventaja es que las unidades en las que se mide son las mismas que las de los datos
de la distribución. Puede considerarse la medida de dispersión por excelencia y aparece como tecla o
función directa en cualquier calculadora o programa estadístico.
Desviación estándar o típica:
Recursos: Diapos enlaces.

Los dos parámetros no se pueden utilizar para hacer comparaciones entre distribuciones porque
puedo tener la misma unidad pero medios muy diferentes o tener unidades diferentes.
Coeficiente de variación (CV): El coeficiente de variación es la relación entre la desviación típica de

una muestra y su media
CV = S / x
El coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre
que sus medias sean positivas. Se calcula para cada una de las distribuciones y los valores que se
obtienen se comparan entre sí. La mayor dispersión corresponderá al valor del coeficiente de
variación mayor.
Ejemplo: Tenemos dos distribuciones de datos en las que obtenemos sus medias y sus desviaciones
típicas ¿Cuál de las dos presenta mayor dispersión?
La primera distribución presenta mayor dispersión.
De acuerdo con algunos autores podemos identificar los siguientes casos:

- CV= 0 La distribución está perfectamente representada por la media aritmética.
- 0 < CV ≤ 0.3 La media es representativa
- 0.3 < CV ≤ 0.6 La media no es muy representativa
- CV > 0.6 La media no es representativa, se debe usar otra medida de tendencia central como
la mediana.
Ejemplo: Si tenemos la siguiente distribución de datos la conclusión que podemos sacar al obtener
CV > > 0.6 es que la media no es representativa, debemos tomar la mediana que en este caso se ha
calculado y es Me = 4.
Distribución normal o campana de Gauss: Ciertos datos, cuando se representan gráficamente como
un histograma (datos en el eje horizontal, cantidad de datos en el eje vertical), crean una curva en
forma de campana conocida como curva normal o distribución normal.
Propiedades:
- Las distribuciones normales son simétricas (media, mediana y moda coinciden) con un solo
pico central en la media (promedio) de los datos.
- La forma de la curva se describe como en forma de campana con el gráfico cayendo
uniformemente a ambos lados de la media y depende de la desviación estándar (o de la
varianza).
Distribución normal:
La medida de tendencia central más representativa para datos distribuidos normalmente es la media
aritmética. La medida de dispersión estadística más representativa para los datos distribuidos
normalmente es la desviación estándar (o la varianza).
Dispersión
Los polígonos de frecuencia suelen representarse como curva, para que puedan analizarse en
términos de probabilidad y visualizar su grado de dispersión.
La asimetría y la curtosis es una estadística necesaria para conocer cuanto se parece nuestra
distribución a una distribución teórica llamada curva normal (definida por la media y varianza).
Índice de asimetría de Pearson: Está basado en la relación entre la media y la moda en

distribuciones simétricas y asimétricas:
- Si la distribución es simétrica As será́ 0
- Si la distribución es asimétrica positiva, As será́mayor que 0
- Si la distribución es asimétrica negativa, As será́menor que 0
Curtosis: Hace referencia al apuntamiento de la distribución en relación a un estándar, que es la

distribución normal.
La curtosis es un indicador de lo plana o “picuda” que es una curva.
- Cuando es cero (curtosis = 0), significa que puede tratarse de una
curva normal.
- Si es positiva, quiere decir que la curva, la distribución o el polígono es
más “picuda(o)” o elevada(o).
- Si la curtosis es negativa, indica que es más plana la curva.

Tema 5 Análisis de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 5 Análisis de Datos

Cargado por

Copyright:

Formatos disponibles

TEMA 5 ANÁLISIS DE DATOS

5.1 ESQUEMA BÁSICO ESTADÍSTICA TIPOS DE VARIABLES MATRIZ DE DATOS DISTRIBUCIÓN DE

Esquema básico estadística:

xi Marca de clase (punto medio de cada intervalo)

Queremos agrupar en las siguientes clases:

Con variables cuantitativas:

El dato que aparece con mayor frecuencia, n4 = 10, es x4 = 7 = Mo

El intervalo con mayor frecuencia es

★ Para un número par de datos recogidos: {13,14,15,16,17,25,26,26,29,30}.

N/2 = 32/2 = 16 entonces Me = (x16 +x17)/2 = 6

- Si tenemos tabla de frecuencias con variable continua:

N/2 = 671/2 = 335.5 entonces el intervalo de la

➔ Si tenemos tabla de frecuencias con variable discreta:

Ejemplo: La tabla recoge la edad de los maestro de primaria en un colegio:

➔ Si los datos son variables discretas:

MEDIDAS DE VARIABILIDAD Y DISPERSIÓN

Las Medidas de Dispersión, también llamadas medidas de variabilidad:

Medidas: Rango, Varianza y desviación estándar, Coeﬁciente de variación.

El principal inconveniente que presenta la varianza es que las unidades

Desviación estándar o típica:

Recursos: Diapos enlaces.

Coeﬁciente de variación (CV): El coeﬁciente de variación es la relación entre la desviación típica de

La primera distribución presenta mayor dispersión.

De acuerdo con algunos autores podemos identiﬁcar los siguientes casos:

Índice de asimetría de Pearson: Está basado en la relación entre la media y la moda en

Curtosis: Hace referencia al apuntamiento de la distribución en relación a un estándar, que es la

También podría gustarte