Está en la página 1de 16

TEMA 1: ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL


El objeto de la Estadística Descriptiva se refiere a la recolección, presentación, descripción,
análisis e interpretación de una colección de datos. Consiste en resumir estos datos mediante
una serie de parámetros, tablas y/o gráficos que nos van a permitir tener una idea de la
información contenida en ellos para poderla analizar y utilizar en la solución del problema en
cuestión que estemos solucionando.

La Estadística tiene un doble objetivo:

- La generación y recopilación de datos que contengan información relevante sobre un


problema determinado.
- El análisis de los datos con el fin de extraer de ellos dicha información.

El primer paso en el análisis de un conjunto de datos es el tratamiento de características y


regularidades que hay en los datos y sintetizarlos: parámetros y representaciones gráficas.

POBLACION Y MUESTRA
POBLACIÓN: conjunto de todos los individuos que constituyen el objeto de un determinado
estudio, y de los cuales se quieren obtener ciertas conclusiones.

A veces, los individuos tienen una existencia real, previa a la realización del estudio; pero otras
veces, los individuos que constituyen la población pueden generarse por medio de la realización
de un determinado proceso, como recibir una pieza. Estos procesos se llaman EXPERIMENTOS
ALEATORIOS.

IMPORTANTE → en toda población real hay VARIABILIDAD

Cualquier característica que pueda constatarse en cada individuo de una población se denomina
CARACTERÍSTICA ALEATORIA. Muchas características aleatorias se expresan numéricamente
(VARIABLES ALEATORIAS)

Cuando una característica aleatoria es de tipo cualitativo, nada nos impide codificar
numéricamente las diferentes alternativas y tratarla como una variable aleatoria.

Las características pueden ser de tres tipos:

- CUALITATIVAS: expresan una cualidad del objeto, correcto, incorrecto, blanco… Sus
distintos valores se denominan MODALIDADES.
- CUANTITATIVAS DISCRETA: expresan algo que se puede contar y solo pueden tomar un
conjunto de valores aislados: número de defectos de una pieza, número de terminales…
- CUANTITATIVAS CONTINUAS: expresan algo que podemos medir y puede tomar
cualquier valor en un intervalo: diámetro de un eje, el tiempo en que tarda una
transacción…

1
Las variables aleatorias pueden catalogarse por su dimensión como unidimensionales y K-
dimensionales. La diferencia entre una variable aleatoria K-dimensional, en que las K variables
se miden sobre los individuos de una única población, y un conjunto de K variables aleatorias
unidimensionales, definidas sobre K poblaciones distintas.

MUESTRA: subconjunto de individuos. La muestra es sólo un medio para obtener la información


de la población.

La muestra ha de ser representativa de la población. En teoría, para garantizar la


representatividad de una muestra hay que seleccionar al azar a los individuos que la han de
componer.

Tipos de muestreos:

- MUESTREO ALEATORIO SIMPLE: seleccionamos los individuos basándonos en una tabla


de número aleatorios o en un programa generador de número aleatorios.
- MUESTREO SISTEMÁTICO DE ORDEN K: numeramos de 1 a n los individuos de la
población, a continuación, seleccionamos aleatoriamente un número, i, entre 1 y k. Para
seleccionar la muestra de tamaño n los individuos elegidos serán: i, i+k, i+2k,1+3k… Fácil
de realizar, pero existe el peligro de que la existencia de cualquier favor cíclico en la
población pueda sesgar los resultados.
- MUESTREO ESTRATIFICADO: los individuos de la población son clasificados en
subgrupos o estratos.

Cuando la población estudiada es real, la muestra se forma como hemos indicado, seleccionando
de la forma más aleatoria posible un conjunto de individuos de ésta.

Cuando se hace una muestra de una población abstracta, la forma de obtener una muestra es
haciendo un cierto número de veces el experimento aleatorio que general los individuos de la
población.

Los valores observados por la variable aleatoria en los individuos que forman la muestra
constituyen los DATOS ESTADÍSTICOS.

El análisis con el fin de obtener conclusiones que, con un margen de confianza conocido, sean
extrapolables a la población de la que procede la muestra constituye el objeto de la INFERENCIA
ESTADÍSTICA.

DISTRIBUCIONES DE FRECUENCIAS. DESCRIPCIÓN DE DATOS MEDIANTE


TABLAS
DISTRIBUCIÓN DE FRECUENCIAS: conjunto de valores que toma una variable estadística con sus
respectivas frecuencias. Se representan mediante tablas de frecuencias.

VARIABLES CUANTITATIVAS: la probabilidad de encontrar valores repetidos es muy baja.


Obtendríamos una tabla tan difícil de interpretar como los datos originales. Solución: agrupar
los datos en tramos o intervalos.

- Se divide el campo de variabilidad en un conjunto de K intervalos (o clases) de igual


longitud, teniendo en cuenta:

2
o Límites de cada intervalo.
o Valor central del intervalo.
o Número de observaciones por intervalo.
- Número de intervalos grande: tabla difícil de interpretar
- Número de intervalos pequeño: se puede perder información importante, lo
recomendable es entre 5 y 15 intervalos, dependiendo del número de observaciones de
la muestra.

REPRESENTACIONES GRÁFICAS
DIAGRAMA DE BARRAS: es la representación gráfica de una tabla de frecuencias sin agrupar en
intervalos.

DIAGRAMA DE TARTA O SECTORES: se utiliza cuando hay pocos valores diferentes de una
variable cualitativa. La superficie total de un círculo se reparte en sectores cuyas áreas son
proporcionales a las frecuencias observadas en la muestra para cada ‘’valor’’ de la característica
estudiada. Frecuencias absolutas o relativas.

DIAGRAMA DE PARETO: proporción 80-20. Permite asignar un orden de prioridades. Muestra


que de una gran cantidad de actividades, recursos o resultados que tenemos, pocos son los que
realmente son importantes. Si nos centramos en los que son vitales, las mejoras a realizar
pueden ser todavía mucho mejores. Facilita el estudio de los errores en las empresas.

- El diagrama de Pareto es un tipo especial de diagrama de barras donde los valores


graficados están organizados de mayor a menor valor.

3
HISTOGRAMA Y POLÍGONO DE FRECUENCIAS: es la representación gráfica de una tabla de
frecuencias con datos agrupados. El HISTOGRAMA es una de las herramientas gráficas más útiles
para resumir información.

- Es un diagrama de barras para variables cuantitativas continuas o discreta con muchos


valores.
- Es una representación gráfica de una tabla de frecuencias donde los datos han sido
agrupados por intervalos.
- Para cada valor o intervalo de valores de la variable (eje de abscisas) se levanta una
barra de altura proporcional a la frecuencia con que aparece dicha variable los valores
del intervalo (absoluta o relativa).
- Nº de intervalos:
o regla empírica: entero cercano a raíz de n.
o en general, entre 5-12 intervalos.
- El histograma sirve para resumir la siguiente información: concentraciones, huecos,
valores atípicos, asimetrías.

En un histograma, hay que fijarse en las tendencias generales de los datos:

- CONCENTRACIONES: nos referimos a aquellos rectángulos en los que hay mayor


proporción, alrededor de los cuales se agrupan otros rectángulos de frecuencia
decreciente. Si existe más de una concentración será indicio de que los datos son
heterogéneos y que podrían proceder de más de una población diferente.
- HUECOS: que sería indicio aún mayor de que los datos proceden de poblaciones
diferentes.

4
- VALORES ATÍPICOS, por ser demasiado altos o bajos. Un dato atípico será si se separa
mucho del patrón general que siguen los datos.
- ASIMETRÍAS: que indican hacia dónde tienden a desplazarse los datos cuando nos
alejamos de las zonas de concentración. Cuando la asimetría es tal que la cola de la
distribución de los datos apunta hacia la derecha, hacía +infinito, diremos que hay
asimetría positiva. Cuando la cola de la distribución apunta hacia la izquierda, hacia -
infinito, la asimetría se denomina negativa.

POLÍGONO DE FRECUENCIAS: gráfico lineal que se obtiene uniendo los puntos medios de la base
superior de cada rectángulo de un diagrama de barras o bien el punto medio de las bases
superiores de un histograma. Es la representación gráfica de una tabla de frecuencias con datos
agrupados.

5
- Nos puede ayudar mejor que el histograma a hacernos una idea de cómo son los datos,
sobre todo si tenemos un tamaño muestral grande.
- Cuatro tipos según los datos que representemos:
o La frecuencia absoluta.
o Frecuencia relativa.
o Frecuencia absoluta acumulada
o Frecuencia relativa acumulada

SERIES TEMPORALES: el eje X es el tiempo, representa la evolución temporal de la variable

MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE


Buscamos medidas que mediante un solo número resuman alguna característica importante de
los datos, a las que llamaremos MEDIDAS CARACTERÍSTICAS. El uso de estas medidas
características ha de hacerse siempre acompañando a herramientas gráficas.

OBJETIVO: buscamos resumir las características más importantes de los datos en un conjunto
reducido de números. Cada característica → un número.

La pauta de variabilidad de una variable aleatorio unidimensional se caracteriza por tres tipos
de parámetros:

- La POSICIÓN de las observaciones


- La DISPERSIÓN de las observaciones
- La FORMA de las observaciones

Parámetros de POSICIÓN

¿Cuál es el centro de datos?

- Permiten cuantificar, mediante un número, la posición de las observaciones.


- Dan una idea de la magnitud de la variable.
- Con un número nos indican ‘’alrededor’’ de qué valor están las observaciones
(cuantitativas)
- Medidas de posición centrales más relevantes:
o MEDIA ARITMÉTICA
o MEDIANA
o MODA
- Medidas de posición NO centrales más relevantes:

6
o PERCENTILES
o CUARTILES

MEDIA ARITMÉTICA: puede interpretarse como el centro de gravedad de los datos. En un


histograma es el punto de apoyo para que esté en equilibrio.

- Si la distribución es asimétrica, el centro de gravedad se verá desplazado respecto a la


clase más frecuente
- Es muy sensible a valores atípicos.
- Cuanto más asimétrica sea la distribución, más se desplazará la media hacia la cola.

MEDIANA: es una medida basada en el orden de las observaciones.

- Es el valor que deja a cada lado el 50% de los datos.


- Es poco sensible a asimetrías.
- Es insensible a valores atípicos (medida robusta)
- Con un número impar de datos: el dato en posición central.
- Con un número par de datos: la media de los dos datos centrales.

La mediana, al contrario de la media, no es sensible a que alguna observación tenga un valor


atípico. Los valores atípicos no alteran la posición de la mediana y con valores atípicos y
asimetrías fuertes, la mediana es una medida de centralidad más útil que la media.

MODA: es el valor más frecuente.

- Con datos agrupados, es la clase más frecuente.


- Puede haber varias, sugiriendo la posible existencia de varios grupos.
- También es frecuente usar el término moda a cualquiera de los máximos relativos de un
histograma

7
PERCENTILES: son valores de los datos correspondientes al 1%, al 2%... y al 99% de los datos.
Dado un conjunto de datos, el valor m es el percentil p, si el px100% de los datos son menores
o iguales a m.

CUARTILES: Q1, Q2, Q3: son los valores que dividen la muestra en 4 grupos, cada uno con el 25%
de los datos (aproximadamente)

- Entre el mínimo y Q1 → 25% de los datos


- Entre Q1 y Q2 → 25% de los datos
- Entre Q2 y Q3 → 25% de los datos
- Entre Q3 y el máximo → 25% de los datos
- Q1 → percentil 25. Cuartil inferior.
- Q2 → mediana
- Q3 → percentil 75. Cuartil superior
- Q3 – Q1 → rango intercuatílico (RI)

8
Los parámetros de posición no permiten describir totalmente como es un conjunto de datos.

Parámetros de DISPERSIÓN:

- VARIANZA (DESVIACIÓN TÍPICA). Sensibles a los valores extremos y asimetrías.


Dependen de las unidades de la variable X.
- CUASIVARIANZA (CUASIDESVIACIÓN TÍPICA). Sensibles a los valores extremos y
asimetrías.
- RANGO. También llamado recorrido. Es la amplitud de los datos. Es sensible a los valores
extremos y asimetrías. Se suele usar con muestras pequeñas.
- RANGO INTERCUARTÍLICO: diferencia entre el tercer y el primer cuartil. Es robusto a los
valores extremos y asimetrías.
- COEFICIENTE DE VARIACIÓN: se utiliza para comparar dispersiones de variables que
tengan unidades distintas.

PARÁMETROS DE FORMA: permiten comprobar si nuestros datos se parecen lo suficiente a una


campana de Gauss (distribución Normal)

COEFICIENTE DE ASIMETRÍA: mide asimetría

- CA = 0; distribución simétrica
- CA > 0; si hay asimetría positiva
- CA < 0; si hay asimetría negativa

COEFICIENTE DE ASIMETRÍA ESTANDARIZADO (CAE, Stagraphics):

- CAE [-2,2] → Datos simétricos


- CAE > 2 → Asimetría positiva (cola por la derecha)
- CAE < -2 → Asimetría negativa (cola por la izquierda)

9
COEFICIENTE DE CURTOSIS: mide apuntamiento

- CC = 3; distribución simétrica
- CC > 3; si hay asimetría positiva
- CC < 3; si hay asimetría negativa

COEFICIENTE DE CURTOSIS ESTANDARIZADO (CCE, Stagraphics):

- CCE [-2,2] → Datos ‘’normales’’


- CCE > 2 → Datos más ‘’apuntados’’ de lo normal (cola por la derecha)
- CCE < -2 → Datos más ‘’aplanados’’ de lo normal (cola por la izquierda)

DIAGRAMA DE CAJA-BIGOTES
Al conjunto de los tres cuartiles con el mínimo y el máximo de los datos se le suele denominar
el resumen de las 5 cifras (mínimo, Q1, Q2, Q3, máximo). El diagrama de la caja, o box-plot, es
precisamente la representación del resumen de las 5 cifras.

- A la vista de un diagrama de caja, podemos conocer:


o Los cuartiles y la mediana (y la media, si esta dibujada) → POSICIÓN
o El rango intercuartílico: el 50% ‘’central’’ → DISPERSIÓN
o Si las observaciones tienen forma simétrica o no → FORMA
- Además, permite detectar:
o Tipo de asimetrías (+ y -)
o Presencia de datos anómalos y datos aislados.
o Diferencias entre grupos.
- Los gráficos Box&Whisker son muy útiles para:
o Comparar grupos

10
o Ver asimetrías
o Detectar datos atípicos

Cuando hay asimetría, un dato extremo no debe necesariamente catalogarse como atípico. La
asimetría indica que al final de la cola habrá cada vez menos datos.

11
ESTADISTICA DESCRIPTIVA BIDIMENSIONAL
Continuamos describiendo un conjunto de datos, pero ahora los datos tienen información de
dos variables.

Ejemplo:

➔ Para una misma persona podemos tener su edad y su salario.


➔ Para un artículo fabricado podemos tener información de su longitud y su peso.

Nos interesa el estudio conjunto de ambas variables, y en particular saber si están relacionadas
o por el contrario son variables independientes.

En el caso en el que estén relacionadas dos variables cuantitativas, nos interesará poder
describir cómo es su relación: lineal o no lineal.

DISTRIBUCIÓN DE FRECUENCIAS BIDIMENSIONALES


Las tablas de contingencia tienen dos objetivos fundamentales:

1. Organizar la información cuando analizamos una variable aleatoria bidimensional. Cada


variable organizada en niveles.
2. Analizar si existe alguna relación de dependencia o independencia entre los niveles de
las variables objeto de estudio. (el hecho de que dos variables sean independientes
significa que los valores de una de ellas no están influidos por la otra).

Tablas de contingencia (Tipos de frecuencias):

- Frecuencias absolutas conjuntas (número)


- Frecuencias relativas conjuntas (porcentaje)
- Frecuencias marginales absolutas
- Frecuencias marginales relativas
- Frecuencias relativas condicionales de VAR1 en función de VAR2
- Frecuencias relativas condicionales de VAR2 en función de VAR1

FRECUENCIA: número de veces que se presenta un valor dado de una observación.

DISTRIBUCIONES MARGINALES: toda variable aleatorio bidimensional (X,Y) tiene asociada dos
distribuciones unidimensionales:

- La distribución marginal de X y
- La distribución marginal de Y

Distribuciones unidimensionales que tienen cada una de las dos variables consideradas cuando
se prescinde de los posibles valores de la otra variable.

FRECUENCIAS RELATIVAS CONDICIONALES: la frecuencia relativa condicional a calcular


depende del objetivo de nuestro estudio.

12
DIAGRAMA DE CAJA-BIGOTES MÚLTIPLE
Es una herramienta para comparar las pautas de variabilidad existentes en distintos conjuntos
de datos.

Es la relación entre una componente cuantitativa (peso) y una cualitativa (sexo). Que las cajas
no se solapen, indica que previsiblemente estamos con subpoblaciones diferentes (chicos,
chicas) en el análisis de la variable peso.

GRÁFICOS DE DISPERSIÓN
Se trata de una herramienta especialmente útil para estudiar e identificar las posibles relaciones
entre dos variables

Proporciona un medio visual para:

- Suministrar información para plantear hipótesis acerca de si dos variables están


relacionadas.
- Probar la fuerza de una posible relación
- Detectar datos atípicos

Construcción:

- Se representa para cada individuo el valor constatado de la v.a bidimensional (Xi, Yi) por
un punto en un plano.
- La abscisa es el valor observado para la primera componente de la v.a (X) y la ordenada
es que corresponde a la segunda (Y)
- Se tendrán tantos puntos como tamaño de la muestra.

13
ç

Inconveniente Diagramas de Dispersión:

- Nuestra percepción visual del grado de asociación puede estar equivocada debido a la
escala.

MEDIDAS DE RELACIÓN LINEAL


OBJETIVO: cuantificar el grado de relación lineal existente entre dos componentes de una v.a
bidimensional mediante un numérico.

Promedio de los productos de las desviaciones de cada componente de la v.a respecto a su


media

COVARIANZA:

- Tomará valores positivos si hay una relación lineal directa entre ambas variables.
- Tomará valores negativos si hay una relación lineal inversa entre ambas variables.

14
COVARIANZA. Interpolación:

COVxy > 0: es probable que exista una relación lineal positiva entre las dos componentes de la
v.a → A mayores valores de X, mayores valores de Y.

COVxy < 0: es probable que exista una relación lineal negativa entre las dos componentes de la
v.a → A mayores valores de X , menores valores de Y.

COVxy = 0: no existe relación lineal entre las componentes de la v.a.

Inconvenientes de la covarianza:

- Su valor no está acotado.


- Depende de las dimensiones en que están expresadas las variables.

COEFICIENTE DE CORRELACIÓN (r)

Necesitamos un número que:

- No depende de las escalas del gráfico de dispersión


- Su valor esté acotado
- No dependa de las dimensiones en que están expresadas las variables (es adimensional)

Y que represente el grado de relación lineal entre los pares de valores de dos variables
continuas.

Un número con todas las propiedades anteriores es el COEFICIENTE DE CORRELACIÓN LINEAL


DE PEARSON (r)

15
MATRICES DE COVARIANZAS Y CORRELACIONES

Una forma habitual de presentar las medidas de dependencia lineal entre las variables de un
conjunto de datos bidimensionales es en forma de matriz.

16

También podría gustarte