Documentos de Académico
Documentos de Profesional
Documentos de Cultura
POBLACION Y MUESTRA
POBLACIÓN: conjunto de todos los individuos que constituyen el objeto de un determinado
estudio, y de los cuales se quieren obtener ciertas conclusiones.
A veces, los individuos tienen una existencia real, previa a la realización del estudio; pero otras
veces, los individuos que constituyen la población pueden generarse por medio de la realización
de un determinado proceso, como recibir una pieza. Estos procesos se llaman EXPERIMENTOS
ALEATORIOS.
Cualquier característica que pueda constatarse en cada individuo de una población se denomina
CARACTERÍSTICA ALEATORIA. Muchas características aleatorias se expresan numéricamente
(VARIABLES ALEATORIAS)
Cuando una característica aleatoria es de tipo cualitativo, nada nos impide codificar
numéricamente las diferentes alternativas y tratarla como una variable aleatoria.
- CUALITATIVAS: expresan una cualidad del objeto, correcto, incorrecto, blanco… Sus
distintos valores se denominan MODALIDADES.
- CUANTITATIVAS DISCRETA: expresan algo que se puede contar y solo pueden tomar un
conjunto de valores aislados: número de defectos de una pieza, número de terminales…
- CUANTITATIVAS CONTINUAS: expresan algo que podemos medir y puede tomar
cualquier valor en un intervalo: diámetro de un eje, el tiempo en que tarda una
transacción…
1
Las variables aleatorias pueden catalogarse por su dimensión como unidimensionales y K-
dimensionales. La diferencia entre una variable aleatoria K-dimensional, en que las K variables
se miden sobre los individuos de una única población, y un conjunto de K variables aleatorias
unidimensionales, definidas sobre K poblaciones distintas.
Tipos de muestreos:
Cuando la población estudiada es real, la muestra se forma como hemos indicado, seleccionando
de la forma más aleatoria posible un conjunto de individuos de ésta.
Cuando se hace una muestra de una población abstracta, la forma de obtener una muestra es
haciendo un cierto número de veces el experimento aleatorio que general los individuos de la
población.
Los valores observados por la variable aleatoria en los individuos que forman la muestra
constituyen los DATOS ESTADÍSTICOS.
El análisis con el fin de obtener conclusiones que, con un margen de confianza conocido, sean
extrapolables a la población de la que procede la muestra constituye el objeto de la INFERENCIA
ESTADÍSTICA.
2
o Límites de cada intervalo.
o Valor central del intervalo.
o Número de observaciones por intervalo.
- Número de intervalos grande: tabla difícil de interpretar
- Número de intervalos pequeño: se puede perder información importante, lo
recomendable es entre 5 y 15 intervalos, dependiendo del número de observaciones de
la muestra.
REPRESENTACIONES GRÁFICAS
DIAGRAMA DE BARRAS: es la representación gráfica de una tabla de frecuencias sin agrupar en
intervalos.
DIAGRAMA DE TARTA O SECTORES: se utiliza cuando hay pocos valores diferentes de una
variable cualitativa. La superficie total de un círculo se reparte en sectores cuyas áreas son
proporcionales a las frecuencias observadas en la muestra para cada ‘’valor’’ de la característica
estudiada. Frecuencias absolutas o relativas.
3
HISTOGRAMA Y POLÍGONO DE FRECUENCIAS: es la representación gráfica de una tabla de
frecuencias con datos agrupados. El HISTOGRAMA es una de las herramientas gráficas más útiles
para resumir información.
4
- VALORES ATÍPICOS, por ser demasiado altos o bajos. Un dato atípico será si se separa
mucho del patrón general que siguen los datos.
- ASIMETRÍAS: que indican hacia dónde tienden a desplazarse los datos cuando nos
alejamos de las zonas de concentración. Cuando la asimetría es tal que la cola de la
distribución de los datos apunta hacia la derecha, hacía +infinito, diremos que hay
asimetría positiva. Cuando la cola de la distribución apunta hacia la izquierda, hacia -
infinito, la asimetría se denomina negativa.
POLÍGONO DE FRECUENCIAS: gráfico lineal que se obtiene uniendo los puntos medios de la base
superior de cada rectángulo de un diagrama de barras o bien el punto medio de las bases
superiores de un histograma. Es la representación gráfica de una tabla de frecuencias con datos
agrupados.
5
- Nos puede ayudar mejor que el histograma a hacernos una idea de cómo son los datos,
sobre todo si tenemos un tamaño muestral grande.
- Cuatro tipos según los datos que representemos:
o La frecuencia absoluta.
o Frecuencia relativa.
o Frecuencia absoluta acumulada
o Frecuencia relativa acumulada
OBJETIVO: buscamos resumir las características más importantes de los datos en un conjunto
reducido de números. Cada característica → un número.
La pauta de variabilidad de una variable aleatorio unidimensional se caracteriza por tres tipos
de parámetros:
Parámetros de POSICIÓN
6
o PERCENTILES
o CUARTILES
7
PERCENTILES: son valores de los datos correspondientes al 1%, al 2%... y al 99% de los datos.
Dado un conjunto de datos, el valor m es el percentil p, si el px100% de los datos son menores
o iguales a m.
CUARTILES: Q1, Q2, Q3: son los valores que dividen la muestra en 4 grupos, cada uno con el 25%
de los datos (aproximadamente)
8
Los parámetros de posición no permiten describir totalmente como es un conjunto de datos.
Parámetros de DISPERSIÓN:
- CA = 0; distribución simétrica
- CA > 0; si hay asimetría positiva
- CA < 0; si hay asimetría negativa
9
COEFICIENTE DE CURTOSIS: mide apuntamiento
- CC = 3; distribución simétrica
- CC > 3; si hay asimetría positiva
- CC < 3; si hay asimetría negativa
DIAGRAMA DE CAJA-BIGOTES
Al conjunto de los tres cuartiles con el mínimo y el máximo de los datos se le suele denominar
el resumen de las 5 cifras (mínimo, Q1, Q2, Q3, máximo). El diagrama de la caja, o box-plot, es
precisamente la representación del resumen de las 5 cifras.
10
o Ver asimetrías
o Detectar datos atípicos
Cuando hay asimetría, un dato extremo no debe necesariamente catalogarse como atípico. La
asimetría indica que al final de la cola habrá cada vez menos datos.
11
ESTADISTICA DESCRIPTIVA BIDIMENSIONAL
Continuamos describiendo un conjunto de datos, pero ahora los datos tienen información de
dos variables.
Ejemplo:
Nos interesa el estudio conjunto de ambas variables, y en particular saber si están relacionadas
o por el contrario son variables independientes.
En el caso en el que estén relacionadas dos variables cuantitativas, nos interesará poder
describir cómo es su relación: lineal o no lineal.
DISTRIBUCIONES MARGINALES: toda variable aleatorio bidimensional (X,Y) tiene asociada dos
distribuciones unidimensionales:
- La distribución marginal de X y
- La distribución marginal de Y
Distribuciones unidimensionales que tienen cada una de las dos variables consideradas cuando
se prescinde de los posibles valores de la otra variable.
12
DIAGRAMA DE CAJA-BIGOTES MÚLTIPLE
Es una herramienta para comparar las pautas de variabilidad existentes en distintos conjuntos
de datos.
Es la relación entre una componente cuantitativa (peso) y una cualitativa (sexo). Que las cajas
no se solapen, indica que previsiblemente estamos con subpoblaciones diferentes (chicos,
chicas) en el análisis de la variable peso.
GRÁFICOS DE DISPERSIÓN
Se trata de una herramienta especialmente útil para estudiar e identificar las posibles relaciones
entre dos variables
Construcción:
- Se representa para cada individuo el valor constatado de la v.a bidimensional (Xi, Yi) por
un punto en un plano.
- La abscisa es el valor observado para la primera componente de la v.a (X) y la ordenada
es que corresponde a la segunda (Y)
- Se tendrán tantos puntos como tamaño de la muestra.
13
ç
- Nuestra percepción visual del grado de asociación puede estar equivocada debido a la
escala.
COVARIANZA:
- Tomará valores positivos si hay una relación lineal directa entre ambas variables.
- Tomará valores negativos si hay una relación lineal inversa entre ambas variables.
14
COVARIANZA. Interpolación:
COVxy > 0: es probable que exista una relación lineal positiva entre las dos componentes de la
v.a → A mayores valores de X, mayores valores de Y.
COVxy < 0: es probable que exista una relación lineal negativa entre las dos componentes de la
v.a → A mayores valores de X , menores valores de Y.
Inconvenientes de la covarianza:
Y que represente el grado de relación lineal entre los pares de valores de dos variables
continuas.
15
MATRICES DE COVARIANZAS Y CORRELACIONES
Una forma habitual de presentar las medidas de dependencia lineal entre las variables de un
conjunto de datos bidimensionales es en forma de matriz.
16