Está en la página 1de 14

Unidad I   Estadística descriptiva

1.1 Población y muestra aleatoria

Población

Una población es un conjunto total de elementos en un contexto. Se llama tamaño de la población al número de


individuos que la componen, siendo cada posible observación un individuo; así pues, las poblaciones pueden ser finitas e
infinitas.

Población finita: La que tiene unas dimensiones contables, definidas.

Población infinita: La que tiene un elemento incontable de elementos.

Para estudiar una población existen dos posibilidades.

 1-Estudiar todos sus elementos y sacar conclusiones.

 2.-Estudiar sólo una parte de ellos, una muestra, elegidos de tal forma que nos digan algo sobre la totalidad de las
observaciones de la población.

Muestra: Parte del todo que se analiza para sacar información.

Muestra aleatoria: Parte de un todo que fue seleccionada de tal manera que cada uno de sus elementos se obtuvo
completamente al azar.

Ejemplo: 1.1

Considera que en tu clase de Probabilidad y Estadística hay 54 alumnos en total (población), y que nos interesa conocer
el número de asistencias en el tercer periodo, de forma rápida y confiable. Entonces, tomaremos una  muestra
aleatoria de solamente 5 alumnos de este, luego sumamos sus respectivas asistencias y las dividiremos entre 5. El
resultado obtenido será muy parecido al resultado que obtendrías al dividir la suma de todas las asistencias de la
población entre los 54 alumnos.

Existen los siguientes tipos de muestra aleatoria.

Simple

Elegido el tamaño de la muestra, los elementos que la compongan se han de elegir aleatoriamente entre los N de la
población.

Sistemático

Se ordenan previamente los individuos de la población; después se elige uno de ellos al azar, a continuación, a intervalos
constantes, se eligen todos los demás hasta completar la muestra.

Estratificado

Se divide la población total en clases homogéneas, llamadas estratos; por ejemplo, por grupos de edades, por sexo.
Hecho esto la muestra se escoge aleatoriamente en número proporcional al de los componentes de cada clase o estrato.

1.2 Obtención de datos estadísticos

Son números que pueden ser comparados, analizados e interpretados y el campo del cual son tomados se identifica
como población o universo.

¿Para qué necesitamos recolectar datos?


Proporciona la introducción imprescindible para un estudio de investigación.

Medir el desempeño en un servicio o proceso de producción.

Ayudar en la formulación de alternativas para la toma de decisiones.

Satisfacer nuestra curiosidad.

Hay, por lo menos, tres maneras de obtener datos y son los siguientes:

 Utilizar los datos publicados por fuentes gubernamentales, industriales o particulares.

 A través de la experimentación.

 Realizar encuestas.

Ejemplo: 1.2

Hacer una encuesta con los alumnos y poner los datos en una tabla

Libros leídos
Una
Dos
Tres
Cuatro
Más de cinco
Los números que ves en la tabla son el resultado de realizar el recuento, y se denominan datos estadísticos: 2, 5, 7, ... 

1.3 Medidas de tendencia central

Las medidas de centralización nos indican en torno a qué valor (centro) se distribuyen los datos. Sirve como un método
para comparar los resultados medios obtenidos por dos o más grupos.

Las medidas de tendencia central más comunes son:

 Media aritmética

 Mediana

 Moda

VER LIBRO antes de escribir esto.

Media aritmética

Comúnmente conocida como media o promedio. Se representa por medio de una letra M o por una X con una línea en
la parte superior.

La media aritmética es un promedio estándar que a menudo se denomina "promedio".

Formula y símbolo medio aritmético 

Ejemplo 1.3

 La media aritmética de 34, 27, 45, 55, 22, 34 (seis valores) es:
Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por Me. 

Ejemplo 1.4

1.  Ordenamos los datos de menor a mayor

2. Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.2, 3, 4, 4, 5, 5, 5,


6, 6     Me= 5

3. Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.7,
8, 9, 10, 11, 12 Me= 9.5

Moda

Que es el puntaje que se presenta con mayor frecuencia en una distribución.

Se representa Mo.

De estas tres medidas de tendencia central, la media es reconocida como la mejor y más útil. Sin embargo, cuando en
una distribución se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es
recomendable utilizar la mediana o la moda. (Porque dadas las características de la media, esta es afectada por los
valores extremos).

La media es considerada como la mejor medida de tendencia central, por las siguientes razones:

 Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.

 Es la medida de tendencia central más conocida y utilizada.  

 Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras que las medianas y las
modas de las distribuciones no se promedian.

 La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la mediana y la moda en muy
pocos casos.

Problema 1.1 del libro para resolver con los alumnos.

1.4 Medidas de dispersión

La medida de dispersión es el grado de alejamiento de un dato cualquiera de la muestra de su media.


Con el propósito de medir la dispersión o variabilidad, se discutirán las medidas de:
 Rango
 Desviación media 
 Varianza
 Desviación Estándar (también llamada desviación típica)
 Coeficiente de Variación.
Rango

Sirve para tener una idea de lo extenso de una muestra.

Se calcula restándole el dato menor al dato mayor, con lo que nos damos una idea general de lo aproximados o
distantes que están los datos de la muestra.
Rango¨
R = Xmax – Xmin                Donde= XM = Dato mayor                       xm = Dato menor

Ejemplo 1.5

Clasificación por grupos.

Determina el rango del Grupo A, respecto a los partidos ganados. (PG)


EQUIPO MONTERREY SAN LUIS TIGRES JAGUARE NECAXA ESTUDIANTES
S
PG 9 9 6 4 4 4
R=9-4 = 5
Esto significa que en el Grupo A los datos no se separan por más de 5 unidades.

Desviación media

La desviación media es un primer intento por buscar una medida de dispersión más eficiente que el rango.
Es abreviada por Dm y se define como:

X = media aritmética      Xi = Datos de la muestra    N= Números de datos

Ejemplo 1.6

Hallar la desviación media de un conjunto 2,3,6,8,11.   


Al determinar la diferencia de cada dato de la muestra con su media nos daría como resultado un cero, porque hay
diferencias negativas y positivas y todas se contrarrestan   entre sí. Así que para evitar que se equilibren estas
diferencias, usaremos en cada una su valor absoluto para que todas ellas sean positivas.
2 + 3 + 6 + 8 + 11 / 5 = 6
Dm = │2 – 6 │ + │3 – 6 │ +│6 – 6 │ + │8 – 6 │ + │11 – 6 │/ 5 = 2.8

Varianza

Procura dar el grado con que puede variar un dato de la muestra; el problema es que sus unidades son cuadradas y es
poco compresible para efectos prácticos.
Recordemos la dificultad de sumar las diferencias entre cada dato de la muestra y su media; por lo que otra manera de
hacer positivas las diferencias es elevando cada diferencia al cuadrado, de tal manera que cada cantidad encontrada
será positiva.

Es abreviada por S y se define como: 


X = media aritmética      Xi = Datos de la muestra    N= Números de datos

Ejemplo 1.7

Clasificación por grupos

Determina la varianza del grupo A en partidos ganados (PG).

EQUIPO ESTUDIANTES JAGUARE NECAXA TIGRES MONTERREY SAN LUIS


S
PG 4 4 4 6 9 9

Varianza = S² = (4 – 6) ² + (4 – 6) ² + (4 – 6) ² + (6 – 6) ² + (9 – 6) ²+ (9 – 6) ² / 5


S ²= (- 2) ² + (-2) ² + (-2) ² + (0) ² + (3) ²+ (3) ² / 5
S²= 4 + 4 + 0 + 9 + 9   / 5
S²= 30 / 5
S²= 6
                                
Desviación estándar

Medida de dispersión optima, que se utiliza para calcular los límites de control en procesos productivos, puesto que
determinan la variabilidad aceptable.
Consiste en quitarle el elemento cuadrático a las unidades de la varianza mediante la extracción de la raíz cuadrada de la
misma; definitivamente la desviación típica es la mejor medida de dispersión con que cuenta la estadística, y cuanto
mayor sea la concentración de los datos de una muestra, el valor de la desviación típica será menor. 

Ejemplo (Nos basaremos en el ejercicio 1.7 y en la tabla del tema de "Varianza")

Varianza = S² = (4 – 6) ² + (4 – 6) ² + (4 – 6) ² + (6 – 6) ² + (9 – 6) ²+ (9 – 6) ² / 5


                     S² = (- 2) ² + (-2) ² + (-2) ² + (0) ² + (3) ²+ (3) ² / 5
                     S² = 4 + 4 + 0 + 9 + 9   / 5
                     S² = 30 / 5
                     S² = 6
                     S =1.7
Complementar con el problema 1.7

1.5 Tabla de distribución de frecuencias

Las distribuciones de frecuencias son la forma en que repartimos las frecuencias.

La frecuencia es el número de veces que se repite una condición específica en un conjunto de datos.

Generalmente, las distribuciones de frecuencia se obtienen de tablas o listados de información, donde no son claras ni
detalladas la o las frecuencias o repeticiones de ciertas condiciones, por lo que se debe elaborar una tabla que resuma la
primera información para que sea más fácil obtener las frecuencias y poderlas distribuir.

Ejemplo 1.8

Alumno A B C D E F G H I J K L M N O P Q R S
Calificaciones 6 8 9 5 6 7 9 10 8 6 5 8 6 9 6 7 9 6 5

TABLA ORIGINAL   DE LA MUESTRA OBTENIDA.


Calificaciones 5 6 7 8 9 10 Son las calificaciones existentes

Frecuencias 3 6 2 3 4 1 Son las veces que se repite cada


calificación.
TABLA DE VALORES DONDE SE DISTRIBUYEN LAS FRECUENCIAS

1.6 Cuartiles

Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.

Q2 coincide con la mediana.

Cálculo de los cuartiles

1- Ordenamos los datos de menor a mayor.

2- Buscamos el lugar que ocupa cada cuartil mediante la              expresión.

Número impar de datos

2, 5, 3, 6, 7, 4, 9

Número par de datos

2, 5, 3, 4, 6, 7, 1, 9

   

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra :

 en la tabla de las frecuencias acumuladas.

Li es el límite inferior de la clase donde se encuentra el cuartil.


N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase del cuartil.

ai es la amplitud de la clase.

1.7 Graficos

El objetivo de construir gráficos es poder apreciar los datos como un todo e identificar sus  características
sobresalientes. El tipo de gráfico a seleccionar depende del tipo de variable que nos interese representar por esa
razón distinguiremos en la presentación gráficos para  variables categóricas y para variables numéricas. 

La representación gráfica de una distribución de frecuencias puede realizarse a través de:

 Gráfica de barras

 Gráfica de tortas

Gráfico de barras

Este gráfico es útil para representar datos categóricos nominales


u ordinales. A cada categoría o clase de la variable se le asocia una barra cuya altura representa la frecuencia o la
frecuencia relativa de esa clase.  Las barras difieren sólo en altura, no en ancho.

La escala en el eje horizontal es arbitraria y en general, las barras se dibujan equiespaciadas, por esta razón este tipo
de gráfico sólo debe usarse para variables categóricas.

Es importante que el eje vertical comience en cero, de modo que no se exageren  diferencias entre clases. 

En un gráfico de barras, así como en cualquier tipo de gráfico se debe indicar el número total de datos ya que el
gráfico sólo muestra porcentajes o frecuencias relativas y la fuente de la que se obtuvieron los mismos.

Gráfico  de tortas


En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de
cada  categoría como una porción de un círculo,  en la que el ángulo se corresponde con la frecuencia relativa
correspondiente. Como en todo gráfico es importante indicar el número  total de sujetos. Esta representación gráfica
es muy simple  y permite comparar la distribución de una variable categórica en 2 o más grupos.

REPRESENTACIÓN GRÁFICA DE UN ÚNICO CONJUNTO DE DATOS NUMÉRICOS

Histograma

Se trazan dos ejes de coordenadas rectangulares. En el eje


horizontal se representan los valores de la variable y en el eje vertical una medida de frecuencia (frecuencia absoluta,
frecuencia relativa o frecuencia relativa porcentual. Indicamos en el eje horizontal los límites de los intervalos de
clase. Asociamos a cada clase una columna cuya base cubre el intervalo de clase y cuya altura indica cuantos datos
“caen” en une intervalo a través de la frecuencia o la frecuencia relativa de la clase.
El gráfico se construye sin dejar espacio horizontal entre categorías, a menos que una clase esté vacía (es decir tenga
altura cero).  

Polígono de frecuencias

Alternativo al histograma de frecuencias podemos representar la


información a través de los llamados polígonos de frecuencias. Estos se construyen a partir de los puntos medios de
cada clase. La utilización de los puntos medios o marcas de clase son llevados al escenario gráfico mediante la
utilización de los polígonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las
tapas superiores de los rectángulos utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando
desean destacarse las variables de tendencia central, como son media, modas y medianas.

Tallo-hojas  espalda  con espalda COMPARACION  DE GRUPOS.

Los gráficos de tallo-hojas son útiles para comparar la distribución de una variable en dos condiciones o grupos. El
gráfico se denomina tallo-hojas espalda  con espalda porque ambos grupos comparten los tallos.

1.8 Cajas y bigotes

Los diagramas de Caja-Bigotes  son una presentación visual que describe varias características importantes, al mismo
tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo,
alineado horizontal o verticalmente.

Construcción:

Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido
intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por
lo tanto su relación con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable.
Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo
que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente.
Ejemplo 

Distribución de edades

Utilizamos la ya usada distribución de frecuencias ,que representan la edad de un colectivo de 20 personas.

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

Ordenar los datos

Para calcular los parámetros estadístico, lo primero es ordenar la distribución.

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

Calculo de los cuartiles

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. 

Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar
central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el
siguiente:

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 =
15, resulta

Q2=(39 + 39) / 2 = 39

Dibujar la caja y los bigotes


1.9 Diagrama de Pareto

Es una herramienta que se utiliza para priorizar los problemas o las causas que los generan.

El diagrama de Pareto, también llamado curva 80-20,según este concepto, si se tiene un problema con muchas causas,
podemos decir que el 20% de las causas resuelven el 80 % del problema y el 80 % de las causas solo resuelven el 20 %
del problema,el diagrama de pareto es una gráfica para organizar datos de forma que estos queden en orden
descendente, de izquierda a derecha y separados por barras. Permite, pues, asignar un orden de prioridades

Se recomienda el uso del diagrama de Pareto:

 Para identificar oportunidades para mejorar .

 Para identificar un producto o servicio para el análisis de mejora de la calidad. 

 Cuando existe la necesidad de llamar la atención a los problemas o causas de una forma sistemática.

  

 Para analizar las diferentes agrupaciones de datos. 

 Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones 

 Para evaluar los resultados de los cambos efectuados a un proceso comparando sucesivos diagramas

  obtenidos en momentos diferentes, (antes y después).

 Cuando los datos puedan clasificarse en categorías .

 Cuando el rango de cada categoría es importante.


Los propósitos generales del diagrama de Pareto:

 Analizar las causas 

 Estudiar los resultados 

 Planear una mejora continua

La Gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar visualmente en una solarevisión
las minorías de características vitales a las que es importante prestar atención y de esta manera utilizar todos los
recursos necesarios para llevar a cabo una acción de mejora sin malgastar esfuerzos ya que con el análisis
descartamos las mayorías triviales.

Ejemplo

Un fabricante de accesorios plásticos desea analizar cuáles son los defectos más frecuentes que aparecen en las
unidades al salir de la línea de producción. Para esto, empezó por clasificar todos los defectos posibles en  sus
diversos tipos:

Posteriormente, un inspector revisa cada accesorio a medida que sale de producción registrando sus defectos de
acuerdo con dichos tipos. Al finalizar la jornada, se obtuvo una tabla como esta:
La tercer columna muestra el número de accesorios que presentaban cada tipo de defecto, es decir, la frecuencia con
que se presenta cada defecto. En lugar de la frecuencia numérica podemos utilizar la frecuencia porcentual, es decir,
el porcentaje de accesorios en cada tipo de defecto, lo cual se indica en la cuarta columna. En la última columna
vamos acumulando los porcentajes.

Para hacer más evidente los defectos que aparecen con mayor frecuencia hemos ordenado los datos de la tabla en
orden decreciente de frecuencia.

Vemos que la categoría “otros” siempre debe ir al final, sin importar su valor. De esta manera, si hubiese tenido un
valor más alto, igual debería haberse ubicado en la última fila.

Podemos ahora representar los datos en un histograma como el siguiente:

Ahora resulta evidente cuales son los tipos de defectos más frecuentes. Podemos observar que los 2 primeros tipos de
defectos se presentan en el 79,8 % de los accesorios con fallas. Por el Principio de Pareto, concluimos que: La mayor
parte de los defectos encontrados en el lote pertenece sólo a 2 tipos de defectos (los “pocos vitales”), de manera que
si se eliminan las causas que los provocan desaparecería la mayor parte de los defectos.

1.10 Uso de Software

La Hoja de Cálculo Excel/Calc puede convertirse en una poderosa herramienta para crear entornos de aprendizaje que
enriquezcan la representación (modelado), comprensión y solución de problemas, en el área de la estadística y
probabilidad. Excel ofrece funcionalidades que van más allá de la tabulación, cálculo de fórmulas y graficación de datos.

En estadística descriptiva representa todos los tipos de gráficos y calcula la media, moda, mediana, recorrido, varianza y
desviación típica.
La instalación del programa es muy sencilla, además Microsoft Excel incluye un comando para el análisis de datos,
dentro de las "herramientas para el análisis", su uso es poco común, ya que no se tiene cuidado de instalar todas las
funciones dentro de las "herramientas", perdiendo la oportunidad de utilizar un medio poderoso para el estudio dentro
de la estadística.

Ejercicio:Estadistica Unidimensional

Al lanzar dos dados 30 veces y anotar la suma de caras superiores hemos obtenido  los  datos que presentamos en la
siguiente tabla:

Resultados 2 3 4 5 6 7 8 9 10 11 12

Frecuencias 1 2 4 3 2 1 4 3 5 4 1

Una vez abierta la hoja de cálculo EXCEL, deberemos introducir los datos en las celdas A1-A30; luego seleccionamos en la
barra de herramientas  o bien hacemos clic con el ratón en "Función fx" del menú "insertar", apareciendo la ventana de
diálogo donde seleccionamos "Estadísticas" y la función que queramos calcular.

Para calcular la media seleccionamos la función = PROMEDIO del menú, e introducimos el rango de valores.

Todas la medidas se calculan de la misma forma:

•      la moda (= MODA (A1:A30)),

•      la mediana ( = MEDIANA (A1:A30)),

•      la desviación media (= DESVPROM (A1:A30)) ,

•      la varianza (= VARP (A1:A30)),

•      los cuartiles (= CUARTIL (A1:A30)),

•      el coeficiente de asimetría (= COEFICIENTE DE ASIMETRÍA (A1:A30)),

•      el coeficiente de apuntalamiento (= CURTOSIS (A1:A30))...

También podría gustarte