Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
Licenciatura en Matemticas
Estadstica I
3er semestre
Clave:
05142318/06142318
ndice
Unidad 1. Estadstica Descriptiva ................................................................................... 3
Presentacin de la unidad............................................................................................... 3
Propsitos de la unidad .................................................................................................. 3
Competencia especfica .................................................................................................. 3
Introduccin al estudio de la estadstica ....................................................................... 3
Estadstica.................................................................................................................................... 6
Estadstica descriptiva ............................................................................................................. 6
Inferencia estadstica ................................................................................................................ 7
Medidas de Tendencia Central ....................................................................................... 8
Escalas y tipos de variables .................................................................................................... 8
Media, moda, mediana media recortada. ........................................................................... 10
Medidas de dispersin .................................................................................................. 17
Varianza, desviacin estndar, rango intercuartlico. .................................................... 17
Diagramas de caja .................................................................................................................... 19
Medidas de Asociacin ................................................................................................. 28
Coeficiente correlacin de Pearson y Spearman ............................................................ 28
Cierre de la unidad......................................................................................................... 32
Para saber ms .............................................................................................................. 32
Fuentes de consulta ...................................................................................................... 32
Presentacin de la unidad
Esta primera unidad est dedicada a la Estadstica descriptiva. Uno de los principales
objetivos es la recoleccin de datos a travs de muestras. Estas enormes cantidades de
datos se han resumir en unos parmetros o medidas que le proporcionen al investigador,
se trata de, la descripcin lo ms cercana posible al comportamiento real de la poblacin
que es objeto de estudio. Para este fin se cuenta con las medidas de tendencia central,
dispersin y asociacin, que sern vistas en esta unidad.
Propsitos de la unidad
Competencia especfica
Todo estudio estadstico investiga una poblacin para lo cual el investigador el cientfico o
la empresa que paga el estudio define los lmites de la poblacin, la frontera. Por ejemplo:
si se investiga el crecimiento demogrfico en el Distrito Federal se analiza slo este
fenmeno en el territorio de esta ciudad. . . A otro investigador puede interesarle slo la
variacin demogrfica en la delegacin Miguel Hidalgo, por tanto su poblacin est
acotada a la demarcacin de esta delegacin.
Ejemplo1.
Si se desea estudiar la edad promedio de los habitantes de la ciudad de Mxico es
importante limitar la investigacin slo en las 16 delegaciones que integran al Distrito
Federal.
Ejemplo 2.
Ejemplo 3.
Muestra aleatoria:
Estadstica
La Estadstica es la rama de las Matemtica que se encarga del estudio de los mtodos,
recoleccin de informacin e interpretacin de sta en forma adecuada. Tambin se
encarga del anlisis de la informacin y la toma de decisiones con base en los resultados
de este anlisis.
Estadstica
descriptiva
reas de la
Estadstica
Estadstica
inferencial
A lo largo de este curso se estudiarn los principales temas de ambas reas. En la unidad
uno se revisar la Estadstica descriptiva; en tanto, las unidades restantes estarn
dedicadas a la Estadstica Inferencial.
Estadstica descriptiva
Inferencia estadstica
La Estadstica inferencial se encarga del estudio de los mtodos con los cules se
pueden hacer generalizaciones. Saca conclusiones basadas en la probabilidad de una
poblacin determinada lo que permite la toma de decisiones para este conjunto de
habitantes.
La Estadstica inferencial permite deducir, a partir de los valores que arrojen las muestras
extradas de una poblacin resultados o conclusiones acerca de la poblacin investigada.
Estimar es hacer una buena aproximacin de los valores de las caractersticas principales
de la poblacin de inters.
La media recortada
La moda
la mediana
Escalas de medidas.-
Se puede decir que existen 4 tipos de escalas desde el punto de vista estadstico:
1. Nominal
2. Ordinal
3. Escala por intervalos
4. Escala de razn o proporcin
Tipos de variables.
Nominal
Cualitativa
Ordinal
Tipos de
variables
Discreta
Cuantitativa
Continua
Nominal.- Cuando no se puede establecer una relacin entre los datos, en cuanto a
cual es mejor o peor. Por ejemplo el sexo. No se puede establecer que masculino sea
peor que femenino o viceversa.
Ordinal.- Se establece una relacin de importancia entre los datos, o bien un orden
jerrquico. Por ejemplo se gan medalla de oro, plata o bronce.
Discreta.- Se trata de una variable cuyos datos son nmeros enteros. Por ejemplo el
nmero de hermanos. pueden ser 1,2, 3,, pero no se puede tener 1.23 hermanos.
Ejemplo
La estatura y el peso son variables cuantitativas porque esta medicin arroja un valor
numrico.
El color de ojos y el sexo son variables cualitativas por que no se pueden medir.
Existen mtodos y tcnicas que no permiten trabajar con las variables, pues hacen que
la recoleccin e interpretacin de datos sea ms fcil de manejar, como es el caso de la
media, moda, mediana, media recortada).Una vez que se comprenden los tipos de
variables, es importante saber cmo se han de medir.
Media
Es importante mencionar que hay varios tipos de Media, por ejemplo, la media
aritmtica (que generalmente se conoce como promedio), la media geomtrica y la
media armnica.
A grosso modo se puede decir que la media es la suma de los valores de un conjunto de
datos recolectados (observaciones, Etc.) dividida entre el tamao de la muestra (total de
datos recolectados). Estadsticamente representa el centro de un conjunto de datos como
se puede apreciar en la siguiente figura:
x1 x2 ....... xn
x
n
Ejemplo
Se tienen los datos sobre la calificacin que obtuvieron estudiantes que cursan la
materia de Probabilidad y son los siguientes: 10, 8, 6, 5, 1, 5, 5, 6,7,6,7,5,6,7,8,7,6,5,8,9.
Solucin:
1+5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9+10
Media o promedio = 20
= 5.9
El resultado es:
Media =5.9
La media recortada permite eliminar los datos muy extremos, tanto en la zona superior
como en la inferior. Es idntica a la media aritmtica vista anteriormente, slo que para
calcularla primero se reduce el 5% de los valores en el extremo superior y tambin el 5%
del extremo inferior.
Se ordenan los valores en forma ascendente para identificar cules son los que quedan
en los extremos. Esta media permite eliminar la distorsin producida al tener valores en
los extremos muy alejados de la media.
Ejemplo.
Se cuenta con los siguientes datos, producto de una muestra aleatoria sobre la
calificacin que obtuvieron estudiantes que cursan la materia de Probabilidad: 10, 8, 6, 5,
1, 5, 5, 6,7,6,7,5,6,7,8,7,6,5,8,9.
2.- Se elimina, el 5% para cada uno de los extremos (superior e inferior)... Si se tuvieran
una muestra de 100 datos el 5% sera de 5 datos.
3.- Una vez que se han eliminado los datos de los extremos superior e inferior (que cada
uno representa el 5% de la muestra), como se presenta abajo:
Se procede a calcular la media recortada de igual manera como se hizo para la media
aritmtica.
Mediante la formula:
x1 x2 ....... xn
x
n
Sustituyendo los valores:
5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9
Media recortada = 18
= 6.44
El resultado por lo tanto es:
Media recortada=6.44
Mediana.
La mediana es el valor que divide en dos partes iguales una distribucin de frecuencias,
es decir aquel valor que deja igual numero de datos del lado derecho e izquierdo de l.
En otras palabras, se puede definir como el valor que se encuentra justamente en medio
de todos los valores ordenados en forma ascendente (o descendente), Esto se puede
ver en la siguiente ilustracin:
50 % ___!___ 50% .
Mnimo Mediana Mximo
Para localizar la mediana de una serie de datos se pueden presentar dos situaciones:
Segundo. Si se trata del primer caso, (impar) el dato buscado se localiza exactamente en
medio de la distribucin.
Ejemplo
Segundo. El total de los datos es impar por lo tanto basta con localizar el dato que divide
en dos partes iguales la distribucin. note el estudiante que una vez ordenados en forma
ascendente los datos, quedan exactamente cuatro valores del lado izquierdo del siete y
cuatro valores a la derecha de l, como se puede apreciar en seguida:
Por el contrario, si el total de los datos es par, quedaran dos valores justo en la mitad de
la distribucin. Por lo tanto se proceder a calcular la media aritmtica de estos dos
valores.
Ejemplo
Con los siguientes datos, producto de tomar una muestra aleatoria sobre la calificacin
que obtuvieron estudiantes que cursan la materia de Probabilidad, se buscar la
Mediana:
{10, 8, 6, 5, 9, 10,8, 5, 6,7.}
Segundo el l total de los datos es par, hay que localizar los datos que dividen en dos
partes iguales la distribucin.
Moda.-
Se puede definir la moda como el valor de la variable que se presenta con mayor
frecuencia en un conjunto de datos. Ejemplo.
Ejemplo 9.
{15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21}
Solucin
Nuestra variable es la edad hay que identificar cual es la edad que se presenta con
mayor frecuencia?
Para contestar a la pregunta hagamos una tabla (distribucin de frecuencias), con los
datos.
Por lo tanto la moda es 15, ya que es el dato que se presenta con ms frecuencia.
Ejemplo
Nuestra variable es el calzado habitual Cul es el calzado que se presenta con mayor
frecuencia en esta muestra?
Para contestar a la pregunta hagamos una tabla (distribucin de frecuencias) con los
datos.
Variable (calzado) Frecuencia (nmero de alumnos)
Tenis 7
Botas 2
Zapatos 7
Sandalias 4
En este caso se tienen dos datos con mayor frecuencia: tenis y zapatos con 7. Por lo
tanto se tienen dos modas: tenis y zapatos.
Es importante sealar que la moda es el nico valor central con el cual se suele trabajar
con variables cualitativas. Cabe sealar que, si bien la moda est considerada una
Medida de tendencia central, puede estar muy cerca de los extremos de la muestra,
pues indica el valor que se presenta con mayor frecuencia.
Medidas de dispersin
Rango.- el rango se define como la diferencia entre dos valores, el mximo y el mnimo
Su expresin matemtica para calcularlo es:
Ejemplo.
15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21
Solucin:
De acuerdo a la formula, se busca el dato con el valor mximo y el valor mnimo Por lo
tanto se tiene:
Xmax=21
Xmin= 15
Sustituyendo en la frmula:
Rango = 21-15 = 6
Cuartiles
Los cuartiles son una medida de posicin no central integrada por tres valores que
Q1=N(25%)
Q2=N(50%)
Q3=N(75%)
Rango intercuartlico.
Es muy parecido al concepto de rango visto lneas arriba. Slo que para los cuartiles se
va a emplear la expresin matemtica:
Ejemplo
Con los siguientes datos correspondientes a una muestra aleatoria sobre la calificacin
de estudiantes que cursan la materia de Probabilidad10, 8, 6, 5, 9, 5, 6,7.
Solucin:
Nota: en caso de dar un resultado fraccionario o decimal hay que redondear hacia el
nmero superior inmediato.
Otra perspectiva de esta medida es considerar que como son 8 datos, al dividirlos en
cuatro partes queda el 25%, 4 datos el 50%, 6 datos el 75% ya que los 8 datos son el
100%, por lo tanto se puede representar as:
Con esta representacin e pueden apreciar los valores para los cuartiles.
As se tiene que :
Q3= 8
Q1= 5
Diagramas de caja
Los Diagramas de caja se utilizan para representar grficamente las cinco Medidas de
dispersin,: los valores extremos, (valor mximo, valor mnimo), la mediana y los
cuartiles Q1, Q3. Lo que nos falta de estos valores es explicar cmo se trazan los
diagramas correspondientes, lo que se har mejor con un ejemplo:
Ejemplo 13.
Solucin:
Q3= 8
Q1= 5
La mediana se calcula como una media aritmtica de los dos valores centrales, dado
que el tamao de la muestra es par, as se tiene que:
6+7
Mediana = 2
= 6.5
Ya se tienen los cinco valores necesarios para la construccin del diagrama de caja: Es
conveniente trazar una lnea que sirva de referente que contenga los datos de la
muestra.
Lo primero es trazar los bigotes, esto se logra usando los valores extremos, para este
caso Xmax= 10, Xmin = 5, asi que:
La caja tiene de largo el rango intercuartlico. En este ejemplo coincidi el bigote del
valor mnimo, con el del primer cuartil Q1, de ah que se observe la figura como si le
faltara el bigote de la izquierda.
La longitud de los bigotes indica qu tan concentrados estn los valores en el primer
La varianza
Esta medida de dispersin sirve para calcular el grado de variabilidad de los datos con
respecto a la media se calcula en unidades cuadradas.
f ( xi x)2
i 1
Vx
n 1
f ( xi x)2
i 1
2
N
Por otro lado, la letra s2 se refiere a una muestra (tomada de una poblacin).
f ( xi x)2
i 1
s
2
n 1
Como puede verse en la expresin matemtica, la varianza est definida como la media
aritmtica de los cuadrados de las desviaciones de cada uno de los valores respecto al
promedio.
Ejemplo
En la siguiente distribucin de frecuencias se reportan las edades de nios de una
primaria. La muestra se tom de manera aleatoria. Calcule la varianza de la muestra.
Solucin:
f ( xi x)2
i 1
Vx
n 1
xi
x i 1
N
N= tamao de la muestra= numero de datos= 96
615+78+816+920+1013+1124
x= 96
848
x= 96
Por lo tanto sustituyendo se tiene que el valor de la media o promedio es:
x = 8.833
f ( xi x)2 =288.778
i 1
Se tiene la ecuacin:
n
f ( xi x)2
i 1
Vx
n 1
Se sustituyen datos:
288.778
Vx= 961
Vx=3.04
Desviacin estndar:
f ( xi x)2
i 1
Vx
n 1
f ( xi x)2
i 1
Vx
N
En el caso de la letra s se usa cuando se refiere a una muestra (tomada de una
poblacin).
f ( xi x)2
i 1
s Vx
n 1
Ejemplo
Solucin:
La frmula para el clculo de la desviacin estndar nos indica que hay que obtener la
varianza.
Como se est retomando el problema para ejemplificar la varianza, nos vamos a saltar el
Vx=3.04
s 3.04
Por lo tanto el valor de la desviacin estndar es
S =1.74
1
Coeficiente de variacin. = .
Este concepto es til pues nos permite hacer una comparacin entre dos variables que
tengan unidad de medida diferente.
cv = s / x x 100
Si el valor del coeficiente de variacin es menor o igual al 10% se dice que vara poco o
presenta poca variacin. Por el contrario, si es mayor a 50% se tiene una variacin
excesiva. En los rangos intermedios se considera que la variacin es grande pero
aceptable.
Ejemplo
Solucin:
La ecuacin matemtica nos lleva a calcular la desviacin estndar, lo que a su vez nos
remite al clculo previo de la varianza.
= 1.74
= 8.833
= ( ) 100
1.74
= ( ) 100
8.83
por lo tanto el valor del cv es:
= 19.74 %
Medidas de Asociacin
Hasta el momento se han revisado conceptos y se han realizado clculos que involucran
una sola variable. Qu pasa cuando se tienen dos o ms variables?
El diagrama de dispersin representa una idea clara del grado de correlacin entre las
variables. En seguida se muestran los principales grados de relacin entre dos variables
mediante el uso de estos diagramas.
En estas primeras imgenes la correlacin lineal es muy fuerte, slo cambia el sentido de
la pendiente y esto se ver reflejado en el signo del valor del coeficiente.
Diagrama 1 Diagrama 2
En los siguientes tres diagramas (del 3 al 5), la correlacin es lineal pero no muy fuerte
como en el caso anterior.
Diagrama 3 Diagrama 4
Diagrama 5 Diagrama 6
En el diagrama 6 existe una correlacin que no es de tipo lineal, se trata de una relacin
curva.
Diagrama 7
Este ltimo diagrama representa el caso donde no se tiene relacin entre las variables,
pues no hay correlacin.
Los valores que puede tomar este coeficiente van de -1 a +1. El signo del valor del
coeficiente debe coincidir con la pendiente de la recta de regresin. La magnitud de esta
recta est relacionada ntimamente con el grado de dependencia lineal entre las variables.
Ejemplo
Una empresa tiene ventas reportadas en los ltimos cinco aos, las cuales aparecen en
la siguiente tabla, donde la utilidad est en millones de pesos:
Solucin:
De acuerdo a la frmula del clculo del coeficiente resultar muy conveniente agregar
varias columnas a la tabla de datos para simplificar los clculos.
x y x*y x2 y2
5(185) 15 (56.7)
=
5(55) (15)(15) 5(665.55) (56.7)(56.7)
(925) (850.5)
=
275 225 (3327.75) (3214.89)
74.5
=
50 112.86
74.5
=
75.11
r= 0.9917
Cierre de la unidad
Las medidas estadsticas aprendidas en esta unidad son muy importantes y bsicas para
cualquier estudio estadstico. Con el dominio de estos conceptos ser ms fcil abordar la
siguiente unidad, por lo que se recomienda al estudiante, revisar los temas cuantas veces
sea necesario, pues son los pilares para cualquier estudio posterior.
Para saber ms
Para que puedas repasar los conocimientos adquiridos durante la unidad, te recomiendo
que revises esta pgina de internet, que te permitir reforzar la teora y ejemplos sobre la
Estadstica descriptiva.
http://www.aves.edu.co/ovaunicor/recursos/8/Estadistica%20Descriptiva.swf
Tambin te recomiendo esta pgina para que recopiles mas informacin sobre cada uno
de los temas y te auxilien en la solucin de las actividades de la unidad.
http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf
Fuentes de consulta