Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Hoy en da, la estadstica es una ciencia que se encarga de estudiar una determinada poblacin por
medio de la recoleccin, recopilacin e interpretacin de datos. Del mismo modo, tambin es
considerada una tcnica especial apta para el estudio cuantitativo de los fenmenos de masa o
colectivo.
Existe tambin una disciplina llamada estadstica matemtica, la que se refiere a las bases tericas
de la materia. La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo
estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, etc.
1.1 Conceptos bsicos de estadstica
Existen muchas definiciones de Estadstica, pero en sntesis la podemos definir como la ciencia rama
de la Matemtica que se ocupa de recolectar, organizar, presentar, analizar e interpretar
informacin cuantitativa para obtener conclusiones vlidas, solucionar problemas, predecir
fenmenos y ayudar a una toma de decisiones ms efectivas.
APLICACIONES
La Estadstica anteriormente slo se aplicaba a los asuntos del Estado, pero en la actualidad la
utilizan las compaas de seguros, empresarios, comerciantes, educadores, etc. No hay campo de la
actividad humana que no requiera del auxilio de esta ciencia, as por ejemplo:
El educador mediante la estadstica podr conocer si un estudiante lee muy bien o regular,
si la asistencia es normal o irregular, si la estatura est en relacin con la edad, media
aritmtica de rendimiento escolar en un perodo determinado, etc.
El hombre de negocios realiza encuestas estadsticas para determinar la reaccin de los
consumidores frente a los actuales productos de la empresa y en el lanzamiento de los
nuevos.
El economista emplea una amplia gama de estadsticas para estudiar los planes de los
consumidores y efectuar pronsticos sobre las tendencias de las actividades econmicas
El gerente de una empresa elctrica proporciona un buen servicio a la comunidad mediante
la variacin estacional de las necesidades de carga
El socilogo trata de auscultar la opinin pblica mediante encuestas, para determinar su
preferencia por un candidato presidencial, o su posicin frente a determinados problemas
econmicos, polticos o sociales
El gelogo utiliza mtodos estadsticos para determinar las edades de las rocas
El Genetista determina las semejanzas entre los resultados observados y esperados en una
experiencia gentica se determina estadsticamente
OBJETIVOS
MTODOS
POBLACIN
Llamado tambin universo o colectivo es el conjunto de todos los elementos que tienen una
caracterstica comn.
Una poblacin puede ser finita o infinita. Es poblacin finita cuando est delimitada y conocemos el
nmero que la integran, as por ejemplo: Estudiantes de la Universidad ITSL. Es poblacin infinita
cuando a pesar de estar delimitada en el espacio, no se conoce el nmero de elementos que la
integran, as por ejemplo: Todos los profesionales universitarios que estn ejerciendo su carrera.
MUESTRA
Representativa.- Se refiere a que todos y cada uno de los elementos de la poblacin tengan
la misma oportunidad de ser tomados en cuenta para formar dicha muestra.
Adecuada y vlida.- Se refiere a que la muestra debe ser obtenida de tal manera que permita
establecer un mnimo de error posible respecto de la poblacin.
Para que una muestra sea fiable, es necesario que su tamao sea obtenido mediante procesos
matemticos que eliminen la incidencia del error.
Donde:
Desviacin estndar de la poblacin que, generalmente cuando no se tiene su valor, suele utilizarse
un valor constante de 0,5.
Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor,
se lo toma en relacin al 95% de confianza equivale a 1,96 (como ms usual) o en relacin al 99% de
confianza equivale 2,58, valor que queda a criterio del encuestador.
e = Lmite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele
utilizarse un valor que vara entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del
encuestador.
Ejemplo ilustrativo: Calcular el tamao de la muestra de una poblacin de 1000 elementos.
Solucin:
Se tiene N=1000, y como no se tiene los dems valores se tomar o=0,5, Z = 1,96 y e = 0,05.
Reemplazando valores en la frmula se obtiene:
El dato estadstico es un conjunto de valores numricos que tienen relacin entre s, estos pueden
ser comparados, analizados e interpretados en una investigacin, se pude afirmar que son las
expresiones numricas obtenidas como consecuencia de observar a un individuo de la poblacin.
La estadstica descriptiva es una parte de la estadstica que se dedica a analizar y representar los
datos, otras ramas de la estadstica se centran en el contraste de hiptesis y su generalizacin a la
poblacin.
En el estudio de los datos se lleva a cabo una serie de medidas de tendencia central, para ver en qu
medida los datos se agrupan o dispersan en torno a un valor central.
Los datos son colecciones de un nmero cualquiera de observaciones relacionadas entre s, estas
deben organizarse de manera que faciliten su anlisis.
Los datos no agrupados son el conjunto de observaciones que se presentan en su forma original tal
y como fueron recolectados, para obtener informacin directamente de ellos.
Cuando en la muestra que se ha tomado de la poblacin o proceso que se desea analizar se tienen
menos de 30 datos, estos son analizados sin necesidad de formar clases con ellos y a esto es a lo
que se le llama tratamiento de datos no agrupados.
Los datos agrupados son aquellos que se encuentran ordenados y clasificados. Cuando la muestra
consta de 30 o ms datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar
las caractersticas de las muestras y por consiguiente las de la poblacin de donde fue tomada. Antes
de pasar a definir cul es la manera de determinar las caractersticas de inters, cuando se han
agrupado en clases los datos de la muestra, es necesario que sepamos cmo se agrupan los datos,
esto se determinara de acuerdo al tipo de muestra que se est realizando y de acuerdo al tipo de
datos obtenidos.
Una clase o tambin denominada intervalo de clase, son divisiones o categoras en las cuales se
agrupa un conjunto de datos ordenados con caractersticas comunes. En otras palabras, son
fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan
valores comprendidos entre dos lmites. Un nmero de clases pequeo, puede ocultar la naturaleza
natural de los valores y un nmero muy alto puede provocar demasiados detalles como para
observar alguna informacin de gran utilidad en la investigacin.
Algo que responde a la identificacin de la dispersin de los datos de una muestra es el rango, el
cual se define como la diferencia entre el dato mayor menos el dato menor de un conjunto de
datos. Permite obtener una idea de la dispersin estadstica de los dato
FRECUENCIA DE CLASE
Frecuencia es el nmero de veces que se repite o aparece un mismo dato estadstico en un conjunto
de observaciones de una investigacin determinada, las frecuencias se les designan con las letras Fi,
y por lo general se les llaman frecuencias absolutas.
La frecuencia de clase es el nmero de datos que hay en un intervalo de clase, es decir el nmero
de veces que un elemento definido aparece en la muestra.
Por ejemplo si se tienen los siguientes datos: 9, 10, 9, 11, 5, 3, 3, 7, 5, 4, 8, 2, tu rango es de 2-11, tu
intervalo de clase es 5-10 y la frecuencia de clase (Fi) es 12.
FRECUENCIA RELATIVA
La frecuencia relativa se puede expresar en tantos por ciento y se representa por ni.
ni= fi/N
Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34,
33, 33, 29, 29.
X Fi ni
27 1 0.032
28 2 0.064
29 6 0.194
30 7 0.226
31 8 0.258
32 3 0.097
33 3 0.097
34 1 0.032
N= 31 1.000
19, 20, 19, 18, 19, 18, 20, 19, 20, 20, 19, 20, 19, 19, 22, 23, 21
PUNTO MEDIO
Punto medio es el punto que divide a un segmento en dos partes iguales. Es el punto que se
encuentra exactamente a la mitad, entre un lmite y otro.
El centro de la clase, es el valor de los datos que se ubican en la posicin central de la clase y
representa todos los dems valores de esa clase. Este valor se utiliza para el calculo de la media
aritmtica.
La media aritmtica es el valor obtenido al sumar todos datos y dividir el resultado entre el numero
total de datos.
LIMITES
Son una restriccin, lo que limita al rango, suelen ser incluyentes y excluyentes.
Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a
estar los valores de los datos agrupados en ese intervalo de clase.
Los limites inferiores y superiores son los valores mnimos y mximos de una distribucin.
Por ejemplo:
En un curso de 15 alumnos, se le pidi a un profesor que pesara a todos los alumnos, los datos
obtenidos son los siguientes: 62, 95, 38, 95, 79, 92, 60, 42, 82, 39, 85,87, 91, 94, 53.
HISTOGRAMA
Se puede considerar como un grfico de columnas especial. Se realiza sobre el primer cuadrante del
plano cartesiano. La diferencia radica en que el histograma se utiliza ms a menudo para representar
tablas tipo B, donde el ancho de la columna equivale al ancho del intervalo de clase.
Las frecuencias absolutas se colocan en el eje vertical y tambin puede emplearse las frecuencias
relativas. Otra diferencia importante es que no existe espacio entre las barras.
Los Histogramas son diagramas de barras verticales en los que seCuando se trata de analizar la
dispersin que presentan unos datos, la representacin grfica ms adecuada es el histograma. Para
realizar un histograma se marcan una serie de intervalos sobre un eje horizontal, y sobre cada
intervalo se coloca un rectngulo de altura proporcional al nmero de observaciones (frecuencia
absoluta) que caen dentro de dicho intervalo. De esta manera el histograma de frecuencias resulta
muy til para representar grficamente la distribucin de frecuencias.
Si se pretende comparar varios histogramas construidos con distinto nmero de datos, es preferible
que las alturas de los rectngulos sean proporcionales al porcentaje de observaciones en cada
intervalo o al tanto uno por uno (frecuencia relativa).
Las medidas de tendencia central como su nombre lo dice son clculos o evaluaciones que nos
proporcionan idea del comportamiento del fenmeno en la parte cntrica de este. En otras palabras
las medidas de tendencia central se ocupan de medir del centro, el foco o el medio de un fenmeno.
Nmeros de datos.
Sumatoria.
Ejemplo: Las calificaciones del examen fueron: 6 ,7 ,8 ,8 ,9 ,10 ,10. La media aritmtica para los datos
anteriores es x Promedio es igual a la suma de 6+7+8+8+9+10+10; entre el numero de
observaciones (siente).
8 2 0.285714
9 1 0.142857
10 2 0.285714
Totales 7 1.00
1.3.2 Mediana
Mediana (Me): Valor que divide una serie de datos en dos partes iguales. La cantidad de datos que
queda por debajo y por arriba de la mediana son iguales.
La definicin de geomtrica se refiere al punto que divide en dos partes a un segmento. Por ejemplo,
la mediana del segmento es el punto C.
41234221553
SOLUCIN
11222334455
PASO 2: Localizar el valor que divide en dos parte iguales el nmero de datos.
11222334455
4123422155
SOLUCIN
1122234455
PASO 2: Localizar el valor que divide en dos parte iguales el nmero de datos.
1122234455
El punto medio se encuentra entre dos valores: 2 y 3, por tanto, el valor de la mediana ser 2,5.
Ni Clase f F h% H%
1 10 5 5 10.4 10.4
2 20 7 12 14.6 25.0
3 30 10 22 20.8 45.8
4 40 13 35 27.1 72.9
5 50 10 45 20.8 93.8
6 60 2 47 4.2 97.9
7 70 1 48 2.1 100.0
Total 48 100%
SOLUCIN
PASO 1: Localizar entre que clases se encuentra la mediana. Observe que la mediana se encuentra
entre las clases 3 y 4, donde podremos encontrar una frecuencia relativa acumulada del 50%.
En el paso anterior habamos dicho que el punto que divide el 2 parte iguales se encuentra entre 30
y 40.
Clase H
40 72.9%
30 45.8%
Diferencia 10 27.1%
1.3.3 Moda
Moda (Mo): indica el valor que ms se repite, o la clase que posee mayor frecuencia.
En el caso de que dos valores presenten la misma frecuencia, decimos que existe un conjunto de
datos bimodal. Para ms de dos modas hablaremos de un conjunto de datos multimodal.
Los siguientes datos provienen del resultado de entrevistar a 30 personas sobre la marca de gaseosa
que ms consume a la semana:
LUNES MARTES MIERCOLES JUEVES VIERNES SABADO
SOLUCIN
Otra forma para asegurar que las diferencias entre la media y los puntos de un valor positivo, es
elevndola al cuadrado. Al promedio de estas distancias al cuadrado se le conoce como varianza.
Varianza (S2 o s2): Es el resultado de la divisin de la sumatoria de las distancias existentes entre
cada dato y su media aritmtica elevadas al cuadrado, y el nmero total de datos.
Distinguimos dos smbolos para identificar la varianza: S2 para datos mustrales, y 2 para datos
poblacionales. Note que la frmula para la varianza muestral presenta en su denominador al tamao
de la muestra menos uno, tendencia adoptada por los estadsticos para denotar una varianza ms
conservadora.
25 19 21 35 44
20 27 32 38 33
18 30 19 29 33
26 24 28 39 31
31 18 17 30 27
Determinar la varianza.
SOLUCIN
La varianza equivale a 51,8567. Por elevar las unidades al cuadrado, carece de un significado
contextual dentro del anlisis descriptivo del caso.
Calcular la varianza a partir de la siguiente tabla de frecuencia (suponga que los datos son
poblacionales).
Ni Lm Ls F Mc
1 15 17 2 16
2 17 19 5 18
3 19 21 13 20
4 21 23 4 22
5 23 25 1 24
Total 25
Habamos visto que la varianza transforma todas las distancias a valores positivos elevndolas al
cuadrado, con el inconveniente de elevar consigo las unidades de los datos originales.
La S representa la desviacin estndar de una muestra, mientras que la desviacin para todos los
datos de una poblacin. Ampliando las frmulas tenemos
Aplicamos el mismo procedimiento a las frmulas para las tablas de frecuencias tipo A.
Para conocer con un solo indicador que tan disperso se encuentran un conjunto de datos a un punto
de concentracin, debemos como primera medida, calcular la distancia de cada dato respecto a una
medida de tendencia central. Por ejemplo:
4 5 3
5 3 2
2 2 2
3 5 1
4 1 4
El total de las distancias de los puntos que estn a la izquierda respecto a la media es de -8,6
(empleando todos los decimales), que es igual a la sumatoria de las distancias de los puntos que
estn a la derecha respecto a la media 8,6. Concluimos que la sumatoria de todas las distancias de
cada punto respecto a la media aritmtica es igual a cero (las distancias se anulan):
Para responder a la pregunta de qu tan disperso estn los datos respecto a la media aritmtica?,
recurriremos nuevamente al promedio simple. Para llegar a una frmula bsica de dispersin, en
que las distancias positivas y negativas no se eliminen, modificaremos la frmula anterior para
trabajar solo con distancias positivas mediante el valor absoluto:
El criterio que gua esta estadstica, radica en el uso de diferencias de cada dato respecto a la
mediana muestral m.
Si estas diferencias son muy grandes, entonces estamos ante un caso de gran variabilidad, y si son
pequeas se espera que la variabilidad sea pequea.
Naturalmente que el criterio que parece ms apropiado es agrupar las discrepancias individuales y
tratarlas en conjunto.
Un agrupamiento natural sera una suma de ellas, pero el slo uso de las diferencias no garantiza
que se pueda medir discrepancias porque algunas (prcticamente la mitad) sern menores que la
mediana, con diferencias negativas, y el resto mayores que la mediana, con diferencias positivas, y
al sumar dichos valores habra compensaciones entre valores negativos y positivos.
Por lo tanto, una salida a esta dificultad es considerar el valor absoluto de la diferencias calculadas
y promediarlos.
Dado un conjunto de datos, x1, ..., xn su desviacin mediana d.m., est definida por :
Esta estadstica se encuentra medida en la misma escala que los datos originales, lo que facilita su
comprensin.
1.4.6 Rango
El rango es una medida de dispersin muy simple, es la diferencia entre el mayor y el menor valor
de los datos representados en la muestra.
Al usar los extremos de una muestra, se corre el riesgo de obtener resultados muy cambiantes
debido a la posible presencia de algunos valores mucho mayores o mucho menores que la gran
parte de los datos.
Esta dificultad muestra un aspecto negativo del rango, sin embargo su gran simplicidad de clculo,
hace que en muchas situaciones sea prctico su uso.
Para la primera muestra (0, 45, 50, 55, 100), el dato menor es 0 y el dato mayor es 100, por lo que
sus valores se encuentran en un rango de:
Mientras que para la segunda muestra (47, 49.5, 50, 51.5, 52), el dato menor es 47 y el dato mayor
es igual a 52 por lo que su rango correspondiente es igual a:
Rango = 52 47= 5
Lo que indica que la segunda muestra es ms homognea ya que sus datos estn dispersos en un
menor rango
Parmetros agrupados
http://wape23.jimdo.com/unidad-1/1-4-medidas-de-dispersi%C3%B3n/1-4-3-desviaci%C3%B3n-
media/
1.5.1 La Media
La media aritmtica o simplemente media es el promedio ms comnmente usado, este puede ser
simple o ponderado.
La media aritmtica simple est dada por la formula Sx/n y que significa: la suma de todos los valores
dividida por el nmero de datos.
Por ejemplo: 10, 13, 10, 13, 14, 10, 13, 10, 15.
La definicin es claramente entendida como una extensin de la definicin que dimos para datos
no agrupados, ya que es lgico suponer que datos que se repiten con una frecuencia pueden
simplificar la suma:
Por supuesto que los ndices de la segunda suma con respecto a la primera corren con respecto a
menor nmero, es decir, con respecto al nmero de agrupamientos m.
La S representa la desviacin estndar de una muestra, mientras que la desviacin para todos los
datos de una poblacin. Ampliando las frmulas tenemos
Aplicamos el mismo procedimiento a las frmulas para las tablas de frecuencias tipo A.
Las distribuciones de frecuencia resumen los datos originales, los condensan o agrupan para facilitar
el anlisis de los mismos. Sin embargo para ampliar el anlisis, casi siempre es deseable formar la
distribucin de frecuencias relativa o la distribucin de porcentaje, dependiendo de la preferencia
de la informacin. Tambin se puede definir como un listado de datos a menudo expresado en
forma de diagrama que asocia cada valor de una variable con su Frecuencia.
32232441224320221331
X representa el elemento f su frecuencia teniendo as
X F
0 1
1 3
2 8
3 5
4 3
Ejemplo:
Los datos correspondientes a 183 sobre el tamao de los sistemas de televisin por cable de los
Estados Unidos se pueden resumir de la siguiente forma:
1000-3499 1573
3500-9999 958
10000-19999 269
20000-49999 239
50000 o mas 57
Total 5640
En este ejemplo cada clase cubri un amplio rango de valores, pero tambin hay distribuciones
numricas en que la clase cubre solo un valor.
En este ejemplo cada clase cubri un amplio rango de valores, pero tambin hay distribuciones
numricas en que la clase cubre solo un valor.
1.6.2 Distribuciones categricas
Si agrupamos los datos en categoras no numricas la tabla resultante se conoce como distribucin
categrica o cualitativa.
Tabla de datos, referentes a una variable en cuestin, en la que se exponen varias categoras de la
misma, junto con sus frecuencias o nmero de veces que se repite en la muestra (puede expresarse
tambin en porcentaje). La tabla puede tener diferentes formatos y es llamada tabla de
frecuencias. Cuando se comparan la frecuencia de dos variables, se compone una tabla de
contingencia, en la cual una variable ocupa las filas y la otra las columnas.
Ejemplo 1:
Una tabla de frecuencias simple de la variable COMA, en sus categoras Ausente y Presente. (spss).
En ella se usa el nmero de clases anchos de clase y lmites de clase que fueron definidos para la
distribucin de frecuencia. Sin embargo ms que mostrar la frecuencia de cada clase, la distribucin
de frecuencia acumulada muestra la cantidad de elementos con valores menores o igual que al
lmite superior de la clase por cada clase.
En si la frecuencia acumulada muestra simplemente la suma de todas las clases cuyos datos tienen
valores menores a la frecuencia de la clase.
Solucin:
La primera clase contiene 3/80*100= 3.75% de los datos, la segunda comprende 10/80*100%=
12.50% de los datos y la sptima clase contiene 2/80*100% = 2.50% de los datos de estos
resultados se muestran en la siguiente tabla.
Intervalos f fr
1-5 31 31/264 0.0851 8.51%
6-10 116 116/364 0.3186 31.86%
11-15 116 116/364 0.3186 31.86%
16-20 58 58/364 0.1593 15.93%
21-25 42 42/364 0.1153 11.53%
26-30 0 0/364 0 0%
31-35 0 0/364 0 0%
36-40 0 0/364 0 0%
41-45 0 0/364 0 0%
46-50 0 0/364 0 0%
51-55 0 0/364 0 0%
56-60 0 0/364 0 0%
61-65 0 0/364 0 0%
66-70 1 1/364 0.0027 0.27%
Para poder dejar en claro todo los trminos y formulas vistas analizaremos estos datos segn la
siguiente tabla:
Distribucin
Distribucin
Elemento f porcentual
porcentual
acumulada
1 0.27% 0.27%
3 15 4.12 % 4.39 %
4 15 4.12 % 8.51 %
5 25 6.86 % 15.37 %
7 56 15.38 % 30.75 %
8 35 9.61 % 40.36 %
9 38 10.43 % 50.79 %
12 40 10.98 % 61.77 %
13 38 10.43 % 72.2 %
15 7 1.91 % 74.11 %
16 37 10.2 % 84.31 %
17 13 3.57 % 87.88 %
18 1 0.27 % 88.15 %
19 1 0.27 % 88.42 %
21 40 10.98 % 99.4 %
23 1 0.3 % 99.7 %
67 1 0.3 % 100 %
20
La distribucin se obtuvo de dividir la frecuencia de cada elemento que est clasificado en la tabla
2 entre el total de elementos de la muestra en este caso 364.
Para obtener la distribucin porcentual solo se multiplica la distribucin normal por 100, entonces
tenemos que 40/364 = 0.1098 * 100 =10.98 %
Para el numero 7 por ejemplo sumaremos 0.27% + 4.12% + 4.12% + 6.86% = 15.37%
Al final el ltimo elemento deber tener una distribucin porcentual del 100 %
Las clases deben estar definidas tal que cada observacin pertenezca a una sola clase, y que las
clases adyacentes tengan fronteras en comn
Se debe escoger los lmites de la clase de tal manera que cada valor de dato pertenezca a una clase
y solo a una. El lmite inferior de la clase es el valor mnimo posible de los datos que se asignan a la
clase. El lmite superior de la clase es el valor mximo posible de los datos que se asignan a la clase.
Para formar distribuciones con datos cualitativos no se necesit especificar lmites de clase, porque
cada elemento caa, en forma natural, en una clase o categora separada. Pero con los datos
cuantitativos, como los tiempos de sabidura de la tabla 2.5, son los lmites de clase para determinar
dnde se clasifica a cada uno de los datos.
1.7.2 Rango de clase
Faltan los temas de tcnicas de agrupacin de datos (1.6) y tcnicas de muestreo (1.7)
Completar los temas faltantes y traer un ejercicios que abarque todos los temas de la unidad 1
entregar en hoja de mquina y a mano con portada