Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. CONCEPTOS BÁSICOS
1. SIGNIFICADO DE ESTADÍSTICA
La estadística es una rama de las matemáticas que conjunta herramientas para recolectar,
organizar, presentar y analizar datos numéricos u observacionales. Presenta números que
describen una característica de una muestra. Resulta de la manipulación de datos de la
muestra según ciertos procedimientos especificados.
Procedimiento:
1. Obtención de datos
2. Clasificación
3. Presentación
4. Interpretación
5. Descripción
6. Generalizaciones
7. Comprobación de hipótesis por su aplicación.
8. Toma de decisiones
Términos comunes.
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten
información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos la edad de los
habitantes en una ciudad, la población será el total de los habitantes de dicha ciudad.
Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia.
Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si
estudiamos la edad de cada habitante, cada habitante es un individuo.
Variable: Fenómeno que puede tomar diversos valores. Las variables pueden ser de dos
tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente (por
ejemplo: nacionalidad, color de la piel, sexo).
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo:
número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca
podrá ser 3,45).
DATOS
Características o números que son recolectados por observación. No son otra cosa que el
producto de las observaciones efectuadas en las personas y objetos en los cuales se produce
el fenómeno que queremos estudiar
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase
y no de cantidad. Ejemplo: Si deseamos clasificar los estudiantes que cursan la materia de
estadística I por su estado civil, observamos que pueden existir solteros, casados,
divorciados, viudos.
Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes,
decimos que son datos cuantitativos. Ejemplo: Se clasifican los estudiantes del Núcleo San
Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan
diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o
períodos de tiempo, los datos son reconocidos como cronológicos. Ejemplo: Al registrar los
promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes
semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que
son datos geográficos. Ejemplo: El número de estudiantes de educación superior en las
distintas regiones del país
1.
2. PRESENTACION DE INFORMACIÓN
Estadística Descriptiva:
Ejemplo: Se elaboró una encuesta en un jardín de niños y ésta informó que las mascotas
más comunes que tiene un niño son perros, gatos, peces, hámsteres y pájaros
Estos datos se pueden representar en una gráfica de barras o en una gráfica de pastel:
Gráfica de barras
Gráfica de pastel
Frecuencia absoluta: se cuenta la cantidad de veces que ocurre el evento, en este caso, las
mascotas.
Agrupación de datos: para elaborar las tablas estadísticas, se debe seguir un procedimiento
preciso:
Censo: Se entiende por censo aquella numeración que se efectúa a todos y cada uno
de los caracteres componentes de una población. Para Levin & Rubin (1996)
"Algunas veces es posible y práctico examinar a cada persona o elemento de la
población que deseamos describir. A esto lo llamamos una numeración completa o
censo. Utilizamos el muestre cuando no es posible contar o medir todos los
elementos de la población. Si es posible listar (o enumerar) y observar cada
elemento de la población, los censos se utilizan rara vez porque a menudo su
compilación es bastante difícil, consume mucho tiempo por lo que resulta
demasiado costoso.
AUTOBUSES FORANEOS
1) Toma de datos
12 11 4 6 6 11 3 10 12 4
10 1 1 2 4 5 2 4 4 8
8 7 8 4 10 4 2 6 2 9
5 6 6 4 12 8 1 12 1 7
7 6 8 4 6 9 3 7 7 5
2) Ordenación de datos
1 2 4 4 5 6 7 8 9 11
1 2 4 4 5 6 7 8 10 12
1 2 4 4 6 6 7 8 10 12
1 3 4 4 6 6 7 8 10 12
2 3 4 5 6 7 8 9 11 12
Rango = 12-1 = 11
3) Tamaño de clase
4) Límites de clase
6) Marca de clase
Clase Intervalo LRI LRS Frec. Frec. Frec. X
LI LS Absoluta Relat Porcentual
1 1 2.9 0.95 2.95 8 .16 16 % 1.95
2 3 4.9 2.95 4.95 11 .22 22 % 3.95
3 5 6.9 4.95 6.95 10 .20 20 % 5.95
4 7 8.9 6.95 8.95 10 .20 20 % 7.95
5 9 10.9 8.95 10.95 5 .10 10 % 9.95
6 11 12.9 10.95 12.95 6 .12 12 % 11.95
total 50 1 100 %
Histograma: forma gráfica de barras que emplea variables con escala de intervalos o de
proporciones. Para realizarla, se toma en cuenta para el eje X, los Límites reales, y para el
eje Y, las frecuencias absolutas.
Media
La media es el punto en una distribución de medidas, alrededor del cual las desviaciones
sumadas son iguales a cero. Es el valor promedio de una muestra o población. La media es
muy sensible a mediciones extremas que no estén balanceadas en ambos lados. Se pueden
calcular diversos tipos de media, siendo las más utilizadas:
a. Media aritmética: se calcula multiplicando cada valor por el número de veces que
se repite. La suma de todos estos productos se divide por el total de datos de la
muestra:
Mediana
Ejemplo:
La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.
Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25.
La mediana es 21.
MODA
La moda es el valor de la observación que aparece con más frecuencia.
Ejemplo:
81, 93, 84, 75, 68, 87, 81, 75, 81, 87.
La moda de los datos agrupados se aproxima por el punto medio de la clase que contiene la
frecuencia de clase mayor.
Cuando dos valores ocurren una gran cantidad de veces, la distribución se llama bimodal,
como en dicho ejemplo.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras
mayor sea la varianza, más dispersos están.
Probabilidad: valor entre cero y uno, inclusive, que describe la posibilidad relativa de que
ocurra un evento.
Tipos de sucesos
Exhaustivo: se dice que dos o más sucesos son exhaustivos si se consideran todos
los posibles resultados.
Simbólicamente: p (A o B o...) = 1
No exhaustivos: se dice que dos o más sucesos son exhaustivos si no cubren todos
los posibles resultados.
Mutuamente excluyentes: sucesos que no pueden ocurrir en forma simultánea:
P (A o B) = p (A) + p (B) – p (A y B )
P ( AI B ) = P ( A ); P ( BIA ) = P (B) Y P (A
Y B) = P(A) P(B)
Enfoques de la probabilidad
Ejemplo
Distribución muestral
EJEMPLO: una bolsa contiene 7 fichas rojas (R) y 5 azules (B), se escogen
2 fichas, una después de la otra sin reemplazo. Construya el diagrama de
árbol con esta información.
2.2 AXIOMAS DE PROBABILIDAD
Nota: la probabilidad de que ocurra el evento A dado que ya ocurrió B se denota como
P(A|B).
Ejemplo
Llegada Frecuencia
Antes de tiempo 100
A tiempo 800
Demorado 75
Cancelado 25
Total 1000
Aerolíneas Argentinas acaba de proporcionar la siguiente información de sus vuelos de
Buenos Aires a Rosario:
Ejemplo
Las variables aleatorias son una transformación o función que asignan uny sólo un valor
numérico a cada resultado de un experimento.
1. Cada ensayo ( cada lanzamiento, en nuestro caso) tiene sólo dos resultados posibles: lado
A o lado B, sí o no, éxito o fracaso.
Des de luego, la otra característica del proceso de Bernoulli también deberá ser satisfecha.
Cada prueba deberá arrojar tan sólo dos resultados (éxito o fracaso= y los resultados de las
pruebas habrán de ser estadísticamente independientes.
P Probabilidad de éxito.
Q Probabilidad de fracaso.
r Número de éxitos deseados.
n Número de ensayos efectuados.
N! / R! (N-R)! PR QN-R
1. La curva tiene un solo pico, por consiguiente es unimodal. Presenta una forma de
campana.
El área total bajo la curva normal será de 1.00 por lo cual podemos considerar que las áreas
bajo la curva son probabilidades.
El valor de Z.
Z= x- /
Las variables aleatorias distribuidas en forma normal asumen muchas unidades diferentes
de medición, por lo que hablaremos de forma estándar y les daremos el símbolo de Z.
Muestreo probabilístico
al azar, y los elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n−1)k, es
dos sexos.
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los
estratos de interés estarán representados adecuadamente en la
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos
que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de
sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros
que se encuentren que cumplan esas características. Este método se utiliza mucho en las
encuestas de opinión.
Bola de nieve:
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen
estudios con poblaciones
Para una población con media σ y variancia σ 2, la distribución de muestreo de las medias
de todas las muestras posibles de tamaño n obtenidas de una población tendrá una
distribución normal aproximada —con la media de la distribución de muestreo igual a σ y
la variancia igual a σ 2/ n —si se supone que el tamaño de la muestra es suficientemente
grande.
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el
valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco
probable cuando la hipótesis es cierta.
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística
muestral (el estimador no segado del parámetro que se prueba) o una versión transformada
de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media
poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces
es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística
de prueba.
Definiciones
Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales proporcionan
evidencia de que la hipótesis nula es falsa.
Se trata de encontrar una método para hallar una recta que se ajuste de una manera
adecuada a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi).
Este método de estimación se fundamenta en una serie de supuestos, los que hacen posible
que los
Pues bien, el método de los mínimos cuadrados ordinarios consiste en hacer mínima la
suma de los cuadrados residuales, es decir lo que tenemos que hacer es hallar los
estimadores que hagan que esta suma sea lo más pequeña posible.
Los supuestos del método MCO son los que se presentan a continuación:
Supuesto 1
Yi = _ + _*Xi +_i
La linealidad de los parámetros se refiere a que los _´s son elevados solamente a la primera
potencia.
Supuesto 2
Los valores que toma el regresor X son considerados fijos en muestreo repetido. Esto
quiere decir que la variable X se considera no estocástica. Este supuesto implica que el
análisis de regresión es un análisis condicionado a los valores dados del (los) regresores.
Supuesto 3
E ( _i/Xi ) = 0
Supuesto 4
= E (_i2/Xi )
=_
Esta ecuación señala que la varianza de las perturbaciones para cada Xi es algún número
positivo igual a _. Homoscedastidad significa igual dispersión, en otras palabras significa
que las poblaciones Y correspondientes a diversos valores de X tienen la misma varianza.
Por el contrario, se dice que existe heteroscedasticidad cuando la varianza poblacional, ya
no es la misma en cada muestra. El supuesto de homoscedasticidad está indicando que
todos los valores de Y correspondientes a diversos valores de X son igualmente
importantes.
Supuesto 5
= E (_i/Xi ) (_j/Xj )
=0
Este supuesto indica que las perturbaciones no están correlacionadas. Esto significa que los
errores no siguen patrones sistemáticos. La implicancia del no cumplimiento de este
supuesto (existencia de autocorrelación) implicaría que Yt no depende tan sólo de Xt sino
también de _t−1, puesto que _t−1 determina en cierta forma a _t.
Supuesto 6
= E (_i Xi)
=0
Supuesto 7
Supuesto 8
Debe existir variabilidad en los valores de X. No todos los valores de una muestra dada
deben ser
Supuesto 9
El modelo de regresión debe ser correctamente especificado, esto indica que no existe
ningún en el modelo a estimar. La especificación incorrecta o la omisión de variables
importantes, harán muy cuestionable la validez de la interpretación de la regresión
estimada.
Supuesto 10
INTRODUCCIÓN:
El nombre de Estadística alude al enorme interés de esta rama matemática para los
asuntos del Estado y su introducción en el mundo científico se debe a la importancia
indiscutible para el desarrollo de las ciencias sociales y humanas.
I n t r o d u c c i ó n a l a E s t a d í s t i c a
INTRODUCCIÓN:
En estadística descriptiva el material de trabajo lo constituyen los datos, que son los
resultados de las observaciones. Una vez obtenidos los datos hay que ordenarlos y clasificarlos
mediante algún criterio racional de modo que sea posible una visión crítica de los mismos.
En general, este tratamiento previo de los datos será de alguno de estos tres tipos:
3) Obtención de estadísticos o funciones de los valores de los datos, que pretenden poner
de manifiesto ciertas propiedades de los mismos.
1. Conceptos básicos.
Cualquier elemento o ente que sea portador de información sobre alguna propiedad en la
cual se está interesado se denomina individuo.
El conjunto de todos los individuos en los que se desea estudiar alguna propiedad o
característica se llama población.
Conviene también observar que todos los datos no son del mismo tipo. Cuando los datos, es
decir los resultados de las observaciones, no son magnitudes medibles numéricamente, sino
cualidades o atributos, se dice que se trata de datos cualitativos, mientras que en caso contrario se
habla de datos cuantitativos.
Como los resultados no son medibles numéricamente, los datos son cualitativos.
Ejemplo 4. Las notas obtenidas en Matemáticas en una clase de COU han sido:
2, 7, 4, 6, 5, 0, 3, 9, 8, 4, 3, 6, 5 y 8.5.
A su vez los datos cuantitativos se denominan continuos si los resultados pueden tomar
cualquier valor real dentro de un cierto intervalo, o discretos, si sólo pueden tomar ciertos valores
particulares.
Son datos continuos, pues los individuos de una población pueden tener como
estatura cualquier número real en un cierto intervalo.
5, 3, 1, 5, 3, 6, 4, 2, 5, 6, 3, 6, 5, 2, 6, 7 y 3.
a) Muestreo aleatorio simple; se basa en suponer que todos los elementos de la población
tienen asignada la misma probabilidad de ser elegidos. Si se numeran los elementos de la población,
una tabla de números aleatorios puede facilitar la tarea de selección.
Nota. De la obtención de muestras de las que se pueden sacar conclusiones válidas para la
totalidad de la población se ocupa la Teoría de muestras.
Los caracteres estadísticos de una población son las propiedades o cualidades de los
individuos que nos interesa estudiar. Un carácter estadístico divide a la población en clases. A cada
una de estas clases se la denomina modalidad.
Cuando el carácter es cuantitativo sus diversas modalidades son medibles, es decir se les
puede asignar un número.
La variable estadística será discreta cuando sólo pueda tomar un nº finito de valores
y continua cuando pueda tomar todos los valores de un cierto intervalo.
Las dos formas más comunes de representar los datos son las tablas y los gráficos.
Tablas estadísticas
Las tablas estadísticas aparecen por todas partes y consisten en masas estructuradas de
datos.
Están confeccionadas de tal modo que resultan muy fáciles de leer y de interpretar. Hay que
utilizar, fundamentalmente, el sentido común.
1) Tratamiento individual
=N
4, 3, 3, 5, 6, 7, 9, 0, 5, 4, 9, 10, 2, 7, 2, 2, 5, 6, 5, 0
2 3 5 3/20 5/20=1/4
3 2 7 1/10 7/20
4 2 9 1/10 9/20
5 5 14 1/4 14/20=7/10
7 3 17 3/20 17/20
9 3 20 3/20 20/20=1
Ejercicio 1. En un Instituto hay matriculados 2200 alumnos que se distribuyen por edades
en la forma siguiente: 215 de 14 años, 437 de 15, 421 de 16, 396 de 17, 512 de 18, 124 de 19 y 95
de 20. Formar la tabla de distribución y de frecuencias, que incluya frecuencias acumuladas.
En estos casos la tabla adopta una estructura como la del cuadro siguiente:
Para decidir el nº de clases que se deben tomar conviene tener en cuenta que si éste es
excesivo con respecto al número de datos, pueden aparecer irregularidades accidentales
provenientes de pocas observaciones en algunas clases. Sin embargo, si se toma el número de clases
demasiado reducido se producirá una pérdida importante de información.
600 1
Ejemplo 13. En una Caja de Reclutamiento se toma una muestra de tamaño 30 de
los pesos de los mozos correspondientes a un cierto reemplazo, obteniéndose los siguientes
datos medidos en kg:
71.9, 63.9, 62.3, 72.5, 78.0, 70.7, 71.4, 60.5, 60.9, 68.2, 88.5, 76.1, 82.1, 63.7, 79.8,
67.5, 50.1, 69.5, 66.1, 47.3, 72.1, 59.8, 93.7, 80.7, 61.2, 64.3, 53.7, 74.7, 96.3, 73.2.
Solución
47.3, 50.1, 53.7, 59.8, 60.5, 60.9, 61.2, 62.3, 63.7, 63.9, 64.3, 66.1, 67.5, 68.2, 69.5,
70.7, 71.4, 71.9, 72.1, 72.5, 73.2, 74.7, 76.1, 78.0, 79.8, 80.7, 82.1, 88.5, 93.7, 96.3.
Como los valores extremos son 47.3 y 96.3 y el número de clases aconsejado para
estos datos es 6 (aplicando la fórmula de Sturges), tomaremos 6 intervalos de amplitud 10,
la tabla queda estructurada de la siguiente manera:
clases Marcas de frecuencias absolutas Frecuencias relativas
clase
de clase acumuladas de clase acumuladas
45 -55 50 3 3 0.1 0.1
30 0.9971
Intervalos no solapados.
Si los datos recogidos están ya agrupados en intervalos no solapados, como por ejemplo:
Intervalo ni
120-139 32
140-149 37
150-159 23
160-169 19
Es conveniente tomar unos intervalos que contengan a éstos, pero sin modificar las
frecuencias. Esto es:
Intervalo ni
[119,5-139,5) 32
[139,5-149,5) 37
[149,5-159,5) 23
[159,5-169,5) 19
Observación. Las tablas nos dan una visión, de la característica que se está
estudiando, mucho más clara que la que da la muestra, tal cómo se presenta inicialmente.
Ejercicio 2. El número de personas que viven en cada uno de los portales de una gran
barriada es:
63, 58, 70, 47, 120, 76, 80, 59, 80, 70, 63, 77, 104, 97, 78, 90, 112, 88, 67, 58, 87, 94, 100,
74, 55, 80, 75, 49, 98, 67, 84, 73, 95, 121, 58, 71, 66, 87, 76, 56, 77, 82, 93, 102, 56, 46, 78,
67, 65, 95, 69, 90, 58, 76, 54, 76, 98, 49, 87, 69, 80, 64, 65, 56, 69, 68, 99, 106.
Series cronológicas
Se Llaman series cronológicas a unas tablas estadísticas que recogen observaciones hechas
a lo largo del tiempo, normalmente a intervalos iguales. Es por tanto una serie estadística en que la
variable independiente es el tiempo.
Los gráficos no son más que traducciones a un dibujo del contenido de las tablas. La
finalidad de los gráficos estadísticos es que la información esté al alcance de personas no expertas,
que entre por los ojos. Los hay de muy diversos tipos pero todos son muy fáciles de interpretar.
¶ Variables cualitativas
Ovino 18047
Caprino 2601
Porcino 12308
Caballar 264
Mular 153
Asnar 164
· Variables cuantitativas.
Tratamiento individual
Para el tratamiento individual los medios de representación más utilizados son el gráfico (o
diagrama) de barras, el polígono de frecuencias y los gráficos acumulativos.
Sobre un eje horizontal se representan los valores discretos que toman los datos y
sobre cada uno de ellos se coloca una barra vertical (o un rectángulo) de longitud (altura)
proporcional a la frecuencia.
Gráficos acumulativos: Se construye a partir del mismo eje horizontal del gráfico de
barras, llevando sobre cada valor discreto una vertical de longitud proporcional a la
frecuencia acumulada, absoluta o relativa, de dicho valor. Se suele completar el gráfico
dándole forma de una escalera de peldaños horizontales.
Cuando las variables son continuas, o discretas agrupadas, los gráficos que más se
utilizan son: el histograma de frecuencias y los polígonos de frecuencias (absolutas o relativas)
Histogramas de frecuencias. Sobre el eje de abscisas se marcan los extremos de las
sucesivas clases y con base en cada clase se dibuja un rectángulo de altura proporcional a la
frecuencia (absoluta o relativa) observada en dicha clase[2].
Edad en años <3 3-9 10-12 13-14 15-19 20-24 25-29 30-34 35-39 40-49 50-59 60-69
Nº de muertes 411 171 35 31 247 2888 8576 7640 3292 2552 909 544
figura 4
7. Parámetros estadísticos.
Las tablas estadísticas son una forma organizada de dar toda la información, todos los datos de que
disponemos.
Con las gráficas estadísticas se pierde algo de información, pero el mensaje “entra
por los ojos”, que es lo que se pretende.
En cualquiera de los dos casos, la cantidad de datos que se dan es excesiva para que sea
operativo, por ejemplo para la comparación con otras distribuciones.
Por ello se definen los parámetros estadísticos, que nos van a servir para resumir en números
aspectos relevantes de la distribución, que puedan dar una idea de la misma o permitir compararlas
con otras.
Medidas de centralización: media (ya conocida), moda (el valor que se presenta con más
frecuencia) y mediana (el valor del individuo que ocuparía el lugar central sí se colocaran
ordenados de menor a mayor). Tienen como misión representar con un número a la serie
estadística bajo el punto de vista de su posición.
0, 2, 3, ,3, 3, 4, 4, 4, 5, 5, 5,, 5, 5, 5, 7, 7, 7, 8, 8 9
Como es múltiplo de 4, 20:4 = 5, Q1. Me y Q3. , serán los valores que hay entre el 5º y 6º ,
10º y 11º, 15º y 16º, es decir:
Q1= 3,5, Me =5 y Q3 =7
63, 58, 70, 57, 56, 76, 80, 59, 80, 70, 63, 77, 84, 77, 78, 90, 72, 88, 67, 58, 87, 94, 80, 74,
55, 80, 75,
59, 81, 67, 84, 73, 65, 71, 58, 71, 66, 87, 76, 56, 77, 82, 73, 67, 56, 46, 78, 67, 65, 65, 69,
80, 58, 76, 54, 76,
78, 49, 87, 69, 80, 64, 65, 56, 69, 68, 69, 64.
Medidas de asimetría, para señalar si la distribución está sesgada hacia uno u otro
lado.
TABLA 1
ni
ni
.....
TABLA 2
ni ni
.....
Valores de la 3 5 4 2 0 8 7
variable
frecuencias 1 3 4 1 3 1 2
Solución
a)
0 3 0 0 0
2 1 2 4 4
3 1 3 9 9
4 4 16 16 64
5 3 15 25 75
7 2 14 49 98
8 1 8 64 64
15 58 314
b)
MEDIA ARITMÉTICA
Es el valor
Si se trabaja con datos agrupados para la fórmula an-terior, [1], se toma xi igual a las marcas de
clase.
Propiedades
1. Si sumamos una constante a todos los valores la media aumenta en el mismo número.[4] Es decir
si xi´= xi + A
2. Análogamente, si ,entonces
3. Si zi = xi + yi
Un inconveniente de la media es que los datos con valores extremos pueden influir
excesivamente en su evaluación.
MODA[5] Mo
Para el caso continuo se habla del intervalo modal (el de mayor frecuencia ni).
Cálculo de la moda8
MEDIANA ME Li Mo
Cálculo de la mediana
Si la distribución tiene un nº impar de datos siempre existe una única mediana y es precisamente el valor
central en la relación ordenada de menor a mayor. Si el nº de datos es par se toma como mediana la media de
los valores centrales
Para hallar la mediana, cuando los datos estén agrupados, se puede usar el polígono de frecuencias
acumuladas (Figura 1)y buscar la abscisa que corresponde a y = N/2 (por interpolación lineal).
Li
Me
Ni-1 es la frecuencia absoluta acumulada hasta llegar a la clase mediana, ni la frecuencia absoluta de
la clase mediana, Li el límite inferior de la clase mediana y c la amplitud de dicha clase.
CUANTILES
Se llama cuantil de orden de una distribución al valor de la variable que deja por debajo de él
al % de los elementos de la población.
Los que más se usan son los cuartiles y los centiles o percentiles.
RANGO
Para el caso continuo, se toma la diferencia máxima posible entre los límites de intervalos
DESVIACIÓN MEDIA
Como la suma de las desviaciones respecto de la media da cero lo que se toma son las diferencias en valor
absoluto.
La fómula es:
VARIANZA
DESVIACIÓN TÍPICA
Propiedades
1. Si se suma una constante a todos los valores de la variable la desviación típica no varía.
2. Si se multiplican todos los valores de la variable por el mismo número, la desviación típica queda
multiplicada por el mismo número
3. Se verifica que
TIPIFICACIÓN
El de apuntamiento :
EJERCICIOS resueltos
1. a) Completar los datos que faltan en la siguiente tabla estadística, donde f, F y f r representan,
respectivamente, la frecuencia absoluta, acumulada y relativa:
x f F fr
1 4 0,08
2 4
3 16 0,16
4 7 0,14
5 5 28
6 38
7 7 45
8
Solución
Alquileres en ni
miles de pesetas
[0,15) 17
[15,30) 130
[30,45) 180
[45,60) 30
[60,75) 10
[75,90) 5
Solución:
m0 = = 30 +
186-147= , de donde:
3. Una empresa petrolera ha tenido unos beneficios anuales de 2000 millones de pesetas. En
dicho sector la media es de 1500 millones y la desviación típica de 450 millones. Un comercio tuvo
un beneficio de 8 millones. La media del sector es de 6 millones y la desviación típica de 2,5
millones. ¿Cuál tuvo mejor beneficio respecto a su sector?.
Solución
Luego tuvo mayor beneficio respecto de su sector el comercio, ya que se desvió por encima
de la media en 1,3, mientras que la petrolera sólo 1,1.
Solución
Calculamos el coeficiente de variación de Pearson[7], Cp = de ambas:
5. Se quiere hacer una revisión médica a los empleados de una empresa. Se han escogido 3
muestras del mismo número de empleados. De la primera muestra se han revisado 6 personas por
hora, de la segunda 5 personas por hora y de la tercera 4 personas por hora. Hallar el promedio de
las revisiones.
Solución
Se trata del cociente entre las magnitudes: número de personas y números de horas. Al
calcular los cocientes se ha mantenido fijo el número de personas. Por tanto para hallar el promedio
Solución
Calcula:
b) la media.
Solución
a)
xi ni Ni
20 3 3
40 6 9
60 5 14
80 0 14
100 6 20
b)
Clavos defectuosos 1 2 3 4 5 6 7 8
nº de lotes 5 15 38 42 49 32 17 2
Calcular la mediana y el percentil 20.
Solución:
Se construye la tabla estadística con las columnas de las frecuencias absolutas acumuladas, siendo
ésta
200
El percentil 20
Solución
xi ni Ni
7 6 6
10 7 13
12 16 29
16 17 46
19 22 68
20 19 87
21 17 104
Q1=12, Q3=20
10. La siguiente tabla muestra las frecuencias relativas, fi, de respuestas correctas
contestadas a un test de 24 preguntas por 50 personas.
Calcular la frecuencia absoluta en cada intervalo y el histograma de frecuencias absolutas
Solución
EJERCICIOS propuestos
b) la desviación típica.
2. Los pacientes que acuden a una consulta médica se distribuyen, según la edad, en una
tabla:
X(edad) [0, 10) [10, 20) [20,30) [30, 40) [40, 50) [50,60)
N (frecuencia) 7 10 30 18 12 3
Se pide:
a) El histograma de frecuencias.
Grupo A 0 1 1 3 5 5 6 8 8 9
Grupo B 2 2 4 4 4 5 5 6 6 8
a) ¿Qué grupo obtuvo mejores resultados?
78 93 61 100 70 83 88 74 97 72
66 73 76 81 83 64 91 70 77 86
Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es
decir, el número 51 se verá como 5 | 1. De esta manera las decenas se pondrán en
una columna, en forma vertical, y las unidades a su derecha:
6 1 6 4
7 8 0 4 2 3 6 0 7
8 3 8 1 3 6
9 3 7 1
10 0
Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4
quiere decir que entre la lista de datos se encuentran los valores 61, 66 y 64.
Esta es la representación gráfica tronco y hoja, donde cada renglón es una posición
de tronco y cada dígito de la derecha es una hoja.
Además, si se desean tener los datos ordenados, y hay gente que lo prefiere así, se
pueden ordenar las hojas en cada renglón para que la representación quede como
sigue:
6 1 4 6
7 0 0 2 3 4 6 7 8
8 1 3 3 6 8
9 1 3 7
10 0
Sin embargo, información más compleja resulta un poco más difícil de manejar, por lo
que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar
las centenas u otras posiciones de los números para las troncos. En cada uno de esos
casos conviene hacer alguna anotación, o poner una nota, a fin que los lectores
puedan identificar las adecuaciones realizadas y así poder interpretar lo que se quiere
transmitir.
6- 1 4
6+ 6
7- 0 0 2 3 4
7+ 6 7 8
8- 1 3 3
8+ 6 8
9- 1 3
9+ 7
10- 0
Con esto se han duplicado el número de posiciones del tronco, con la intención de
buscar una mayor claridad en la presentación.
3. Población y muestra
Algo importante que hay que mencionar es que no siempre se trabaja con todos los
datos. Ésto por diversas razones, que pueden ser desde prácticas hasta por
economía.Por ejemplo, resultaría muy costoso obtener los datos de todos los seres
humanos, o impráctico (y a la vez destructivo) obtener como datos el tiempo en el que
se funden las bombillas producidas por una cierta marca realizando la medición de
toda la producción. El estudio conduciría a la empresa a la ruina, pues la producción
entera desaparecería.
Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos
que se estudian y que se les obtienen los datos. La población, entonces, es el total
hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de
conseguir a la población, entonces se recurre a la muestra, que viene siendo un
subconjunto de los datos de la población, pero tal subconjunto tiene que contener
datos que pueden servir para posteriores generalizaciones de las conclusiones. Un
estudio más detallado de las características de las muestras para permitir tales
generalizaciones se realizará más adelante.
David Lane de la Universidad Rice (Rice Virtual Lab in Statistics) tiene un applet que
demuestra las propiedades básicas de la media y la mediana.
Puedes realizar un ejercicio calculando las medidas de tendencia central para una
población de tamaño 20 haciendo click en el botón de la derecha.
Para hacer un ejercicio del cálculo de las medidas de dispersión para una población de
tamaño 20 haciendo click en el botón de la derecha.
8. Datos agrupados
9. Distribuciones de frecuencias
Hay un punto que conviene remarcar: existe software que permite la construcción
rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no
importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una
gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver
más sobre el objetivo de estas herramientas y la Estadística: la transmisión
eficiente de la información.
Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una
población dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se
presenta es la población de un país ficticio llamado "Timbuctulandia":
A este tipo de gráficos en particular se le llama pirámide de edades por su forma.
Incluso, cuando se compara la población masculina y femenina por estratos de edades,
se estila utiliza el lado izquierdo para la población de un sexo y el lado derecho para el
otro, el resultado es una "pirámide" casi simétrica (dependerá de la población en
particular).
Cuando los datos se relacionan entre sí, es decir, cuando podemos decir que existe
cierta continuidad entre las observaciones (como por ejemplo el crecimiento
poblacional, la evolución del peso o estatura de una persona a través del tiempo, el
desempeño académico de un estudiante a lo largo de su instrucción escolar, las
variaciones presentadas en la medición realizada en algún experimento cada segundo
o minuto) se pueden utilizar las gráficas de líneas, que consisten en una serie de
puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada
una, uniéndose consecutivamente con líneas:
Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos
individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las
gráficas de columnas (y de otras más) es posible presentar varias series de
observaciones (en este caso cada serie de observaciones son los pesos de un
individuo).
Otra forma de representación de un uso menos común, y muy parecida a las gráficas
de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es
que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una
antes de la primera clase con datos y otra después de la última. El resultado es que se
"sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea
separada del eje se convierte, junto con éste, en un polígono.
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y
por ésto la aplicación de la técnica es parcial):
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto
que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una
hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las
4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa
en cada frontera de clase son el número de observaciones menores que la frontera
señalada (en caso de tiempos sería el número de observaciones antes de la hora que
señala la frontera).
El ejemplo que se presenta es la comparación del total de las especies de las familias
del orden Carnivora y las que están amenazadas, en México, (fuente: Revista
"Ciencia y Desarrollo", 1994, XIX(114):58):
Cuando lo que se desea es resaltar las proporciones que representan algunos
subconjuntos con respecto al total, es decir, cuando se está usando una escala
categórica, conviene utilizar una gráfica llamada de pastel o circular.
Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de
conocimiento en el año de 1992 se puede usar algo así como sigue (Fuente:
ANUIES,1995):
De hecho, si se desea resaltar una de las categorías que se presentan, es válido tomar
esa "rebanada" de la gráfica y separarla de las demás:
Para hacer una gráfica de este tipo en papel.
Hay que tomar algunas precauciones al utilizar este tipo de gráficos. Por un lado,
comparar dos gráficos circulares (por ejemplo, si se quisieran comparar las
proporciones de matrículas en licenciatura por áreas de conocimiento en licenciatura
para dos años distintos) resulta muy difícil y, por tanto, no es muy aconsejable.
Por otro lado, en ocasiones existen categorías con pocas frecuencias (por ejemplo, dos
o tres con frecuencias relativas menores al 1% cada una), haciendo que la gráfica
resulte "pesada" y las etiquetas se encimen. Una posible solución es juntarlas en una
sola categoría (por ejemplo, la típica "otras" o "varias"), pero entonces habría que
ponderar si se hace una gráfica extra con dichas observaciones únicamente, haciendo
la anotación pertinente, o simplemente se ignoran por no resultar significativas.
Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de
gráficas, las posteriores sí. Otros programas contemporáneos (como el Corel Draw o el
Harvard Graphics) sí son capaces.
Uno de los usos de este tipo de gráficas es precisamente encontrar si las observaciones
siguen algún patrón lineal (una línea de tendencia) o si existen valores atípicos. Para el
caso del Excel, el programa es capaz de graficar las líneas de tendencias que siguen un
conjunto de datos.
Un tipo de gráfico similar a las gráficas de dispersión son las gráficas de burbujas,
en las cuales se presenta la dispersión de las observaciones de la misma forma que
aquéllas, pero se le añade la posibilidad de visualizar otra variable representada en el
tamaño del punto, pues éstos se convierten en círculos (burbujas) con radios
proporcionales a las magnitudes que representan.
Este ejemplo compara la distancia que existe en cada uno de los planetas interiores de
nuestro sistema solar al Sol contra el tiempo que necesitan para recorrer sus órbitas, y
el tamaño de las burbujas indica la masa de cada planeta.
Además existen otros tipos de gráficos, cada uno con características particulares que
les proporcionan cierta intencionalidad para su uso, como son las gráficas de radar y
las gráficas polares.
Para hacer un ejercicio de las medidas de tendencia central con una distribución de
frecuenicas de hasta diez intervalo haz click en el botón de la derecha.