Está en la página 1de 15

ESTADÍSTICA

Estadística: rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver
problemas como el diseño de experimentos y la toma de decisiones.

Términos Elementales:

Población: Consiste en la totalidad de las observaciones en las cuales se está interesado.


Muestra: Es un subconjunto de una población.
Estadístico: Es un resumen que se calcula para describir una sola muestra de la población, y por lo tanto, una estimación de los
parámetros
Parámetro: es un resumen que se calcula para describir una característica de toda una población.
Características de las Variables: Al conjunto de los distintos valores numéricos que adopta un carácter cuantitativo se llama
variable estadística.
Censo: Decimos que realizamos un censo cuando se observan todos los elementos de la población estadística.

La observación del individuo la describimos mediante uno o más caracteres. El carácter es, por tanto una cualidad o propiedad
inherente en el individuo.

TIPOS DE CARACTERES :
Cualitativos : aquellos que son categóricos, pero no son numéricos.
p. ej. <color de los ojos>, <profesión>, <marca de coche>,...
Ordinales : aquellos que pueden ordenarse, pero no son numéricos.
p. ej. <preguntas de encuesta sobre el grado de satisfacción de algo>
Mucho, poco, nada. Bueno, regular, malo, ...
Cuantitativos : son numéricos.
p. ej. <peso>, <talla>, <núm. de hijos>, <núm. de libros leídos al mes>,...
ESTADÍSTICA DESCRIPTIVA
Puede definirse como aquellos métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos con el
fin de describir apropiadamente las diversas características de ese conjunto de datos.

ESTADÍSTICA INFERENCIAL

Puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una
decisión referente a una población, basándose sólo en los resultados de la muestra.

La captación, la crítica, la organización y la presentación de información estadística.

Tabla de distribución de frecuencias:

Se conoce como distribución de frecuencia ó tablas de frecuencia a toda ordenación de datos obtenida en un fenómeno de
un experimento estadístico en clases.
Una tabla de distribución de frecuencia puede expresarse:
a) En cifras absolutas (frecuencias absolutas)
b) En cifras relativas (frecuencias relativas)

Llamamos frecuencia absoluta acumulada en el valor xi a la suma de las frecuencias absolutas de


los valores inferiores o iguales a él.
Frecuencia Absoluta
Acumulada Ni Evidentemente, los valores xi han de estar ordenados de forma creciente, como ya se ha indicado, y
la frecuencia absoluta acumulada del último valor será igual a N.

Llamamos frecuencia relativa de un valor xi de la variable estadística X al cociente entre la


frecuencia absoluta y el número de observaciones realizadas.
Frecuencia Relativa fi
;
Llamamos frecuencia relativa acumulada en el punto xi al cociente entre la frecuencia absoluta
Frecuencia Relativa acumulada y el número de observaciones realizadas.
Acumulada Fi
;

La frecuencia relativa expresa la proporción en que un determinado valor de la variable participa en el conjunto; la frecuencia
relativa la podemos expresar en forma de proporción f / n, o bien en forma de porcentaje (f / n ) x 100.
f = frecuencia.
n = número total de observaciones.

A continuación se señalaran las principales características que son parte de las tablas de frecuencia o de los datos agrupados:

Clase o categoría: Es el par de valores ordenados separados por un guión y que también se conoce como intervalo de clase.
Límites de clase: Los números extremos de una clase o categoría se les conocen como límites de clase y son el límite inferior y el
límite superior.
Límites reales de la clase: Los límites reales de la clase se obtienen sumando al límite superior de la clase, el límite inferior de la
clase contigua superior y dividiendo entre 2.
Tamaño o amplitud de clase: Es la diferencia entre los límites de las clases que lo conforman.
Marca de clase: Es el punto medio de una clase o categoría y se obtiene sumando los límites superior e inferior de la clase y
dividiendo entre 2.

Reglas generales para la formación de una tabla de distribución de frecuencia


a) Obtener el rango: (diferencia entre el mayor y el menor de los datos de la ordenación)
b) Determinar el número de clases deseado. (Una opción es obtener la raíz cuadrada del número total de observaciones)
c) Determinar la anchura o amplitud de clase. Rango ÷ número de clases
d) Determinar el número de observaciones que caen dentro de cada clase. Lo mejor para esto es utilizar una hoja de
conteo.

GRAFICACIÓN DE DATOS ESTADÍSTICOS


HISTOGRAMA

A menudo se dice que “una imagen vale mas que mil palabras”. De hecho los estadísticos han empleado las técnicas gráficas han
empleado las técnicas gráficas para describir de manera más vívida series de datos. En particular, los histogramas se usan para
describir datos numéricos que han sido agrupados en distribuciones de frecuencia.
Un histograma, consiste en una serie de rectángulos cuyo ancho es proporcional al alcance de los datos, que se encuentran dentro
de una clase y cuya altura es proporcional al número de elementos que caen dentro de la clase.

2.- MEDIDAS DE TENDENCIA CENTRAL (MEDIA, MODA Y MEDIANA)


(Objetivo: El estudiante desarrollará habilidades para el correcto manejo de información a efecto de calcular los promedios,
identificando situaciones particulares en donde habrá que elegir el promedio adecuado, de acuerdo con diversas situaciones.)

Aún cuando se extraiga una colección de datos de una fuente común, no es probable que las observaciones individuales tengan el
mismo valor. Es impráctico mantener en la mente todos los valores que pueden estar presentes en una serie de datos. Lo que se
necesita es algún valor único que se pueda considerar típico de la serie de datos en su conjunto. La necesidad de dicho valor único
por lo general se satisface con una de las medidas de tendencia central

LA MEDIA ARITMÉTICA.

La medida de tendencia central más familiar es la media aritmética. Conocida en forma popular como el promedio, en
ocasiones es llamada promedio aritmético, o simplemente la media. Se encuentra sumando todos los valores de una serie de
datos y dividiendo el total entre el número de valores que se sumaron.

Muestra:
∑x
i =1
i
x=
n
N

Población:
∑x i
µ= i =1

N
Las propiedades de la media aritmética incluyen las siguientes:
1. Para una serie de datos, hay una, y sólo una, media aritmética.
2. Su significado se entiende con facilidad.
3. En vista de que todo valor entra en su cálculo, es afectada por la magnitud de cada valor. Debido a esta propiedad, la media
aritmética puede no ser la mejor medida de tendencia central cuando están presentes uno o dos valores extremos en una serie
de datos.
4. La media, a diferencia de algunas medidas descriptivas cuyos valores pueden ser determinados por inspección, es una medida
calculada y por consiguiente puede ser manipulada en forma algebraica. Esta propiedad la hace una medida útil en especial
para propósitos de inferencia estadística.

LA MEDIANA.

La mediana es el valor por encima del cual cae la mitad de los valores y por debajo del cual cae la otra mitad. Si el número de

puntos es non, la mediana es el valor del punto medio de una serie ordenada, cuando los puntos están ordenados en orden

ascendente (o descendente) de magnitud. Si el número de puntos es par, ninguno de los puntos tiene un número igual de

valores por encima y por debajo de él. En este caso, la mediana es igual a la media, o promedio, de los dos valores intermedios.

~
x = x n+1
Serie impar:
2
xn + xn
+1
Serie par: ~
x= 2 2
2
Las propiedades de la mediana incluyen las siguientes:
1. La mediana siempre existe en una serie de datos numéricos. Para una serie dada de datos, sólo hay una mediana.
2. La mediana no es afectada a menudo por valores extremos, mientras que la media sí. Debido a esta propiedad, la mediana con
frecuencia es la medida de tendencia central de elección para una serie de datos que está sesgada.
3. La mediana puede ser usada para caracterizar datos cualitativos. Por ejemplo, un producto podría ser comercializado en tres
categorías de calidad: buena, mejor y óptima, donde la calidad del producto que cae en la categoría “mejor” es considerada
“promedio”.
4. La mediana es fácil de calcular a menos que esté implicado un número grande de valores.
5. La mediana para una serie de datos puede ser localizada aún cuando los datos estén incompletos, a condición de que se
conozcan el número y localización general de todas las mediciones cercanas al centro de la serie respecto a la magnitud de las
mediciones cercanas al centro de la serie de datos se encuentre disponible.

LA MODA.

La moda para datos discretos no agrupados es el valor que ocurre con más frecuencia. Si todos los valores en una serie de

datos son diferentes, no hay moda.


En las distribuciones simétricas, la media y la mediana tienen valor idéntico. En las distribuciones asimétricas, estos valores no

son iguales. Si la media es mayor que la mediana, la distribución está sesgada hacia la derecha. Si la media es menor que la

mediana, la distribución está sesgada hacia la izquierda.

Las medidas poblacionales de tendencia central a menudo son llamadas parámetros de localización, en vista de que
“localizan” la posición de una distribución de frecuencia de la población en el eje horizontal.

3.- MEDIDAS DE DISPERSIÓN (VARIANZA, DESVIACIÓN ESTÁNDAR Y COEFICIENTE DE VARIACIÓN)


(Objetivo: El estudiante comprenderá el significado de las diferentes medidas de dispersión. Identificará las medidas más usuales
y su conveniencia en problemas concretos.)

Una vez que se ha calculado la media de una serie de datos, se desea saber el grado en que los valores difieren de esta
media. Se usa el término dispersión para describir el grado en que una serie de valores varía respecto a su media. Otros términos
que transmiten este mismo concepto son variación, difusión y propagación. Cuando los valores en una muestra o población están
todos cerca de la media, exhiben menos dispersión que cuando algunos de los valores son mucho más grandes y/o mucho más
pequeños que la media. Cuatro medidas descriptivas usadas para expresar la cantidad de dispersión presente en una serie de
datos son el rango, la desviación media, la varianza y la desviación estándar

LA VARIANZA.

La varianza, como la desviación promedio, usa todas las desviaciones de los valores de su media.
n

Muestra:
∑ (x i − x) 2
s2 = i =1

n −1
N

Población:
∑ (x i − µ )2
σ2 = i =1
N

La varianza también es una clase de promedio. Es el promedio de los cuadrados de las desviaciones de los valores
individuales de su media. La varianza muestral tiene dos funciones en el análisis estadístico. Primera, es usada como una medida
de la dispersión presente en la muestra. Segunda, es usada para estimar la varianza de la población de la que se extrajo la
muestra.

LA DESVIACIÓN ESTÁNDAR.

La varianza es expresada en unidades cuadradas. Si los datos son medidos en metros, la varianza se expresa en metros
cuadrados. En el análisis estadístico, a menudo se desea tener una medida de dispersión que esté expresada en las mismas
unidades que las observaciones originales. Se obtiene dicha medida, llamada desviación estándar, extrayendo la raíz cuadrada
positiva de la varianza.

Muestra: ∑ (x i − x) 2
s= i =1
n −1
N

Población: ∑(x i − µ )2
σ= i =1

COEFICIENTE DE VARIACIÓN.

En ocasiones surge la necesidad de comparar la variabilidad presente en dos series de datos. Esto por lo general puede
hacerse de manera satisfactoria comparando las dos varianzas o desviaciones estándar si los datos satisfacen dos condiciones, a
saber:
1. se empleó la misma unidad de medición en ambas series de datos y
2. las medias de las dos series de datos son aproximadamente iguales.
Si no se cumple cualquiera de estas dos condiciones, se necesita una medida relativa de dispersión para usarla en la
comparación de la variabilidad de las dos series de datos. Dicha medida relativa de dispersión es el coeficiente de variación.

El coeficiente de variación (CV) muestral es igual a la razón de la desviación estándar con la media. Es decir,
s
CV =
x
El coeficiente de variación con frecuencia se multiplica por 100 y se expresa como porcentaje. Nótese que el coeficiente de
variación es independiente de la unidad de medición. En vista de que tanto la media como la desviación estándar están
expresadas en las mismas unidades de medición, estas unidades se cancelan en el cálculo de la razón.

MEDIDAS DESCRIPTIVAS A PARTIR DE DATOS AGRUPADOS


En ocasiones se necesitan calcular las diversas medidas descriptivas a partir de datos que han sido agrupados en intervalos
de clase y presentados como una distribución de frecuencia. Si los datos consisten en una gran cantidad de valores, y si los
cálculos se tienen que hacer en forma manual o con una calculadora, se puede ahorrar una gran cantidad de trabajo agrupando los
datos antes de calcular las medidas descriptivas.

Cuando se calculan medidas descriptivas a partir de datos agrupados, se deben hacer ciertas suposiciones respecto a los
datos. Como una consecuencia de hacer estas suposiciones, los valores de las medidas descriptivas calculados de esta manera
se deben considerar como aproximaciones a los valores verdaderos.

LA MEDIA.

Cuando se calcula la media a partir de datos agrupados, se hace la suposición de que cada observación que cae dentro de
un intervalo de clase determinado es igual al valor del punto medio de ese intervalo. El punto medio de un intervalo de clase es
llamado marca de clase. Se obtiene la marca de clase sumando los límites de clase respectivos y dividiéndolos entre 2.

La experiencia ha demostrado que la suposición por lo general es satisfactoria. Como lo son las suposiciones hechas acerca
de las otras medidas descriptivas calculadas a partir de datos agrupados.

En vista de que cada observación toma el valor de la marca de clase del intervalo en el que cae, se calcula la media
multiplicando cada marca de clase por su frecuencia correspondiente. Luego se suman los productos resultantes y se divide el total
entre el número de observaciones. Se puede expresar el procedimiento para datos de muestra por:
k

∑x f i i
x= i =1
n
donde: k = El número de intervalos de clase.
xi = La marca de clase del i-ésimo intervalo de clase.
fi = la frecuencia del i-ésimo intervalo de clase.
LA MEDIANA.

La mediana para una distribución de frecuencia es el valor, o punto, sobre el eje horizontal del histograma de la distribución
en el que una línea perpendicular divide el área del histograma en dos partes iguales.
n
− Fm−1
~
x = Lm + 2 ⋅c
fm

donde: Lm = Límite inferior de la clase mediana.


n = Número de datos.
Fm-1 = Frecuencia acumulada de la clase que antecede a la clase mediana.
fm = Frecuencia de la clase mediana.
c = Longitud del intervalo de la clase mediana.

LA MODA.

Cuando se trata de datos agrupados para hallar la moda debemos determinar antes que todo la clase modal en la cual se
halla ésta. Dicha clase corresponde a aquella que presente mayor frecuencia (absoluta). Una vez localizada la clase modal,
procedemos por interpolación para determinarla. Esta interpolación nos conduce a la siguiente fórmula para la media:

d1
xˆ = Lm + ⋅c
d1 + d 2
donde: Lm = Límite inferior de la clase modal (la clase de mayor frecuencia).
d1 = Diferencia entre la frecuencia de la clase modal y la de la clase que la antecede.
d2 = Diferencia entre la frecuencia de la clase modal y la de la clase que le sigue.
c = Longitud del intervalo de la clase modal.

MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS.

Se hace la misma suposición respecto a los valores asumidos por las observaciones cuando se calculan las medidas de
dispersión a partir de datos agrupados

VARIANZA: Muestra: ∑ f (x i i − x) 2
s2 = i =1
n −1
k

Población: ∑ f (x i i − µ )2
σ2 = i =1
N
k

DESVIACIÓN ESTÁNDAR: Muestra: ∑ f (x i i − x) 2


s= i =1
n −1
k

Población: ∑ f (x i i − µ )2
σ= i =1
N
Ejercicios propuestos:

1.- Calcule la media, moda, mediana, desviación estándar y coeficiente de variación para la siguiente muestra

5,6,3,6,11,7,9,10,2,4,10,6,2,1,5

Datos sin procesar referentes a colegiaturas (en cientos de dólares) para residentes fuera del estado en 60 colegios y
universidades de Texas.

72 49 107 104 64 48 47 46 60 54
48 47 83 38 48 83 64 66 45 80
36 24 85 88 77 49 86 120 49 70
110 49 39 49 44 49 49 80 36 74
79 49 58 39 116 103 34 39 50 39
80 35 49 58 41 39 35 48 59 36

Coloque cada elemento en la clase correspondiente en la tabla de distribución de frecuencias. Basándose en la tabla, calcule:
media, moda, mediana, desviación estándar, y coeficiente de variación. Elabore además un histograma para la tabla.

clase Conteo Frecuencia


20-39
40-59
60-79
80-99
100-119
120-139

También podría gustarte