Está en la página 1de 9

 ESTADÍSTICA

La estadística se ocupa de los métodos científicos para recolectar, organizar, resumir, presentar y
analizar datos, así como de sacar conclusiones válidas y tomar decisiones con base en este análisis.
 Población y muestra
Al recolectar datos que determinan las características de un grupo de individuos u objetos, por ejemplo,
las alturas y los pesos de los estudiantes de una universidad o la cantidad de piezas defectuosas y no
defectuosas producidas en una fábrica un día determinado, muchas veces es imposible observar a todo
el grupo, especialmente si éste es grande. En lugar de examinar a todo el grupo, llamado población o
universo, se examina a una pequeña parte del grupo, a la que se denomina muestra.
Es decir, una población o universo es la totalidad de artículos o cosas a consideración. Una muestra es
la parte de la población que se ha seleccionado para el análisis. Las personas o cosas que integran la
población se denominan individuos o elementos.
El tamaño de la población es un factor de suma importancia en la investigación estadística. El tamaño
viene dado por el número de elementos que integran la población. Esta es finita cuando el número de
elementos es finito e infinita cuando consta de infinitos elementos.
Una medida de resumen que se calcula para describir una característica de la población se llama
parámetro, y aquella que se calcula para describir una característica de sólo una muestra de la
población, se llama estadístico.
Uno de los propósitos fundamentales de los métodos estadísticos es utilizar estadísticos muestrales
para estimar los parámetros poblacionales. La necesidad del muestreo y, por tanto, el uso de los
estadísticos para estimar parámetros se pone de relieve con el hecho de que suele ser demasiado
costoso o demasiado engorroso tratar con la población entera. Esto se puede ver en el caso de las
encuestas políticas. Si el científico político desea estimar el porcentaje de votos que recibirá un
candidato en una elección, no entrevistará a cada uno de los millones de posibles votantes. En lugar de
ello, seleccionará una muestra de estos votantes. Con base en el resultado de la muestra, se podrían
presentar conclusiones con relación a toda la población de votantes en el país. En forma semejante, el
gerente de producción de una empresa fabricante de llantas para automóviles no querría “desperdiciar”
todas las llantas producidas para estudiar la calidad de su rendimiento y duración. Por tanto, sólo
seleccionará una muestra de las llantas y, con base en los resultados, se establecerán conclusiones con
relación a la calidad de la totalidad de llantas producidas.
A este proceso de utilizar los estadísticos muestrales para llegar a conclusiones acerca de los
verdaderos parámetros de la población, se le llama inferencia estadística. El proceso inferencial es una
forma de razonamiento inductivo. Cabe recordar que el razonamiento inductivo intenta generalizar
conclusiones específicas, mientras que el deductivo aplica, lo que es generalmente cierto, a situaciones
específicas. Aunque a menudo se utiliza el razonamiento deductivo para aplicar reglas generales a
aplicaciones específicas, el inductivo, por medio del proceso de inferencia estadística, es el que
constituye los fundamentos de la estadística moderna. El proceso de razonamiento inferencial permite al
gerente de control de calidad decidir si la calidad de un producto es aceptable, al encuestador político
predecir el resultado de una elección.
 Estadística descriptiva e inferencia estadística
La estadística descriptiva incluye los métodos que implican la recolección, presentación y
caracterización de un conjunto de datos a fin de describir en la forma apropiada las diversas
características de ese conjunto de datos. Estos métodos pueden ser gráficos o pueden incluir análisis
mediante cálculos.

Aunque las estadísticas descriptivas son importantes para caracterizar y presentar la información el
desarrollo de la inferencia estadística es lo que ha conducido a la gran aplicación de los métodos
estadísticos.
La inferencia estadística se puede definir como los métodos que posibilitan la estimación de una
característica de una población o la toma de una decisión concerniente a una población, tan sólo con
base en los resultados de un muestreo.
 Tipos de datos
El estadístico va a manejarse con variables aleatorias (o sean fenómenos de interés, cuyos resultados
observados pueden diferir entre una respuesta y otra). Existen dos tipos básicos de variables aleatorias
que producen dos tipos de datos: cualitativos y cuantitativos. La diferencia entre ellos es que las

1
variables aleatorias cualitativas arrojan respuestas categóricas, mientras que las variables aleatorias
cuantitativas dan respuestas numéricas.
Por ejemplo, la respuesta a la pregunta ¿Posee usted una cuenta en el banco? Es categórica, es claro
que las selecciones son “si” o “no”. Por otra parte, las respuestas a las preguntas como ¿Cuál es su
estatura? o ¿Cuántos libros leyó? Son evidentemente numéricas.
Las variables pueden ser, por ejemplo, sexo, edad, estatura, estado civil, profesión, ingresos, etc.
Las variables se pueden clasificar, de acuerdo con el tipo de características a la que se refieren, en:
 Cualitativas: Se refieren a características no medibles o atributos. Por ejemplo, el sexo, el estado
civil, etc.
 Cuantitativas: Se refieren a características medibles. Por ejemplo, el peso, la estatura y la edad.

Entre estas variables se distinguen, a su vez, dos categorías diferentes:


 Las variables cuantitativas discretas, que toman valores pertenecientes a conjuntos numéricos
discretos, por ejemplo, la edad.
Los datos cuantitativos discretos son respuestas numéricas que surgen de un proceso de
conteo.
 Las variables cuantitativas continuas, que toman valores pertenecientes a conjuntos numéricos
continuos, como la estatura y el peso.
Los datos cuantitativos continuos son respuestas numéricas que surgen de un proceso de
medición.

Cualitativa (atributo)
Variable Discreta

Cuantitativa (dato numérico)


Continua

 Tipos de muestras
Existen dos clases básicas de muestras:
 Muestra probabilística: es aquella en la cual los sujetos de la muestra se seleccionan con base
en probabilidades conocidas.
 Muestra no probabilísticas: Comprende un agrupamiento de procedimientos.

 Presentación de datos.
Una vez reunido el conjunto de datos, se debe preparar para la presentación en forma tabular y gráfica,
para su análisis e interpretación.
La operación de reducir las observaciones se denomina tabulación y el resultado de la tabulación es la
tabla estadística, la cual contiene en forma ordenada y sistemática un conjunto de datos numéricos. La
tabulación puede hacerse manualmente, por sencillos métodos de cómputo o mecánicamente mediante
programas especialmente diseñados para realizar a gran velocidad estas operaciones.
Los datos obtenidos a partir de un relevamiento se ordenan en forma de tablas llamadas de distribución
de frecuencias.

2
PRESENTACIONES ESTADÍSTICAS
 DISTRIBUCIÓN DE FRECUENCIAS
Los datos obtenidos a partir de un relevamiento se ordenan en forma de tablas, llamadas de
distribución de frecuencias.
La primera columna de una tabla está formada por los valores o atributos que toma la variable, y la
segunda columna, por la cantidad de veces que se registró cada uno de los datos obtenidos.
La cantidad de veces que se repite una observación se denomina frecuencia absoluta (fi)
correspondiente a dicho valor
También se consideran las frecuencias relativas (fr), que se obtienen dividiendo la frecuencia absoluta
por el total de observaciones realizadas, por lo que muestran qué parte del total representa cada valor
de la variable. Si se multiplica la frecuencia relativa por 100, se obtiene el porcentaje representado (fr%).
Muchas veces interesa conocer cuántos datos se acumulan hasta cierto valor, para lo cual habrá que
sumar, a la frecuencia de ese valor, la frecuencia de los valores anteriores. A esa suma parcial se la
llama frecuencia acumulada .
Fi (Frecuencia absoluta acumulada); Fr (frecuencia relativa acumulada)
Ejemplo 1:
Se realizó una encuesta a 40 chicos acerca de la cantidad de hermanos que tiene cada uno. Completa
la tabla, que recibe el nombre de distribución de frecuencias, en la que figuran los datos recopilados.
Cantidad
de fi fr f r% Fi  Hay 4 chicos que no tienen hermanos y
hermanos ____ chicos que tienen un solo hermano.
 La mayoría de los chicos tiene ____
0 4
hermanos.
 Ningún chico tiene ______________
1 8 hermanos.
 El ____ % de los entrevistados tiene un
2 19 solo hermano.
 El ____ % de los entrevistados tiene
3 7 cuatro hermano.
 Hay ____ chicos que tienen 2 o menos
4 2 hermanos.
 Hay ____ chicos que tienen 3 o menos
Total hermanos.

Ejemplo 2:
Consideremos un grupo de 20 mujeres las que son interrogadas acerca del número de hijos que cada
una tiene
 Toma de datos: Los datos obtenidos son 1,2,1,2,0,2,3,5,2,2,0,3,1,1,2,3,4,2,3,1.En este caso
cada dato es un valor de la variable
 Agrupamiento de datos: Los datos se agrupan teniendo en cuenta el número de veces que se ha
repetido un valor de la variable en el total n de observaciones (en este ejemplo n=20).
Nro. de hijos Recuento fi fr Fi Fr

Observación: La suma de las frecuencias absolutas es igual al número de individuos de la


muestra.
3
La suma de las frecuencias relativas es siempre igual a 1.

DESCRIPCIÓN DE DATOS

 PARÁMETROS ESTADÍSTICOS
Para describir un conjunto de datos, se calculan algunas medidas que resumen la información y que
permiten realizar comparaciones.
 Estadísticos de centralización o Medidas de tendencia central (MTC)
Las MTC se utilizan para encontrar un valor que represente a todos los datos y se utiliza para
describirlos. En general, se desea que el valor sea representativo de todos los valores incluidos en el
grupo y, por ello, se desea alguna clase de promedio. En sentido estadístico, un “promedio” es una
medida de tendencia central para un conjunto de valores. Aquí se cubren diversos procedimientos
estadísticos que se refieren a medidas de tendencia central.
 Media aritmética ( x ): es el cociente entre la suma de todos los datos, tantas veces como éstos
aparezcan, y la cantidad total de ellos.
n

x  f
n

x1  f1  x 2  f2    x n  fn i 1
i i
 se lee sumatoria desde i igual 1 hasta n.
x  i 1
n n
Sólo se puede calcular la media cuando los datos son cuantitativos.
Es el punto de equilibrio de los datos.
Es la medida más utilizada porque todos los datos influyen en su cálculo. Pero si en los datos
hay alguno demasiado alejado de los otros, el promedio no es un buen indicador y, entonces, es
necesario utilizar otra medida.
 Mediana (Me): es el valor que ocupa el lugar central al ordenar los datos de menor a mayor. Por
lo tanto el 50 % de los datos está por debajo de la mediana y el otro 50% está por encima.
Si la cantidad de datos es par, la mediana es el promedio entre los dos valores centrales.
Resulta útil la siguiente fórmula para determinar la posición de la mediana en el conjunto
ordenado:
Me=X(n+1)/2
Se puede calcular cuando las variables son cuantitativas o cualitativas ordinales.
 Moda (Mo): Es el valor que se presenta con mayor frecuencia en un conjunto de datos. A una
distribución que tiene una sola moda de la denomina unimodal .Si la distribución tiene dos modas, se
denomina bimodal, si hay más de dos, se las denomina multimodales. Para un conjunto de datos
poco numerosos, en los que no se repite ningún valor, no existe moda. Se puede calcular para
cualquier tipo de variable.

EJEMPLOS
(I) En determinado mes, 8 vendedores de artículos electrónicos vendieron los siguientes números de
aparatos: 8, 11, 5, 14, 8, 11, 16, 11. Considerando a este mes como a la población estadística que
interesa, el número promedio de unidades vendidas es:

4
n

x  f i i
84 unidad
x i 1
  10,5
n 8
El valor de la mediana es
°Me=X(n+1)/2= X(8+1)/2= X4,5
Teniendo en cuenta los datos ordenados en forma creciente:
5, 8, 8, 11, 11, 11, 14, 16
Me= 11
El valor de la mediana se encuentra entre los valores cuarto y quinto de este conjunto ordenado.
Como los dos son iguales a 11 en este caso, la mediana es 11.
(II)La siguiente tabla muestra las notas obtenidas por los alumnos en una evaluación de matemática.

x: notas f x.f F n

1 2 2 2  x  f i i
250
2 3 6 5 x i 1
  6,098
3 1 3 6 n 41
4 3 12 9 °Me=X(n+1)/2= X(41+1)/2= X21
5 6 30 15
6 8 48 23 Me=6
7 4 28 27 El valor de la mediana se encuentra la
8 7 56 34 posición 21 de este conjunto ordenado. Es
9 5 45 39 decir, la mediana es el valor de la
10 2 20 41 variable que contiene dicha frecuencia
n
acumulada.
x  f i i  250 n = 41
i 1  Mo = 6

(II)La siguiente es la distribución de los salarios de los empleados de una pequeña empresa.

Número Los empleados realizan una huelga para pedir mejoras salariales. Un
Salarios de empleados periodista realiza una nota preguntando cuál es el salario promedio.
$ 10000 1 a) ¿Qué MTC darías si fueras el dueño?
$ 2500 1 ___________________________
$ 1000 1
$ 500 2 b) ¿Y si fueras un representante sindical?
$ 200 4 __________________________
c) ¿Y si fueras un investigador científico? ___________________________

 Relación entre media mediana y moda


Las diferencias entre media, mediana y moda permiten saber la forma de la curva de frecuencias en
términos de asimetría. Para una distribución unimodal simétrica, el valor de la media, mediana y moda
es igual. Para una distribución asimétrica positiva, la media es el mayor de los tres y la mediana es
mayor que la moda pero menor que la media. Para una distribución asimétrica negativa, la media es el
menor de los tres y la mediana es inferior a la moda pero mayor que la media.

5
Gráfica 1) Asimétrica negativa
Gráfica 2) Simétrica
Gráfica 3) Asimétrica positiva

 Estadísticos o Medidas de dispersión

Las medidas de dispersión se usan para conocer cómo se distribuyen los datos y así poder
determinar si las MTC son representativas de los datos. Las medidas de dispersión incluyen el
rango, la varianza y la desviación estándar. Estos valores numéricos describen la dispersión o
variabilidad que se encuentra entre los datos: datos bastante agrupados poseen valores
relativamente pequeños y los datos más dispersos tienen valores mayores.
 Rango: El rango de un conjunto de datos es la diferencia entre el mayor valor (máx.) y el menor
valor (mín.) de todos ellos.
 Varianza (s2): Para calcular las desviaciones de los valores respecto de la media aritmética, basta
con hacer xi - x , en los valores mayores que la media, estas diferencias serán positivas y para los
valores menores que la media, serán negativas.
Entonces, al sumarlas, para calcular el promedio, la suma da cero.
Para evitar esto, se elevan al cuadrado las diferencias y se calcula el promedio de los cuadrados
de las diferencias.

  x  x
n 2
i  fi
A este valor se lo llama Varianza: s2 = i 1
n 1
En lugar de la varianza se usa la desviación estándar, porque la unidad de medida está al cuadrado
y es difícil de interpretar.
 Desviación estándar (s): es la más importante y mide la dispersión de los datos con respecto a
la media aritmética.

  x  x
n 2
i  fi
s i 1
n 1
Cuanto menor sea la desviación estándar, más concentrados alrededor de la media aritmética están
los datos.
 Coeficiente de variación (CV): expresa la desviación estándar como un porcentaje de la media
aritmética.
s
CV = . 100
x
EJEMPLOS
(I) Dos alumnos A y B han rendido la misma cantidad de evaluaciones y cada uno ha obtenido
distintas calificaciones.
Si se halla el promedio de las calificaciones, ambos tienen el mismo promedio 7, pero B tiene un
rendimiento más estable que A.

6
Notas de A x i x  2
Notas de B x i x  2
sA =
36
 3,46
4 (4 – 7) = 9 2
8 (8 – 7) = 12 3
10 (10 – 7)2 = 9 7 (7 – 7)2 = 0
2
4 (4 – 7)2 = 9 7 (7 – 7)2 = 0 sB =  0,82
10 (10 – 7)2 = 9 6 (6 – 7)2 = 1 3

 x   x 
2 2
i x  36 i x 2 Como sA > sB, entonces A es más
disperso que B.
(II) Analizaremos tres muestras de 40 alumnos cada una, a los que se les tomó una evaluación de 6
preguntas.

GRUPO 3
xi fi
1 6
Las xis indican la cantidad de 2 7 respuestas correctas y fi, indica la cantidad de
alumnos que lo hicieron. 3 7
a) Realiza un gráfico de barras 4 7 verticales para cada grupo.
5 7
b) Calcula la media aritmética y la 6 6 mediana de cada grupo.
c) Observa los resultados de los ejercicios anteriores y responde: ¿Puedes afirmar que hay
homogeneidad entre los grupos?

DATOS AGRUPADOS.
 INTERVALOS DE CLASE
Cuando se cuenta con un gran número de datos cuantitativos, es conveniente organizarlos de manera
tal que resulte más rápida su lectura.
Para ello se puede recurrir a una distribución de frecuencias agrupadas en intervalos de clase con
las siguientes características:
 No es conveniente trabajar con menos de 5 ni más de 15 clases.
 Cada dato debe pertenecer exclusivamente a una clase.
 En lo posible no deben quedar clases vacías.
Para poder armar los intervalos de clase conviene determinar previamente el recorrido (o rango) de la
variable, el cual queda definido por los dos valores extremos de la variable: el máximo y el mínimo
Al recorrido hay que dividirlo en tantas partes como clases quieran obtenerse. Cada parte es un
intervalo que viene definido por dos valores de la variable, denominados, límite inferior y superior
Máximo  Mínimo
Amplitud de cada intervalo 
Número de clases
La amplitud de los intervalos puede ser constante o variable. Se recomienda que, en lo posible, los
intervalos sean de amplitud constante, porque entonces es más fácil el tratamiento analítico de la
estadística. Pero por encima de éste requisito debe estar el de que la estadística obtenida exprese lo
más fielmente posible las características de la variable estudiada.
Para determinar la cantidad k de intervalos de clase de una distribución se puede utilizar la siguiente
regla, llamada “regla de Sturges”: k=1+3,322 log n,siendo n el número de observaciones
La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando los límites
inferior y superior de clase.

7
Para efectos de análisis matemáticos subsiguientes, se asume que todas las observaciones
pertenecientes a un mismo intervalo de clase coinciden con la marca de clase.
EJEMPLO. Los datos correspondientes al recuento de plaquetas de 100 paciente son: 160; 161;
165;; 400 mil/mm3 y se los quiere distribuir en 6 intervalos de clase.

400  160 Recuento de plaquetas


Amplitud de cada clase   40 fi
6 (mil/mm3)
Habrá 6 intervalos de amplitud 40 [160;200) 13
[200;240) 25
 Límite
 infeor Límite superior
 
   a  ;   b    [240;280) 22
Dato incluido Dato no incluido  [280;320) 14
 
[320;360) 10
[360;400) 16

 Estadísticos de centralización o Medidas de tendencia central para datos agrupados


n

 Para calcular la media aritmética se aplica la fórmula: x f


i 1
i i
Considerando a los xi como
x
n
las marcas de clase y siendo los fi las frecuencias absolutas correspondientes a cada clase
Recuento de plaquetas
fi xi xi . f F
(mil/mm3)
[160;200) 13 180 2340 13
[200;240) 25 220 5500 38 27240
[240;280) 22 260 5720 60 x  272,4
100
[280;320) 14 300 4200 74
[320;360) 10 340 3400 84
[360;400) 16 380 6080 100
x i  f  27240

 Para calcular la mediana se deben seguir los siguientes pasos


n 1
1) Calcular el orden o posición de la mediana, usando la fórmula: ºMe =
2
2) Buscar el valor obtenido como orden de la mediana en la columna de frecuencia acumulada, si no
está, tomar el valor inmediato superior y llamar a la clase correspondiente clase mediana.
Se dice que la mediana, pertenece a este intervalo, pero es necesaria una mayor precisión. Por esto se
busca el valor de la mediana dentro de la clase mediana.
n
 Fant
3) El valor de la mediana se obtiene con la fórmula: Me = L1 + C  2
fMe
, siendo
L1: límite inferior del intervalo que contiene a la mediana.
Fant: frecuencia acumulada del intervalo que antecede a la mediana.
fMe: frecuencia absoluta del intervalo que contiene a la mediana.
C: amplitud del intervalo.
100  1
1) ºMe =  50,5
2
2) Clase mediana [240;280) 8
50  38
3) Me = 240 + 40   261,82
22
 Para calcular la moda se deben seguir los siguientes pasos
1) Hallar el Intervalo modal: intervalo de clase con mayor frecuencia. Intervalo modal: [200;240)
1
2) El valor de la moda se obtiene con la fórmula: Mo = L1 + C. , siendo
1   2
L1: límite inferior de la clase modal
1) Clase moda [200;240)
1: diferencia de la frecuencia modal con la frecuencia de la clase 12
anterior inmediata 2) Mo = 200 + 40   232
12  3
2: diferencia de la frecuencia modal con la frecuencia de la clase
superior inmediata
C: tamaño del intervalo modal
 Cuartiles deciles y percentiles para datos agrupados
Para datos agrupados, la fórmula de la mediana se modifica de acuerdo con el punto de interés
n
 Fant
Q1 (primer cuartil) = L1 + C  4
f Me
n
 Fant
3
D3 (tercer decil) = L1 + C  10
f Me

n
70  Fant
P70 (percentil 70) = L1 + C  100
f Me

 Medidas de dispersión para datos agrupados: para calcularlos se utiliza la marca de clase.
Recuento de plaquetas
fi xi xi. f (xi - x )2 . f F
(mil/mm3)
[160;200) 13 180 2340 110990,88 13
[200;240) 25 220 5500 68644 38
[240;280) 22 260 5720 3382,72 60
[280;320) 14 300 4200 10664,64 74
[320;360) 10 340 3400 45697,6 84
[360;400) 16 380 6080 185244,16 100
x i  f  27240 424624

424624 65,49
s=   65,49 CV =  100  24,04%
99 272,4

También podría gustarte