Está en la página 1de 15

1.

Introducción a la Estadística General

Definición de estadística:

Estadística es una ciencia parte de la matemática que se encarga de recoger, organizar,


presentar, analizar e interpretar datos.

Recoger: Esto se hace a través de encuestas, experimentos, observaciones, estudios


anteriores, etc. Es de crucial importancia hacerlo correctamente, pues si los datos
obtenidos no reflejan la realidad de la situación que se está estudiando, de nada servirá
proseguir con el trabajo sobre ellos, pues la información a obtener no es real.

En este punto siempre me gusta dar el ejemplo de los partidos políticos que presentan
sus resultados estadísticos de la encuestas realizadas por ellos mismos, donde su
candidato presidencial va encabezando la preferencia de los votantes cuando la
realidad es otra. Esto lo logran con una manipulación de la recogida de datos. ¿Cómo?
Haciendo sus encuestas en áreas donde todos los encuestados responderán a favor de
su candidatos presidencial, es decir dentro de sus propias reuniones o su sede.

Organizar: La organización de los datos recogidos correctamente se logra a través de la


elaboración de una Tabla de Distribución de Frecuencias, la cual estaremos aprendiendo
a realizar en la siguiente sección.

Presentar: La Tabla de Distribución de Frecuencias nos permite elaborar gráficas las


cuales a su vez le permiten a la persona que analizará los datos alcanzar conclusiones
solo con ver los gráficos, los principales gráficos son el Histograma de Frecuencias y el
Polígono de Frecuencias.

Analizar e Interpretar: Pues esto es la cúspide de lo deseado, que la maraña de datos


que se obtuvo nos brinde información concreta para que la podamos analizar e
interpretar y así tomar decisiones convenientes a nuestros propósitos.

Tipos de Estadística:

La estadística se divide en dos grandes áreas, la Estadística Descriptiva y la Estadística


Inferencial.

Estadística Descriptiva: Es la que veremos en la primera parte de este curso y es la que


organiza, resume y presenta datos de manera informativa. Estos datos son una muestra
de una población.
Estadística Inferencial: Métodos que se emplean para determinar una propiedad de una
población con base a la información de una muestra de esta.

Población: Conjunto de individuos u objetos con cierto atributo en común (los incluye a
todos).
Muestra: Porción o parte de la población.
Tipos de Variables:

En estadística general hay dos tipos de variables: las cualitativas y las cuantitativas.

Variable cualitativa: Es NO numérica y hace referencia a algún atributo como lo puede


ser el género, marca preferida, lugar de nacimiento, color, etc.

Variable cuantitativa: Es un valor numérico el cual a su vez se divide en discreto y


continuo.

Discreto: existen brechas entre los valores, como por ejemplo el conteo de
personas, habitaciones, vehículos, etc.

Continuo: puede tomar cualquier valor incluso decimales, como por ejemplo el peso
de una persona, el volumen de algún líquido, sueldos, etc.

1.1 Tabla de Distribución de Frecuencias

Como ya se señaló en la definición de estadística, esta se encarga de organizar datos y


permite un primer análisis de los mismos con una mayor facilidad. Ahora veremos como
se organizan los datos para poder presentarlos y obtener información más puntual
sobre ellos.

A continuación se muestra un grupo de datos que representan las edades en años de


los participantes de un programa de servicio social:
Como usted podrá constatar, solo con ver la tabla de datos no se obtiene mayor información
con respecto a este grupo de personas. Aquí es donde entra la Estadística Descriptiva, pues
a través de sus herramientas lograremos obtener una mayor “descripción” de los
integrantes que utilizan este servicio social.

Algo importante en este momento es determinar el valor de “n”, es decir la cantidad de


datos que conforman la tabla, para nuestro caso n = 50.

Datos Agrupados: Lo primero que haremos es formar grupos o clases con los datos, es decir
agruparemos o clasificaremos los datos. Para ello es necesario determinar el tamaño de
cada clase que queremos formar, es decir en este caso de que edad a que edad serán lo
integrantes de cada clase, este tamaño de clase debe de ser el mismo para todas las clases
que se formaran para este estudio en particular.

1.1.1. Clases

Primer paso: Es determinar en cuántas clases deseamos dividir los datos, para nuestro caso
se utilizarán 5 clases. Este valor se llama “número de clases”, y es un valor que el estadista
que realiza el estudio determina en base a su experiencia y las condiciones generales de la
situación analizada, anteriormente se utilizaba una fórmula que en muchas ocasiones no
arrojaba el valor idóneo para el estudio del caso, por lo cual se prefiere que el experto decida
cuántas clases nos darán mejores resultados. En este curso el “número de clases” siempre
será parte de la información proveída en el caso a estudiar.

Segundo paso: Se encuentra el menor valor de los datos así como el mayor valor de los
mismos. Es importante saber que los datos representan diferentes valores de edad y son
valores de “x” es decir están representados sobre el eje “x” tal y como se muestra a
continuación:

Observamos que el eje “x” está representando la variable edad con dimensional en años, el
punto azul está representado la edad de 55 años.

Continuando con la determinación de la edad menor y mayor podemos ver que son 38 y 99
años respectivamente, tal y como se muestra a continuación:
Al representarlos en el eje de las “x” quedan así:

Tercer paso: Se calcula el tamaño o ancho de clase, es decir cuantas x serán tomadas en
cuenta dentro de una clase. El ancho de clase se calcula con la siguiente fórmula:
𝑥 𝑚𝑎𝑦𝑜𝑟 − 𝑥 𝑚𝑒𝑛𝑜𝑟
𝐴𝑛𝑐ℎ𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠

En nuestro caso se sabe que el x mayor es igual a 99 y el x menor es igual a 38, también se
propuso que el número de clases fuera 5, entonces sustituimos estos valores en la fórmula
quedando así:

99 − 38 61
𝐴𝑛𝑐ℎ𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = = = 12.2
5 5

Este valor de no quedar exacto, tal y como sucedió en nuestro caso, siempre debe de
redondearse al inmediato superior sin importar el valor de los decimales. Entonces para
nosotros se redondea a 13 por el simple hecho de tener decimales. Ojo NO es una
aproximación matemática, siempre debe de redondearse al inmediato superior.

1.1.2. Límites

Cuarto paso: Ahora formaremos las clases sabiendo que contendrán 13 valores de x cada
una, con la primera clase empezando con el valor de la “x menor” de los datos, que en este
caso es 38:

CLASES
Límite inferior Límite superior
1 38 50
2 51 63
3 64 76
4 77 89
5 90 102
Observaciones:
• Hay 5 filas pues el “número de clases” es 5.
• A cada fila le corresponde un número de clase.
• La clase número 1 inicia con el valor de la “x menor” de los datos, el cual es su límite
inferior.
• Cada clase contiene 13 valores de x que es el valor del “ancho de la clase” y es lo
que determina el valor del límite superior.
• El límite superior de cada clase se puede calcular con la fórmula:
o 𝑙í𝑚𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = (𝑙í𝑚𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑎𝑛𝑐ℎ𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒) − 1
• El límite inferior de cada case, es limite superior de la clase anterior +1.
• El límite superior de la clase número 5 para nuestro caso es 110 y como podemos
ver incluye dentro de su rango el valor de la “x mayor” de los datos, que en este
caso es 99.
OJO: Es muy importante verificar que la “x mayor” esté incluida en la última clase, hay
ocasiones en que la “x mayor” NO queda incluida dentro del rango de la última clase y por
lo tanto es necesario crear una clase adicional y así esta contenga el valor de la “x mayor”,
entonces si el estudio indicaba 5 clases al final quedaría con 6 clases. Importante: NO se
debe de volver a calcular el ancho de la clase, solo se agrega la fila para la clase adicional.

1.1.3. Frecuencia
Quinto paso: Ahora contaremos cuantos de nuestros datos caen en cada clase, para ello es
recomendable que se ordenen los datos y así ver cuales datos caen en cada clase, esta
cantidad de datos por clase es a lo que se le denomina “frecuencia”.

Como la clase número 1 va de 38 a 50 los siguientes datos son los que caen dentro de dicha
clase:

38 42 44 47

Como vemos son 4 datos los que caen dentro de la clase número 1, por lo tanto el valor de
la frecuencia de dicha clase es 4.

Los datos que caen dentro del rango de la clase número dos que va del 51 al 63 son:

51 51 51 54 55 55 56 56 60 60 61 62

Como podemos ver son 12 datos por lo tanto la frecuencia de la clase número 2 es 12.

Así se sigue sucesivamente con las siguientes clases hasta completar la última.

Por lo tanto “frecuencia” es la cantidad de datos que contiene cada clase y se simboliza con
la “f” minúscula.
Nota: Es importante recordar que en matemática y por lo tanto en estadística una letra
mayúscula representa un valor completamente diferente a su minúscula, es necesario
respetar la simbología.

Ahora que ya contamos con los valores de frecuencia de cada clase podemos agregar la
tercera columna de nuestra Tabla de Distribución de Frecuencias:

CLASES
f
Límite inferior Límite superior
1 38 50 4
2 51 63 12
3 64 76 19
4 77 89 11
5 90 102 4
n= 50

Observaciones: Nótese que adicional al valor de frecuencia de cada clase se ha agregado


una fila a la tabla en la cual se suman todos los valores de frecuencia y da como resultado el
valor de “n” que es el número total de los datos con que cuenta la tabla de datos. Esto nos
permite comprobar que hemos incluido todos los datos.

Esta columna “f” ya nos provee de alguna información importante, pues ahora ya sabemos
que la mayoría de los participantes están entre los 64 y 76 años y por lo tanto debemos de
considerar las necesidades de este grupo de personas, pero también nos hacer ver que
tenemos 4 personas con una edad muy avanzada y debemos tener lo necesario para poder
atender algún tipo de emergencia.

Sexto paso: La cuarta columna de la Tabla de Distribución de Frecuencias es la Frecuencia


Acumulada la cual se representa con la letra “F” mayúscula y es una simple acumulación
aritmética de los valores de “f”, es decir se va sumando el valor de f de cada fila:

CLASES
f F
Límite inferior Límite superior
1 38 50 4 4
2 51 63 12 16
3 64 76 19 35
4 77 89 11 46
5 90 102 4 50
n= 50
Nótese que el valor de F de la clase 5 tiene el mismo valor que n.

1.1.4. Frecuencia Relativa

Séptimo paso: Ahora calcularemos el valor de la Frecuencia Relativa para cada clase que se
simboliza con fr y se lee “f sub r”, para ello utilizaremos la siguiente fórmula:
𝑓
𝑓𝑟 =
𝑛

Entonces para la clase número 1 donde f vale 4 al sustituir valores queda así:

4
𝑓𝑟 = = 0.08
50

Se sigue así sucesivamente con el resto de las clases obteniendo la quinta columna de
nuestra Tabla de Distribución de Frecuencias:

CLASES
f F fr
Límite inferior Límite superior
1 38 50 4 4 0.08
2 51 63 12 16 0.24
3 64 76 19 35 0.38
4 77 89 11 46 0.22
5 90 102 4 50 0.08
n= 50 1

Observaciones: Podemos ver que la suma de las Frecuencias Relativas debe de dar 1.

Si multiplicamos por 100 los valores de la frecuencia relativa nos da los porcentajes de cada grupo
de edades y así sabemos que los más jóvenes solo son un 8% del grupo al igual que los de mayor
edad y que los integrantes comprendidos entre los 51 y 63 años conforman el 24% del grupo, etc.

1.1.5. Marca de Clase

Octavo paso: Calcular la Marca de Clase, la Marca de Clase es el punto medio de cada clase y por lo
tanto es el dato que mejor representa a cada clase, se representa con “xi” que se lee “x sub i” y se
calcula con la siguiente fórmula:

lim 𝑠𝑢𝑝 − lim 𝑖𝑛𝑓


𝑥𝑖 = ( ) + lim 𝑖𝑛𝑓
2

Para la clase número 1 quedaría así:

50 − 38
𝑥𝑖 = ( ) + 38 = 44
2

Y así sucesivamente para el resto de las clases, la Tabla de Distribución de Frecuencias queda así:

CLASES
f F fr xi
Límite inferior Límite superior
1 38 50 4 4 0.08 44
2 51 63 12 16 0.24 57
3 64 76 19 35 0.38 70
4 77 89 11 46 0.22 83
5 90 102 4 50 0.08 96
n= 50 1
Observaciones: La edad que mejor representa al grupo de 77 a 89 años es 83 años y las mismas
conclusiones se pueden sacar para las demás clases.

1.1.6. Límites Reales

Noveno y último paso: Los límites usados en las clases hasta el momento no se llegan a tocar entre
sí, es decir entre el límite superior de una clase y el límite inferior de la clase siguiente cabrían
números con decimales, por ejemplo entre el límite superior 50 de la clase 1 y el límite inferior 51
de la clase 2 de nuestro caso, cabría el 50.1 ó el 50.7 ó el 50.35 etc. Es importante desaparecer este
espacio a través de que tanto el límite superior de una clase y el inferior de la siguiente tengan el
mismo valor. Este valor se calcula con la siguiente fórmula:

lim inf 𝑠𝑖𝑔𝑢𝑖𝑒𝑛𝑡𝑒 − lim sup 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟


lim 𝑟𝑒𝑎𝑙 = ( ) + lim sup 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
2

Entonces para pegar el límite superior de la clase 1 con el límite inferior de la clase 2 sustituimos los
valores en la fórmula quedando así:

51 − 50
lim 𝑟𝑒𝑎𝑙 = ( ) + 50 = 50.5
2

Ahora el límite real superior de la clase 1 es 50.5 y el límite real inferior de la clase 2 es 50.5 y no
existe espacio entre las clases y podemos incluir las columnas 7 y 8 de nuestra tabla:

CLASES Límite Real Límite Real


f F fr xi
Límite inferior Límite superior inferior superior
1 38 50 4 4 0.08 44 50.5
2 51 63 12 16 0.24 57 50.5

Seguimos aplicando este procedimiento al resto de las clases. Ojo, para el límite real inferior de la
clase 1 se utiliza el límite superior de una supuesta clase 0 que sería 37 y para el límite real superior
de la clase 5 se utiliza el límite inferior de una supuesta clase 6 que sería 103.

Nuestra Tabla de Distribución de Frecuencias final queda así:

CLASES Límite Real Límite Real


f F fr xi
Límite inferior Límite superior inferior superior
1 38 50 4 4 0.08 44 37.5 50.5
2 51 63 12 16 0.24 57 50.5 63.5
3 64 76 19 35 0.38 70 63.5 76.5
4 77 89 11 46 0.22 83 76.5 89.5
5 90 102 4 50 0.08 96 89.5 102.5
n= 50 1
Observaciones: Los límites reales inferior y superior nos servirán en la siguiente sección para la
elaboración del Histograma y Polígono de Frecuencias.

1.2 Gráficas
1.2.1 Histograma de Frecuencias
Para dibujar el Histograma de frecuencias primero marcaremos sobre el eje de las x los
valores de los Límites Reales, empezando con el Límite Real Inferior de la clase 1 y
terminando con el Límite Real Superior de la clase 5 quedándonos así:

clase 1 clase 2 clase 3 clase 4 clase 5 x = edad (años)


37.5 50.5 63.5 76.5 89.5 102.5

Ahora trazaremos el eje de las “y” que contendrá el valor de la frecuencia:

y=f

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = edad (años)


37.5 50.5 63.5 76.5 89.5 102.5

Observaciones: Se ha escogido el valor mayor de 20 en el eje de las “y” pues el valor


mayor de frecuencia es 19. Ahora representaremos con una barra el valor de frecuencia
de cada clase empezando con la clase 1 que su valor es 4 y por ello la barra llega hasta
el 4 sobre el eje de las y (el color es opcional):

y=f

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = edad (años)


37.5 50.5 63.5 76.5 89.5 102.5
Ahora continuamos dibujando las barras para las demás clases y le ponemos el título al
gráfico “Participantes Programa de Servicio Social”:

y=f "Participantes Programa de Servicio Social"

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = edad (años)


37.5 50.5 63.5 76.5 89.5 102.5

Ahora podemos de un simple vistazo comprender que la mayoría de los participantes


del servicio social están entre los 63.5 y 76.5 años de edad, que tanto los participantes
jóvenes así como los de mayor edad son minoría pero existen.

1.2.2. Polígono de Frecuencias


Para dibujar el Polígono de Frecuencias nos apoyaremos en el Histograma recién hecho,
a través de marcar en la parte superior de cada barra representativa de clase su “marca
de clase”, en la clase 1 su marca de clase es 44, recordemos que 44 es punto medio
entre 37.5 y 50.5, así que basta con marcar la parte media de la barra. Hacemos lo
mismo con el resto de las barras:

y=f "Participantes Programa de Servicio Social"

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = edad (años)


37.5 50.5 63.5 76.5 89.5 102.5
Observaciones: Nótese que también se marcaron los puntos medio tanto de la supuesta
clase 0 así como de la supuesta clase 6.

Ahora trazaremos una línea uniendo todos los puntos medios dibujados quedando así:

y=f "Participantes Programa de Servicio Social"

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = edad (años)


37.5 50.5 63.5 76.5 89.5 102.5

La línea roja es el Polígono de Frecuencias el cual normalmente se presenta sin el


Histograma de Frecuencias, de la siguiente manera:

y=f "Participantes Programa de Servicio Social"

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = edad (años)


37.5 50.5 63.5 76.5 89.5 102.5

Observaciones: El Polígono de Frecuencias es uno de los gráficos de mayor importancia en el estudio


de la Estadística, con un solo vistazo también nos permite saber cuál es la población de mayor edad
en este Programa de Servicio Social, en capítulos posteriores regresaremos a su uso.
EJEMPLO:

A continuación presentaremos otro ejemplo el cual sugerimos se trate de realizar antes de verlo
resuelto y así comprobar los conocimientos adquiridos hasta el momento, se trata de un caso de
estudio de velocidades de vehículos en cierto punto de una carretera del país, se debe de elaborar
la Tabla de Distribución de Frecuencias, su Histograma y Polígono de Frecuencias, para ello
utilizaremos 5 clases:

Las velocidades obtenidas a través de un aparato medidor de velocidades son las siguientes:

VELOCIDADES EN KILOMETROS POR HORA


60 105 122 84 96 112 76 94 99
99 62 105 124 84 96 115 78 95
107 125 85 97 116 78 95 100 65
100 96 70 108 135 92 98 116 80
75 110 136 93 98 120 82 96 104

Los resultados del problema aparecen en la siguiente página.

CLASES Límite Real Límite Real


Límite inferior Límite superior
f F fr xi inferior superior
1 60 75 5 5 0.11 67.5 59.5 75.5
2 76 91 8 13 0.18 83.5 75.5 91.5
3 92 107 20 33 0.44 99.5 91.5 107.5
4 108 123 8 41 0.18 115.5 107.5 123.5
5 124 139 4 45 0.09 131.5 123.5 139.5
n= 45 1

y=f "Velocidades de Vehículos en Carretera"

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = velocidad (km/hora)


59.5 75.5 91.5 107.5 123.5 139.5
y=f "Velocidades de Vehículos en Carretera"

20
18
16
14
12
10
8
6
4
2

clase 1 clase 2 clase 3 clase 4 clase 5 x = velocidad (km/hora)


59.5 75.5 91.5 107.5 123.5 139.5

Observaciones:
número de clases = 5 (fue dado)
n = 45 (se cuentan los datos)
x menor = 60 (se busca en la tabla)
x mayor = 136 (se busca en la tabla)
Ancho de clase = 16 (se calcula)

También podría gustarte