Está en la página 1de 9

MÓDULO DE ESTADÍSTICA

1. Introducción y conceptos generales.

La estadística es una disciplina científica dedicada a la realización de


inferencias válidas a partir de datos experimentales u observacionales. El estudio de la
variabilidad, incluyendo la construcción de diseños muestrales y experimentales, y la
creación de modelos que describen la variabilidad es lo que caracteriza a las actividades
de investigación en el campo de la estadística. Un principio básico es que: todas las
mediciones están sujetas a variabilidad. Más específicamente la estadística está ligada
al método científico en la toma, organización, recopilación, presentación y análisis de
datos, tanto para la deducción de conclusiones como para la toma de decisiones
razonables de acuerdo con tales análisis.

Se llama población al conjunto de mediciones posibles de obtener de una


característica del conjunto de individuos o elementos bajo estudio o experimentación.

El proceso de medir una o más características de todos los componentes de


la población claramente definida recibe el nombre de censo. Las características globales
de una población (generalmente desconocida o no observable), reciben el nombre de
parámetros.

Una muestra corresponde a los datos que realmente son recolectados en el


transcurso de una investigación, es un subconjunto de las observaciones que componen
la población. Parte de la información que contiene la muestra respecto de los
parámetros se expresa mediante valores numéricos calculados a partir de ésta, llamados
estadígrafos o estadísticos. Cuando cada elemento de la población tiene la misma
posibilidad de ser elegido en la muestra, o más precisamente, cuando todas las
muestras posibles de tamaño n sean igualmente probables de ser elegidas, hablaremos
de muestras aleatorias simples o de muestreo al azar. El estudio de los métodos de
muestreo junto con la formulación de esquemas o modelos matemáticos para un
experimento, y los problemas que tales métodos implican, están comprendidos en la
rama de la estadística llamada Diseño Muestral y Experimental.

Si una muestra es representativa de una población, se pueden deducir


importantes conclusiones acerca de la población a partir del análisis de la muestra, pero
al no poder estar absolutamente seguro de la veracidad de tales generalizaciones, se
debe utilizar ciertos niveles de confianza o posibilidades de error, expresados en
porcentajes o en término de probabilidades. La parte de la estadística que trata de las
condiciones bajo las cuales tales inferencias son válidas se llama Estadística Inductiva o
Estadística Inferencial.
Pág. 1
2. Estadística Descriptiva.

La parte de la Estadística que trata solamente de describir y analizar un


grupo de datos, sin sacar conclusiones o inferencias de un grupo mayor, se llama
Estadística Descriptiva o Estadística Deductiva, por ende la Estadística Descriptiva
incluye las técnicas que se relacionan con el resumen, la descripción y presentación de
datos.

Los aspectos principales que es necesarios tener en cuenta en la descripción


de un conjunto de datos son:

a) El resumen y descripción del patrón global de los datos mediante la presentación de


tablas y gráficos; el examen de la forma global de los datos graficados, para visualizar
características importantes como simetrías o divergencias y buscar en el gráfico
observaciones inusuales o atípicas.
b) El cálculo de algunas características numéricas (estadísticos) como por ejemplo un
valor representativo o típico que indique el centro de los datos, la cantidad de variación
o dispersión presente en los datos, grado de asimetría, etcétera.

Las características medidas a cada elemento de una muestra son


representadas a través de símbolos (generalmente una letra), los cuales reciben el
nombre de variables o variables aleatorias. Una variable cuantitativa es aquella que
puede tomar un valor cualquiera en un cierto conjunto numérico llamado codominio de
la variable. Una variable cuantitativa que teóricamente puede asumir cualquier valor
en un intervalo de números reales se llama variable continua, en caso contrario, si la
variable puede asumir algunos valores, generalmente sólo valores enteros, se llama
variable discreta.

Las observaciones o datos que son representados por una variable discreta o
continua se llaman datos discretos o continuos respectivamente. En general las
mediciones dan origen a datos continuos, mientras que las enumeraciones o conteos
originan datos discretos. En los datos continuos siempre existe la llamada unidad de
precisión del instrumento utilizado, y se debe tener en cuenta que el último decimal de
los datos se encuentra aproximado, así por ejemplo, si se registra una altura de un árbol
como 5.4 metros significa que la altura verdadera se encuentra entre 5.35 y 5.45 metros.
Consecuente con esto, debe siempre aplicarse en los cálculos la regla clásica de
aproximación.

También existen las llamadas variables cualitativas (ordinales y nominales)


que son aquellas que asumen valores no numéricos, permitiendo clasificar a los
elementos observados. Generalmente es posible sustituir tales variables por una

Pág. 2
cuantitativa discreta codificando los valores no numéricos, pero se debe tener presente
que no tiene la misma interpretación que una variable de este tipo.

Variables

Cualitativas Cuantitativas

Nominales Ordinales Discretas Continuas

3. Distribución de frecuencias.

Cuando tenemos un registro de datos tal cual fueron obtenidos, sin ninguna
ordenación o clasificación, diremos que se tiene datos no agrupados. Cuando se
dispone de un gran número n de datos, es útil distribuirlos en clases o categorías, que
se definen subdividiendo excluyentemente el recorrido de la variable, y determinar el
número de observaciones perteneciente a cada clase, es decir, determinar la llamada
frecuencia absoluta de cada clase. Una ordenación tabular de este tipo se conoce con el
nombre de tabla de distribución de frecuencias, y por lo tanto, en tal caso, diremos que
se tienen datos agrupados. Esta tabulación permite conocer como están distribuidos los
datos, es decir, como varía la concentración o densidad de los datos en el recorrido de la
variable, teniendo con ello un conocimiento del comportamiento de la variable bajo
estudio.

En una tabla de frecuencia se distinguen los intervalos de clase,


caracterizados por su límite inferior (Ii) y el límite superior (Si) que definen una cierta
categoría o clase. Cuando se trabaja con variables continuas, es posible distinguir
además los llamados límites reales o fronteras de clases (Li), que corresponden a los
límites (aparentes) inferiores y superiores menos o más media unidad de precisión u,
respectivamente. Además de la frecuencia absoluta (ni) se puede determinar la llamada
frecuencia relativa (fi = ni/n), frecuencia porcentual (fi% = 100fi), frecuencia acumulada
absoluta (Ni = Ni-1 + ni, N0 = 0), acumulada relativa (Fi = Ni/n) y acumulada porcentual
(Fi% = 100Fi).

Pág. 3
Intervalos Marca Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
de Absoluta Relativa Porcentual Acumulada Acumulada
Clase Absoluta Relativa
L0, L1 X1 n1 f1 = n1/n f1% = f1*100 N1 = n1 F1 = N1/n

... ... ... ... ... ... ...

Li-1, Li Xi ni fi = ni/n fi% = fi*100 Ni = n1 +...+ ni Fi = Ni/n

... ... ... ... ... ... ...

Lk-1, Lk Xk nk fk = nk/n fk% = fk*100 Nk = n1 +...+ nk Fk = Nk/n

Una metodología que es posible aplicar en la construcción de una tabla de


distribución de frecuencia, para una variable continua, a partir de datos no agrupados
incluye los siguientes pasos:

1.- Encontrar el valor mínimo xmin y el valor máximo xmáx y calcular el rango R = xmáx -
xmin. Y establecer la unidad de precisión u de los datos registrados.

2.- Elegir el número k de intervalos de clases de igual longitud que cubre el recorrido de
los datos. El número de intervalos de clase debe verificar que 5 ≤ k ≤ 15. También se
puede determinar a partir del tamaño de la muestra utilizando la regla k = 1 +
3.3*log(n).

3.- Determinar la amplitud a = R/k de las clases, que debe tener la misma precisión de
los datos, es decir, la misma cantidad de decimales que los datos.

4.- Verificar que efectivamente se cubre el recorrido de todas las observaciones


calculando el excedente E = k*a - R - u. El excedente debe ser no negativo, en caso
contrario, la amplitud debe ser aumentada en una unidad de precisión y recalculado el
excedente. (Estos últimos valores corregidos son los que se utilizan en los cálculos
posteriores).

5.- Calcular el primer límite inferior I1 = xmin - E/2, el cual debe tener la misma precisión
de los datos.

6.- Calcular los límites inferiores siguientes, sumándole la amplitud al límite inferior
anterior, (Ii = Ii-1 + a).

Pág. 4
7.- Calcular el primer límite superior restando una unidad de precisión al límite inferior
de la clase siguiente (S1 = I2 - u)

8.- Calcular los límites superiores siguientes sumándole la amplitud al límite superior
anterior, (Si = Si-1 + a).

9.- Contar el número de observaciones en los datos que pertenecen a cada intervalos de
clase, para obtener la frecuencia absoluta de cada clase (ni).

10.- Determinar los otros tipos de frecuencias, los límites reales o fronteras de clase (Li-1
= Ii - u/2 ó Li = Si + u/2) y las marcas de clase (xi = (Li-1 + Li)/2), si se necesitan.

Ejemplo:
Puntaje Lenguaje
Simce 2005 - 4º Básico - Los Ángeles
Porcentaje
Puntajes Establecimientos Porcentaje
Acumulado
175 184 2 2,6% 2,6%
185 194 2 2,6% 5,3%
195 204 5 6,6% 11,8%
205 214 8 10,5% 22,4%
215 224 5 6,6% 28,9%
225 234 12 15,8% 44,7%
235 244 9 11,8% 56,6%
245 254 10 13,2% 69,7%
255 264 7 9,2% 78,9%
265 274 5 6,6% 85,5%
275 284 5 6,6% 92,1%
285 294 3 3,9% 96,1%
295 304 2 2,6% 98,7%
305 314 1 1,3% 100,0%

Las frecuencias (no acumuladas) pueden ser representada gráficamente


mediante un histograma (gráfico de barra) o un polígono de frecuencia y las
frecuencias acumuladas mediante una ojiva. También es posible utilizar esta tabla de
distribución de frecuencias para calcular los estadísticos que sean de interés.

Pág. 5
El histograma es un gráfico de columnas, donde cada barra representa la
frecuencia de cada clase, cuyas bases están definidas por las fronteras o límites reales de
las clases y su altura está dada por la correspondiente frecuencia (absoluta, relativa o
porcentual).

Ejemplo:
Simce 2005 - 4º Básico - Los Ángeles
Lenguaje
14

12

10

4
Frecuencia

Desv. típ. = 29,64


2
Media = 239,9

0 N = 76,00
180,0 200,0 220,0 240,0 260,0 280,0 300,0
190,0 210,0 230,0 250,0 270,0 290,0 310,0

Lenguaje

El polígono de frecuencias es un gráfico de líneas, donde se unen mediante


un segmento rectilíneo cada uno de los puntos adyacentes definidos por las marcas de
clases y su correspondiente frecuencia, en cualquiera de las escalas (absoluta, relativa o
porcentual). El gráfico se completa considerando marcas de clases adicionales en los
extremos con frecuencia nula. Es útil para comparar datos provenientes de dos o más
poblaciones.

Ejemplo:
Pág. 6
Simce 2005 - 4º Básico - Los Ángeles
25

20

N úm ero de E stablecim ientos


15

10

0
165 185 205 225 245 265 285 305 325 345
Puntaje

Lenguaje Matemática Comprensión

La ojiva es un gráfico de líneas donde cada uno de los puntos adyacentes


que se unen mediante un segmento rectilíneo, están definidos por las fronteras
superiores y su correspondiente frecuencia acumulada en cualquiera de las escalas. El
gráfico se completa considerando la primera frontera inferior con frecuencia acumulada
nula. La ojiva permite estimar gráficamente los distintos percentiles de una
distribución de datos continuos.

Ejemplo:
Simce 2005 - 4º Básico - Los Ángeles
100,0%

80,0%
Porcentaje Acumulado

60,0%

40,0%

20,0%

0,0%
175 185 195 205 215 225 235 245 255 265 275 285 295 305 315

Puntaje en Lenguaje

Pág. 7
Otra forma de tabular u ordenar los datos no agrupados es mediante un
diagrama de tallo y hoja en el cual se definen categorías, denominados tallos,
considerando el o los primeros dígitos de los datos y luego se utiliza el siguiente dígito,
las hojas, para clasificar cada dato en su correspondiente tallo. Se recomienda que el
número de tallos esté entre 5 y 15, si es necesario se pueden dividir un tallo en dos,
clasificando en la primera mitad las hojas 0, 1, 2, 3, 4 y en la siguiente mitad las hojas 5,
6, 7, 8 y 9. También es posible fusionar dos tallos adyacentes a objeto de reducir el
número total de tallos. Para la construcción de este tipo de diagrama las hojas se
ordenan ascendentemente dentro de cada tallo y finalmente se calcula la profundidad
de cada tallo, que corresponde a la frecuencia acumulada absoluta ascendente en la
primera mitad y a la frecuencia acumulada absoluta descendente en la segunda mitad.
Si existe una única clase central la profundidad de ésta corresponde a su frecuencia
absoluta.

Ejemplo:

Número Simce de alumnos por establecimiento


2005 – 4º Básico – Los Ángeles
Frecuencia Tallo&Hoja

32 0 . 00000000000000000001111111111111
19 0 . 2222222222333333333
11 0 . 44444445555
12 0 . 666666677777
3 0 . 889
4 1 . 0011
1 Extremes (>=177)

Stem width: 100


Each leaf: 1 case(s)

También dentro de otras forma de representación gráfica se utiliza el


llamado box-plot o gráfico de caja, que es un gráfico que se construye a escala que
indica mediante un rectángulo el cincuenta por ciento central de los datos, es decir, este
rectángulo queda limitado por el primer y tercer cuartil de los datos. La caja o
rectángulo se subdivide en la localización de la mediana y se agregan segmentos
rectilíneos en los extremos, llamados bigotes, que se extienden hasta L1 = máx{xmin, Q1 -
1.5RQ} en el límite inferior, y hasta L2 = min{xmáx, Q3 + 1.5RQ} en el límite superior. Si
existen datos inferiores a L1 o mayores a L2 se indican mediante puntos y se consideran
datos atípicos o anómalos. También se puede indicar mediante un asterisco la
Pág. 8
ubicación del valor del promedio. Este tipo de gráfico permite además detectar niveles
de dispersión y asimetría, y son de gran utilidad para comparar gráficamente grupo de
datos provenientes de distintas poblaciones.

Ejemplo:
Simce 2005 4º Básico Los Ángeles
340

320

300

280

260

240

220

Ruralidad
Matemática

200

40
180 R

160 U
N= 23 6 6 13 1 16 1 7 3

A B C D E

Grupo

Pág. 9

También podría gustarte