Está en la página 1de 9

1

Introducción a la estadística

La palabra estadística tiene fundamentalmente dos significados. El primero


de ellos se refiere a datos clasificados, especialmente numéricos, acerca de una
clase de objetos. Así, se habla de estadísticas de accidentes automovilísticos,
estadísticas de salud, de natalidad, de deportes, etc. En un segundo significado,
se llama estadística a la ciencia que trata de la recolección, análisis, interpretación
y representación de datos numéricos.

La estadística tiene su origen en dos áreas de interés que en apariencia tienen


muy poco en común: la ciencia política y los juegos de azar. Quizá aquellos que
hayan seguido la carrera de algunos líderes políticos conciban la vida política
como un juego de azar en el que en ciertos periodos o sexenios la fortuna les
sonríe, mientras que en otros periodos sólo son víctimas de ataques, o peor aún,
del olvido. Sin embargo, veremos en este curso que estas dos disciplinas tienen
mucho más en común.

Los gobiernos han tenido interés desde la antigüedad en contar las personas,
sus propiedades y en especial los impuestos que recaudaban o podían recaudar.
Ya en el Antiguo Testamento se mencionan censos de carácter militar, mientras
que en Babilonia, China, Egipto y Roma se elaboraron censos con propósitos
fiscales. El primer censo del que se tiene noticia en México data del año 1116,
cuando el rey chichimeca Xólotl ordenó que fueran censados todos sus súbditos.
Para contarlos, cada uno tiró una piedra en un montón llamado nepohualco
(contadero). Se formaron así doce montones de piedras y, de acuerdo con los
códices, el resultado arrojó la cifra de 3 200 000 personas. Durante la Colonia se
levantaron varios censos de población y recuentos demográficos de los que no se
tienen los datos. Pero en 1790 el virrey Revillagigedo ordenó el trabajo estadístico
más completo de la Colonia, del que se conservan 40 tomos en el Archivo General
de la Nación. Desde fines del siglo XIX, salvo en la época de la Revolución
Mexicana, se han conducido Censos Generales de Población y Vivienda cada 10
2

años. Es a través de su lectura que vemos cómo ha evolucionado la sociedad


mexicana a lo largo del tiempo. Los problemas asociados a la descripción,
resumen y análisis de los datos de los censos ha dado lugar al desarrollo de
métodos que constituyen una de las partes de la estadística que más ha sido
estudiada, la estadística descriptiva.

Aun cuando la estadística descriptiva es muy importante y se emplea


ampliamente, la mayoría de la información estadística proviene de observaciones
efectuadas a una pequeña proporción del conjunto total. Como resultado de esto,
la estadística inferencial ha desarrollado técnicas que permiten hacer
predicciones a partir de datos conocidos, o bien, obtener información acerca de
una población conociendo únicamente a algunos representantes de ella. Con los
métodos de la estadística inferencial es posible, por ejemplo, predecir los
resultados de una elección (con base en la opinión previa de algunos
ciudadanos), estimar la vida de un circuito electrónico (con base en el desempeño
que han tenido algunos circuitos semejantes), comparar la efectividad de dos
dietas para reducir de peso (con base en la pérdida de peso que han tenido
algunas personas que se han sometido a estas dietas), determinar cuál es la
dosis adecuada de cierto medicamento (con base en estudios realizados con
enfermos voluntarios), o bien, predecir el flujo de vehículos en una autopista que
se va a construir (con base en el tráfico que tienen carreteras alternativas en
uso).

En cada una de las situaciones arriba mencionadas hay incertidumbre en las


respuestas que es posible darle a cada una. Esto se debe a que la información
con que se cuenta es indirecta, parcial o incompleta, y es con el uso de los
métodos de la estadística inferencial que podemos juzgar la confiabilidad del
circuito electrónico, la eficiencia de cada una de las dietas, el beneficio y
contraindicaciones de un medicamento, así como la necesidad de construir la
autopista, o bien, de emplear estos recursos en alguna otra obra de mayor interés
para la comunidad.
3

Las técnicas de la estadística inferencial tienen su origen en la teoría de juegos


de azar. Sólo que en el contexto de la estadística en general no hablamos de
águila o sol, o de dos pares o tercia, sino de situaciones diversas como de niño o
niña, sanar o morir, funcionar o fallar, fumar causa cáncer o si cierto candidato
será el próximo presidente municipal. Para analizar este tipo de situaciones
necesitaremos de la teoría de probabilidad, que es el fundamento de la
estadística inferencial.

El empleo de la estadística tanto en la vida profesional como en multitud de


aspectos de la vida personal ha aumentado considerablemente en las últimas
décadas. Esto se debe, por un lado, a la necesidad de aplicar métodos
cuantitativos en muchas áreas del quehacer humano, tales como la
administración de empresas, las finanzas, la medicina, la psicología, la
producción, la contaminación ambiental, la política, etc. Por otro lado, la
tecnología computacional ha avanzado considerablemente y hoy en día es
posible manipular datos de manera sencilla y eficiente con el uso de paquetes
estadísticos o de una hoja de cálculo en una computadora personal.
Debemos enfrentamos todos los días situaciones donde la estadística y la
probabilidad juegan un papel importante. Es indispensable contar con
conocimientos de estadística y probabilidad para entender la variabilidad y la
incertidumbre en una encuesta de intención de voto antes de unas elecciones, en
un reporte médico donde se correlaciona cierta enfermedad con ciertos hábitos, o
bien, en la calidad de un lote de artículos donde se analizó una pequeña muestra.

Tenemos la certeza de que una vez que hayas trabajado el material de este
curso introductorio contarás con una herramienta poderosa y sencilla que te
permitirá tomar decisiones racionales a lo largo de tu vida profesional, y serás
capaz de juzgar críticamente la información estadística que a diario es colectada,
procesada y difundida al público.
4

Distribuciones de frecuencia

La institución oficial en México que se encarga de recolectar, clasificar y


analizar datos es el Instituto Nacional de Estadística, Geografía e Informática
(INEGI). Los datos que recolecta el INEGI abarcan multitud de aspectos de la
vida social y económica del país. Tomemos por ejemplo los matrimonios que
ocurrieron en México durante el año de 1995. En este periodo se efectuaron
658 114 matrimonios. Para cada uno de estos matrimonios, el Registro Civil
guarda un expediente que contiene piezas de información tales como los
nombres de los contrayentes, sus fechas de nacimiento, edad, lugar de
residencia, nacionalidad, ocupación, escolaridad, etc. ¿Cómo podríamos
presentar todo este universo de datos e información de manera sencilla? Para
difundir los resultados de sus estudios, el l. N. E. G. I los agrupa y ordena de
manera que sea posible obtener una visión global clara sin perder mucha
información. Es obvio que debido a la variedad de información que contiene
cada expediente, es necesario seleccionar algún aspecto de interés para
agrupar y ordenar toda esta información. Esta selección depende
indudablemente de los aspectos que deseamos estudiar y analizar. Un
aspecto de interés general es la edad de los contrayentes, mientras que saber
cuántos Manueles se casaron con Luceros, o cuántos hombres de signo
acuario se casaron con mujeres de signo escorpión sólo podrá ser de interés
para los miembros del Club de Admiradores de Lucerito o aquellos que no
pueden realizar ninguna actividad sin antes conocer su horóscopo del día.

Con frecuencia agrupamos los datos en cierto número de clases (llamados


también intervalos o categorías) como 10 muestra la siguiente tabla de
matrimonios en México durante 1995.
5

Una tabla como esta es llamada una distribución de frecuencias. La


mayoría de los intervalos en esta distribución son de cinco años. Observemos
que al escoger estas clases la información se simplifica considerablemente;
de no ser así, la tabla tendría más de 75 renglones, correspondientes a las
edades de los contrayentes. Por supuesto que al hacer esta simplificación se
pierde cierta información. Por ejemplo, a partir de la distribución de frecuencia
podemos observar que durante 1995 se casaron casi el doble de mujeres
entre los 15 y 19 años que entre los 25 y 29 años, pero no podemos
determinar si hubo más matrimonios de mujeres de 18 años que de mujeres
de 26 años.

Con excepción de la primera y la última, las clases están determinadas


por una pareja de números, llamados límites de la clase. Por ejemplo, los
límites de la tercer clase son 20 y 24. De hecho, los valores 15, 20,25,...,45
son llamados límites inferiores, mientras que los valores 19, 24,29,...,49 son
los límites superiores. Ala diferencia entre el límite superior de una clase y el
límite superior de la clase anterior se conoce como el intervalo de la clase.
Por ejemplo el límite superior de la tercera clase es 24 y el límite superior de
la segunda es 19 de modo que el intervalo de la clase es 24 -19 = 5.
6

Si las clases en que agrupamos los datos son determinadas por intervalos
numéricos, como en el caso anterior, decimos que la distribución es numérica
o cuantitativa. Cuando los datos no son agrupados en clases numéricas la
distribución es categórica o cualitativa, como la siguiente tabla que nos
muestra los divorcios ocurridos en el país durante 1995 de acuerdo a sus
causas.

El diseño de una distribución de frecuencias depende esencialmente de cómo


seleccionamos las clases. Para las distribuciones numéricas esta elección es
arbitraria, pero hay algunas reglas generales que es conveniente observar:

1. El número de clases en general debe ser entre 5 y 15, dependiendo del


número de observaciones o datos que debemos agrupar.

Por ejemplo, si se tienen únicamente 8 datos, resultaría absurdo agruparlas


en una distribución de 12 clases, donde varias de ellas resultarían vacías.
Asimismo, perderíamos mucha información si decidiéramos agrupar los 658 114
matrimonios durante 1995 en sólo tres o cuatro clases.

2. Cada dato debe pertenecer a exactamente una clase.


7

Esto significa que debemos elegir las clases de tal manera que dos clases no
tengan datos en común y que además cualquier dato pertenezca a una clase.

3. Siempre que sea posible, elegir clases con intervalos numéricos iguales.

La tabla de distribución de matrimonios por edades de la contrayente cumple


casi todas estas reglas, a excepción de la última, ya que la primera y la última
clase no están determinadas por un intervalo de cinco años. La primera
corresponde a matrimonios donde la contrayente es menor de 15 años, mientras
que la última corresponde a matrimonios donde la contrayente tiene 50 o más
años. A este tipo de clases se les llama abiertas y están definidas por expresiones
como "ó mayores", "mayores que", "ó menores" o "menores que". Una regla .que
siempre hay que considerar es la siguiente: cuando empleamos clases abiertas
es deseable que, con el fin de no perder demasiada información, éstas contengan
pocos datos en relación con el resto de las clases.

Consideremos ahora los resultados de un examen de física practicado a un


grupo de 30 alumnos. La siguiente tabla muestra las calificaciones de este
examen.
8

Como se trata de calificaciones escolares, los maestros usualmente


aplican la regla que de medio punto para arriba la calificación sube, mientras
que abajo de medio punto no sube, por lo que en este caso es razonable
agrupar los datos de acuerdo con la calificación que recibirán. Esto nos
sugiere que en general la elección de los intervalos de las clases depende
del fenómeno que estamos analizando.

La cuarta clase, por ejemplo, corresponde a los exámenes que recibirán 7 de


calificación en la boleta, esto es, a los exámenes con calificación mayor o igual a
6.5 y menor o igual a 7.4. Así, 6.5 es el límite inferior de esta clase y 7.4 es el
límite superior de esta clase. Para la tercer clase, estos límites son 5.5 y 6.4,
respectivamente. El intervalo de la cuarta clase es entonces 7.4 -6.4 = 1. Sin
embargo, si los valores numéricos de las calificaciones son más detallados y
contienen dos o más decimales, sería necesario cambiar los límites de las clases
a 6.5 y 7.49, o quizás, a 6.5 y 7.499. Para evitar este tipo de ambigüedad es
conveniente considerar otro concepto análogo a los límites de la clase, el de los
valores divisorios o frontera de una clase. Un dato pertenece a la primer clase si
su valor es mayor o igual a 3.5 y menor que 4.5, un dato pertenece a la segunda
9

clase si su valor es mayor o igual que 4.5 y menor que 5.5, etc. En este caso los
valores divisorios de las clases serían entonces 3.5, 4.5, 5.5,...,9.5, 10,

Al promedio entre los valores divisorios de una clase le llamamos la marca de


la clase o el punto medio de la clase. Por ejemplo, para la cuarta clase sus valores

Divisorios son 6.5 y 7.5 por o que su marca o punto medio es (6.5+7.5)/2 que
es precisamente la calificación asignada en la boleta para los exámenes que caen
en esta clase.

También podría gustarte