Está en la página 1de 36

La Estadística en la Educación

Básica y Media
OBJETIVOS: presentar una visión general de la Estadística y
sus aplicaciones, los procedimientos para recolección de datos,
su clasificación y organización, los requerimientos de una buena
investigación por muestreo y los errores que se pueden cometer
en una encuesta.
Mostrar cómo grandes conjuntos de datos numéricos pueden
organizarse y presentarse de manera eficaz, con el propósito de
favorecer el análisis y la interpretación de los datos, aspectos
claves del proceso de planificación y toma de decisiones.
Describir de manera conveniente las características de los datos
mediante tablas, diagramas y representaciones gráficas; es decir
presentar las técnicas básicas para realizar el análisis de los
datos.
Motivar a directivos y profesores de colegios para que la
estadística sea considerada importante en la formación y el
curriculum académico del estudiante, con la finalidad de que
forme parte de la cultura general en nuestro país.

1. INTRODUCCION

La estadística se origina en los propósitos de los gobiernos


(naciones o estados) de tener información sobre su población y
recabar datos sobre sus ciudadanos, su desarrollo se favorece
con el florecimiento en las matemáticas de la teoría de las
probabilidades.

Cada día es más importante el contar con información para las


actividades de planificación y toma de decisiones en cualquier
ámbito institucional, por ello las empresas públicas y privadas
requieren tener información relevante y confiable sobre su
campo de acción con los menores costos posibles.

La estadística comprende las técnicas de recolección,


presentación y análisis de datos para apoyar la tarea de
planificación y aportar al proceso de toma de decisiones, y
abarca también los métodos que permiten verificar o rechazar
ciertas conjeturas relacionadas con la investigación en diversas
ciencias.

La estadística se puede aplicar en diversos campos:


contabilidad, finanzas, administración, mercadeo, medicina,
economía, ingeniería, etc..

Actualmente el mundo se caracteriza por la globalización con


un mayor acceso a la información, sus fuentes son diversas:
publicaciones gubernamentales, industriales, gremiales, etc., en
forma impresa (libros, revistas, periódicos) o usando la
tecnología multimedia, se obtienen datos de registros
electrónicos, mediante sistemas de recuperación de información
y de bases de datos en línea, o mediante el uso de la autopista
de la información INTERNET. Los medios electrónicos, como
el CD-ROM, han revolucionado el acceso a la información.

El gobierno es un importante recolector y compilador de datos


con propósitos tanto públicos como privados.

Hay que distinguir entre el recolector original de los datos,


denominado fuente primaria, y el organizador que compila
estos datos en tablas y diagramas, llamado fuente secundaria.
En nuestro país, el Banco Central y el Instituto Nacional de
Estadística y Censos, INEC, son entidades responsables de
recolectar datos sobre variables económicas, financieras,
sociales y demográficas.

2
Sin embargo en muchas ocasiones no existe la información que
requerimos, y para obtenerla debemos diseñar un experimento,
o realizar un estudio basado en la observación del
comportamiento de interés, o hacer una investigación por medio
de una encuesta dirigida a una muestra de la población objeto
del estudio.

En la actualidad se recogen datos con la finalidad de utilizarlos


en diversos propósitos relacionados con estudios de
investigación científica, planificación para el desarrollo de un
proyecto, para contribuir en un proceso de toma de decisiones,
medir el desempeño de un proceso de producción o de un
servicio, realizar un estudio de mercado, o simplemente para
satisfacer nuestra curiosidad.

La estadística comprende dos partes fundamentales:

a) La estadística descriptiva: que son los métodos que


involucran la recolección, presentación y análisis de un
conjunto de datos con el fin de describir apropiadamente
sus diversas características. Su desarrollo se ha dado
por la necesidad de información relevante de amplias
poblaciones.

b) La estadística inferencial: que puede definirse como


aquellos métodos que hacen posible la estimación de
una característica de una población basándose solamente
en los resultados de una muestra. Su desarrollo se ha
dado a principios del siglo XX y tienen amplia
aplicación en todos los campos de la investigación en la
actualidad.

3
Para aclarar estos términos, en el siguiente tema, se introducen
algunas definiciones fundamentales.

2. DEFINICIONES BASICAS

 Población (o universo): es el conjunto de todos los


elementos considerados como objetivo del estudio y del
cual queremos obtener sus características.

 Muestra: es la porción de la población que se


selecciona para su análisis, es el objetivo de la encuesta
o del experimento, que será de utilidad para poder
obtener las conclusiones sobre la población.

 Parámetro: es una medida de resumen para describir


una característica de toda una población.

 Estadístico(a): es una medida de resumen para describir


una característica de una muestra de la población.

Para que un análisis estadístico sea útil los datos de entrada no


deben contener errores, puesto que si entra basura saldrá
basura.

3. TIPOS DE DATOS

Los datos son los resultados observados de diversas


características, de los elementos de una población de estudio,
llamadas variables aleatorias.

Existen básicamente dos tipos de datos o de variables


aleatorias:

4
Datos categóricos (variables cualitativas) y datos numéricos
(variables cuantitativas).

La variable es categórica si sus valores observados se los


clasifica en categorías caracterizadas por una cualidad. Por
ejemplo, en una encuesta, las respuestas a las preguntas: ¿Cuál
es su estado civil?, ¿Posee usted vehículo?, ¿A qué partido
político pertenece?, En qué medida está satisfecho con el
trabajo que desempeña: poco, medianamente, o mucho?, ¿Usted
tiene hijos? son categóricas.

Las variables categóricas se clasifican en dos grupos, pueden


ser nominales u ordinales.

Variable Nominal, si los datos observados se clasifican en


diversas categorías que no implican ningún orden, por ejemplo
el estado civil, el sexo, el partido político, o si tiene o no hijos.

Variable Ordinal, si los datos se clasifican en categorías que


implican algún orden, por ejemplo la medida de satisfacción en
el trabajo que desempeña (poco en menos que medianamente y
este es menor a mucho).

La variable es numérica si sus valores observados son números,


es decir representan una cantidad o una medida. Por ejemplo,
las respuestas a las preguntas: ¿Cuántos vehículos posee? ¿A
cuántas revistas está suscrito actualmente?, ¿Cuántos hijos
tiene?, ¿Cuál es su estatura?, ¿Cuánto pesa? son claramente
numéricas.

Las variables numéricas se clasifican en dos grupos, pueden ser


discretas o continuas.

5
Variable discreta si los datos corresponden a respuestas
numéricas que provienen de un proceso de conteo.

Variable continua si los datos corresponden a respuestas


numéricas que surgen de un proceso de medición.

4. ENCUESTAS POR MUESTREO

Para realizar una encuesta por muestreo previamente se debe


determinar con precisión que información se necesita obtener,
es decir establecer claramente los objetivos de la investigación,
y posteriormente se requiere planificar y ejecutar una serie de
actividades para lograr el éxito deseado.

Las principales tareas son: definir cuidadosamente la población,


establecer el o los marcos de muestreo de manera que la lista de
unidades muestrales y la población concuerden lo mejor posible,
seleccionar el diseño de muestreo y el método de entrevista,
elaborar el cuestionario, capacitar a los encuestadores y
supervisores, realizar una prueba piloto, organizar el trabajo de
campo, sistematizar el manejo, validación y análisis de los datos
y finalmente calcular las estimaciones para obtener la
información requerida.

El cuestionario es un instrumento que contiene varias preguntas


que trata sobre una diversidad de fenómenos o características
de una población, denominadas variables aleatorias.

Como ya se ha dicho, los datos son los resultados observados


de estas variables aleatorias.

Después de que se han determinado las preguntas numéricas y


categóricas más esenciales de la encuesta, se procede a

6
determinar el diseño y el tamaño de la muestra con los
requerimientos más rigurosos.

Existen básicamente dos tipos de muestras: la muestra no


probabilística y la muestra de probabilidad o aleatoria (al azar).

Una muestra de probabilidad o aleatoria, es aquella en la que


los elementos de la muestra se eligen sobre la base de
probabilidades conocidas.

La única forma de que hagamos inferencias estadísticas


correctas de una muestra a una población, es mediante el uso de
una muestra de probabilidad.

Los cuatro diseños o tipos de muestras probabilísticas de uso


común son: la muestra aleatoria simple, la muestra sistemática,
la muestra estratificada y la muestra de agrupación o
conglomerados; un análisis detallado de estos procedimientos
de muestreo pueden encontrarse en libros sobre investigación
por muestreo (en inglés: Sample Survey).

5. MUESTREO ALEATORIO SIMPLE

En una muestra aleatoria simple cada individuo o elemento


tiene la misma oportunidad de selección que cualquier otro, y la
selección de un elemento en particular no afecta la probabilidad
de que se elija cualquier otro.

Una muestra aleatoria simple también puede interpretarse


como aquella en la que cada posible muestra extraída (de
determinado tamaño) tiene la misma probabilidad de selección
que cualquier otra muestra que se pueda extraer (de ese mismo
tamaño).

7
El proceso de selección de una muestra aleatoria simple no
necesariamente es el mejor o el más económico de los métodos
de muestreo de probabilidad, pero proporciona la base a partir
de la cual han evolucionado los otros procedimientos.

La clave de una selección apropiada es obtener y mantener una


lista actualizada de todas las unidades de muestreo, entre las
cuales se extraerá la muestra, tal lista se conoce con el nombre
de marco de población.

Las unidades de muestreo son agrupaciones, no traslapadas, de


elementos de la población, que la cubren completamente; en
otras palabras forman una partición de la población

Por tanto el marco de población es sencillamente una lista


(numerada) de todas las unidades de muestreo. Se denomina
marco de lista de la población si cada unidad de muestreo
contiene un solo elemento de la población, en este caso la
numeración va desde uno (1) hasta el tamaño de la población
(N).

Por ejemplo si la población es el conjunto de los estudiantes de


los colegios del país, un marco de población podría ser la lista
de todos los colegios del Ecuador, en cambio el correspondiente
marco de lista de la población es el listado de todos los
estudiantes colegiales. Si la población es una determinada
ciudad, marcos de población podrían ser la lista de todos los
barrios, de todas las manzanas o de todas las parroquias urbanas
que la conforman, su respectivo marco de lista sería un listado
de sus ciudadanos.

El marco de población sirve como la población objetivo, de


manera que, si el marco es adecuado, cada muestra es una

8
representación en miniatura de la población, y por tanto se
espera obtener estimaciones razonables de sus características.

Si el listado es inadecuado, porque ciertos elementos de la


población se encuentran repetidos, o no estuvieran incluidos, la
muestra de probabilidad sólo proporcionará estimaciones de las
características de la población objetivo y no de la población
real, puesto que estas fallas pueden ocasionar sesgos o
desviaciones en los resultados.
Designamos por N el tamaño de la población, y n el tamaño de
la muestra.

Para extraer una muestra aleatoria simple de tamaño n, se


podría registrar los nombres, o los correspondientes números,
de los N miembros del marco de lista de la población en fichas
del mismo tamaño, colocar estas fichas en una gran urna,
mezclar a fondo las fichas y luego seleccionar aleatoriamente
(sacar al azar) los n elementos de la urna, los mismos que
formarían la muestra.

El método de la urna tiene algunas desventajas: nuestra


habilidad para mezclar a fondo las fichas para que la extracción
sea aleatoria, y la inmensa cantidad de fichas que deberíamos
elaborar si N es demasiado grande.

Uno de los métodos que se utiliza para obtener la muestra es el


uso de números aleatorios.

Nuestro sistema numérico usa diez dígitos: 0,1,2,3,4,5,6,7,8,9.


Se puede usar entonces una urna que contenga esferas o fichas
numeradas con los diez dígitos (y sacarlos al azar con
reposición). Entonces la probabilidad de generar aleatoriamente
cualquier dígito es igual a 1/10 para todos.

9
Numerados los elementos del marco de lista de la población, se
obtiene la muestra aleatoria seleccionando aquellos miembros
cuyos códigos concuerden con los dígitos extraídos de la urna.

Por ejemplo, si deseamos una muestra, de n=50 elementos


distintos, seleccionada de una población de N=782 elementos,
se formarán por lo menos cincuenta números de tres dígitos
(pues se eliminan los números repetidos y no se toman en
cuenta los mayores a 782 y el 000) hasta completar los
cincuenta requeridos.
6. EVALUACION DE UNA ENCUESTA POR
MUESTREO

Una buena investigación por muestreo requiere tener los


objetivos claros, una apropiada planificación y una buena
ejecución de todas las actividades programadas.

Es de fundamental importancia realizar una encuesta piloto, con


una muestra muy reducida, con la finalidad de probar el
cuestionario y todos los instrumentos que se utilizarán en los
diversas etapas, de modo que se corrijan los errores y se puedan
evaluar los procesos y sus costos.

Para una buena recolección de datos se debe adiestrar a los


encuestadores sobre las definiciones operacionales de la
encuesta, es decir sobre el significado de cada variable, de
modo que no existan ambigüedades en las preguntas
correspondientes; se requiere además organizar detalladamente
el trabajo de campo, estableciendo claramente las obligaciones
del personal y las líneas de autoridad.

Son extremadamente importantes también las actividades de


codificación, validación y análisis de datos, puesto que se

10
deben examinar las respuestas buscando su integridad y posibles
errores para corregirlos.

Para valorar una investigación por muestreo hay que verificar si


se han considerado estas recomendaciones y realizado
eficientemente todas las actividades antes mencionadas.

Es claro que hay una proliferación de investigaciones de


encuestas de opinión, pero no toda investigación es buena,
significativa o importante.

Es esencial que aprendamos a evaluar críticamente lo que


leemos o escuchamos y que descartemos las encuestas que
carezcan de objetividad y credibilidad.

El primer paso para evaluar una encuesta es determinar si se


basó en una muestra de probabilidad o en una no probabilística;
puesto que la única forma de que hagamos inferencias
estadísticas correctas es a través del uso de una muestra
aleatoria.

Las encuestas de muestreo no probabilístico están sujetas a


graves sesgos o desviaciones, tal vez no intencionales, que
pueden invalidar sus resultados. Hay ejemplos de medios de
comunicación muy importantes que han cometido graves
equivocaciones basados en encuestas mal realizadas.

Aún cuando las encuestas empleen métodos de muestreo de


probabilidad aleatorios, están sujetas a errores potenciales, que
se pueden clasificar en cuatro tipos:
Error de cobertura: debido a duplicaciones, omisiones o
inclusiones erradas en el marco de muestreo.
Error de no respuesta: causado por el fracaso de recolectar
datos sobre los elementos de la muestra.

11
Error de medición: que se refiere a inexactitudes en las
respuestas registradas.
Error de muestreo: que refleja la heterogeneidad, o las
diferencias de oportunidad, entre las muestras.

Puesto que la muestra esta formada por elementos particulares,


dictados por el azar, que es una representación en miniatura de
la población, una buena investigación debe declarar el margen
de precisión, se dirá por ejemplo: “se espera que los resultados
de este sondeo estén dentro de +-5 puntos porcentuales del
valor real”.

7. CLASIFICACION ORDENADA DE LOS DATOS.

Cuando se elabora un conjunto de datos, las observaciones


numéricas no tienen ningún orden o secuencia particular ni
tampoco se encuentran agrupados por similares cualidades o
características.

Al crecer el número de observaciones, se hace más difícil


observar las principales características del conjunto de datos, se
requiere entonces organizar las observaciones, de tal manera
que entendamos mejor la información que contienen los datos,
para lograrlo se han desarrollado diversos métodos, algunos
fundamentados en gráficos y diagramas, otros en ciertas
medidas numéricas, y varias técnicas fundamentadas en
diferentes tipos de análisis matemáticos.

La primera forma que permite organizar los datos de modo que


se pueda apreciar ciertas características es realizar una
clasificación ordenada de los datos respecto a la variable de
interés.

12
Ejemplo 1: los siguientes datos corresponden al número
(aproximado y en miles) de Unidades de Producción
Agropecuarias (UPAs) de cada provincia del país (resultados
del Censo Nacional Agropecuario CNA del año 2000)

Prov AzuaBoli Caña Carc Coto ChimElOrEsme Gala Guay Imba


UPAs 99 39 32 13 68 82 22 16 1 65 34

Mo ZNA
Loja LoRiMana Sa Napo Orel Past Pich Sucu Tung ZaCh s
66 42 75 17 5 6 5 64 8 71 9 4

La clasificación ordenada de estos datos es la siguiente:

ZNA Mo
Prov Gala s Napo Past Orel Sucu ZaCh Carc Esme Sa ElOr
UPAs 1 4 5 5 6 8 9 13 16 17 22

Caña Imba Boli LoRi Pich Guay Loja Coto Tung Mana Chim Azua
32 34 39 42 64 65 66 68 71 75 82 99

De esta tabla se puede determinar inmediatamente algunas


características, como por ejemplo: la provincia que menos
UPAs tiene es Galápagos (aproximadamente un mil), la que
tiene mayor cantidad es Azuay (con alrededor de 99 mil); la
provincia que corresponde a la mediana es Cañar con 32 mil
UPAs.

Ejercicio 1: Realizar la clasificación ordenada de los datos


correspondientes al número (aproximado y en miles) de
habitantes de cada provincia del país (resultados del Censo
Nacional de Población y Vivienda del año 2001)

13
Prov Azua Boli Caña Carc Coto Chim ElOr Esme Gala Guay Imba
UPAs 600 169 207 153 350 404 526 385 19 3309 344

Mo ZNA
Loja LoRiMana Sa Napo Orel Past Pich Sucu Tung ZaCh s
405 650 1186 115 79 86 62 2389 129 441 77 73

La mejor manera de examinar datos es presentarlos en forma de


resumen construyendo tablas y diagramas apropiados, de
manera que podamos extraer las características más importantes
de los datos.

8. CARACTERÍSTICAS DE LOS DATOS

Las tres principales características que dan la posición relativa


del conjunto de datos son: la localización o tendencia central, la
dispersión y la simetría.

Tendencia central o localización: es una cantidad cerca de la


cual se encuentran los valores del conjunto de datos, se la mide
mediante un valor junto al cual se agrupa la mayoría de las
observaciones. Una medida de tendencia central es, por
ejemplo, la media o promedio de los datos.

Ejercicio 2: (a)Calcular el promedio provincial del número de


UPAs (datos del ejemplo 1). (b) Encontrar la media provincial
del número de habitantes (referirse al ejercicio1).

Dispersión: es una medida de la variación que existe entre los


valores del conjunto de datos, mide que tan dispersos están los
datos, usualmente en relación con un valor central. Por ejemplo

14
el rango o extensión (la diferencia entre el valor máximo y el
mínimo) es un medida de dispersión.

Ejercicio 3: Hallar el rango de los datos del ejemplo 1 y del


ejercicio 1.

Simetría (y asimetría): el conjunto de datos es simétrico cuando


los valores de los datos están distribuidos en la misma forma
por encima y por debajo del valor central del conjunto de datos.

9. DIAGRAMAS Y GRÁFICOS

Puesto que la tabla o matriz de los datos no muestra las


cualidades de los datos, se usan representaciones gráficas que
ayudan a captar tendencias, apreciar características y establecer
modelos probabilísticos de comportamiento global.

En general un diagrama o un gráfico, en donde están


representados los datos, sirve para resumir el conjunto de las
observaciones y advertir sus carácterísticas de localización, de
dispersión , de simetría y la presencia de valores atípicos.

Los diagramas y gráficos que comúnmente son utilizados, para


organizar las observaciones de modo que entendamos mejor la
información que contienen y apreciemos sus características, se
presentan a continuación:

Diagrama de puntos: cada observación se representa mediante


un punto sobre la recta numérica.

15
Representación de puntos del ejemplo 1

0 20 40 60 80 100

Ejercicio 4: hacer el diagrama de puntos de los datos del


ejercicio 1.

Diagrama de tallo y hojas: a los datos se los clasifica


considerando, por ejemplo, las unidades, o las decenas, o las
centenas, etc., estas forman el tallo y se las coloca
verticalmente, a continuación se coloca los siguientes dígitos
para cada observación a la derecha de la barra vertical, estos
valores vienen a constituir las hojas, y así se van añadiendo
todas las observaciones; pueden realizarse variantes (por
ejemplo distinguiendo las cifras altas y las bajas).

Un diagrama de tallo y hojas con los datos correspondientes al


número de UPAs (ejemplo 1) sería el siguiente:

9 9
8 2
7 1/5
6 4/5/6/8
4 2
3 2/4/9
2 2
1 3/6/7
0 1/4/5/5/6/8/9
Ejercicio 5: Hacer al menos un diagrama (adicional) de tallo y
hojas con los datos del ejemplo 1, y dos diagramas con los
datos del ejercicio 1.

16
Gráfico de pastel: es una forma de resumir un conjunto de datos
categóricos. Es un círculo dividido en segmentos, donde el área
de cada uno de los segmentos es proporcional al número de
casos en la categoría correspondiente.

Para conocer el ángulo (medido en grados) podríamos aplicar


una simple regla de tres (proporción): si el número total de
datos corresponde a 360 grados, el número de casos en una
determinada categoría, ¿cuántos grados le corresponde?.

Adicionalmente, se suele indicar el porcentaje de cada


categoría.

Ejemplo 2: los siguientes datos corresponden al número de


habitantes (aproximado y en miles) de la población nacional por
categorías de área (urbana/rural) según el censo de población
2001.

Población Nacional Categorías


Total Urbana Rural
Número de habitantes 12156 7431 4725

17
Población Nacional Por Categorías de Area

Rural Urbana
38.9%
Urbana Rural
61.1%

Ejercicio 6: Hacer el gráfico de pastel con los respectivos


porcentajes de los siguientes datos del Censo de Población
(2001):

(a) Población nacional (número de habitantes) por (categorías


correspondientes al) sexo (hombre/mujer).

(b) Población de la provincia de Pichincha por sexo.

(c) Población de la provincia de Guayas por área.

(d) Unidades de Producción Agropecuarias (UPAs) por


categorías de tenencia de la tierra (referirse a los resultados del
CNA 2000)

(e) Población (nacional mayor a diez años) de analfabetos por


categorías quinquenales de edad.

(f) Población de analfabetos por categorías provinciales.

18
(g) Población (nacional masculina mayor a diez años) de
analfabetos por categorías quinquenales de edad
(respectivamente femenina)

(h) Población de hombres analfabetos por categorías


provinciales (respectivamente de mujeres).

(i) Población nacional mayor a doce años por categorías de


estado civil.

La representación de pastel se suele usar también con


cantidades si se han agregado las mismas en las
correspondientes categorías (ver ejercicio 9).

Se puede también usar el gráfico de pastel con datos numéricos


si previamente se ha creado una tabla de frecuencias (es decir se
han clasificado las observaciones en grupos o clases dados por
una partición en subintervalos) pero en este caso se usa
generalmente el gráfico de barras denominado histograma.

Gráfico de barras: los datos categóricos se exhiben mediante un


número de rectángulos, del mismo ancho, cada uno de los
cuales representa una categoría particular.

La longitud (y por lo tanto el área) de cada rectángulo es


proporcional al número de casos en la categoría que representa.

Ejemplo 3: considerar los datos, de la población nacional por


grupos de edad quinquenales, que se presentan a continuación:

Grupos 0a4 5a9 10 a 14 15 a 19 20 a 24 25 a 29


edad

19
N° 1337 1362 1341 1241 1169 947
habitantes
30 a 34 35 a 39 40 a 44 45 a 49 50 a 54 55 a 59 60 a 64
863 775 674 539 463 339 294
65 a 69 70 a 74 75 a 79 80 a 84 85 a 89 90 a 94 95 y más
244 195 143 97 63 39 32

Se prefiere realizar elhabitantes


Número de gráfico por
congrupos
las debarras
edad horizontales
especialmente cuando a continuación se va a representar una
pirámide,
90 a 94 años desagregando la población en dos categorías, en
nuestro caso, por ejemplo considerando el sexo, es decir la
80 a 84 años
población
70 a 74 años
de hombres a la izquierda y de mujeres a la derecha.
Ejercicio 7: realizar el gráfico de pirámide con los datos de la
60 a 64 años
población nacional por grupos de edad quinquenales,
50 a 54 años
considerando las categorías de sexo (hombres/mujeres) (ref.
40 a 44 años
censo de población).
30 a 34 años

Ejercicio
20 a 24 años8: realizar el gráfico de barras con los datos del

ejemplo 2.
10 a 14 años

0 a 4 años
Ejercicio 9:0 hacer
200 el gráfico
400 600de pastel,
800 y el 1200
1000 de barras,
1400 de
1600los
siguientes datos, que corresponden a la superficie (área)
N° habitantes
nacional según el uso del suelo (resultados del CNA 2000)

Uso del suelo (en miles de hectáreas)


Categ Cultiv. Cultiv. Descan. Pastos Pastos Páram Montes Otro
. Trans. o
y Cultiv. Natur. y Usos
Barbe Bosques
.
Super. 1363 1232 381 3357 1130 600 3881 411

20
Se pueden representar datos numéricos si se elabora
previamente una tabla de frecuencias, en este caso el gráfico se
denomina histograma (los detalles de este procedimiento se
exponen en el siguiente tema).

En algunos casos es conveniente representar los datos mediante


una combinación dos gráficos de pastel o de una representación
de pastel con una de barras, especialmente cuando una de las
categorías tiene una frecuencia muy grande comparada con las
otras, es decir uno o algunos porcentaje(s) demasiado(s) alto(s)
en relación de los demás.

Ejemplo 4: los siguientes datos corresponden al número


(aproximado y en miles) de Unidades de Producción
Agropecuarias (UPAs) según su condición jurídica (de acuerdo
al CNA 2000)

CONDICION JURIDICA
Cate- Persona Soc.Hecho Soc. Institució Otras
sin n
goría Individua Contrato Legal Pública Condiciones
l Legal
UPAs 577 56 10 9 13

Unidades de Produccion Agropecuarias Persona


10. DISTRIBUCIÓN DE FRECUENCIAS E HISTOGRAMAS
Individual

Sociedad de
Para crear la tabla de frecuencias con datos categóricos
Hecho se
8.4% 2.0%
cuenta el número de veces en la que aparece cada dato, es decir
se calcula el número de 4.8%elementos de cada una Sociedad
de las
1.4% Legal
categorías.
86.8%
1.5% Institución
Si los datos son numéricos se tiene que crear una partición
Pública del
intervalo que contiene a todos los valores, es decir dividirlo en
Otras
Condiciones

21
grupos de subintervalos, y se cuentan cuantos elementos están
en cada clase.

Se dispone esta información en dos columnas, la primera


indicando el grupo (categoría o clase) y la segunda su número
de elementos correspondiente (cardinalidad).

Luego se forma una tercera columna con la frecuencia relativa;


es decir, se divide la cardinalidad de cada grupo, para el número
total de datos (la misma que se puede expresar como
porcentaje).

Se suele calcular también una cuarta columna con las


frecuencias acumuladas, que resultan de sumar las frecuencias
relativas de todas las observaciones anteriores hasta la
considerada inclusive.

El Histograma es un gráfico de barras en el que se presentan


las frecuencias absolutas o las relativas (en porcentaje).

Se determina el número de grupos dependiendo del número de


observaciones, por ejemplo: si tenemos menos de 20
observaciones se seleccionar 4 clases, de 20 a 50 observaciones
se toman 5 clases, de 50 a 100 observaciones se escogen 6
clases, de 100 a 200 observaciones se suele elegir 7 clases, de
200 a 500 observaciones usualmente se seleccionan 8 clases, y
más de 500 observaciones se eligen 9 clases o más (en función
del número de datos).

En el caso de datos numéricos, la longitud de cada clase


(subintervalo) es igual a la extensión o rango de los datos
dividido para el número de clases.

22
Para cada observación se determina a que clase pertenece para
calcular la frecuencia absoluta de cada clase.

Histograma del ejemplo 1: Provincias por cantidad de UPAs


15 11
10
Provincias

4 5
5 3

0
De 1 a < 25.5 De 25.5 a <50 De 50 a <74.5 De 74.5 a 99
UPAs (en miles)

11. MEDIDAS DE LOCALIZACIÓN O TENDENCIA


CENTRAL

Una medida de localización es un valor en torno al cual


se agrupan la mayoría de datos, es una característica de
tendencia central de las observaciones, las más empleadas son:
el promedio o media muestral, la mediana, la moda y la media
simétricamente segada.

Promedio o media muestral (m): es igual a la suma de los


valores de las observaciones dividida para el número total de
datos (n). Se le denomina m o también x (x techo).

m = (  xi ) / n

Mediana (Q2): es el valor que se encuentra en el punto medio,


cuando se ordenan los valores de menor a mayor, se la denota
Q2. Si n=2p+1 (impar) entonces Q2=xp+1; y si n=2p (par)
entonces Q2=(xp+xp+1)/2
Moda (Mo): es aquel valor que tiene la mayor frecuencia
absoluta, se la representa por Mo.

23
Si los datos están dispuestos en una tabla de frecuencias
agrupados en clases (subintervalos) aquella que tiene la mayor
frecuencia se denominará clase modal y puede asumirse que, de
manera aproximada, la moda es su punto medio.

Media simétricamente segada al 10%: es igual al promedio de


las observaciones que quedan luego de eliminar el 5% de las
que tienen los valores más bajos y el 5% de las que tienen los
valores más altos.

Observemos que si cada dato xi está con su respectiva


frecuencia ni ; la media (el promedio) se puede calcular
evidentemente mediante la expresión:

m = (  ni xi ) / n

Cuando los datos están dispuestos en una tabla de frecuencias


agrupados en clases, se puede calcular el valor aproximado de
la media o la media segada considerando la suma de los
productos de los valores medios de las clases por su frecuencia
y dividiendo como siempre para el número de observaciones, es
decir usando la expresión anterior con xi igual al punto medio
de clase i (o sea: xi = (li+si)/2 donde li y si son respectivamente
los límites inferior y superior de la clase i).
Ejemplo 5: Usando los datos del censo de población, determinar
el promedio del número de hijos vivos que tienen las madres
ecuatorianas. De acuerdo con el cuadro N. 53, se tiene la
siguiente tabla de frecuencias por número de hijos:

Número de 0 1 2 3 4 5 6 7 8 9 10 y
hijos vivos mas
Número de 9 600 637 534 346 237 173 122 90 60 74
madres

24
Asumiendo que en la última categoría las 74 madres tienen en
promedio 11 hijos, se puede obtener que el valor aproximado de
la media es:

(0x9+1x600+. . .+9x60+11x74)/(9+600+. . .+60+74)=3,4736


(hijos/madre)

El promedio exacto de acuerdo al censo es de 3,2753 .

Ejercicio 10: Revisar los ejemplos del texto de Galindo


relacionados con las medidas de localización (tendencia
central).

12. MEDIDAS DE DISPERSIÓN

La desviación estándar o típica (denominada s): es igual a la raíz


cuadrada de la suma de los cuadrados de las diferencias entre
cada valor de los datos y su media, dividida para el número de
datos menos uno; se la denomina s, es siempre un valor
positivo, y su unidad de medida es la misma que corresponde a
los datos originales.

s = ( (  (xi - m)2/(n-1) )½

Las mismas observaciones que realizamos para el cálculo de la


media, cuando se dan las frecuencias (con datos individuales o
agregados) son válidas también para la desviación típica.
Para tener una noción de lo que representa una desviación
estándar en relación a las observaciones, se puede comprobar
que el intervalo, de extremo izquierdo igual a la media menos
tres desviaciones estándar y de extremo derecho la media más
tres desviaciones, contiene al menos el 90% de los datos.

25
Cuando la distribución es normal (o parecida a ella) el intervalo
en mención: (m-3s;m+3s) contiene al menos el 99% de las
observaciones.

Por tanto, los valores que no están dentro de este intervalo se


pueden considerar como valores atípicos.

Extensión o rango: es igual a la diferencia entre los valores


mayor y menor de las observaciones, es decir es el máximo
menos el mínimo de los datos; es decir:
ext = rg = max(xi) – min(xi) .

Cuartil inferior (Q1): es la mediana de la mitad inferior de los


datos.

Cuartil superior (Q3): es la mediana de la mitad superior de los


datos.

Los cuartiles y la mediana dividen al conjunto de datos en


subconjuntos que contienen aproximadamente el 25% de los
datos.

Rango Intercuartil (RIQ): es igual a la diferencia entre los


cuartil superior e inferior, se lo denomina RIQ y por tanto: RIQ
= Q3 - Q1.
Percentiles: son valores que dividen a la muestra de datos en
cien grupos, cada uno de los cuales contiene (hasta donde sea
posible) igual número de observaciones, se los denomina: p1,
p2, p3, . . . , p99.

Quintiles: son valores que dividen al conjunto de datos en 5


grupos, cada uno de los cuales contiene (hasta donde sea
posible) el 20% de las observaciones, se los llama q1, q2, q3 y
q4.

26
Ejercicio 11: Revisar los ejemplos del texto de Galindo
relacionados con las medidas de dispersión.

13. DIAGRAMA DE CAJA

El diagrama de caja es una herramienta que describe en un


mismo gráfico algunas características de localización, de
dispersión, y los valores atípicos, al representar la mediana, los
cuartiles, el rango intercuartil y el rango de las observaciones;
para su construcción se procede de la siguiente manera:

a) Sobre una línea horizontal se localizan la mediana, los


cuartiles inferior y superior y los datos mínimos y máximo.

b) Se hace una caja angosta que una a Q1 y Q3, a


continuación se divide esta caja en dos mediante una línea
que pase por Q2.

c) Finalmente se trazan dos rectas, una para cada extremo de


la caja, en los valores: Q1 – 1,5 RIQ ; y , Q3 + 1,5 RIQ.

Q1-1,5RIQ Q1 Q2 Q3
Q3+1,5RIQ

Los datos que caen fuera de estas dos vallas (dadas por las dos
rectas trazadas) se consideran como valores atípicos.

Nota: En una distribución que se aproxima a la normal estos


valores corresponden a los que están fuera del intervalo: m–2,7s
; y , m+2,7s

27
Existen otras medidas de dispersión (poco usuales) como por
ejemplo:

La desviación promedio respecto al promedio (o media)


(llamada: DPP):

DPP = ( i xi – m)/n

La desviación promedio respecto a la mediana (DPM):

DPM = ( i xi – Q2)/n

La desviación absoluta respecto a la mediana (DAM):

DAM=Med(xi – Q2) (con i=1,2, ... ,n)

14. TABLA DE CONTINGENCIA

Consideremos ahora un esquema de doble clasificación, por


ejemplo las personas o habitantes del país se pueden agrupar
entre los que viven en el área urbana y los que viven en el área
rural, y dentro de estos dos grupos se los puede clasificar
respecto al sexo (es decir en hombres y mujeres).

Ejemplo 6: de acuerdo a los resultados del censo de población


del año 2001 tenemos la siguiente clasificación doble:

POBLACION Hombres Mujeres Total


Urbana 3.625.96 3.805.39 7.431.355
2 3

28
Rural 2.392.39 2.332.86 4.725.253
1 2
Total 6.018.35 6.138.25 12.156.608
3 5

La clasificación de datos categóricos de acuerdo con dos


variables (X,Y) se denomina cuadro de contingencia, es en
definitiva una tabla de frecuencias (absolutas o relativas) donde
una variable se representa en las filas y la otra en las columnas;
se cuentan los individuos que tienen los valores indicados en las
filas y en las columnas.

Supongamos que la primera variable (X) tenga p resultados


posibles (o categorías) y que para la segunda (Y) existan q
valores factibles (categorías), entonces la tabla de contingencia
es una matriz, con p filas y q columnas, formada por los valores
ni,j (que corresponden al numero de individuos que pertenecen a
la categoría i en la primera variable y a la categoría j en la
segunda) que representan las frecuencias absolutas de la
categoría conjunta (i,j).

Se puede encontrar también la frecuencia relativa de la clase


(i,j) que es igual al cociente: fi,j = ni,j / n (donde n es el numero
total de individuos) y proporcionan la distribución empírica
conjunta de las dos variables, y dan una estimación de las
probabilidades pij de que un individuo pertenezca a la categoría
conjunta (i,j), es decir a la categoría i en la variable X y a la
categoría j en Y.

En el ejemplo que estamos tratando, la tabla de frecuencias


relativas es:

POBLACION Hombres Mujeres Total


Urbana 29,8% 31.3% 61,1%

29
Rural 19,7% 19,2% 38.9%
Total 49,5% 50,5% 100,0%

Propiedades: La sumatoria de todos los valores ni,j (para i


desde 1 hasta p, y j desde 1 hasta q) es igual al total de
individuos n.

La sumatoria de todos los valores fi,j (para i desde 1 hasta p, y j


desde 1 hasta q) es igual a 1.

Distribuciones marginales: En la tabla de contingencia se suelen


incluir los totales de las filas y los totales de las columnas, es
decir se calcula:

ni. = sumatorio en j de los ni,j (para cada categoría i=1,2,...,p)

El valor de ni. es la frecuencia absoluta de la primera variable,


para la categoría i, y las frecuencias relativas marginales fi. =
ni./n dan la distribución empírica de la primera variable (X).
De manera similar, para la segunda variable (Y), se incluye una
fila con los valores: n.j que representan sus frecuencias
absolutas.

Análogamente las frecuencias relativas f.j = n.j/n proporcionan la


distribución empírica de la segunda variable Y, y da una
estimación de la probabilidad pj de que un individuo pertenezca
a la categoría j.

15. REGRESIÓN LINEAL SIMPLE

En algunas aplicaciones se requiere establecer relaciones entre


dos variables; la regresión lineal simple sirve para determinar

30
una relación lineal entre dos variables: X=(x1,x2,...,xn) y
Y=(y1,y2,...,yn).

El modelo determinista plantea: Y = b0 + b1 X

El modelo probabilista (o aleatorio) considera:

Y = b0 + b1 X + e ; donde e es una componente aleatoria del


error.

Como sabemos b0 es la ordenada al origen; y, b1 es la


pendiente de la recta; los mismos que se obtienen, usando el
método de los mínimos cuadrados, mediante las siguientes
fórmulas:

b1 = SCXY / SCXX ;

Donde: SCXX = Σi (xi – mx)2; y , SCXY = Σi (xi – mx)(yi-my) .


b0 = my – b1 mx

La pregunta que se plantea entonces es: Qué tan bien se ajusta


la recta a los datos?

Para responder, a esta pregunta, se usa el coeficiente de


correlación lineal de Pearson, definido por:

r = SCXY / (SCXX SCYY )½

El valor de r está siempre entre: –1 y +1 ; tiene el mismo signo


que b1; si es cercano a –1 o a +1 , indica que si existe una
relación lineal entre X y Y; si es igual a –1 (o +1) se cumple
exactamente la igualdad (es decir se verifica el modelo
determinista).

31
Dentro del análisis estadístico se debe determinar además si los
coeficientes son significativos, es decir si se acepta o rechaza la
hipótesis de nulidad de los parámetros correspondientes a bo y
b1.

Ejercicio 12: Considerar las observaciones provinciales del


número de vacas ordeñadas y la cantidad (en litros) obtenida
(referirse a los resultados del CNA 2000). Efectuar la regresión
lineal y calcular el coeficiente de correlación lineal de Pearson.

16. ESTIMACION DE PARAMETROS

Supongamos que deseamos inferir algo sobre el valor del


parámetro de la media poblacional basados en el valor de la
media muestral. Un resultado muy importante de la estadística
me permite afirmar que:
El valor de la media poblacional, con un 95% de confiabilidad
(es decir con probabilidad 0,95) se encuentra en el intervalo:

( m  2 s/n ; m – 2 s/n ) para muestras grandes (tamaño n >


27)

Observemos que el error por muestreo: 2 s/n es más grande si


la desviación muestral aumenta y es más pequeño si el tamaño
de la muestra crece.

El factor 2 ya no se mantiene, se incrementa, si la muestra es


más pequeña (o si aumentamos el nivel de confiabilidad). Por
ejemplo: si la muestra es menor o igual a 27 y mayor a 13 el
factor se aproxima por 2,1 ; si n=6 o n=7 el factor es
prácticamente igual a 2,4 .

32
Si el tamaño de la muestra está entre 10 y 13 el factor es
aproximadamente igual a 2,2 ; y está alrededor de 2,3 si n es
igual a 8 o 9 .

Además si queremos un nivel de confiabilidad mayor, por


ejemplo el 99%, este factor aumenta prácticamente a 2,9 si el
tamaño de la muestra está entre 15 y 19 .

Supongamos por ejemplo que al realizar un estudio de la


duración de cierta marca de pilas, se utilizó una muestra de 16
pilas, de la cual se obtuvo un promedio de dos horas 45 minutos
de duración con una desviación estándar de 12 minutos. Es
decir se obtuvieron los siguientes resultados (estadísticos):
m=2,75 horas, s=0,2 horas, encontrar entre que valores se
encuentra la duración media de las pilas de esa marca con una
confiabilidad del 95% , y comparar los resultados si considero
una seguridad de 99%.

Con el 95% : ( 2,75  2,1*0,2/16 ; 2,75 + 2,1*0,2/16 )


Es decir: ( 2,645 horas ; 2,855 horas )
Con el 99% : ( 2,75  2,9*0,2/16 ; 2,75 + 2,9*0,2/16 )
Es decir: ( 2,605 horas ; 2,895 horas ) = (2horas 36min. ;
2horas 54 min)

La justificación de estos resultados no son fáciles de exponer a


nivel de la educación media, por cuanto requiere del desarrollo
de la teoría de las probabilidades; sin embargo considero que se
deben dar también los fundamentos de esta teoría en el nivel
medio, lo que puede ser motivo de un próximo curso, que
básicamente debería contener los temas: el concepto de
probabilidad, variables aleatorias y las principales distribuciones
de probabilidad.

33
17. EL PROGRAMA CURRICULAR DE LA
ESTADISTICA EN LA EDUCACION BASICA Y MEDIA.

Como puede observarse los contenidos de este curso son


elementales y básicos en la formación de una persona, pues
ahora ya forman parte del lenguaje de los individuos y de los
medios de comunicación colectiva.

Personalmente pienso que la estadística básica es mucho más


simple y útil que muchos de los temas, que en matemática, se
los estudian con exagerada atención en la educación básica y
media.

Me parece importante y no muy difícil incorporar estos y otros


temas, como el de probabilidades básicas, hay que determinar
en que curso los estudiantes ya estarían en capacidad de
asimilarlos.
La reforma curricular para la educación básica plantea en el
cuarto y quinto año básico, en el sistema de estadística y
probabilidad, introducir los temas sobre recolección de datos y
su representación en diagrama de barras; en el sexto las medida
de localización (o tendencia central) como la media, mediana y
moda, y en el séptimo completar otras representaciones como la
circular, tallo y hojas, de caja, etc.

En el octavo y noveno año, las tablas de frecuencias absolutas,


relativas y acumuladas y su representación en histogramas, las
medidas de dispersión como la desviación estandar (o típica) y
la varianza, complementando con la noción de probabilidad y de
sucesos o eventos; y en el décimo año se propone recopilar y
revisar todos estos temas con suficientes aplicaciones relevantes
en cuanto a los contenidos (relacionados con otras ciencias
como la economía, sociología, demografía, etc.).

34
La propuesta es excelente, pero talvez es muy desagregada y
algo temprana; se podría empezar en sexto año de básica con
los temas sobre recolección de datos, diagramas de puntos y de
barras y medidas de tendencia central como la media, la
mediana y la moda; en el séptimo año básico se deberían
introducir otras representaciones como la de tallo y hojas y la
circular, o de pastel, y de paso recordar las de puntos y barras,
definir el rango y el rango intercuartil para la representación de
caja; y en los años: octavo, noveno y décimo seguir los
planteamientos de la Reforma Curricular.

En los años siguientes de educación media (bachillerato) se


deberían tratar los siguientes temas, en el cuarto curso la
regresión lineal simple y las tablas de contingencia (o cruzadas),
en el quinto curso las distribuciones de probabilidad más
utilizadas, especialmente la binomial y la normal, y en sexto
curso terminar con temas de estimación de parámetros, más
precisamente estimación puntual y por intervalos de la media
poblacional, y en particular de una proporción, usando el
teorema del límite central, o sea la distribución normal para
muestras grandes, es decir: para un tamaño de muestra mayor
que 27, se puede afirmar, con el 95% de confiabilidad, que la
media poblacional está en el intervalo: [m2s/n; m+2s/n].

Obviamente, se podría pretender la inclusión de otros temas


como la estimación del total poblacional, siempre en el caso del
muestreo aleatorio simple, la estimación por intervalo para
tamaños de muestra pequeños, es decir cuando el tamaño es
menor o igual que 27, y las regresiones (exponencial,
logarítmica, etc.) que se reducen al caso lineal simple.

Pero posiblemente lo más importante de la Estadística es su


aplicación y relación con las demás ciencias, lo que puede servir
para que el estudiante conozca, por ejemplo, la realidad social,

35
económica, etc de su provincia o del país y compararla con la
de otros países del mundo. Es por esta razón que la Estadística
podría ser el medio para lograr otros conocimientos e incluso
para realizar ciertas investigaciones, basadas en encuestas por
muestreo aleatorio, en diversas disciplinas.

A propósito, por último, a continuación les envío otros


ejercicios:

Realizar los gráficos en barras y circular (pastel) de la población


total ocupada por tipo de actividad, y hacer los gráficos según
el sexo, es decir considerando la población de hombres y de
mujeres.
Hacer los gráficos en barras y circular (pastel) de la población
económicamente activa (PEA) por categorías de ocupación, y
también los gráficos según el sexo, es decir considerando la
PEA masculina y femenina.

Realizar los gráficos en barras y circular (pastel) de la PEA del


sector privado por grupos principales de ocupación.

Bibliografía:

Berenson M., Levine D., Estadística Básica en Administración,


Prentice Hall Hispanoamericana S. A., México, 1996.
Freund J. y Simon G., Estadística elemental, Prentice Hall,
México, 1994.
Galindo E., Estadística para la Administración y la Ingeniería,
Gráficas Mediavilla Hnos., Quito, 1999.

36

También podría gustarte