Está en la página 1de 36

La Estadstica en la Educacin

Bsica y Media
OBJETIVOS: presentar una visin general de la Estadstica y
sus aplicaciones, los procedimientos para recoleccin de datos,
su clasificacin y organizacin, los requerimientos de una buena
investigacin por muestreo y los errores que se pueden cometer
en una encuesta.
Mostrar cmo grandes conjuntos de datos numricos pueden
organizarse y presentarse de manera eficaz, con el propsito de
favorecer el anlisis y la interpretacin de los datos, aspectos
claves del proceso de planificacin y toma de decisiones.
Describir de manera conveniente las caractersticas de los datos
mediante tablas, diagramas y representaciones grficas; es decir
presentar las tcnicas bsicas para realizar el anlisis de los
datos.
Motivar a directivos y profesores de colegios para que la
estadstica sea considerada importante en la formacin y el
curriculum acadmico del estudiante, con la finalidad de que
forme parte de la cultura general en nuestro pas.

1. INTRODUCCION

La estadstica se origina en los propsitos de los gobiernos


(naciones o estados) de tener informacin sobre su poblacin y
recabar datos sobre sus ciudadanos, su desarrollo se favorece
con el florecimiento en las matemticas de la teora de las
probabilidades.

Cada da es ms importante el contar con informacin para las


actividades de planificacin y toma de decisiones en cualquier
mbito institucional, por ello las empresas pblicas y privadas
requieren tener informacin relevante y confiable sobre su
campo de accin con los menores costos posibles.

La estadstica comprende las tcnicas de recoleccin,


presentacin y anlisis de datos para apoyar la tarea de
planificacin y aportar al proceso de toma de decisiones, y
abarca tambin los mtodos que permiten verificar o rechazar
ciertas conjeturas relacionadas con la investigacin en diversas
ciencias.

La estadstica se puede aplicar en diversos campos:


contabilidad, finanzas, administracin, mercadeo, medicina,
economa, ingeniera, etc..

Actualmente el mundo se caracteriza por la globalizacin con


un mayor acceso a la informacin, sus fuentes son diversas:
publicaciones gubernamentales, industriales, gremiales, etc., en
forma impresa (libros, revistas, peridicos) o usando la
tecnologa multimedia, se obtienen datos de registros
electrnicos, mediante sistemas de recuperacin de informacin
y de bases de datos en lnea, o mediante el uso de la autopista
de la informacin INTERNET. Los medios electrnicos, como
el CD-ROM, han revolucionado el acceso a la informacin.

El gobierno es un importante recolector y compilador de datos


con propsitos tanto pblicos como privados.

Hay que distinguir entre el recolector original de los datos,


denominado fuente primaria, y el organizador que compila
estos datos en tablas y diagramas, llamado fuente secundaria.
En nuestro pas, el Banco Central y el Instituto Nacional de
Estadstica y Censos, INEC, son entidades responsables de
recolectar datos sobre variables econmicas, financieras,
sociales y demogrficas.

2
Sin embargo en muchas ocasiones no existe la informacin que
requerimos, y para obtenerla debemos disear un experimento,
o realizar un estudio basado en la observacin del
comportamiento de inters, o hacer una investigacin por medio
de una encuesta dirigida a una muestra de la poblacin objeto
del estudio.

En la actualidad se recogen datos con la finalidad de utilizarlos


en diversos propsitos relacionados con estudios de
investigacin cientfica, planificacin para el desarrollo de un
proyecto, para contribuir en un proceso de toma de decisiones,
medir el desempeo de un proceso de produccin o de un
servicio, realizar un estudio de mercado, o simplemente para
satisfacer nuestra curiosidad.

La estadstica comprende dos partes fundamentales:

a) La estadstica descriptiva: que son los mtodos que


involucran la recoleccin, presentacin y anlisis de un
conjunto de datos con el fin de describir apropiadamente
sus diversas caractersticas. Su desarrollo se ha dado
por la necesidad de informacin relevante de amplias
poblaciones.

b) La estadstica inferencial: que puede definirse como


aquellos mtodos que hacen posible la estimacin de
una caracterstica de una poblacin basndose solamente
en los resultados de una muestra. Su desarrollo se ha
dado a principios del siglo XX y tienen amplia
aplicacin en todos los campos de la investigacin en la
actualidad.

3
Para aclarar estos trminos, en el siguiente tema, se introducen
algunas definiciones fundamentales.

2. DEFINICIONES BASICAS

Poblacin (o universo): es el conjunto de todos los


elementos considerados como objetivo del estudio y del
cual queremos obtener sus caractersticas.

Muestra: es la porcin de la poblacin que se


selecciona para su anlisis, es el objetivo de la encuesta
o del experimento, que ser de utilidad para poder
obtener las conclusiones sobre la poblacin.

Parmetro: es una medida de resumen para describir


una caracterstica de toda una poblacin.

Estadstico(a): es una medida de resumen para describir


una caracterstica de una muestra de la poblacin.

Para que un anlisis estadstico sea til los datos de entrada no


deben contener errores, puesto que si entra basura saldr
basura.

3. TIPOS DE DATOS

Los datos son los resultados observados de diversas


caractersticas, de los elementos de una poblacin de estudio,
llamadas variables aleatorias.

Existen bsicamente dos tipos de datos o de variables


aleatorias:

4
Datos categricos (variables cualitativas) y datos numricos
(variables cuantitativas).

La variable es categrica si sus valores observados se los


clasifica en categoras caracterizadas por una cualidad. Por
ejemplo, en una encuesta, las respuestas a las preguntas: Cul
es su estado civil?, Posee usted vehculo?, A qu partido
poltico pertenece?, En qu medida est satisfecho con el
trabajo que desempea: poco, medianamente, o mucho?, Usted
tiene hijos? son categricas.

Las variables categricas se clasifican en dos grupos, pueden


ser nominales u ordinales.

Variable Nominal, si los datos observados se clasifican en


diversas categoras que no implican ningn orden, por ejemplo
el estado civil, el sexo, el partido poltico, o si tiene o no hijos.

Variable Ordinal, si los datos se clasifican en categoras que


implican algn orden, por ejemplo la medida de satisfaccin en
el trabajo que desempea (poco en menos que medianamente y
este es menor a mucho).

La variable es numrica si sus valores observados son nmeros,


es decir representan una cantidad o una medida. Por ejemplo,
las respuestas a las preguntas: Cuntos vehculos posee? A
cuntas revistas est suscrito actualmente?, Cuntos hijos
tiene?, Cul es su estatura?, Cunto pesa? son claramente
numricas.

Las variables numricas se clasifican en dos grupos, pueden ser


discretas o continuas.

5
Variable discreta si los datos corresponden a respuestas
numricas que provienen de un proceso de conteo.

Variable continua si los datos corresponden a respuestas


numricas que surgen de un proceso de medicin.

4. ENCUESTAS POR MUESTREO

Para realizar una encuesta por muestreo previamente se debe


determinar con precisin que informacin se necesita obtener,
es decir establecer claramente los objetivos de la investigacin,
y posteriormente se requiere planificar y ejecutar una serie de
actividades para lograr el xito deseado.

Las principales tareas son: definir cuidadosamente la poblacin,


establecer el o los marcos de muestreo de manera que la lista de
unidades muestrales y la poblacin concuerden lo mejor posible,
seleccionar el diseo de muestreo y el mtodo de entrevista,
elaborar el cuestionario, capacitar a los encuestadores y
supervisores, realizar una prueba piloto, organizar el trabajo de
campo, sistematizar el manejo, validacin y anlisis de los datos
y finalmente calcular las estimaciones para obtener la
informacin requerida.

El cuestionario es un instrumento que contiene varias preguntas


que trata sobre una diversidad de fenmenos o caractersticas
de una poblacin, denominadas variables aleatorias.

Como ya se ha dicho, los datos son los resultados observados


de estas variables aleatorias.

Despus de que se han determinado las preguntas numricas y


categricas ms esenciales de la encuesta, se procede a

6
determinar el diseo y el tamao de la muestra con los
requerimientos ms rigurosos.

Existen bsicamente dos tipos de muestras: la muestra no


probabilstica y la muestra de probabilidad o aleatoria (al azar).

Una muestra de probabilidad o aleatoria, es aquella en la que


los elementos de la muestra se eligen sobre la base de
probabilidades conocidas.

La nica forma de que hagamos inferencias estadsticas


correctas de una muestra a una poblacin, es mediante el uso de
una muestra de probabilidad.

Los cuatro diseos o tipos de muestras probabilsticas de uso


comn son: la muestra aleatoria simple, la muestra sistemtica,
la muestra estratificada y la muestra de agrupacin o
conglomerados; un anlisis detallado de estos procedimientos
de muestreo pueden encontrarse en libros sobre investigacin
por muestreo (en ingls: Sample Survey).

5. MUESTREO ALEATORIO SIMPLE

En una muestra aleatoria simple cada individuo o elemento


tiene la misma oportunidad de seleccin que cualquier otro, y la
seleccin de un elemento en particular no afecta la probabilidad
de que se elija cualquier otro.

Una muestra aleatoria simple tambin puede interpretarse


como aquella en la que cada posible muestra extrada (de
determinado tamao) tiene la misma probabilidad de seleccin
que cualquier otra muestra que se pueda extraer (de ese mismo
tamao).

7
El proceso de seleccin de una muestra aleatoria simple no
necesariamente es el mejor o el ms econmico de los mtodos
de muestreo de probabilidad, pero proporciona la base a partir
de la cual han evolucionado los otros procedimientos.

La clave de una seleccin apropiada es obtener y mantener una


lista actualizada de todas las unidades de muestreo, entre las
cuales se extraer la muestra, tal lista se conoce con el nombre
de marco de poblacin.

Las unidades de muestreo son agrupaciones, no traslapadas, de


elementos de la poblacin, que la cubren completamente; en
otras palabras forman una particin de la poblacin

Por tanto el marco de poblacin es sencillamente una lista


(numerada) de todas las unidades de muestreo. Se denomina
marco de lista de la poblacin si cada unidad de muestreo
contiene un solo elemento de la poblacin, en este caso la
numeracin va desde uno (1) hasta el tamao de la poblacin
(N).

Por ejemplo si la poblacin es el conjunto de los estudiantes de


los colegios del pas, un marco de poblacin podra ser la lista
de todos los colegios del Ecuador, en cambio el correspondiente
marco de lista de la poblacin es el listado de todos los
estudiantes colegiales. Si la poblacin es una determinada
ciudad, marcos de poblacin podran ser la lista de todos los
barrios, de todas las manzanas o de todas las parroquias urbanas
que la conforman, su respectivo marco de lista sera un listado
de sus ciudadanos.

El marco de poblacin sirve como la poblacin objetivo, de


manera que, si el marco es adecuado, cada muestra es una

8
representacin en miniatura de la poblacin, y por tanto se
espera obtener estimaciones razonables de sus caractersticas.

Si el listado es inadecuado, porque ciertos elementos de la


poblacin se encuentran repetidos, o no estuvieran incluidos, la
muestra de probabilidad slo proporcionar estimaciones de las
caractersticas de la poblacin objetivo y no de la poblacin
real, puesto que estas fallas pueden ocasionar sesgos o
desviaciones en los resultados.
Designamos por N el tamao de la poblacin, y n el tamao de
la muestra.

Para extraer una muestra aleatoria simple de tamao n, se


podra registrar los nombres, o los correspondientes nmeros,
de los N miembros del marco de lista de la poblacin en fichas
del mismo tamao, colocar estas fichas en una gran urna,
mezclar a fondo las fichas y luego seleccionar aleatoriamente
(sacar al azar) los n elementos de la urna, los mismos que
formaran la muestra.

El mtodo de la urna tiene algunas desventajas: nuestra


habilidad para mezclar a fondo las fichas para que la extraccin
sea aleatoria, y la inmensa cantidad de fichas que deberamos
elaborar si N es demasiado grande.

Uno de los mtodos que se utiliza para obtener la muestra es el


uso de nmeros aleatorios.

Nuestro sistema numrico usa diez dgitos: 0,1,2,3,4,5,6,7,8,9.


Se puede usar entonces una urna que contenga esferas o fichas
numeradas con los diez dgitos (y sacarlos al azar con
reposicin). Entonces la probabilidad de generar aleatoriamente
cualquier dgito es igual a 1/10 para todos.

9
Numerados los elementos del marco de lista de la poblacin, se
obtiene la muestra aleatoria seleccionando aquellos miembros
cuyos cdigos concuerden con los dgitos extrados de la urna.

Por ejemplo, si deseamos una muestra, de n=50 elementos


distintos, seleccionada de una poblacin de N=782 elementos,
se formarn por lo menos cincuenta nmeros de tres dgitos
(pues se eliminan los nmeros repetidos y no se toman en
cuenta los mayores a 782 y el 000) hasta completar los
cincuenta requeridos.
6. EVALUACION DE UNA ENCUESTA POR
MUESTREO

Una buena investigacin por muestreo requiere tener los


objetivos claros, una apropiada planificacin y una buena
ejecucin de todas las actividades programadas.

Es de fundamental importancia realizar una encuesta piloto, con


una muestra muy reducida, con la finalidad de probar el
cuestionario y todos los instrumentos que se utilizarn en los
diversas etapas, de modo que se corrijan los errores y se puedan
evaluar los procesos y sus costos.

Para una buena recoleccin de datos se debe adiestrar a los


encuestadores sobre las definiciones operacionales de la
encuesta, es decir sobre el significado de cada variable, de
modo que no existan ambigedades en las preguntas
correspondientes; se requiere adems organizar detalladamente
el trabajo de campo, estableciendo claramente las obligaciones
del personal y las lneas de autoridad.

Son extremadamente importantes tambin las actividades de


codificacin, validacin y anlisis de datos, puesto que se

10
deben examinar las respuestas buscando su integridad y posibles
errores para corregirlos.

Para valorar una investigacin por muestreo hay que verificar si


se han considerado estas recomendaciones y realizado
eficientemente todas las actividades antes mencionadas.

Es claro que hay una proliferacin de investigaciones de


encuestas de opinin, pero no toda investigacin es buena,
significativa o importante.

Es esencial que aprendamos a evaluar crticamente lo que


leemos o escuchamos y que descartemos las encuestas que
carezcan de objetividad y credibilidad.

El primer paso para evaluar una encuesta es determinar si se


bas en una muestra de probabilidad o en una no probabilstica;
puesto que la nica forma de que hagamos inferencias
estadsticas correctas es a travs del uso de una muestra
aleatoria.

Las encuestas de muestreo no probabilstico estn sujetas a


graves sesgos o desviaciones, tal vez no intencionales, que
pueden invalidar sus resultados. Hay ejemplos de medios de
comunicacin muy importantes que han cometido graves
equivocaciones basados en encuestas mal realizadas.

An cuando las encuestas empleen mtodos de muestreo de


probabilidad aleatorios, estn sujetas a errores potenciales, que
se pueden clasificar en cuatro tipos:
Error de cobertura: debido a duplicaciones, omisiones o
inclusiones erradas en el marco de muestreo.
Error de no respuesta: causado por el fracaso de recolectar
datos sobre los elementos de la muestra.

11
Error de medicin: que se refiere a inexactitudes en las
respuestas registradas.
Error de muestreo: que refleja la heterogeneidad, o las
diferencias de oportunidad, entre las muestras.

Puesto que la muestra esta formada por elementos particulares,


dictados por el azar, que es una representacin en miniatura de
la poblacin, una buena investigacin debe declarar el margen
de precisin, se dir por ejemplo: se espera que los resultados
de este sondeo estn dentro de +-5 puntos porcentuales del
valor real.

7. CLASIFICACION ORDENADA DE LOS DATOS.

Cuando se elabora un conjunto de datos, las observaciones


numricas no tienen ningn orden o secuencia particular ni
tampoco se encuentran agrupados por similares cualidades o
caractersticas.

Al crecer el nmero de observaciones, se hace ms difcil


observar las principales caractersticas del conjunto de datos, se
requiere entonces organizar las observaciones, de tal manera
que entendamos mejor la informacin que contienen los datos,
para lograrlo se han desarrollado diversos mtodos, algunos
fundamentados en grficos y diagramas, otros en ciertas
medidas numricas, y varias tcnicas fundamentadas en
diferentes tipos de anlisis matemticos.

La primera forma que permite organizar los datos de modo que


se pueda apreciar ciertas caractersticas es realizar una
clasificacin ordenada de los datos respecto a la variable de
inters.

12
Ejemplo 1: los siguientes datos corresponden al nmero
(aproximado y en miles) de Unidades de Produccin
Agropecuarias (UPAs) de cada provincia del pas (resultados
del Censo Nacional Agropecuario CNA del ao 2000)

Prov AzuaBoli Caa Carc Coto ChimElOrEsme Gala Guay Imba


UPAs 99 39 32 13 68 82 22 16 1 65 34

Mo ZNA
Loja LoRiMana Sa Napo Orel Past Pich Sucu Tung ZaCh s
66 42 75 17 5 6 5 64 8 71 9 4

La clasificacin ordenada de estos datos es la siguiente:

ZNA Mo
Prov Gala s Napo Past Orel Sucu ZaCh Carc Esme Sa ElOr
UPAs 1 4 5 5 6 8 9 13 16 17 22

Caa Imba Boli LoRi Pich Guay Loja Coto Tung Mana Chim Azua
32 34 39 42 64 65 66 68 71 75 82 99

De esta tabla se puede determinar inmediatamente algunas


caractersticas, como por ejemplo: la provincia que menos
UPAs tiene es Galpagos (aproximadamente un mil), la que
tiene mayor cantidad es Azuay (con alrededor de 99 mil); la
provincia que corresponde a la mediana es Caar con 32 mil
UPAs.

Ejercicio 1: Realizar la clasificacin ordenada de los datos


correspondientes al nmero (aproximado y en miles) de
habitantes de cada provincia del pas (resultados del Censo
Nacional de Poblacin y Vivienda del ao 2001)

13
Prov Azua Boli Caa Carc Coto Chim ElOr Esme Gala Guay Imba
UPAs 600 169 207 153 350 404 526 385 19 3309 344

Mo ZNA
Loja LoRiMana Sa Napo Orel Past Pich Sucu Tung ZaCh s
405 650 1186 115 79 86 62 2389 129 441 77 73

La mejor manera de examinar datos es presentarlos en forma de


resumen construyendo tablas y diagramas apropiados, de
manera que podamos extraer las caractersticas ms importantes
de los datos.

8. CARACTERSTICAS DE LOS DATOS

Las tres principales caractersticas que dan la posicin relativa


del conjunto de datos son: la localizacin o tendencia central, la
dispersin y la simetra.

Tendencia central o localizacin: es una cantidad cerca de la


cual se encuentran los valores del conjunto de datos, se la mide
mediante un valor junto al cual se agrupa la mayora de las
observaciones. Una medida de tendencia central es, por
ejemplo, la media o promedio de los datos.

Ejercicio 2: (a)Calcular el promedio provincial del nmero de


UPAs (datos del ejemplo 1). (b) Encontrar la media provincial
del nmero de habitantes (referirse al ejercicio1).

Dispersin: es una medida de la variacin que existe entre los


valores del conjunto de datos, mide que tan dispersos estn los
datos, usualmente en relacin con un valor central. Por ejemplo

14
el rango o extensin (la diferencia entre el valor mximo y el
mnimo) es un medida de dispersin.

Ejercicio 3: Hallar el rango de los datos del ejemplo 1 y del


ejercicio 1.

Simetra (y asimetra): el conjunto de datos es simtrico cuando


los valores de los datos estn distribuidos en la misma forma
por encima y por debajo del valor central del conjunto de datos.

9. DIAGRAMAS Y GRFICOS

Puesto que la tabla o matriz de los datos no muestra las


cualidades de los datos, se usan representaciones grficas que
ayudan a captar tendencias, apreciar caractersticas y establecer
modelos probabilsticos de comportamiento global.

En general un diagrama o un grfico, en donde estn


representados los datos, sirve para resumir el conjunto de las
observaciones y advertir sus carctersticas de localizacin, de
dispersin , de simetra y la presencia de valores atpicos.

Los diagramas y grficos que comnmente son utilizados, para


organizar las observaciones de modo que entendamos mejor la
informacin que contienen y apreciemos sus caractersticas, se
presentan a continuacin:

Diagrama de puntos: cada observacin se representa mediante


un punto sobre la recta numrica.

15
Representacin de puntos del ejemplo 1

0 20 40 60 80 100

Ejercicio 4: hacer el diagrama de puntos de los datos del


ejercicio 1.

Diagrama de tallo y hojas: a los datos se los clasifica


considerando, por ejemplo, las unidades, o las decenas, o las
centenas, etc., estas forman el tallo y se las coloca
verticalmente, a continuacin se coloca los siguientes dgitos
para cada observacin a la derecha de la barra vertical, estos
valores vienen a constituir las hojas, y as se van aadiendo
todas las observaciones; pueden realizarse variantes (por
ejemplo distinguiendo las cifras altas y las bajas).

Un diagrama de tallo y hojas con los datos correspondientes al


nmero de UPAs (ejemplo 1) sera el siguiente:

9 9
8 2
7 1/5
6 4/5/6/8
4 2
3 2/4/9
2 2
1 3/6/7
0 1/4/5/5/6/8/9
Ejercicio 5: Hacer al menos un diagrama (adicional) de tallo y
hojas con los datos del ejemplo 1, y dos diagramas con los
datos del ejercicio 1.

16
Grfico de pastel: es una forma de resumir un conjunto de datos
categricos. Es un crculo dividido en segmentos, donde el rea
de cada uno de los segmentos es proporcional al nmero de
casos en la categora correspondiente.

Para conocer el ngulo (medido en grados) podramos aplicar


una simple regla de tres (proporcin): si el nmero total de
datos corresponde a 360 grados, el nmero de casos en una
determinada categora, cuntos grados le corresponde?.

Adicionalmente, se suele indicar el porcentaje de cada


categora.

Ejemplo 2: los siguientes datos corresponden al nmero de


habitantes (aproximado y en miles) de la poblacin nacional por
categoras de rea (urbana/rural) segn el censo de poblacin
2001.

Poblacin Nacional Categoras


Total Urbana Rural
Nmero de habitantes 12156 7431 4725

17
Poblacin Nacional Por Categoras de Area

Rural Urbana
38.9%
Urbana Rural
61.1%

Ejercicio 6: Hacer el grfico de pastel con los respectivos


porcentajes de los siguientes datos del Censo de Poblacin
(2001):

(a) Poblacin nacional (nmero de habitantes) por (categoras


correspondientes al) sexo (hombre/mujer).

(b) Poblacin de la provincia de Pichincha por sexo.

(c) Poblacin de la provincia de Guayas por rea.

(d) Unidades de Produccin Agropecuarias (UPAs) por


categoras de tenencia de la tierra (referirse a los resultados del
CNA 2000)

(e) Poblacin (nacional mayor a diez aos) de analfabetos por


categoras quinquenales de edad.

(f) Poblacin de analfabetos por categoras provinciales.

18
(g) Poblacin (nacional masculina mayor a diez aos) de
analfabetos por categoras quinquenales de edad
(respectivamente femenina)

(h) Poblacin de hombres analfabetos por categoras


provinciales (respectivamente de mujeres).

(i) Poblacin nacional mayor a doce aos por categoras de


estado civil.

La representacin de pastel se suele usar tambin con


cantidades si se han agregado las mismas en las
correspondientes categoras (ver ejercicio 9).

Se puede tambin usar el grfico de pastel con datos numricos


si previamente se ha creado una tabla de frecuencias (es decir se
han clasificado las observaciones en grupos o clases dados por
una particin en subintervalos) pero en este caso se usa
generalmente el grfico de barras denominado histograma.

Grfico de barras: los datos categricos se exhiben mediante un


nmero de rectngulos, del mismo ancho, cada uno de los
cuales representa una categora particular.

La longitud (y por lo tanto el rea) de cada rectngulo es


proporcional al nmero de casos en la categora que representa.

Ejemplo 3: considerar los datos, de la poblacin nacional por


grupos de edad quinquenales, que se presentan a continuacin:

Grupos 0a4 5a9 10 a 14 15 a 19 20 a 24 25 a 29


edad

19
N 1337 1362 1341 1241 1169 947
habitantes
30 a 34 35 a 39 40 a 44 45 a 49 50 a 54 55 a 59 60 a 64
863 775 674 539 463 339 294
65 a 69 70 a 74 75 a 79 80 a 84 85 a 89 90 a 94 95 y ms
244 195 143 97 63 39 32

Se prefiere realizar elhabitantes


Nmero de grfico por
congrupos
las debarras
edad horizontales
especialmente cuando a continuacin se va a representar una
pirmide,
90 a 94 aos desagregando la poblacin en dos categoras, en
nuestro caso, por ejemplo considerando el sexo, es decir la
80 a 84 aos
poblacin
70 a 74 aos
de hombres a la izquierda y de mujeres a la derecha.
Ejercicio 7: realizar el grfico de pirmide con los datos de la
60 a 64 aos
poblacin nacional por grupos de edad quinquenales,
50 a 54 aos
considerando las categoras de sexo (hombres/mujeres) (ref.
40 a 44 aos
censo de poblacin).
30 a 34 aos

Ejercicio
20 a 24 aos8: realizar el grfico de barras con los datos del

ejemplo 2.
10 a 14 aos

0 a 4 aos
Ejercicio 9:0 hacer
200 el grfico
400 600de pastel,
800 y el 1200
1000 de barras,
1400 de
1600los
siguientes datos, que corresponden a la superficie (rea)
N habitantes
nacional segn el uso del suelo (resultados del CNA 2000)

Uso del suelo (en miles de hectreas)


Categ Cultiv. Cultiv. Descan. Pastos Pastos Pram Montes Otro
. Trans. o
y Cultiv. Natur. y Usos
Barbe Bosques
.
Super. 1363 1232 381 3357 1130 600 3881 411

20
Se pueden representar datos numricos si se elabora
previamente una tabla de frecuencias, en este caso el grfico se
denomina histograma (los detalles de este procedimiento se
exponen en el siguiente tema).

En algunos casos es conveniente representar los datos mediante


una combinacin dos grficos de pastel o de una representacin
de pastel con una de barras, especialmente cuando una de las
categoras tiene una frecuencia muy grande comparada con las
otras, es decir uno o algunos porcentaje(s) demasiado(s) alto(s)
en relacin de los dems.

Ejemplo 4: los siguientes datos corresponden al nmero


(aproximado y en miles) de Unidades de Produccin
Agropecuarias (UPAs) segn su condicin jurdica (de acuerdo
al CNA 2000)

CONDICION JURIDICA
Cate- Persona Soc.Hecho Soc. Instituci Otras
sin n
gora Individua Contrato Legal Pblica Condiciones
l Legal
UPAs 577 56 10 9 13

Unidades de Produccion Agropecuarias Persona


10. DISTRIBUCIN DE FRECUENCIAS E HISTOGRAMAS
Individual

Sociedad de
Para crear la tabla de frecuencias con datos categricos
Hecho se
8.4% 2.0%
cuenta el nmero de veces en la que aparece cada dato, es decir
se calcula el nmero de 4.8%elementos de cada una Sociedad
de las
1.4% Legal
categoras.
86.8%
1.5% Institucin
Si los datos son numricos se tiene que crear una particin
Pblica del
intervalo que contiene a todos los valores, es decir dividirlo en
Otras
Condiciones

21
grupos de subintervalos, y se cuentan cuantos elementos estn
en cada clase.

Se dispone esta informacin en dos columnas, la primera


indicando el grupo (categora o clase) y la segunda su nmero
de elementos correspondiente (cardinalidad).

Luego se forma una tercera columna con la frecuencia relativa;


es decir, se divide la cardinalidad de cada grupo, para el nmero
total de datos (la misma que se puede expresar como
porcentaje).

Se suele calcular tambin una cuarta columna con las


frecuencias acumuladas, que resultan de sumar las frecuencias
relativas de todas las observaciones anteriores hasta la
considerada inclusive.

El Histograma es un grfico de barras en el que se presentan


las frecuencias absolutas o las relativas (en porcentaje).

Se determina el nmero de grupos dependiendo del nmero de


observaciones, por ejemplo: si tenemos menos de 20
observaciones se seleccionar 4 clases, de 20 a 50 observaciones
se toman 5 clases, de 50 a 100 observaciones se escogen 6
clases, de 100 a 200 observaciones se suele elegir 7 clases, de
200 a 500 observaciones usualmente se seleccionan 8 clases, y
ms de 500 observaciones se eligen 9 clases o ms (en funcin
del nmero de datos).

En el caso de datos numricos, la longitud de cada clase


(subintervalo) es igual a la extensin o rango de los datos
dividido para el nmero de clases.

22
Para cada observacin se determina a que clase pertenece para
calcular la frecuencia absoluta de cada clase.

Histograma del ejemplo 1: Provincias por cantidad de UPAs


15 11
10
Provincias

4 5
5 3

0
De 1 a < 25.5 De 25.5 a <50 De 50 a <74.5 De 74.5 a 99
UPAs (en miles)

11. MEDIDAS DE LOCALIZACIN O TENDENCIA


CENTRAL

Una medida de localizacin es un valor en torno al cual


se agrupan la mayora de datos, es una caracterstica de
tendencia central de las observaciones, las ms empleadas son:
el promedio o media muestral, la mediana, la moda y la media
simtricamente segada.

Promedio o media muestral (m): es igual a la suma de los


valores de las observaciones dividida para el nmero total de
datos (n). Se le denomina m o tambin x (x techo).

m = ( xi ) / n

Mediana (Q2): es el valor que se encuentra en el punto medio,


cuando se ordenan los valores de menor a mayor, se la denota
Q2. Si n=2p+1 (impar) entonces Q2=xp+1; y si n=2p (par)
entonces Q2=(xp+xp+1)/2
Moda (Mo): es aquel valor que tiene la mayor frecuencia
absoluta, se la representa por Mo.

23
Si los datos estn dispuestos en una tabla de frecuencias
agrupados en clases (subintervalos) aquella que tiene la mayor
frecuencia se denominar clase modal y puede asumirse que, de
manera aproximada, la moda es su punto medio.

Media simtricamente segada al 10%: es igual al promedio de


las observaciones que quedan luego de eliminar el 5% de las
que tienen los valores ms bajos y el 5% de las que tienen los
valores ms altos.

Observemos que si cada dato xi est con su respectiva


frecuencia ni ; la media (el promedio) se puede calcular
evidentemente mediante la expresin:

m = ( ni xi ) / n

Cuando los datos estn dispuestos en una tabla de frecuencias


agrupados en clases, se puede calcular el valor aproximado de
la media o la media segada considerando la suma de los
productos de los valores medios de las clases por su frecuencia
y dividiendo como siempre para el nmero de observaciones, es
decir usando la expresin anterior con xi igual al punto medio
de clase i (o sea: xi = (li+si)/2 donde li y si son respectivamente
los lmites inferior y superior de la clase i).
Ejemplo 5: Usando los datos del censo de poblacin, determinar
el promedio del nmero de hijos vivos que tienen las madres
ecuatorianas. De acuerdo con el cuadro N. 53, se tiene la
siguiente tabla de frecuencias por nmero de hijos:

Nmero de 0 1 2 3 4 5 6 7 8 9 10 y
hijos vivos mas
Nmero de 9 600 637 534 346 237 173 122 90 60 74
madres

24
Asumiendo que en la ltima categora las 74 madres tienen en
promedio 11 hijos, se puede obtener que el valor aproximado de
la media es:

(0x9+1x600+. . .+9x60+11x74)/(9+600+. . .+60+74)=3,4736


(hijos/madre)

El promedio exacto de acuerdo al censo es de 3,2753 .

Ejercicio 10: Revisar los ejemplos del texto de Galindo


relacionados con las medidas de localizacin (tendencia
central).

12. MEDIDAS DE DISPERSIN

La desviacin estndar o tpica (denominada s): es igual a la raz


cuadrada de la suma de los cuadrados de las diferencias entre
cada valor de los datos y su media, dividida para el nmero de
datos menos uno; se la denomina s, es siempre un valor
positivo, y su unidad de medida es la misma que corresponde a
los datos originales.

s = ( ( (xi - m)2/(n-1) )

Las mismas observaciones que realizamos para el clculo de la


media, cuando se dan las frecuencias (con datos individuales o
agregados) son vlidas tambin para la desviacin tpica.
Para tener una nocin de lo que representa una desviacin
estndar en relacin a las observaciones, se puede comprobar
que el intervalo, de extremo izquierdo igual a la media menos
tres desviaciones estndar y de extremo derecho la media ms
tres desviaciones, contiene al menos el 90% de los datos.

25
Cuando la distribucin es normal (o parecida a ella) el intervalo
en mencin: (m-3s;m+3s) contiene al menos el 99% de las
observaciones.

Por tanto, los valores que no estn dentro de este intervalo se


pueden considerar como valores atpicos.

Extensin o rango: es igual a la diferencia entre los valores


mayor y menor de las observaciones, es decir es el mximo
menos el mnimo de los datos; es decir:
ext = rg = max(xi) min(xi) .

Cuartil inferior (Q1): es la mediana de la mitad inferior de los


datos.

Cuartil superior (Q3): es la mediana de la mitad superior de los


datos.

Los cuartiles y la mediana dividen al conjunto de datos en


subconjuntos que contienen aproximadamente el 25% de los
datos.

Rango Intercuartil (RIQ): es igual a la diferencia entre los


cuartil superior e inferior, se lo denomina RIQ y por tanto: RIQ
= Q3 - Q1.
Percentiles: son valores que dividen a la muestra de datos en
cien grupos, cada uno de los cuales contiene (hasta donde sea
posible) igual nmero de observaciones, se los denomina: p1,
p2, p3, . . . , p99.

Quintiles: son valores que dividen al conjunto de datos en 5


grupos, cada uno de los cuales contiene (hasta donde sea
posible) el 20% de las observaciones, se los llama q1, q2, q3 y
q4.

26
Ejercicio 11: Revisar los ejemplos del texto de Galindo
relacionados con las medidas de dispersin.

13. DIAGRAMA DE CAJA

El diagrama de caja es una herramienta que describe en un


mismo grfico algunas caractersticas de localizacin, de
dispersin, y los valores atpicos, al representar la mediana, los
cuartiles, el rango intercuartil y el rango de las observaciones;
para su construccin se procede de la siguiente manera:

a) Sobre una lnea horizontal se localizan la mediana, los


cuartiles inferior y superior y los datos mnimos y mximo.

b) Se hace una caja angosta que una a Q1 y Q3, a


continuacin se divide esta caja en dos mediante una lnea
que pase por Q2.

c) Finalmente se trazan dos rectas, una para cada extremo de


la caja, en los valores: Q1 1,5 RIQ ; y , Q3 + 1,5 RIQ.

Q1-1,5RIQ Q1 Q2 Q3
Q3+1,5RIQ

Los datos que caen fuera de estas dos vallas (dadas por las dos
rectas trazadas) se consideran como valores atpicos.

Nota: En una distribucin que se aproxima a la normal estos


valores corresponden a los que estn fuera del intervalo: m2,7s
; y , m+2,7s

27
Existen otras medidas de dispersin (poco usuales) como por
ejemplo:

La desviacin promedio respecto al promedio (o media)


(llamada: DPP):

DPP = ( i xi m)/n

La desviacin promedio respecto a la mediana (DPM):

DPM = ( i xi Q2)/n

La desviacin absoluta respecto a la mediana (DAM):

DAM=Med(xi Q2) (con i=1,2, ... ,n)

14. TABLA DE CONTINGENCIA

Consideremos ahora un esquema de doble clasificacin, por


ejemplo las personas o habitantes del pas se pueden agrupar
entre los que viven en el rea urbana y los que viven en el rea
rural, y dentro de estos dos grupos se los puede clasificar
respecto al sexo (es decir en hombres y mujeres).

Ejemplo 6: de acuerdo a los resultados del censo de poblacin


del ao 2001 tenemos la siguiente clasificacin doble:

POBLACION Hombres Mujeres Total


Urbana 3.625.96 3.805.39 7.431.355
2 3

28
Rural 2.392.39 2.332.86 4.725.253
1 2
Total 6.018.35 6.138.25 12.156.608
3 5

La clasificacin de datos categricos de acuerdo con dos


variables (X,Y) se denomina cuadro de contingencia, es en
definitiva una tabla de frecuencias (absolutas o relativas) donde
una variable se representa en las filas y la otra en las columnas;
se cuentan los individuos que tienen los valores indicados en las
filas y en las columnas.

Supongamos que la primera variable (X) tenga p resultados


posibles (o categoras) y que para la segunda (Y) existan q
valores factibles (categoras), entonces la tabla de contingencia
es una matriz, con p filas y q columnas, formada por los valores
ni,j (que corresponden al numero de individuos que pertenecen a
la categora i en la primera variable y a la categora j en la
segunda) que representan las frecuencias absolutas de la
categora conjunta (i,j).

Se puede encontrar tambin la frecuencia relativa de la clase


(i,j) que es igual al cociente: fi,j = ni,j / n (donde n es el numero
total de individuos) y proporcionan la distribucin emprica
conjunta de las dos variables, y dan una estimacin de las
probabilidades pij de que un individuo pertenezca a la categora
conjunta (i,j), es decir a la categora i en la variable X y a la
categora j en Y.

En el ejemplo que estamos tratando, la tabla de frecuencias


relativas es:

POBLACION Hombres Mujeres Total


Urbana 29,8% 31.3% 61,1%

29
Rural 19,7% 19,2% 38.9%
Total 49,5% 50,5% 100,0%

Propiedades: La sumatoria de todos los valores ni,j (para i


desde 1 hasta p, y j desde 1 hasta q) es igual al total de
individuos n.

La sumatoria de todos los valores fi,j (para i desde 1 hasta p, y j


desde 1 hasta q) es igual a 1.

Distribuciones marginales: En la tabla de contingencia se suelen


incluir los totales de las filas y los totales de las columnas, es
decir se calcula:

ni. = sumatorio en j de los ni,j (para cada categora i=1,2,...,p)

El valor de ni. es la frecuencia absoluta de la primera variable,


para la categora i, y las frecuencias relativas marginales fi. =
ni./n dan la distribucin emprica de la primera variable (X).
De manera similar, para la segunda variable (Y), se incluye una
fila con los valores: n.j que representan sus frecuencias
absolutas.

Anlogamente las frecuencias relativas f.j = n.j/n proporcionan la


distribucin emprica de la segunda variable Y, y da una
estimacin de la probabilidad pj de que un individuo pertenezca
a la categora j.

15. REGRESIN LINEAL SIMPLE

En algunas aplicaciones se requiere establecer relaciones entre


dos variables; la regresin lineal simple sirve para determinar

30
una relacin lineal entre dos variables: X=(x1,x2,...,xn) y
Y=(y1,y2,...,yn).

El modelo determinista plantea: Y = b0 + b1 X

El modelo probabilista (o aleatorio) considera:

Y = b0 + b1 X + e ; donde e es una componente aleatoria del


error.

Como sabemos b0 es la ordenada al origen; y, b1 es la


pendiente de la recta; los mismos que se obtienen, usando el
mtodo de los mnimos cuadrados, mediante las siguientes
frmulas:

b1 = SCXY / SCXX ;

Donde: SCXX = i (xi mx)2; y , SCXY = i (xi mx)(yi-my) .


b0 = my b1 mx

La pregunta que se plantea entonces es: Qu tan bien se ajusta


la recta a los datos?

Para responder, a esta pregunta, se usa el coeficiente de


correlacin lineal de Pearson, definido por:

r = SCXY / (SCXX SCYY )

El valor de r est siempre entre: 1 y +1 ; tiene el mismo signo


que b1; si es cercano a 1 o a +1 , indica que si existe una
relacin lineal entre X y Y; si es igual a 1 (o +1) se cumple
exactamente la igualdad (es decir se verifica el modelo
determinista).

31
Dentro del anlisis estadstico se debe determinar adems si los
coeficientes son significativos, es decir si se acepta o rechaza la
hiptesis de nulidad de los parmetros correspondientes a bo y
b1.

Ejercicio 12: Considerar las observaciones provinciales del


nmero de vacas ordeadas y la cantidad (en litros) obtenida
(referirse a los resultados del CNA 2000). Efectuar la regresin
lineal y calcular el coeficiente de correlacin lineal de Pearson.

16. ESTIMACION DE PARAMETROS

Supongamos que deseamos inferir algo sobre el valor del


parmetro de la media poblacional basados en el valor de la
media muestral. Un resultado muy importante de la estadstica
me permite afirmar que:
El valor de la media poblacional, con un 95% de confiabilidad
(es decir con probabilidad 0,95) se encuentra en el intervalo:

( m 2 s/n ; m 2 s/n ) para muestras grandes (tamao n >


27)

Observemos que el error por muestreo: 2 s/n es ms grande si


la desviacin muestral aumenta y es ms pequeo si el tamao
de la muestra crece.

El factor 2 ya no se mantiene, se incrementa, si la muestra es


ms pequea (o si aumentamos el nivel de confiabilidad). Por
ejemplo: si la muestra es menor o igual a 27 y mayor a 13 el
factor se aproxima por 2,1 ; si n=6 o n=7 el factor es
prcticamente igual a 2,4 .

32
Si el tamao de la muestra est entre 10 y 13 el factor es
aproximadamente igual a 2,2 ; y est alrededor de 2,3 si n es
igual a 8 o 9 .

Adems si queremos un nivel de confiabilidad mayor, por


ejemplo el 99%, este factor aumenta prcticamente a 2,9 si el
tamao de la muestra est entre 15 y 19 .

Supongamos por ejemplo que al realizar un estudio de la


duracin de cierta marca de pilas, se utiliz una muestra de 16
pilas, de la cual se obtuvo un promedio de dos horas 45 minutos
de duracin con una desviacin estndar de 12 minutos. Es
decir se obtuvieron los siguientes resultados (estadsticos):
m=2,75 horas, s=0,2 horas, encontrar entre que valores se
encuentra la duracin media de las pilas de esa marca con una
confiabilidad del 95% , y comparar los resultados si considero
una seguridad de 99%.

Con el 95% : ( 2,75 2,1*0,2/16 ; 2,75 + 2,1*0,2/16 )


Es decir: ( 2,645 horas ; 2,855 horas )
Con el 99% : ( 2,75 2,9*0,2/16 ; 2,75 + 2,9*0,2/16 )
Es decir: ( 2,605 horas ; 2,895 horas ) = (2horas 36min. ;
2horas 54 min)

La justificacin de estos resultados no son fciles de exponer a


nivel de la educacin media, por cuanto requiere del desarrollo
de la teora de las probabilidades; sin embargo considero que se
deben dar tambin los fundamentos de esta teora en el nivel
medio, lo que puede ser motivo de un prximo curso, que
bsicamente debera contener los temas: el concepto de
probabilidad, variables aleatorias y las principales distribuciones
de probabilidad.

33
17. EL PROGRAMA CURRICULAR DE LA
ESTADISTICA EN LA EDUCACION BASICA Y MEDIA.

Como puede observarse los contenidos de este curso son


elementales y bsicos en la formacin de una persona, pues
ahora ya forman parte del lenguaje de los individuos y de los
medios de comunicacin colectiva.

Personalmente pienso que la estadstica bsica es mucho ms


simple y til que muchos de los temas, que en matemtica, se
los estudian con exagerada atencin en la educacin bsica y
media.

Me parece importante y no muy difcil incorporar estos y otros


temas, como el de probabilidades bsicas, hay que determinar
en que curso los estudiantes ya estaran en capacidad de
asimilarlos.
La reforma curricular para la educacin bsica plantea en el
cuarto y quinto ao bsico, en el sistema de estadstica y
probabilidad, introducir los temas sobre recoleccin de datos y
su representacin en diagrama de barras; en el sexto las medida
de localizacin (o tendencia central) como la media, mediana y
moda, y en el sptimo completar otras representaciones como la
circular, tallo y hojas, de caja, etc.

En el octavo y noveno ao, las tablas de frecuencias absolutas,


relativas y acumuladas y su representacin en histogramas, las
medidas de dispersin como la desviacin estandar (o tpica) y
la varianza, complementando con la nocin de probabilidad y de
sucesos o eventos; y en el dcimo ao se propone recopilar y
revisar todos estos temas con suficientes aplicaciones relevantes
en cuanto a los contenidos (relacionados con otras ciencias
como la economa, sociologa, demografa, etc.).

34
La propuesta es excelente, pero talvez es muy desagregada y
algo temprana; se podra empezar en sexto ao de bsica con
los temas sobre recoleccin de datos, diagramas de puntos y de
barras y medidas de tendencia central como la media, la
mediana y la moda; en el sptimo ao bsico se deberan
introducir otras representaciones como la de tallo y hojas y la
circular, o de pastel, y de paso recordar las de puntos y barras,
definir el rango y el rango intercuartil para la representacin de
caja; y en los aos: octavo, noveno y dcimo seguir los
planteamientos de la Reforma Curricular.

En los aos siguientes de educacin media (bachillerato) se


deberan tratar los siguientes temas, en el cuarto curso la
regresin lineal simple y las tablas de contingencia (o cruzadas),
en el quinto curso las distribuciones de probabilidad ms
utilizadas, especialmente la binomial y la normal, y en sexto
curso terminar con temas de estimacin de parmetros, ms
precisamente estimacin puntual y por intervalos de la media
poblacional, y en particular de una proporcin, usando el
teorema del lmite central, o sea la distribucin normal para
muestras grandes, es decir: para un tamao de muestra mayor
que 27, se puede afirmar, con el 95% de confiabilidad, que la
media poblacional est en el intervalo: [m2s/n; m+2s/n].

Obviamente, se podra pretender la inclusin de otros temas


como la estimacin del total poblacional, siempre en el caso del
muestreo aleatorio simple, la estimacin por intervalo para
tamaos de muestra pequeos, es decir cuando el tamao es
menor o igual que 27, y las regresiones (exponencial,
logartmica, etc.) que se reducen al caso lineal simple.

Pero posiblemente lo ms importante de la Estadstica es su


aplicacin y relacin con las dems ciencias, lo que puede servir
para que el estudiante conozca, por ejemplo, la realidad social,

35
econmica, etc de su provincia o del pas y compararla con la
de otros pases del mundo. Es por esta razn que la Estadstica
podra ser el medio para lograr otros conocimientos e incluso
para realizar ciertas investigaciones, basadas en encuestas por
muestreo aleatorio, en diversas disciplinas.

A propsito, por ltimo, a continuacin les envo otros


ejercicios:

Realizar los grficos en barras y circular (pastel) de la poblacin


total ocupada por tipo de actividad, y hacer los grficos segn
el sexo, es decir considerando la poblacin de hombres y de
mujeres.
Hacer los grficos en barras y circular (pastel) de la poblacin
econmicamente activa (PEA) por categoras de ocupacin, y
tambin los grficos segn el sexo, es decir considerando la
PEA masculina y femenina.

Realizar los grficos en barras y circular (pastel) de la PEA del


sector privado por grupos principales de ocupacin.

Bibliografa:

Berenson M., Levine D., Estadstica Bsica en Administracin,


Prentice Hall Hispanoamericana S. A., Mxico, 1996.
Freund J. y Simon G., Estadstica elemental, Prentice Hall,
Mxico, 1994.
Galindo E., Estadstica para la Administracin y la Ingeniera,
Grficas Mediavilla Hnos., Quito, 1999.

36

También podría gustarte