(Teoria) Notas de Estadistica

Notas
de
ESTADÍSTICA
Mario Enrique Borgna
Indice
Capítulo Página
I Introducción 1
Título 1: ESTADÍSTICA DESCRIPTIVA

II Organización de los datos 9
III Medidas de posición 20
IV Medidas de intensidad 31
V Dispersión 39
Adenda: Elaboración de modelos poblacionales. 47
VI Regresión y correlación (aspecto descriptivo) 48
VII Series de tiempo 52
Título 2: PROBABILIDAD
VIII Probabilidad 64
IX Variable aleatoria discreta 79
X Variable aleatoria continua 90
XI Teoría del muestreo 97
Título 3: ESTADÍSTICA INFERENCIAL 105

XII Intervalos de confianza 106
XIII Pruebas de hipótesis 116
XIV Regresión y correlación (aspecto inferencial) 127
Algunas Referencias bibliográficas 134
2014
NOTAS DE ESTADÍSTICA 1
Cap. I - INTRODUCCIÓN
El sujeto de lo que hoy entendemos por estadística, su corpus, se construyó a lo largo de los años
y de los siglos desde bien variadas ramas del conocimiento como la astronomía, la geodesia y las
ciencias de la tierra en general (censos de tierras, ajuste de las observaciones celestes y terrestres,
geoestadística), las ciencias políticas y sociales (censos de población, demografía, mortalidad,
sistemas electorales, seguros), la matemática (álgebra de las probabilidades), la biología
(biometría, genética), la física (nuclear, mecánica estadística) y la mecánica de fluidos
(turbulencia), la economía (econometría), la climatografía (mecánica aleatoria de la atmósfera) y
hasta desde los juegos de azar.
¿Cómo podría definirse a la Estadística?.

La palabra estadísticas –en plural– se usa para caracterizar hechos numéricos reunidos
sistemáticamente en cualquier campo (estadísticas económicas, de salud, de población, etc.). En
singular, la palabra estadística se refiere a la “ciencia de la reunión, clasificación y uso de las
estadísticas”.
Una muy buena definición, muy simple y a la vez muy completa, es la siguiente:
Estadística es el Arte y la Ciencia de extraer información útil de datos empíricos1
de la cual resaltaremos algo que es obvio: no puede hacerse Estadística sin datos tomados de la
realidad.
Ahora bien, esos datos son extraídos de una cierta población o universo objeto de estudio: la
población objetivo. Una población objetivo muy a mano de todos es, por ejemplo, el barrio.
A continuación establecemos el nivel de detalle con que relevaremos el barrio: manzana, cuadra,
vivienda, persona. El nivel de detalle elegido es lo que llamaremos unidad de observación, por
ejemplo: vivienda.
Lo que interesa estudiar estadísticamente en la población son los atributos de la unidad de
observación, en especial aquellos atributos que varían entre unidades observadas. En el grupo
relevado de viviendas son atributos variables: la cantidad de ambientes, el estado de mantenimiento, la
cantidad de ocupantes, etc..
Mediante un instrumento de recolección de datos como lo es la encuesta –donde se contemplen los
atributos que deseamos estudiar–, recorremos el espacio geográfico considerado como nuestro barrio,
encuestando a todas las viviendas. Este procedimiento es lo que el INDEC (Instituto Nacional de
Estadística y Censos: http://www.indec.mecon.gov.ar/ ) llama barrido territorial 2.
Agreguemos ahora una complicación a nuestro trabajo: no disponemos de mucho tiempo para
recorrer todas y cada una de las viviendas del barrio. Esta situación constituye una primera forma de
inaccesibilidad de la población. A raíz de ello, elegimos al azar 32 viviendas, por ejemplo, y
encuestamos sólo a ellas. Este grupo es sólo una parte de la población pero, en virtud de la
intervención del azar, puede ser representativa de aquella. Convengamos entonces, que este grupo de
32 viviendas es una muestra representativa de la población o universo de viviendas del barrio.
1
Hampel F.R. et al. Robust Statistics. E. John Wiley & Sons. 1986
2
El INDEC y las Direcciones Provinciales de Estadística (DPE) integran el Sistema Estadístico Nacional, que entre fines
de 2004 y Octubre de 2005 realizó, mediante barrido territorial, el Censo Nacional Económico 2004/2005.
____________________
El siguiente cuadro numérico muestra una primera organización de los datos relevados sobre 32
viviendas del barrio, y se lo llama matriz de datos:
Estado de Cantidad Gasto medio Cantidad de ¿Hay Tipo de

Vivienda Cantidad manteni- de mensual del personas niños que posesión
de miento personas grupo mayores con trabajan? de la
ambientes ocupantes trabajo vivienda
1 3 B 3 780,5$ 1 N D
2 2 M 3 1500,0$ 1 N C
3 5 B 4 1200$ 2 N U
4 3 B 2 986,5$ 3 N D
5 4 R 3 2010$ 3 S D
6 1 B 3 780 $ 3 N O
7 2 M 3 1452$ 3 N D
8 4 E 2 1200$ 2 N I
9 5 B 5 900$ 5 N I
10 4 R 3 2010$ 3 N D
11 3 B 3 890$ 3 N I
12 4 M 3 1200$ 3 N O
13 3 B 3 900$ 3 S D
14 2 B 2 2010$ 2 N I
15 4 M 3 890$ 3 N D
16 2 B 2 780 $ 2 N U
17 4 R 5 1500$ 5 N O
18 1 B 3 1200$ 3 N I
19 2 M 3 890,0$ 3 N D
20 4 E 3 780,5 $ 3 S I
21 5 B 3 1312,8$ 3 N I
22 3 R 2 1200$ 2 N D
23 4 B 5 986,0$ 5 N I
24 4 R 3 2010$ 3 N O
25 3 B 3 890$ 3 S D
26 5 B 3 780 $ 3 N I
27 3 R 3 1510,6$ 3 N D
28 6 B 2 1200$ 2 N U
29 4 M 5 900$ 5 N O
30 1 E 2 2010$ 3 S I
31 4 B 3 890$ 3 N D
32 3 R 5 780 $ 3 N I
Algunos de los atributos incluidos en la matriz de datos de nuestro ejemplo, más otros diseñados
especialmente, son usados por el INDEC en su Encuesta Permanente de Hogares (EPH)3.
Elementos de METODOLOGÍA ESTADÍSTICA en el diseño de encuestas.
- El diseño de la encuesta, con preguntas tales como: ¿cuántas personas viven aquí?, etc., etc., está
supeditado rigurosamente a la unidad de observación o unidad de análisis elegida. Si por ejemplo
en lugar de viviendas, se hubiere elegido a las personas del barrio como unidades de observación,
cabrían preguntas como: fecha de nacimiento (para luego tratar la variable edad), sexo, oficio o
profesión, ¿es ateo, agnóstico o profesa alguna religión?, ¿tiene alguna adicción?, ¿cuál?, etc., etc..
3
La EPH se realiza sobre los 31 mayores conglomerados urbanos del país.
____________________
- Las preguntas diseñadas para la encuesta pueden prever opciones de respuesta: Sí-No (para ¿hay
niños que trabajan?), dueño-inquilino-comodatario-usufructuario-ocupante (para Tipo de
posesión) o Malo-Regular-Bueno-Muy bueno-Excelente (para estado de mantenimiento). También
pueden ser preguntas abiertas, como las relacionadas con las variables: cantidad de ambientes,
cantidad de personas ocupantes, gasto medio mensual y cantidad de personas mayores con trabajo.
- La preguntas ¿hay niños que trabajan? posiblemente produzca algún grado fuerte de hermetismo,
la gente se cierra y no responde o si lo hacen la respuesta puede estar muy viciada. Esta es otra
forma de inaccesibilidad de la población y posiblemente sea imposible de sortear en muchos
casos. Pero una manera de intentarlo es, en vez de la pregunta directa, diseñar un conjunto de
preguntas que indirectamente puedan llevar a la información que buscamos.
- La pregunta debe apuntar a que las respuestas sean lo más primarias que se pueda. Un ejemplo de
respuesta primaria está en la columna: gasto medio mensual (del grupo que habita cada vivienda
encuestada), de nuestra matriz de datos. Si las respuestas previstas hubieran sido: bajo-medio-alto,
es decir no primarias, la información obtenible a partir de ellas sería menos rica. Como contra-
parte, y atendiendo al ítem anterior, preguntas no tan primarias pueden ser una solución al
problema del hermetismo o al de las respuestas viciadas. Justamente, en nuestra simulación de
trabajo en el barrio elegimos ¿hay niños que trabajan? en lugar de ¿cuántos niños trabajan?.
- Mediante pequeños trabajos de campo previos, si se pudiera, o con métodos de simulación, es
conveniente realizar un monitoreo de las posibles respuestas a las preguntas bosquejadas. El
objetivo es poner a prueba las preguntas formuladas, para eventualmente retocar alguna,
reformular radicalmente otras y eliminar las que no tienen entrada en la población. También para
incorporar preguntas que no se hayan previsto y que surjan a raíz del monitoreo o la simulación.
Matriz de datos.
Es el primer paso en la organización de los datos recolectados mediante la encuesta o alguna
variante de ella. Usualmente, en la matriz se destina una fila para cada unidad observada y una
columna para cada atributo.
Cada columna no necesariamente se origina en una y sólo una pregunta del trabajo de campo. El
atributo ¿hay niños que trabajan? podría ser el resultado de la combinación de varias preguntas
contenidas en la encuesta y no tan directas como aquella.
A la inversa, una pregunta abierta que produzca respuestas con mucho contenido, podría generar más
de un atributo –más de una columna–. Por supuesto que para ello, debe haber un trabajo de
elaboración e interpretación “en gabinete” post-encuesta y antes del armado definitivo de la matriz.
En la matriz definitiva no tienen razón de ser columnas –atributos– que sean el resultado de procesar
de alguna manera otra columna. Por ejemplo, si se hubiere elegido a cada persona del barrio como
unidad de observación, la pregunta “fecha de nacimiento” debe llevar a crear a una columna del
mismo nombre en la matriz y sería redundante agregar otra destinada a la “edad”.
Al igual que en la etapa de diseño de la encuesta, en la etapa de elaboración de la matriz de datos
definitiva, debe prevalecer el concepto de preservar el dato primario.
Variables estadísticas.
Por afuera de la matriz de datos y para un riguroso tratamiento estadístico, los atributos devienen en
lo que llamamos variables estadísticas. En el proceso de diseño de las variables estadísticas, algunos
atributos permanecen inalterados (cantidad de ambientes, estado de mantenimiento, etc. se
transforman en variables del mismo nombre y con los mismos valores o categorías relevados), pero
otros son reducidos a variables con distinto nombre y a las cuales se les asignan otros valores o
categorías (vbgr. el atributo fecha de nacimiento se convierte en la variable edad civil).
____________________
Los valores que toman los datos según las distintas variables, son numéricos en algunos casos y no
numéricos en otros. A las variables del tipo numérico las llamaremos variables cuantitativas y a las
del tipo no numérico variables cualitativas –o categóricas– porque sus valores son, en rigor,
categorías o cualidades.
Entre las primeras distinguimos dos subtipos: cuantitativas discretas –cuando los valores son números
enteros– y cuantitativas continuas –cuando esos valores son números reales (es decir que se expresan
naturalmente con decimales)–. De nuestra matriz corresponde calificar como cuantitativa continua a
la variable gasto medio mensual (aunque se redondearan todos los valores a la unidad la variable es de
naturaleza continua). Las numéricas restantes de nuestra matriz son cuantitativas discretas (los
valores que toman son naturalmente números enteros).
Las cualitativas admiten también dos subtipos: las cualitativas ordenables, en las cuales hay un orden
natural entre las categorías relevadas –hay una escala ordinal para ellas–, y las cualitativas no
ordenables, cuyas categorías no admiten orden y se ubican en una escala nominal. De nuestra matriz,
la variable Estado de mantenimiento entra en la calificación de cualitativa ordenable (porque entre las
respuestas de Malo a Excelente, hay un orden natural entre ellas). Las otras dos (Hay niños que
trabajan y Tipo de posesión) son no ordenables.
Indicadores estadísticos
La principal tarea que se realiza sobre las variables estadísticas –diseñadas a partir de los atributos
consignados en una matriz de datos– es la determinación de medidas estadísticas. Ellas describen las
características sobresalientes del conjunto de datos y constituyen lo que popularmente se entienden
como indicadores estadísticos. Ejemplo: “entre las 32 viviendas de la muestra del barrio, predominan
las que tienen un buen mantenimiento, en promedio hay 3,5 ocupantes por vivienda y la mitad de
todas ellas tienen hasta 3 ambientes”.
En la frase anterior están involucradas tres variables distintas (estado de mantenimiento, cantidad de
ocupantes y cantidad de ambientes) y de cada una de ellas se rescató un indicador (entre todos los que
pueden elaborarse para una misma variable).
Hay que señalar que las variables cuantitativas (tanto continuas como discretas) son las que mayor
cantidad de indicadores permiten elaborar y las cualitativas no ordenables son las que menos.
A partir del tercer cuaderno de este curso se verá cómo se elaboran –se determinan– los indicadores.
Estructura del curso.
Los procedimientos concernientes al procesamiento estadístico de un grupo de datos empíricos,
determinar sus indicadores estadísticos y confeccionar gráficos, corresponden a la primera parte del
curso llamada ESTADÍSTICA DESCRIPTIVA.
Como las viviendas relevadas solo son una parte de la totalidad de las viviendas del barrio, el grupo
constituye una muestra. Y en este caso: ¿podríamos extender las conclusiones anteriores referentes a
la muestra (por ejemplo el promedio de ocupantes, etc.) hacia toda la población del barrio?. Es decir:
¿qué podemos inferir acerca de todas las viviendas del barrio a partir de la muestra?. Este otro
enfoque, ya no meramente descriptivo, será abordado en la tercera y última parte de este curso
llamada ESTADÍSTICA INFERENCIAL.
Con sentido común podemos percibir que es muy delicado extender hacia la población, las
conclusiones obtenidas para la muestra por lo que, en principio, ésta debe estar muy bien recolectada,
debe ser una muestra representativa de la población. Todos los métodos de muestreo (simple,
estratificado, sistemático o secuencial, por conglomerados, etc.)4 tienen en cuenta que, para obtener
4
Ver: Babbie, Earl R., Métodos de Investigación por encuesta, Biblioteca de la Salud, Fondo de cultura económica (1988):
págs. 121-126.
____________________
muestras representativas de la población, el mecanismo básico es el azar. El estudio del azar

constituye la llamada teoría de las probabilidades y corresponde a la segunda parte de este curso.
Resumiendo, la estructura general del curso es la que se aprecia en el siguiente diagrama:
ESTADISTICA DESCRIPTIVA

PROBABILIDAD
ESTADISTICA INFERENCIAL
ERRATAS5 en la enseñanza-aprendizaje de la Estadística

Hay una incorrecta categorización de la Estadística como una rama de las matemáticas, creencia a
menudo instalada no sólo entre alumnos sino también en el modus operandi de docentes que la dictan.
Este contexto crea, por alguna razón, las condiciones suficientes para imprimirles un perfil escolar –de
escuela de nivel medio– a no pocos cursos de estadística de nivel universitario.
Tanto en la enseñanza-aprendizaje como en su uso, enfocarla como una matemática –a la sazón
eminentemente deductiva– altera la naturaleza inductiva de la Estadística, acarreando graves sesgos
conceptuales y metodológicos en la obtención de información útil y atentando contra su buen
aprovechamiento en el ejercicio profesional.
La Estadística es una transdiciplina6, tanto en sus orígenes como en su desarrollo histórico y actual.
Ello implica que los profesionales en cualquiera de las ramas de las ciencias la consideren como
propia y como una componente más en la producción de modelos teóricos inherentes a su profesión.
ESTADÍSTICA Y SOCIEDAD
Los indicadores estadísticos esclarecen cualquier discusión que pueda estar cargada de subjetivismo,
y la información que portan contribuye a “no tropezar dos veces con la misma piedra”. El impacto
negativo de las políticas neoliberales en Latinoamérica, pudieron verse muy claramente al analizar el
comportamiento a lo largo de los 80´ y 90´ de todos los indicadores sociales (economía, educación,
salud, producción científica y cultural). Lo mismo hoy en países europeos como Grecia, España, etc.
La lectura de la información estadística y su interpretación deben ser una parte natural de la cultura
media y popular, lo que ayuda a prevenir contra la desinformación (ocultamiento de evidencias y/o
falsificación de datos) que realizan los medios comunicación del establishment7, tanto locales (Clarín,
La Nación, agencia DyN, y sus satélites) como extranjeros (CNN, BBC, FP, etc.).
Glosario
Unidad de observación: es el objeto sobre el cual se realiza la observación. Implica la elección del grado de
detalle con que se planifica un estudio estadístico.
Población objetivo: Es el universo de todas las unidades de observación involucradas en el fenómeno
estudiado. Es la colección de todos los miembros concebibles en el fenómeno que se desea estudiar.
Muestra representativa: es un subconjunto de la población y representativo de ella.
Variable estadística: cualquier aspecto variable que se desee estudiar en la población y que se desprende
directa o indirectamente de algún/os atributo/s relevado/s por la encuesta.
Matriz de datos: arreglo que incluye conjuntamente los atributos relevados y las unidades observadas.
5
A lo largo de los sucesivos capítulos de estas notas, esta sección de ERRATAS estará destinada a discutir sobre errores
de concepto, sesgos interpretativos usuales, ciertos usos y costumbres que se contraponen a los principios de metodología
estadística, etc., detectables todos ellos tanto en los ambientes de enseñanza de la estadística como en la práctica
profesional, cualquiera sea la profesión, donde un buen aprovechamiento de la estadística sea primordial.
6
En el sentido con que el sociólogo francés Pierre Bourdieu (1930-2002) definió el espíritu de ciertas disciplinas.
7
Conjunto de personas con poder que defienden sus privilegios y procuran mantener el orden conservador.
____________________
ADENDA al capítulo I
Tres ejemplos de matrices de datos con distintas unidades de observación
– Comparadas con las grandes empresas, las PyMEs son las que generan más empleo y dentro de
ellas, las empresas gestionadas por sus trabajadores fueron casi las únicas que en períodos críticos
(por ejemplo 2001-2003) incrementaron los puestos de trabajo. Estas conclusiones se apoyan en el
censo nacional económico 2004/2005.
La siguiente matriz de datos corresponde a una muestra de 24 empresas extraídas al azar entre
todas las PyMEs relevadas por el Censo Nacional Económico 2004/2005:
Tipo Antigüe- Endeu- Cantidadde Puestosdetrabajo

Ru-bro damiento Personal
dad 2001-2003
1 P S 1 M 128 M
2 P I 6 M 150 D
3 R A 8 N 19 A
4 R C 4 M 170 M
5 P I 8 MA 112 M
6 P A 3 A 140 D
7 R I 10 B 20 A
8 P S 8 MA 23 D
9 P C 4 M 114 M
10 P A 0 MA 148 A
11 R A 2 M 154 A
12 P I 4 B 100 D
13 P C 5 MA 250 D
14 R I 6 A 142 A
15 P A 7 MA 105 M
16 R I 2 A 160 M
17 p C 9 M 22 M
18 R I 17 B 5 M
19 P S 11 M 120 D
20 R I 6 N 137 A
21 P I 7 M 80 D
22 P A 4 A 109 M
23 P C 25 MA 110 A
24 R S 11 B 144 A
REFERENCIAS:
Tipo de PyME: Recuperada, Privada.
Rubro: Agrícola, Comercial, Industrial, Servicios.
Antigüedad, en años, al momento del Censo Económico 2004/2005.
Nivel de endeudamiento: Ninguno, Bajo, Medio, Alto, Muy Alto.
Puestos de trabajo durante 2001-2003: Disminuyó, Mantuvo, Aumentó.
En esta muestra, las unidades de observación son Pymes tomadas una población objetivo que
comprende a todas las Pymes del Censo económico 2004/2005.
____________________
– Una PyMe cooperativa que fabrica piezas plásticas especiales, regularmente coloca su producción
en el mercado local. Con el fin de incrementar sus fuerzas productivas, sobre todo en lo que atañe a
su fuerza de trabajo, programaron salir al mercado internacional y para ello fueron haciendo stock
de uno de sus productos con los sobrantes de la colocación local.
La siguientes matriz de datos corresponde a 20 piezas seleccionadas al azar de ese stock por el sector
de control de calidad:
Longitud tiempode detallesde Peso Alguna
mat. fabric. termi- caract.
[cm] prima nación [gr] señalable
1 5,59 N 261 R 71,1 N
2 5,53 I 145 E 71,9 N
3 5,59 N 137 B 72,0 N
4 5,49 N 168 MB 70,5 S
5 5,50 I 150 MB 70,1 N
6 5,47 N 140 R 71,4 N
7 5,15 I 139 R 70,7 S
8 5,51 N 194 MB 71,5 N
9 5,54 N 93 B 71,7 S
10 5,49 I 39 MB 71,2 N
11 5,56 N 59 E 71,3 S
12 5,49 N 65 B 69,5 N
13 5,64 I 110 R 72,5 S
14 5,59 N 128 E 71,7 N
15 5,57 N 13 E 71,9 S
16 5,45 I 22 MB 70,9 N
17 5,30 N 113 R 64,1 S
18 5,46 I 81 B 70,3 S
19 5,55 N 79 E 67,1 N
20 5,61 N 11 B 72,1 N
REFERENCIAS:
Materia prima: Nacional o Importada.

Tiempo, en días, que lleva de fabricada la pieza.
Nivel de detalles de terminación: Regular, Bueno, Muy Bueno y Excelente.
¿Tiene alguna otra característica señalable en la terminación?: Sí, No.
Aquí las unidades de observación son piezas tomadas durante el proceso de fabricación por muestreo
secuencial8 entre la población de todas las piezas plásticas especiales fabricadas por la cooperativa.
8
pág.122 V.5.2 (muestreo sistemático o secuencial).
____________________
- En esa misma PyMe cooperativa se tomó también una muestra de trabajadores, esta vez mediante
el método de muestreo simple9 .
edad sexo Anti- Especia- Confor- Quincena$

güedad lización midad
1 34 M 1 B C 345
2 36 F 5 A M 950
3 51 M 7 M P 670
4 21 F 4 M C 810
5 37 F 0 M M 800
6 38 M 0 B P 500
7 39 F 9 B C 690
8 25 F 4 M M 840
9 36 M 3 M P 835
10 40 F 3 M P 735
11 63 F 5 A M 1550
12 40 M 5 A M 850
13 39 F 0 B C 505
14 37 M 8 A M 1135
15 57 F 13 A M 1280
16 30 F 2 M M 820
17 28 M 3 B C 480
18 48 F 1 M M 830
19 42 M 7 A P 1145
20 37 F 1 M M 775
REFERENCIAS:
Nivel de especialización: B: bajo, M: mediano, A: alto
Conformidad con el funcionamiento de la empresa cooperativa: P: poco conforme, C: conforme, : M: muy
conforme
Quincena: participación quincenal en las ganancias de la cooperativa.
Las unidades de observación son los trabajadores de la empresa cooperativa.
9
pág.121 V.5.1 (muestreo irrestricto aleatorio o muestreo simple).
____________________
Cap. II – ORGANIZACIÓN DE LOS DATOS – GRÁFICOS

Para obtener información útil sobre las características del grupo estudiado (vbgr. la muestra de
viviendas del barrio) mediante el procesamiento de los datos relevados, lo primero será
organizarlos adecuadamente. Dicha organización se inició con la matriz de datos –donde cada
calumna es ocupada por un atributo común a las unidades observadas–, sigue con el diseño de las
variables estadísticas –que se desprenden de los atributos– y concluye con la elaboración de una
tabla de frecuencias (cualquiera sea la variable) y un arreglo de datos ordenados (que es una
matriz fila con datos ordenados de menor a mayor y que por lo tanto no es aplicable a las variables
cualitativas no ordenables).
Ya vista la matriz de datos en el capítulo anterior, prosigamos entonces con los pasos siguientes en la
organización de los datos: la tabla de frecuencias y el arreglo de datos ordenados. Adicionalmente
veremos algunas representaciones gráficas.
Variables cuantitativas
El atributo Cantidad de ambientes deviene, sin más trámite, en la variable cuantitativa discreta
Cantidad de ambientes por vivienda.
1) Ordenando los datos, en sentido creciente, tendremos las 32 viviendas encuestadas ordenadas (de
menor a mayor) según la cantidad de ambientes:
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6
Esta disposición o arreglo de los datos en una matriz fila10 se llama: arreglo de datos ordenados.
2) Agrupando los datos por valores que se repiten y anotando la frecuencia con que lo hacen,
obtendremos una forma de organización que llamamos tabla de frecuencias:
Cantidad de
ambientes por frecuencia
vivienda
1 amb. 3
2 amb. 5
3 amb. 8
4 amb. 11
5 amb. 4
6 amb. 1
n = 32 viv.
En base a ella, confeccionamos una tabla completa de frecuencias:
Cantidad de
ambientes por f f% fr F F% Fr
vivienda
1 amb. 3 9,38 0,0938 3 9,38 0,0938
2 amb. 5 15,62 0,1562 8 25,00 0,2500
3 amb. 8 25,00 0,2500 16 50,00 0,5000
4 amb. 11 34,38 0,3438 27 84,38 0,8438
5 amb. 4 12,50 0,1250 31 96,88 0,9688
6 amb. 1 3,12 0,0312 32 100 1
totales n = 32 100 1
10
Puede ser también una matriz columna.
____________________
o distribución de frecuencias11, donde f es la frecuencia absoluta resultante de nuestro conteo

anterior y f% y fr las frecuencias porcentual y relativa respectivamente. Estas dos últimas expresan
básicamente lo mismo, pero una en forma de porcentaje12 y la otra en forma de coeficiente. Además se
incluyen las correspondientes frecuencias acumuladas absoluta F, porcentual F% y relativa Fr.
Para mejorar la noción de conjunto del grupo de datos y tener un visión general de él, con cualquiera
de las frecuencias simples f, f% o fr podemos hacer un gráfico de bastones:
11 ---
10 ---
9 ---
8 ---
7 ---
6 ---
5 ---
4 ---
3 ---
2 ---
1 ---
1 2 3 4 5 6 cant. de ambientes
Si hubiésemos usado f% o fr los rasgos de la distribución mostrados por el gráfico serían exactamente
iguales, salvo la escala de las frecuencias.
Y, con cualquiera de las frecuencias acumuladas F, F% o Fr, podemos hacer un gráfico de escalones:
11
La distribución de frecuencias se construyó mediante los siguientes cálculos:
f f% fr F F% Fr
1 amb. 3 3/32x100 3/32 3 3/32x100 3/32
2 amb. 5 5/32x100 5/32 3+5 (3+5)/32x100 (3+5)/32
3 amb. 8 8/32x100 8/32 3+5+8 (3+5+8)/32x100 (3+5+8)/32
4 amb. 11 11/32x100 11/32 3+5+8+11 (3+5+8+11)/32x100 (3+5+8+11)/32
5 amb. 4 4/32x100 4/32 3+5+8+11+4 (3+5+8+11+4)/32x100 (3+5+8+11+4)/32
6 amb. 1 1/32x100 1/32 3+5+8+11+4+1 100 1
12
A partir de tal distribución podemos leer que el 25% de las viviendas encuestadas tienen 3 ambientes o que el 50% de
ellas tienen hasta 3 ambientes. También: el 16% tienen 2 ambientes y el 25% hasta 2 ambientes. Si bien los cálculos de las
f% se hicieron con dos decimales, para leer la información debe tenerse en cuenta la resolución porcentual del dato que,
en el caso de un grupo de 32 datos es de alrededor del 3% (1/32x100, por ello se leyó 16% y no 15,62 (15,62
16%). Sobre este concepto, se volverá con más detalles en el cap.III pág.24.
____________________
F%
100--
90---
80---
70---
60---
50---
40---
30---
20---
10---
| | | | | |
1 2 3 4 5 6 cant. de ambientes
Las construcciones que acabamos de realizar involucran cuatro espacios –abstractos y bien
diferenciables– como lo son: el espacio de los valores (primera columna de la tabla de
frecuencias), el espacio de las frecuencias (las columnas de frecuencias de la distribución),
el espacio de los datos ordenados (el arreglo de datos ordenados) y el espacio de los
números reales (el eje horizontal numérico de cualquiera de los gráficos hechos para las
variables cuantitativas).
La conceptualización de estos espacios –innovación que aportan estas Notas a la
literatura estadística– contribuye a clarificar el diseño, sin ambigüedades, de los
indicadores estadísticos.
Agrupamiento en intervalos
Los coeficientes de inteligencia de 60 estudiantes tomados al azar entre todos los que asisten a una
institución educativa son:
120 101 118 116 108 96 110 102 115 103 91 88 107 94 104 97 95 101 103 105
100 94 120 90 106 107 106 98 96 100 87 112 95 106 103 89 119 96 90 104
105 128 110 98 102 108 98 131 85 104 93 93 94 87 97 100 92 89 100 96
Empecemos a organizar los datos confeccionando el arreglo de datos ordenados:

85 87 87 88 89 89 90 90 91 92 93 93 94 94 94 95 95 96 96 96 96 97 97
98 98 98 100 100 100 100 101 101 102 102 103 103 103 104 104 104 105
105 106 106 106 107 107 108 108 110 110 112 115 116 118 119 120 120 128
131
Luego, tal como se hizo anteriormente, correspondería construir su distribución de frecuencias y

consecuentemente el gráfico de bastones, considerando como cuantitativa discreta a la variable
Coeficiente de inteligencia. Debido al perfil muy monótono con que se mostraría esta distribución,
tanto analítica como gráficamente, conviene, como alternativa, agrupar los datos en intervalos
llamados intervalos de clase:
____________________
C.I. f f% fr F F% Fr
[84.9 - 91.5) 9 15,00 0,1500 9 15,00 0,15
[91.5 - 98.1) 17 28,34 0,2834 26 43,34 0,4334
[98.1 - 104.7) 14 23,33 0,2333 40 66,67 0,6667
[104.7 - 111.3) 11 18,33 0,1833 51 85,00 0,8500
[111.3 - 117.9) 3 5,00 0,0500 54 90,00 0,9000
[117.9 - 124.5) 4 6,67 0,0667 58 96,67 0,9667
[124.5 - 131.1) 2 3,33 0,0333 60 1 100
n=60 100 1
 Como resultado de un proceso iterativo donde se prueban distintas amplitudes y sus efectos
sobre las frecuencias, se eligió agrupar los datos en intervalos de clase 13 de una amplitud de 6,6. Para
el conteo de la frecuencia, los intervalos se hicieron cerrados[ a izquierda y abiertos) a derecha,
aunque también se pudo haber hecho al revés, es decir abiertos( a izquierda y cerrados] a derecha,
pero una vez elegida una forma de intervalo, debe mantenérsela en toda la distribución.
El gráfico resultante para cualquiera de las frecuencias simples (f, f% o fr) es un gráfico de barras
adyacentes que se debe al biómetra inglés Karl Pearson14 y se llama histograma.
f

17 
16 
15 
14 
13 
12 
11 
10 
9 
8 
7 
6

4 
3
2 
1
| | | | | | | | | | | | | |
75 80 85 90 95 100 105 110 115 120 125 130 135 140 C.I.
13
Hay que destacar que esta forma de construir una distribución de frecuencias sacrifica la individualidad de los datos, lo
que implica bajar la calidad de la información obtenible, por lo que su empleo en la determinación de algún indicador
estadístico deberá acotarse sólo a los casos necesarios.
14
Desde la Biometría las contribuciones de Karl Pearson a la teoría estadística son importantes y numerosas. Además fue
cofundador en 1901 de la revista Biometrika que se convirtió en el receptáculo de todos los aportes a la estadística
provenientes de distintas ciencias y que se sigue publicando hasta hoy.
____________________
Si se lo hace con cualquiera de las otras dos frecuencias simples (f% o fr), los rasgos del histograma
serán los mismos y la única diferencia será la escala –porcentual o relativa– del eje de frecuencias.
El gráfico correspondiente a las frecuencias acumuladas, se llama ojiva15:
F%
100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

| | | | | | | | | | | | | |
75 80 85 90 95 100 105 110 115 120 125 130 135 C.I.
Organicemos ahora la variable continua Gasto medio mensual de la matriz de 32 viviendas.
Arreglo de datos ordenados:
750 760 770 778 781,8 789,5 790 820 880 890 895 900 920 950 986 986,5 1100 1150
1155 1200 1280 1298 1312,8 1452 1500 1501,5 1510,6 1810 2005 2113 2500 3449
Distribución de frecuencias. La gran variedad de valores en relación con la cantidad de datos
(característica de las continuas), hace que convenga agrupar en intervalos:
Gasto medio
mensual f f% fr F F% Fr
[750 – 1050) 16 50 0,50 16 50 0,50
[1050 – 1350) 7 21,88 0,2188 23 71,88 0,7188
[1350 – 1650) 4 12,50 0,1250 27 84,38 0,8438
[1650 – 1950) 1 3,12 0,0312 28 87,50 0,8750
[1950 – 2250) 2 6,25 0,0625 30 93,75 0,9375
[2250 – 2550) 1 3,12 0,0312 31 96,88 0,9688
[2550 – 2850) 0 0 0 31 96,88 0,9688
[2850 – 3150) 0 0 0 31 96,88 0,9688
[3150 – 3450) 1 3,12 0,0312 32 100 1
15
Se debe a Francis Galton (1822-1911), antropólogo, geógrafo y psicólogo, también biómetra y maestro de K.Pearson;
cofundador con él de Biometrika. Trabajó en teorías de la herencia particularmente en la especie humana. Algunas de sus
obras son: “El genio hereditario: sus leyes y consecuencias” y “Herencia natural”.
____________________
Variables cualitativas ordenables

De la matriz de datos elaborada para 32 viviendas, tomaremos el atributo Estado de mantenimiento, y
sin retocarlo, lo trataremos como una variable cualitativa ordenable.
 Arreglo de datos ordenados:
M M M M M R R R R R R R R R R R B B B B B B B B B B B B B E E E
Distribución de frecuencias:
Estado de
Mantenimiento f f% fr F F% Fr
M. 5 15,62 0,1562 5 15,62 0,1562

R. 11 34,38 0,3438 16 50,00 0,5000
B 13 40,62 0,4062 29 90,62 0,9062
E. 3 9,38 0,0938 32 100 1
n=32viv. 100 1
Gráfico de barras separadas:
15
14
La separación entre las barras es aproximadamente la
13 mitad de la base de cada una de ellas. Debajo de cada
12
11 barra se coloca la categoría correspondiente y el eje
10
9
8 vertical se destina a las frecuencias f (como en este
7
6 caso), f% o fr.
5
4 Al igual que el gráfico de bastones hecho anteriormente
3
2
1 para una variable cuantitativa discreta, el de barras
0
Estado de mant. separadas es un gráfico lineal.
M R B E
Gráfico de torta o circular16 (aplicable a todo tipo de variable, cuantitativa o cualitativa):

Para contruir el gráfico de torta, debe calcularse el ángulo
E M 16%
9%
correspondiente a cada porción:  = fr x 360°
En cada porción se escribe la categoría de la variable y su
correspondiente f %. Esto último se debe, comparando con
cualquier gráfico lineal, a que el poder separador del ojo
humano es más eficiente para reconocer pequeñas
B R
41%
diferencias lineales que pequeñas diferencias angulares o de
34%
áreas.
 Son tres los espacios involucrados en el tratamiento de una variable cualitativa ordenable, a
saber:
– Espacio de los valores: es la primer columna de la distribución de frecuencias, es el eje sobre el
cual se dibujaron las barras y es la torta misma.
– Espacio de las frecuencias: comprende tanto las columnas de las frecuencias simples como las
columnas de las frecuencias acumuladas.
– Espacio de los datos ordenados: es el arreglo de datos ordenados.
16
Utilizado por Florence Nightingale (1820-1910), inglesa, a quien algunas enciclopedias la definen como enfermera y
estadística. Pionera en estadísticas médicas, tuvo influencia en figuras como Francis Galton y Karl Pearson.
____________________
Variables cualitativas no ordenables

Una variable cualitativa no ordenable, por ejemplo Tipo de posesión, involucra sólo dos espacios
de trabajo: el de los valores y el de las frecuencias simples (f, f% y fr). En este tipo de variables no
deben considerarse las Frecuencias acumuladas ni el arreglo de datos ordenados, precisamente porque
las categorías de los datos no son ordenables. Son aplicables a ella el gráfico de barras separadas y,
por supuesto, el gráfico de torta.
Distribuciones bivariadas
En este enfoque intervienen dos variables a la vez, conjuntamente, simultáneamente. Cada una de esas
variables que se cruzan, puede ser indistintamente cualitativa o cuantitativa.
Caso de dos variables cualitativas.
Problema: por decreto Menem-Cavallo del 20 de Octubre de 1992 se disolvió la Junta Nacional de
Granos y a partir de allí son los grupos económicos transnacionales como Cargill, Dreyfus, etc. los
que regulan el mercado interno de granos17.
La siguiente tabla de doble entrada, denominada distribución de frecuencias conjuntas18, consigna
una muestra de 40 tipos distintos de aceites comestibles, según el aumento de sus precios y según si
están regulados (girasol, maíz, soja, etc) o no (oliva, etc.) por las transnacionales.
modo de regulación regulado por las Escapa a la regulación
nivel de aumento transnacionales de las transnacionales
mucho 27 2
poco 3 8
A partir de ella haremos un gráfico que, un mismo plano19, contenga conjuntamente a las dos
variables. Puede llamársele gráfico de barras combinadas20:
30
20 mucho
10 poco
0
regulado no regulado
17
En un ambiente de corrupción estructural y sobornos en los que estaban involucrados como actores principales junto con
los directivos de las empresas, Menem y Cavallo transfirieron la regulación del mercado interno de granos a las compañías
transnacionales, usando la falacia de la “desregulación” como cortina de humo.
18
Operativamente el conteo de las frecuencias debe ser conjunto: por ejemplo, se contaron 27 tipos de aceite que estaban
regulados por las multinacionales y aumentaron mucho su precio.
19
Las representaciones volumétricas o en 3D, son menos eficientes al momento de explotar la información gráfica.
20
Esta gráfico combina la representación en barras separadas de una de las variables, con barras adyacentes de la otra.
____________________
En este caso se eligió organizar el eje de las variables, primero en barras separadas según las causas
(modo de regulación) y luego en barras adyacentes según los efectos (nivel de aumento del precio).
No habiendo un orden de causalidad entre dos variables cualesquiera que se observen conjuntamente,
la elección de cuál es primera y cuál segunda será arbitraria.
Caso de una variable cualitativa y una cuantitativa.
Distribución de frecuencias conjuntas, en un grupo de 1000 personas, de las variables sexo y edad.
Sexo
F M
Edad
[ 0 – 10) 120 90
[10 – 20) 100 90
[20 – 30) 90 70
[30 – 40) 80 50
[40 – 50) 70 30
[50 – 60) 50 30
[60 – 70) 40 20
[70 – 80) 20 10
[80 – 90) 20 7
[90 – 100) 10 3
Si bien es aplicable el gráfico de barras combinadas, cuando las variables son sexo y edad (esta última
organizada generalmente en intervalos) hay un gráfico específicamente diseñado para ellas que se
denomina Pirámide de población.
EDAD
_100
_
_ 90
_
_80
_
_70
_
_60
_
_50
_
_40
_
_30
_
_20
_
_10
_
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| | 110
120 | 100 90 80 70 60 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90
f mujeres hombres
f
En este grupo hay predominio de población joven, y eso queda reflejado en la ancha base de la
pirámide. En las poblaciones (de, por ejemplo, muchos países europeos) donde hay predominio de las
edades mayores, la pirámide se invierte.
____________________
Caso de dos variables cuantitativas.

Cada una de las filas de la siguiente tabla bivariada contiene un dato conjunto, según las dos variables
que se explicitan, correspondiente a cada una de las 32 viviendas del barrio que integran la muestra.
Cantidad de Cantidad de
ambientes por Personas
vivienda ocupantes
3 3
2 3
5 4
3 2
4 3
1 3
2 3
4 2
5 5
4 3
3 3
4 3
3 3
2 2
4 3
2 2
4 5
1 3
2 3
4 3
5 3
3 2
4 5
4 3
3 3
5 3
3 3
6 2
4 5
1 2
4 3
3 5
Esta tabla puede representarse gráficamente mediante un gráfico de puntos, como se verá en el
capítulo VI.
____________________
Elementos de METODOLOGÍA ESTADÍSTICA en el diseño de variables estadísticas.

- Una variable puede obtenerse directamente desde la matriz de datos, simplemente transcribiendo un
atributo con sus valores o categorías. Es el caso de las variables cantidad de ambientes, estado de
mantenimiento y gasto medio mensual, cuyo tratamiento empezamos en páginas anteriores.
- Una variable puede ser el resultado de la reducción de un atributo: Por ejemplo: la edad civil
(población objetivo: personas) que se obtiene a partir del atributo fecha de nacimiento consignado en
la matriz de datos. O la variable Antigüedad en la cursada de una carrera de grado (en una población
de alumnos universitarios) que se origina en el atributo Fecha de ingreso a la carrera.
- También, dos o más atributos combinados adecuadamente pueden generar una única variable. Por
ejemplo, a partir de los atributos Fecha de nacimiento y Fecha de ingreso a la carrera (en una
población de estudiantes universitarios) puede obtenerse la variable Edad al ingreso en la carrera.
- Si de un mismo atributo (o varios combinados) es posible diseñar indistintamente una variable
cualitativa o una cuantitativa, entre ambas debe optarse por la cuantitativa porque es la que permitirá
determinar mayor cantidad de indicadores, es decir más información.
ERRATAS en la enseñanza-aprendizaje de la Estadística
En no pocos textos de Estadística y en la consecuente enseñanza-aprendizaje sólo basada en ellos, es
común ver los siguientes errores de procedimiento:
- sistemáticamente se omite el arreglo de datos ordenados, lo que favorece la irrupción de graves
errores conceptuales al momento de elaborar e interpretar los indicadores basados en dicho arreglo.
- se limita el tratamiento por intervalos sólo a las variables cuantitativas continuas.
Estadística y sociedad.
La primera fase de la implantación por la fuerza de las políticas neoliberales en Latinoamérica, y no
sólo en ella, consistió en una escalada de dictaduras cívico-militares que mediante el terrorismo de
estado y el genocidio de la oposición política (figuras afianzadas jurídicamente y que ya son parte de
la verdad histórica) allanaron el camino a la implantación del modelo neoliberal. El artículo “Las
cifras del terror” tomado de la revista universitaria El Túnel y adjuntado en la adenda de este
cuaderno, presenta las tablas de frecuencias de las variables Edad y Profesión/Ocupación del universo
o población de las personas detenidas/desaparecidas en Argentina por la última dictadura.
La segunda fase estuvo a cargo de gobiernos constitucionales que, en general, no revirtieron las
políticas de entrega del patrimonio nacional. Y no sólo no se revirtieron sino que en particular durante
el menemato –que es el período constitucional con mayor corrupción no sólo en el ejecutivo sino en
los tres poderes del estado– se consolidó crudamente el modelo neoliberal en casi todos los órdenes de
nuestra sociedad, incluidos los ambientes universitarios. En la página 15 se recreó un problema en
base a un hecho real como lo fue la disolución de las juntas nacionales de granos y carnes durante el
menemato, cuyas nefastas consecuencias llegan hasta nuestros días.
Glosario
Datos crudos: datos colectados en un relevamiento y no organizados de forma alguna.
Arreglo de datos ordenados: son los datos colectados ordenados en forma ascendente o descendente
según sus valores numéricos o también según sus categorías ordenables.
Frecuencia simple: cantidad o porcentaje de veces con que aparece un valor o categoría.
Frecuencia acumulada: cantidad o porcentaje de datos que se acumulan hasta un cierto valor o
categoría de la variable.
Distribución de frecuencias: tabla donde se listan todos los valores o categorías de la variable y sus
respectivas frecuencias simples y acumuladas.
____________________
ADENDA al cap. II
____________________
Cap.III – MEDIDAS DE POSICIÓN

En este capítulo y en los subsiguientes, veremos cómo se diseñan los llamados indicadores
estadísticos o medidas estadísticas, quienes básicamente cumplen el rol de resumir las
principales características del grupo de datos analizado.
Cada medida se determina sobre uno y sólo uno de los cuatro espacios en que se pueden
organizar los datos. La existencia de cada uno de esos espacios –innovación conceptual que
aportan estas Notas de Estadística al corpus estadístico–, ya mencionados en el capítulo II,
depende del tipo de variable de que se trate (cuantitativa, cualitativa ordenable o cualitativa
no ordenable).
En líneas generales hay tres tipos de medidas estadísticas: las de posición, las tasas o
medidas de intensidad y las medidas de dispersión.
MEDIA ARITMÉTICA
Si para la variable cantidad de ambientes por vivienda tomamos los datos tal cual los extraemos de
la matriz, los sumamos, y al resultado lo dividimos por 32, estamos calculando la media aritmética, o
promedio, de ambientes por vivienda en la muestra de nuestro barrio.
Media por vivienda:  = 3,34 ambientes
Este es nuestro primer indicador o característica que podemos señalar para la muestra de 32
viviendas del barrio. Es decir: la viviendas de la muestra tienen en promedio 3,34 ambientes.
Esta medida, también podría calcularse más organizadamente usando la tabla de frecuencias:
Cantidad de ambientes
por vivienda f
1 amb. 3
2 amb. 5
3 amb. 8
4 amb. 11
5 amb. 4
6 amb. 1
n = 32
Ahora, aprovechando la tabla de frecuencias, el cálculo de la media puede hacerse así:
(1x3 + 2x5 +3x8 + 4x11 +5x4 + 6x1) / 32 = 3,34 ambientes
lo que induce a formalizarla de la siguiente manera:  =  xi .fi
n
Aunque la variable tratada en este caso es discreta, su media es un número real porque ella representa
un punto de equilibrio 21 entre todos los datos volcados, si bien como enteros, sobre el eje real.
El espacio de definición de la media, es el espacio de los números reales (1)
Con las frecuencias f% y fr, se amplían las posibilidades de cálculo de la Media:
 =  xi .f% =  xi .fr
100
Obviamente, este indicador sólo puede elaborarse para variables cuantitativas.
21
Postulado de la media aritmética enunciado por K. F. Gauss en Theoría motus corporum cælestium, Hamgurgo (1809).
____________________
En el caso de los C.I. de 60 estudiantes presentado en el capítulo II, el coeficiente intelectual promedio
es de 101.70 puntos ( = 101.70).
Calculo de la media en base a intervalos
Si no disponemos de los datos de campo pero contamos con su agrupamiento en intervalos de clase,
puede calcularse una media alternativa, aunque de menor calidad, usando los puntos medios (o
marcas de clase) de cada intervalo en lugar de los valores de la variable propiamente dichos.
Tomemos por ejemplo la información sobre las edades de los 30.000 desaparecidos durante el
genocidio y terrorismo de estado instaurado en la última dictadura cívico-militar, vertida en la
publicación universitaria El Túnel y que se anexó al final del capítulo II. Allí, por una razón práctica,
las edades se consignan por franja etaria y en consecuencia no disponemos de los datos originales.
Adaptando dichas franjas etarias (0-5, 6-10, 11-20, ….., más de 70) a intervalos adyacentes (0-5, 5-
10, 10-15, ... , 65-70, 70-75), y usando 2.5, 7.5, 12.5, .... ,72.5, en el cálculo, resulta
 = 28,09 años
Interpretación: la edad promedio de las personas desaparecidas durante la última dictadura militar
es de 28,09 años al momento de su desaparición.
MEDIANA Y FRACTILES
Trabajando sobre el arreglo de datos ordenados de la variable cuantitativa cantidad de ambientes
(Capítulo II, pág. 9 y sgtes.) se nos ocurre fraccionarlo en dos partes iguales:
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6
La marca realizada, llamada la Mediana, es el lugar geométrico del espacio de los datos ordenados
que lo divide en dos partes iguales.
Como se ve, la mediana establece un tope máximo para la primera mitad y un mínimo para la segunda
mitad. Y las lecturas de ese máximo y ese mínimo alrededor de la mediana, completan la información
sobre de ambas mitades, a saber: la mitad (con menos ambientes) de las viviendas tienen hasta 3
ambientes y la otra mitad tienen como mínimo 4 ambientes.
Esta medida es de naturaleza esencialmente geométrica: la marca (|) misma es la Mediana.
El espacio de definición de la mediana es el espacio de los datos ordenados
Queda claro que al interpretar este indicador, debemos leer los valores de los datos que quedan a uno
y/u otro lado de la Me, tal como ya lo hicimos:
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3|4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6
e
Como extensión de la idea de mediana, podríamos seguir “marcando” el espacio de los datos
ordenados volviendo a partir por la mitad cada una de las dos partes que nos devolvió la mediana, de
tal forma que ahora contamos con un conjunto de tres marcas que lo dividen en cuatro partes iguales
(en nuestro ejemplo, cada una de ellas tienen 8 datos):
1 1 1 2 2 2 2 2 |3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 |4 4 4 5 5 5 5 6
Estas marcas se llaman cuartiles, y se simbolizan como Q1, Q2 y Q3. El 2° cuartil es la mediana.
____________________
El Q1 nos informa que la cuarta parte de las viviendas encuestadas, tiene como máximo 2 ambientes:
1 1 1 2 2 2 2 2 | 3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 | 4 4 4 5 5 5 5 6
Q1 Q2e Q3
y que las tres cuartas partes restantes tienen como mínimo 3 ambientes:
1 1 1 2 2 2 2 2|3 3 3 3 3 3 3 3|4 4 4 4 4 4 4 4|4 4 4 5 5 5 5 6

Q1 Q2e Q3
El Q3 expresa que la cuarta parte (superior) de las viviendas encuestadas, tiene como mínimo 4
ambientes (aquí se lee el 4 que está a la derecha del Q3):
1 1 1 2 2 2 2 2|3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 |4 4 4 5 5 5 5 6
Q1 Q2e Q3
pero también expresa que las tres cuartas partes restantes tienen como máximo 4 ambientes (aquí se
lee el 4 que está a la izquierda del Q3):
1 1 1 2 2 2 2 2 |3 3 3 3 3 3 3 3 | 4 4 4 4 4 4 4 4 |4 4 4 5 5 5 5 6
Q1 Q2e Q3
Si la variable fuera cualitativa ordenable, el procedimiento es el mismo. Los cuartiles marcados sobre
el espacio de los datos ordenados de la variable Estado de mantenimiento (capítulo II, pág.14) son:
M M M M M R R R|R R R R R R R R|B B B B B B B B|B B B B B E E E

Q1 Q2e Q3
Leemos que: la mitad de las viviendas tienen como máximo un mantenimiento regular; y que: la mitad
de las viviendas de la muestra tiene como mínimo un buen mantenimiento. También que: la cuarta
parte tiene un mantenimiento Regular como máximo, y las tres cuartas partes restantes un
mantenimiento regular como mínimo. O también: las tres cuartas partes tienen un mantenimiento de
hasta Bueno y la cuarta parte restante, un mantenimiento bueno como mínimo.
Siguiendo la misma idea que generó a los cuartiles, puede diseñarse un conjunto de 4 marcas que
dividan al espacio de los datos ordenados en 5 partes iguales, y que se llaman quintiles (q1, q2, q3, q4).
O también otro conjunto de 9 marcas llamadas deciles (D1 D2 D3 D4 D5 D6 D7 D8 D9) que dividen al
espacio de los datos ordenados en 10 partes iguales. Y finalmente, dado que todos ellos involucran a
los distintos modos de particionar el espacio de los datos ordenados, conviene converger hacia una
denominación genérica, abarcativa, como lo es el fractil.
Además la marca de un fractil puede además colocarse libremente entre dos datos cualesquiera del
espacio de los datos ordenados, y a continuación interpretar la fracción que queda por detrás y la que
queda por delante. Por ejemplo:
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4|5 5 5 5 6
Leemos que 27 de las 32 avas. partes de las viviendas de la muestra tienen hasta 4 ambientes y el
resto tiene como mínimo 5 ambientes.
____________________
O también que:
M M M M M |R R R R R R R R R R R B B B B B B B B B B B B B E E E
5 de las 32 avas. partes de la muestra son viviendas con un estado de mantenimiento Malo y el resto
tienen como mínimo un mantenimiento Regular.
Simplificando y repasando: la mediana deja hacia atrás la mitad nominal1 de los datos, el
cuartil 1 deja hacia atrás la cuarta parte nominal1 de los datos y el cuartil 3 deja hacia atrás
las tres cuartas partes nominales de los datos. También, nominalmente el decil 1 deja hacia
atrás una décima parte, el decil 2 dos décimas partes, …, el decil 9 nueve décimas partes, el
quintil 1 una quinta parte, el quintil 2 dos quintas partes, etc. etc., y el fractil 5/8 deja hacia
atrás 5 de las octavas partes del espacio de datos ordenados.
En base al arreglo de datos ordenados de los C.I. de 60 estudiantes (capítulo II, pág.11), leemos
algunas características:
- La mitad de ellos tiene un coeficiente intelectual de hasta 100 y la otra mitad tiene como mínimo
un C.I. de 101.
- La cuarta parte tiene hasta 94 de C.I. y el resto, un C.I. de 95 como mínimo. Las tres cuartas partes
de ellos tienen hasta 106 de C.I. y el resto como mínimo 107.
Percentiles
Si bien todas las lecturas de fractiles (incluyendo en esa denominación a la mediana, los cuartiles,
quintiles, deciles y fractiles libres) hechas en los párrafos precedentes son rigurosamente estadísticas,
se puede apreciar que en las correspondientes a los fractiles libres de las variables Cantidad de
ambientes (fractil 27/32) y Estado de mantenimiento (fractil 5/32), resulta dificultoso expresar la
información (y posiblemente entenderla, por parte de algún interlocutor sin entrenamiento). En este
caso, y para facilitar la comprensión de su lectura, puede optarse por expresar en porcentajes las
partes que quedan hacia atrás y hacia adelante del fractil, deviniendo éste en lo que se llama un
percentil.
La incorporación del lenguaje de porcentajes agrega versatilidad al uso de los fractiles,

pero por otro lado los saca de su espacio natural de definición al instalarlos en el espacio
de las frecuencias y ello puede generar inconsistencias en la información extraída.
Entonces podemos decir que el 84,38% de las viviendas de la muestra tienen hasta 4 ambientes o que
el 15,62% tiene como máximo un mantenimiento Malo.
Puede extenderse esa opción al resto de los fractiles. Es decir, como la mediana deja hacia atrás
nominalmente el 50% de los dato,s puede entenderse como el percentil 50. El cuartil 1, percentil 25,
deja hacia atrás el 25% nominal de los datos y el cuartil 3 (percentil 75) deja hacia atrás el 75%
nominal de los datos. De forma similar, nominalmente el decil 1 (percentil 10) deja hacia atrás el 10%
de los datos, el decil 2 (percentil 20) el 20%, ....y el decil 9 (percentil 90) deja hacia atrás el 90% de
los datos.
P10=D1 P20=D2=q1 P25=Q1 P30=D3 P40=D4=q2 P50=D5=Q2=Me
P60=D6=q3 P70=D7 P75=Q3 P80=D8=q4 P90=D9.
O también, el percentil 47 (P47) deja hacia atrás el 47% de los datos y el percentil 68,24 (P68,24) deja
hacia atrás el 68,24% de los datos.
____________________
Resolución porcentual del dato

En la variable Cantidad de ambientes
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 |4 4 4 4 4 4 5 5 5 5 6
la marca es el percentil 62,50 ( P62,50 ) porque los 20 datos que deja hacia atrás representan el 62,50%
del total de datos (20/32x100=62,50%). Ahora, si hiciéramos el camino inverso y buscáramos la
marca que corresponde al percentil 62,50, la cuenta: 62,5/100x32=20 nos dice que la marca buscada
cae luego del dato ubicado en el 20vo. lugar.
¿Que pasa si buscamos la marca correspondiente al percentil 64, por ejemplo?. La cuenta sería:
64/100x32=20,48 y nos dice que el P64 cae entre el 20vo. y el 21vo. dato. Es decir que para nuestro
ejemplo, los percentiles P62,50 y P64 caen en el mismo lugar del espacio de los datos ordenados. ¿Por
qué pasa eso?.
En este punto debemos considerar nuevamente (ya se lo adelantó en nota al pie de pág.10 del cap.II)
del concepto de resolución porcentual que tiene cada dato en el total de los datos relevados. Si 32
datos representan el 100% de los datos relevados, 1 dato representa el 3,125% (por regla de tres
simple). Ese es el nivel de resolución que tiene cada uno de los 32 datos relevados, por lo tanto era
previsible que los percentiles P62,50 y P64 dijeran lo mismo porque son la misma marca: el 62,5% o el
64% indistintamente de las viviendas relevadas tienen hasta 4 ambientes y respectivamente el 37,5% o
el 36% restantes tienen como mínimo 4 ambientes.
A medida que la cantidad de datos aumenta, mejora la resolución y van desapareciendo esas
ambigüedades. Si fueran por ejemplo 1000 datos, la resolución de cada uno sería del 0,1% y en ese
caso sí se diferenciarían las marcas correspondientes a los P62,50 y P64.
Cálculo de la mediana y los percentiles en base a intervalos
Volvamos al caso de la variable cuantitativa Edad de los desaparecidos, donde no contamos con los
datos pero sí con franjas etarias, es decir con intervalos. En ese contexto es imposible contar con un
espacio de datos ordenados donde determinar algún fractil (incluida la mediana) pero usando la tabla
de frecuencias organizada en intervalos como recurso de menor calidad estadística, puede calcularse
dicho fractil mediante la siguiente expresión:
Pk = li + k% - Fi-1% . a
fi %
donde:
k% : porcentaje que deja hacia atrás el percentil buscado
li : límite inferior del intervalo donde cae el percentil
Fi-1%: frecuencia acumulada hasta el intervalo anterior
f i % : frecuencia porcentual del intervalo donde cae el percentil
a : amplitud de los intervalos
Para el caso que nos ocupa:
Me = P50 = 25 + 50 – 44.88 x 5 = 25.99 años
25.90
Una interpretación: la mitad de los desaparecidos durante la última dictadura militar, tenían al
momento de su desaparición menos de 26 años.
MODA
Un repaso por sobre la columna de los valores en la tabla de frecuencias de la variable Cantidad de
ambientes, nos permite leer otra característica: en la muestra predominan las viviendas con 4
ambientes.
____________________
La Moda es el valor de la variable que más se repite, es el valor predominante. En este caso:
Mo: 4 ambientes
Esta medida “señala” el valor de la variable que aparece más veces (4 ambientes es el valor que más
veces aparece).
En la columna de los valores de la tabla de frecuencias de la variable cualitativa Estado de
mantenimiento (capítulo II) determinamos la moda:
Estado de
Mantenimiento frecuencia
M 5
R 11
Mo: B 13
E 3
n = 32 viv.
O, por afuera de la tabla: Mo : B

1.
Interpretación: en la muestra de 32 viviendas del barrio predominan las que tienen un Buen
mantenimiento.
En el caso de la variable Cantidad de ambientes, podemos volcar la moda en el eje real, pero
intrínsecamente no está definida en el espacio de los números reales (como la media). Su espacio de
definición es más abstracto aún que el de los números reales: es el espacio de los valores mismos.
El espacio de definición de la moda, es el espacio de los valores que toma la variable tratada
Determinación de la moda en base a intervalos

Procesando los datos de los C.I. de 60 estudiantes (capítulo II, pág.11) de la forma que vimos
anteriormente, se presenta un problema al intentar reconocer el valor predominante es decir, la moda.
Lo que salta a la vista en el grupo de datos consignados, y sobre todo mirando el correspondiente
gráfico de bastones (que habría que confeccionar), es que hay dos valores (96 y 100) que tienen una
frecuencia (4) apenas superior a la que toman varios otros y que en general se ve todo bastante parejo.
Cabría preguntarse si esa leve diferencia frecuencial con su entorno, habilita a alguno de esos dos
valores (o a ambos) a constituirse en la moda (o en las modas, dado que pueden haber distribuciones
bimodales o multimodales).
Verifiquemos algunos conceptos claves: la moda es el valor predominante entre los valores que toma
una variable y para reconocerla buscamos aquel valor que aparece más veces, el que tiene mayor
frecuencia. Pero agreguemos algo importante: esa predominancia debe ser contundente, notable entre
los valores del entorno del valor elegido.
Obligarnos a decidir por una moda o modas a cualquier costo tiene poco sentido estadístico porque
el precio que finalmente se paga es el deterioro de la información que pueda obtenerse de los datos.
En el contexto del problema es más razonable, más realista, intentar reconocer una “franja” o clase
de coeficientes de inteligencia que se presenten como predominantes. Tanto en la tabla de frecuencias,
organizada en intervalos de clase, como en el histograma que elaboramos en el capítulo II, página 12,
se visualiza como modal el intervalo [91.5 – 98.1):
Lo que determinamos en este caso es entonces, no un valor sino un intervalo modal:
____________________
IMo = 91.5 – 98.1

Interpretación: en el grupo de 60 estudiantes predominan los que tienen un coeficiente intelectual
entre 92 y 98.
Los valores leídos en la interpretación corresponden a los datos más próximos a los límites del
intervalo. No hay motivo para que 91.5 y 98.1 participen en la interpretación porque no son datos,
sólo se crearon a raíz del agrupamiento realizado. Como se ve, la interpretación debe hacerse sobre
los datos.
En el caso de los 30.000 desaparecidos, la franja etaria predominante es de 20 a 25 años. También
predomina en segunda instancia la franja de 25-30 años. Al no tener los datos, la interpretación deberá
remitirse a los límites del intervalo modal elegido.
Una interpretación: entre los desaparecidos en la última dictadura militar, predominan las edades
entre 20 y 25 años. O también: entre los desaparecidos en la última dictadura militar, predominan las
edades entre 20 y 30 años.
La moda en las distribuciones bivariadas
La mayor frecuencia conjunta que se detecte en una distribución bivariada, determina su moda. Esta
debe interpretarse en relación con las categorías conjuntas, como por ejemplo:
- Determinación: Mo: Regulado y Aumentó… (capítulo II, pág.15)
Interpretación: entre los 40 tipos de aceite relevados predominan los regulados por las
transnacionales que aumentaron mucho su precio.
- Determinación: Mo: Niñas y Hasta 10 años. (capítulo II, pág.16)
Interpretación: En el grupo de 1000 personas predominan las niñas de hasta 10 años.
Elementos de METODOLOGÍA ESTADÍSTICA en la determinación de indicadores

- Cuando los datos están a nuestra disposición, todas las medidas que se determinen deben basarse en
esos datos. La única excepción es la moda quien a menudo requiere de la organización en forma de
intervalos para poder ser detectada y aún en este caso, los límites nominales del intervalo modal deben
usarse sólo como referencia para recorrer el arreglo de los datos ordenados y localizar los que caen
en dicho intervalo. Luego la interpretación se hace con los valores –el menor y el mayor– de los datos
que cayeron dentro del intervalo modal
2.
- Las medidas estadísticas calculadas con intervalos22 son de menor calidad que las determinadas con
los datos. En el caso de la media aritmética, la baja en la calidad de la información se debe
exclusivamente a no emplear los datos en su determinación, porque en lo referente a su espacio de
definición no hay ninguna alteración. Pero mayor es el deterioro de la mediana y los fractiles, porque
además de la falta de datos deben determinarse en un espacio (el de los números reales) que no es el
propio (el de los datos ordenados).
3.
- El nivel de resolución porcentual del dato debe tenerse en cuenta ya desde el momento de elaborar
las tablas de frecuencias para decidir, rigurosamente, el redondeo de las porcentuales y de allí en más,
cada vez que se las use en algún cálculo.
- Ninguna medida estadística es per se más representativa que otra. En todo caso, una medida puede
ser mejor indicador que otra, pero en relación con el fenómeno que se esté estudiando. Por ejemplo, al
estudiar la equidad (basada en un principio de igualdad) en la distribución de los recursos
22
Mientras que hoy en día tener los intervalos y no disponer de los datos es sólo una contingencia, hace un siglo atrás para
la época de Galton y Pearson mantener un volumen grande de datos sin un soporte como el que hoy disponemos gracias a
la ciencia informática, era prácticamente imposible. Y entonces lo rutinario era volcar los datos en intervalos y luego
calcular los indicadores a partir de esos intervalos.
____________________
(económicos, de salud, educacionales, etc.), la moda o la mediana (en lo posible acompañada de

algunos percentiles) son mejores indicadores, más representativos, que la media aritmética. El ingreso
promedio per-cápita de una sociedad, no ayuda a describir si hay justicia en la distribución de todos
los ingresos y en cambio lo hacen mejor la mediana o la moda.
Erratas en la enseñanza-aprendizaje los indicadores estadísticos y uso.

- Designar arbitrariamente a la media como la medida de posición más representativa. Este error
teórico surge al desvincular el diseño de los indicadores, con la naturaleza del fenómeno que se quiere
estudiar y el espacio más adecuado para hacerlo.
- Obligarse a asignarle un nombre o un número a la marca de la mediana, o de cualquier fractil,
como un paso necesario previo a su interpretación sobre el arreglo de datos ordenados. Esta errata
conceptual omite la naturaleza geométrica de estas mediadas y puede derivar en alguna conclusión sin
sentido como, por ejemplo, la de considerar que no existe la mediana de una variable cualitativa por el
simple hecho de que su marca cae entre dos categorías distintas y obviamente es imposible asignarle
un nombre. Y una posible grave consecuencia de dicha conclusión es inhibir, como fuente de
información, a la mediana y/o algún fractil.
- Ignorar los datos de campo originales al momento de interpretar un intervalo modal, leyendo
simplemente los límites nominales de dicho intervalo, viola el principio metodológico de interpretar
sobre los datos.
- Tomar un número real representativo del intervalo modal para interpretar la moda, daña seriamente
el concepto de moda.
- Emplear las expresiones “la media” o “en promedio” al usar la mediana para caracterizar aspectos
cualitativos de la vida diaria, no tiene consecuencias que vayan más allá de la errata terminológica.
Inclusive hay textos que llaman genéricamente “promedio” a las medidas de posición, en lo que
podemos suponer como un gesto para aggiornar parte de la terminología técnica estadística a los usos
y costumbres. El concepto de mediana, aunque no se la nombre como tal, está instalado en la gente y
se la interpreta con una aceptable corrección.
El decreto-ley de la última dictadura cívico-militar que regulaba la Radiodifusión en Argentina, fue
un instrumento jurídico que produjo en el espacio de los medios audiovisuales, una altísima
concentración en unos pocos cuasi-monopolios –desde el punto de vista de la propiedad– mediáticos,
quienes funcionalmente todavía hoy conforman un monopolio en cuanto a la selección, censura y
difusión de información ligada a los intereses de las corporaciones financieras, empresariales,
eclesiásticas, etc. que actuaron a la cabeza ideológica de los golpes de estado. Ellos, mediante un
bombardeo mediático que podemos denominar como “falsa moda”, imponen temas que no son
legítimamente predominantes en el interés profundo de la gente.
En el universo donde las unidades de observación son los medios de comunicación, los medios de
comunicación pequeños y/o algunos medianos –comunitarios o comerciales– que no están ligados a
las corporaciones, en general se encuentran muy en contacto con los genuinos problemas de la
sociedad y numéricamente son los que predominan. Pese a que fueron combatidos por el decreto-ley
dictatorial y limitados en su alcance radioeléctrico, son la moda desde un punto de vista estadístico.
La información estadística debiera ser, para cualquier persona, parte imprescindible de la base
informativa a partir de la cual analizar el contexto, formar una opinión y eventualmente tomar una
postura militante o no. Por ejemplo, para entender23 el contexto del lockout que en 2008 promovieron
23
Con el siguiente marco teórico: las fuerzas productivas que intervienen en una determinada actividad y producen la
riqueza son: los trabajadores (conocimiento + fuerza de trabajo) y los medios de producción (materias primas +
herramientas/instrumentos). En rigor, ni el capital ni sus dueños intervienen como actores en la creación de riqueza.
____________________
los empresarios vinculados a los agronegocios es imprescindible contar con los indicadores
estadísticos relativos a:
- la situación laboral de los trabajadores rurales (concepto que incluye tanto al asalariado rural como
al campesino y su familia y también a los técnicos y profesionales, todos los cuales viven de su
conocimiento y de su fuerza de trabajo) que son los que realmente generan la riqueza;
- la tasas de ganancias de los pequeños y medianos empresarios rurales, que sólo parcialmente suman
alguna fuerza productiva a la de sus trabajadores asalariados (en blanco o en negro); y
- la renta diferencial de los grandes empresarios rurales y grupos exportadores que en realidad no
aportan fuerzas productivas ni participan en la creación de la riqueza, pero que tienen altas tasas de
ganancia (en blanco o en negro).
Un ejemplo de lo dicho, se desprende del artículo periodístico “Peones Rurales”(incorporado en la
Adenda de este capítulo) donde se analiza someramente la precariedad laboral de los trabajadores
rurales, y donde se consigna que de los que tienen salarios en blanco (sólo alrededor de 325 mil sobre
un total de 1.300.000) el promedio salarial de ese pequeño grupo no llega a los 1500 pesos mensuales.
En lenguaje estadístico: el salario promedio mensual de los trabajadores rurales que están en blanco es
de aproximadamente 1.500$. Este indicador sirve sólo para la población (objetivo) de trabajadores
rurales que están en blanco. Habida cuenta de que sólo un pequeño núcleo de peones calificados
percibe ingresos relativamente dignos, y de que esos salarios que pudieren ser altos influyen
sensiblemente en la construcción del promedio (media aritmética), ese indicador es muy insuficiente
para analizar si es justa o no la distribución de los salarios de todos los trabajadores en blanco. En todo
caso, habría que acompañarlo con la franja salarial modal y con información obtenida de la mediana y,
mejor aún, de algunos percentiles claves (como los deciles y los cuartiles).
Glosario:
Moda: es el valor de la variable que tiene mayor frecuencia.
Mediana: es el lugar geométrico del espacio de los datos ordenados que lo divide en dos partes
iguales.
Cuartil 1: es el lugar geométrico del espacio de los datos ordenados, que deja hacia atrás ¼ parte de
los datos.
Cuartil 3: es el lugar geométrico del espacio de los datos ordenados, que deja hacia atrás ¾ parte de
los datos.
Fractil k/n: es el lugar geométrico del espacio de los datos ordenados, que deja hacia atrás la k/n ava.
parte de los datos.
Percentil k%: es el lugar geométrico del espacio de los datos ordenados, que nominalmente deja
hacia atrás el k% de los datos.
Datos centrales: son el 50% nominal del total de los datos y ocupan la zona central (caja del box-
plot) de una distribución.
Datos adyacentes: son los que se encuentran por afuera de la caja del box-plot, en sus inmediaciones
a ambos lados de ella, hasta una distancia de 1.5x(Q3-Q1).
Datos externos: son los que se localizan a un distancia de entre 1.5x(Q3-Q1) y 3x(Q3-Q1) a ambos
lados de la caja del box-plot.
Datos lejanos: son los que se encuentran más allá de 3x(Q3-Q1) de los bordes de la caja.
Límite inferior de un intervalo de clase: es el valor numérico nominal más bajo del intervalo.
Límite superior: es el valor numérico nominal más alto de un intervalo de clase.
Marca de clase: punto medio del intervalo de clase.
____________________
ADENDA al cap.III
Peones rurales
Por Alfredo Zaiat (2008)
El Registro Nacional de Trabajadores Rurales y Empleadores contabiliza cerca de 1,3 millón de personas ocupadas en el
campo. Los últimos datos reflejan que apenas un cuarto de ese total, alrededor de 325 mil, tiene salarios en blanco. El
promedio salarial de ese pequeño grupo de trabajadores no llega a los 1500 pesos mensuales. Como en antiguos vínculos
laborales de servidumbre, también se les paga con comida y viviendas precarias en el área de la producción. Existen
también 350 mil golondrinas, que desplazan su fuerza de trabajo según los períodos de cosecha. La mano de obra rural es
la peor paga, la que enfrenta pésimas condiciones laborales y la más explotada. Sólo los desocupados están en peor
situación. Del universo de trabajadores, constituyen el sector más castigado. Sólo un pequeño núcleo de peones
calificados, como los que manejan esas maravillas mecánicas de tractores y cosechadoras que recorren el área sembrada
percibe ingresos relativamente dignos. Ese vergonzoso panorama laboral se desarrolla en uno de los mejores períodos
históricos de la actividad agropecuaria. Sólo la existencia de una bien arraigada hipocresía patricia, con un
acompañamiento para nada ingenuo de la mayoría de los medios de comunicación, permite a las entidades empresarias del
sector denominar paro del campo a una protesta política e ideológica de raíz conservadora. El campo no está en huelga: sus
patrones siguen haciendo trabajar a sus peones, las vacas siguen siendo ordeñadas, el trigo sigue creciendo y los cerdos
siguen alimentándose.
La precariedad laboral de los trabajadores del campo ha sido una constante a lo largo de la historia. En Peones Rurales,
una crónica histórica y visual desde sus orígenes a la actualidad, de Roberto García Lerena, se destaca que entre 1910 y
1930 se contabilizaron más de 3000 peones rurales muertos, miles de heridos y presos por reclamar por sus derechos. Esas
sí eran huelgas y protestas del campo. La más dramática fue la que se denominó La Patagonia Trágica. Recién con el
Estatuto del Peón, durante el primer gobierno de Perón, se definieron legalmente derechos del trabajador rural, salarios
dignos, mejores condiciones laborales y otras medidas de corte social. Fue un notable avance normativo pero con relativo
efecto en la práctica. La situación, como la reflejan las estadísticas oficiales, no ha mejorado mucho en décadas. En los
últimos años se ha consolidado una creciente expansión del empleo en negro, en un marco que combina resabios de
relaciones cuasi-feudales con prácticas laborales tercerizadas tendientes a reducir el vínculo entre patrón y empleado a
través de la figura del “contratista”. Susana Aparicio, especialista en empleo rural del Conicet, explicó en una
investigación publicada el año pasado en el suplemento de Economía de Página/12, Cash, que “a los capataces se los
indemniza y ahora trabajan como contratistas de cosechadores para las mismas empresas, las cuales evitan mantener una
relación laboral directa con los trabajadores”.
También fue un avance legal la Libreta del Trabajador Rural, aprobada en diciembre de 2002. Pese a esa norma, los
niveles de empleo en negro continuaron en el 75 por ciento. Los peones están excluidos de la Ley de Contrato de Trabajo
porque se rigen por una ley específica de 1980 que, en términos generales, ofrece un nivel de protección menor. Esa norma
no contempla la jornada laboral de ocho horas y a quienes trabajan por temporada no se les reconoce un vínculo
permanente con el empleador. Con el crecimiento y la modernización de la producción agropecuaria, se esperaría una
consolidación de una fuerza de trabajo estable, como pasaría en cualquier otra actividad. Sin embargo, en lugar de avanzar
hacia una mayor formalización, ocurrió lo contrario. La falta de inspecciones laborales llevaron a los grandes grupos
agroindustriales a blanquear sólo a los trabajadores que manejan máquinas complejas y costosas, como las cosechadoras
de tecnología avanzada. El resto continúa al margen de cualquier tipo de derecho laboral. En ese mismo informe especial
de Cash, la investigadora Norma Giarracca señalaba que el trabajador rural “es un sector de bastante invisibilidad por la
falta de compromiso de sus organizaciones gremiales. No hay fiscalizaciones para controlar el empleo en negro. Lo que
me llamó la atención en los últimos años es la naturalización de esta situación por parte de los trabajadores”.
En el campo se genera un escenario muy particular en relación con otros sectores dinámicos y muy rentables de la actual
bonanza económica. En la minería o en el automotor, por ejemplo, el trabajador también es sobreexplotado en función de
la riqueza que genera, pero cobra los salarios más altos de la pirámide de ingresos. En cambio, en la producción
agropecuaria, con ganancias también extraordinarias, los peones son los peor pagos. Frente a esto, no deja de ser una
peculiar postal de la Argentina esa mesa de indignados representantes de cuatro entidades tradicionales que dicen
representar los intereses del campo. “Confiscación” y “despojo” definieron al mecanismo de retenciones móviles, en una
respuesta desconcertante porque muestran ignorancia o mezquinos intereses para comprender ese sistema, que en el actual
escenario internacional de las materias primas resulta más racional y técnicamente más eficiente que las retenciones fijas:
por caso, si el precio internacional baja, también lo hace el tributo, lo que brinda previsibilidad de precios, al definir uno
neto de aquí en más, para la producción doméstica. O, en realidad, la maratón de declaraciones altisonantes fue un acto de
simulación para la defensa de una hiperrentabilidad obtenida por fabulosas condiciones de los mercados externos, pero
también por la extraordinaria explotación de los peones rurales.
Como se sabe, el empleo en negro refleja también el nivel de evasión impositiva de la actividad. A más trabajo informal,
más evasión en el pago de impuestos, porque el circuito productivo tiene que funcionar en negro para mantener en
equilibrio el balance ante el fisco, como explican los tributaristas. Por lo tanto, si el campo reúne el privilegio de ser uno
____________________
de los sectores más negreros, también lo debería ser en sus obligaciones impositivas. Y así parece según se desprende de
informes de los organismos de recaudación de la provincia de Buenos Aires (Arba), ….y de la Nación (AFIP),… Sobre
8000 propiedades rurales fiscalizadas por imágenes satelitales en el núcleo sojero de Buenos Aires, las dos terceras partes
no declararon actividad ni pagaron Ingresos Brutos. … estimó que la evasión anual agrícola bonaerense alcanza los 1000
millones de pesos. Otra vía de evasión impositiva se da en la venta de granos a través de sociedades fantasma. Existen
compañías que simulan una venta que no existió y hacen de intermediarios entre el productor y el acopiador/exportador
para que a éste le llegue la mercadería en blanco. Después, cuando la AFIP investiga, resulta que esas sociedades no
aparecen y no pagaron IVA ni nada. Con el resultado del Operativo Granos 2007 de la AFIP, ….excluyó del sistema, por
negociar en negro, a 4573 operadores de granos, hizo embargos a morosos por 10 millones de pesos y, por la interrupción
de esas transacciones en granos, evitó una evasión en el IVA de unos 80 millones de pesos, y en Ganancias, de 320
millones de pesos. De alguna manera, las retenciones vienen a recuperar para el fisco una parte de la millonaria evasión en
el pago de impuestos del campo.
La actividad agropecuaria es muy compleja, con muchísimas particularidades, incluso en el empleo rural, que requiere de
bastante cuidado y pericia en las políticas públicas por las diferentes realidades que existen. A veces intervienen con éxito,
otras tantas en forma incompleta y en otras con torpeza, casilleros que han sido ocupados a lo largo de todo el período del
kirchnerismo. Eso hace a una mejor o peor gestión en las estrategias sectoriales, y aún es prematuro concluir sobre su saldo
final. En tanto, del otro lado del mostrador, además de sostener un discurso que atrasa al no dar cuenta de la extraordinaria
transformación en la forma de producción y de los nuevos actores de los últimos años, las entidades que dicen representar
al campo ocultan detrás de su ofuscación las indignantes condiciones laborales de los trabajadores rurales y la irritante
evasión impositiva del privilegiado mundo agropecuario.
azaiat@pagina12.com.ar
2008
____________________
Cap. IV – MEDIDAS DE INTENSIDAD o TASAS
Las medidas estadísticas de intensidad son los indicadores que comunmente se entienden
por TASAS (de nacimientos, de mortalidad, de desocupación, de interés, de ganancia, de
crecimiento, etc.) y se determinan mediante alguna de las tres modalidades que se verán en
este cuaderno. Los cálculos necesarios para determinarlas, se hacen en el espacio de las
frecuencias, por lo que son aplicables a cualquier tipo de variables.
Antes de desarrollar el tema, debe leerse el artículo extraído del diario Página 12 del Sábado 4 de
Junio de 2005 “NO CEDE EL DESEMPLEO DEL CONURBANO” que continuación se transcribe y que puede
encontarse en www.pagina12.com.ar/diario/economia/2-51932-2005-06-04.html
04 de Junio de 2005
NO CEDE EL DESEMPLEO DEL CONURBANO
Cordones sin reacción
La cantidad de desocupados en los 28 centros urbanos encuestados por el Indec

resultó de 1.369.000 personas durante el primer trimestre, de los cuales 677 mil
estaban localizados en los partidos del Gran Buenos Aires. Los datos surgen de la
Encuesta Permanente de Hogares del Indec publicados ayer, dos semanas después
de conocerse la tasa de desocupación para el período, del 13 por ciento. Los
subocupados demandantes, es decir aquellos que no llegan a completar la jornada
laboral y están buscando otro trabajo, suman otras 948 mil personas con problemas
de empleo.
Las zonas urbanas del país más afectadas por el problema global de desocupación y
subocupación demandante resultaron, en el primer trimestre, el conurbano
bonaerense y el núcleo Gran Tucumán (ciudad capital y sus alrededores)-Tafí Viejo.
El primero sumaba 15,5 por ciento de desocupados más 10,4 por ciento de
subocupados demandantes; el segundo, 14,2, más 16,5 por ciento. La
desocupación, en los partidos del Gran Buenos Aires fue superior a la del cuarto
trimestre de 2004 en siete décimas e idéntica a la registrada en el primer trimestre de
ese mismo año. Es decir que la región muestra un estancamiento en la recuperación
del empleo. En tanto, en el Gran Tucumán-Tafí Viejo el dato más preocupante es el
aumento de la subocupación demandante, del 15,5 por ciento en el primer trimestre,
con un salto de 1,4 punto en la última medición con respecto a la inmediata anterior y
2,3 puntos cuando se la compara con la de un año antes.
Los otros grandes distritos urbanos (con más de 500 mil habitantes) que registraron
tasas de desocupación por encima del promedio del país fueron el Gran Rosario, 14
por ciento, y el Gran La Plata, con el 13,5 por ciento. Entre los grandes aglomerados,
la tasa más baja de desocupación corresponde al Gran Mendoza, con el 8 por
ciento, y entre las regiones a la Patagonia, con el 7,6 por ciento.
Además, en esta última región, la tasa de subocupación demandante reflejada por el
Indec es prácticamente insignificante, del 3,4 por ciento, en tanto en el Noroeste se
eleva al 11,2 por ciento.
© 2000-2002 Pagina12/WEB República Argentina - Todos los Derechos Reservados
Del artículo, leemos casi textualmente algunas cifras referidas al primer trimestre de 2005:
- la tasa de desocupación en el Gran Rosario24 fue del 14%;
24
Gran Rosario es la Ciudad de Rosario y su conurbano. Igualmente la denominación Gran Buenos Aires comprende a la
Ciudad de Buenos Aires y su conurbano y también Gran Tucumán es la Ciudad de Tucumán y su conurbano. Esto es así, a
pesar de la tergiversación semántica, sobre todo por parte del periodismo, que iguala erróneamente Gran Buenos Aires con
el Conurbano de la Ciudad de Buenos Aires. A tal punto se consolidó tal deformación, que el INDEC se ve obligado a
____________________
- había 1,44 desocupados por cada subocupado demandante25;

- la desocupación en los partidos de la Pcia. de Bs.As que son parte del Gran Buenos Aires, creció
un 0,7% entre el 4° trimestre del 2004 y el 1er. trimestre de 2005.
Recreando las lecturas anteriores, ya podemos caracterizar a las tres medidas de intensidad:
- la proporción de desocupados en el Gran Rosario fue del 14%;
- la relación entre desocupación y subocupación fue a razón de 1,44 desocupados por cada
subocupado demandante;
- tomando el 4° trimestre de 2004 como base de referencia 100%, el índice de desocupación para el
1er. trimestre del 2005 fue del 100,7%
Antes de volver sobre el artículo periodístico citado, rescatemos la tabla de frecuencias de alguna las
variables tratadas anteriormente, por ejemplo Cantidad de ambientes. Y decimos que, en la muestra de
32 viviendas del barrio:
- El 34,38% de ellas son viviendas de 4 ambientes. Proporción.
- Por cada 1 vivienda de cinco ambientes hay 2 viviendas de tres ambientes. Razón.
- Si en otro barrio se tomara una muestra (no necesariamente del mismo tamaño) de viviendas
usando la misma encuesta, y se contaran ahora 16 viviendas de cuatro ambientes, podemos decir
que (16/11x100 = 145,45%): las de viviendas de cuatro ambientes en la muestra del segundo
barrio superan en un 45,45% a las de la muestra del primer barrio. O también: por cada vivienda
de cuatro ambientes en el primer barrio, hay 1,4 de ellas en el segundo barrio. Indice.
Con lo visto hasta aquí, ya podemos bosquejar algunas definiciones conceptuales:
- la proporción numéricamente es la frecuencia relativa o la porcentual, pero en su carácter de
medida estadística mide la incidencia de un/a valor/categoría en el total de la distribución de la
variable;
- la razón compara un/a valor/categoría con otro/a, midiendo la incidencia relativa entre ambos
sin considerar el resto de la distribución; y
- el índice compara un valor consigo mismo, pero en dos situaciones distintas en el tiempo o en
el espacio.
las que se formalizan matemáticamente mediante las siguientes expresiones:
p(a) = f(a) / n
r(a/b) = f(a) / f(b)
I  (a) = f(a) / f(a) Donde  y  representan las distintas situaciones (en el tiempo o

en el espacio) en que se observa un valor. La situación es la
base del índice.
Es decir que con estas tres medidas se cubren todos los frentes contra los cuales puede compararse un
valor (contra el total, contra otro valor y contra sí mismo) y al referirse justamente a un solo valor,
como las vistas hasta ahora, son tasas simples. Como se ve:
El espacio de definición de las medidas de intensidad es el espacio de las frecuencias
aclarar explícitamente en sus publicaciones que la región Gran Buenos Aires comprende la Ciudad de Buenos Aires y su
conurbano.
25
Esa cuenta se hizo dividiendo: 1.369.000 desocupados / 948.000 subocupados demandantes = 1,444.
____________________
En consecuencia, estas medidas pueden aplicarse a cualquier tipo de variables, cuantitativa o

cualitativa.

Las tres medidas de intensidad se expresan indistintamente como coeficientes o como porcentajes. Si
bien calculamos la proporción como un coeficiente (entre 0 y 1), convenientemente se interpreta
como porcentaje. Es aconsejable interpretar la razón tal como se la calculó (preferentemente bajo la
forma de un coeficiente mayor que 1, como lo hicimos en los ejemplos vistos) y no tanto en términos
de porcentaje. Y en el caso del índice lo usual es calcularlo y expresarlo en porcentajes, salvo para
algunas aplicaciones específicas donde conviene usarlo como coeficiente.
Volviendo a la información del artículo periodístico y haciendo por nuestra cuenta algunos cálculos
más, vemos que: el 49,45% de los desocupados en los 28 centros urbanos encuestados por el Sistema
Nacional de Estadística (aunque el artículo sólo mencione al Indec) están localizados en el conurbano
de la Ciudad de Buenos Aires.
Es una proporción y se calculó así: 677.000 / 1.369.000 x 100 = 49,45%.
En la transcripción del resto del artículo, ahora se subrayan los párrafos que implican proporción y en
bastardilla los que involucran directa o indirectamente un índice:
“...Las zonas urbanas del país más afectadas por el problema global de desocupación y subocupación
demandante resultaron, en el primer trimestre, el conurbano bonaerense y el núcleo Gran Tucumán
(ciudad capital y sus alrededores)-Tafí Viejo. El primero sumaba 15,5 por ciento de desocupados más
10,4 por ciento de subocupados demandantes; el segundo, 14,2, más 16,5 por ciento. La desocupación,
en los partidos del Gran Buenos Aires fue superior a la del cuarto trimestre de 2004 en siete décimas
e idéntica a la registrada en el primer trimestre de ese mismo año. Es decir que la región muestra un
estancamiento en la recuperación del empleo. En tanto, en el Gran Tucumán-Tafí Viejo el dato más
preocupante es el aumento de la subocupación demandante, del 15,5 por ciento en el primer trimestre,
con un salto de 1,4 punto en la última medición con respecto a la inmediata anterior y 2,3 puntos
cuando se la compara con la de un año antes.
Los otros grandes distritos urbanos (con más de 500 mil habitantes) que registraron tasas de desocu-
pación por encima del promedio del país fueron el Gran Rosario, 14 por ciento, y el Gran La Plata,
con el 13,5 por ciento. Entre los grandes aglomerados, la tasa más baja de desocupación corresponde
al Gran Mendoza, con el 8 por ciento, y entre las regiones a la Patagonia, con el 7,6 por ciento.
Además, en esta última región, la tasa de subocupación demandante reflejada por el Indec es
prácticamente insignificante, del 3,4 por ciento, en tanto en el Noroeste se eleva al 11,2 por ciento...”
Otra variable: Coeficiente Intelectual de 60 estudiantes (capítulo II):
- Los que tienen un CI entre 100 y 104 representan el 23,33% de los estudiantes de la muestra
(proporción= 14/60=0,2333);
- por cada 1 estudiante con un CI de entre 118 y 120, hay 2,8 estudiantes con un CI de entre 105 y
110 (razón=11/4=2,75).
- Supongamos que además se cuente con los datos de otro grupo de estudiantes, y que en él haya 22
con un CI de entre 105 y 110. Puede decirse que en el segundo grupo hay un 100% más de
estudiantes con un CI de entre 105 y 110 que en el primer grupo ( índice = 22/11x100=200%). O
también, que por cada estudiante del primer grupo con un CI de 105-110, en el segundo grupo hay
2 de ellos.
Estas últimas tasas calculadas son compuestas porque involucran grupos de valores.
_________________________________________
Volvamos nuevamente a algunas de las variables que se originan en la matriz de datos de la muestra
de 32 viviendas tomada en el barrio. Las frases que siguen involucran proporciones y razones.
Estado de mantenimiento (capítulo II):
____________________
- el 40,62% de las viviendas tienen un mantenimiento Bueno (proporción simple).

- el 50% de ellas tiene un mantenimiento que como máximo es Regular (proporción compuesta,
porque involucra las categorías Malo y Regular).
- por cada vivienda con mantenimiento Excelente hay 1,7 con mantenimiento Malo (razón simple). El
cálculo es 5/3=1,666=1,7.
- por cada vivienda con mantenimiento Bueno, hay 1,2 viviendas cuyo mantenimiento es como
máximo Regular (razón compuesta). El cálculo es (5+11)/13=1,23=1,2..
Cantidad de ambientes (pág.1 del cuaderno II):
- el 59,38% de las viviendas encuestadas tienen entre 3 y 4 ambientes (proporción, que se calculó así:
25,00%+34,38%);
- por cada vivienda que tiene hasta 2 ambientes, hay 3 que tienen más de 2 ambientes (razón,
calculada así: (8+11+4+1)/(3+5)=3).
Del artículo periodístico transcripto al comienzo de este capítulo, haciendo previamente algunos
pequeños cálculos, pueden elaborarse proporciones compuestas:
- para el conurbano bonaerense los desocupados y subocupados demandantes representan en
conjunto un 25,9% (suma de las proporciones simples 15,5% y 10,4%);
- para el núcleo Gran Tucumán-Tafí Viejo, los desocupados y subocupados demandantes
representan en conjunto un 30,7% (suma de las proporciones simples 14,2% y 16,5%)
En símbolos:
p(a,b) = (fa + fb ) / n
r(a,b,c / d,e) = (fa + fb + fc ) / (fd + fe )
I  (a,b,c) = (fa + fb + fc ) / (fa + fb + fc )


Donde  y  representan las distintas situaciones (en el tiempo o

en el espacio) en que se observan los valores a, b y c. La situación
es la base del índice.
En la distribución conjunta entre el modo de regulación y el nivel del aumento del precio de ciertos
aceites, capítulo II, podemos leer que:
– el 67,5% de los aceites de la muestra tienen precios regulados por las transnacionales y
aumentaron mucho (proporción, calculada así: 27 / 40 = 0,675); o
– por cada tipo de aceite no regulado por las multinacionales y que aumentó poco, hay 3,375 tipos
de aceite que están regulados por las multinacionales y aumentaron mucho (razón, calculada así:
27 / 8 = 3,375).
El artículo “Peones rurales” (2008) transcripto en la Adenda del capítulo III, aporta las siguientes
tasas:
- El 75% de los trabajadores rurales están en negro es decir que por cada uno en blanco hay 3 que
están en negro. Como se puede apreciar, la misma información se leyó desde dos indicadores, uno es
proporción y el otro razón.
- En el núcleo sojero de la provincia de Buenos Aires las dos terceras partes, es decir el 67% de las
8000 propiedades agropecuarias detectadas mediante imágenes satelitarias no declaran actividad
alguna. Aquí el indicador es una proporción.
____________________
INDICES DE PRECIOS
Dedicaremos dos secciones a ver con más detalles los índices de precios, en particular los índices
compuestos. La primera sección versará sobre cómo se construyen y la segunda sobre cómo usarlos.
Construcción de índices de precios
Para facilitar las cuentas, achicándolas, supongamos que todos los productos de la canasta familiar se
puedan reducir a, digamos, tres (productos A, B y C)26 y que en dos años distintos se relevaron sus
precios.
Producto Precio 2003 Precio 2004
A 13$ 15$
B 25$ 21$
C 5$ 6$
Si deseamos ver simplemente cómo evolucionó el precio de cada uno de los productos, hacemos tres
índices simples de precios, uno para cada producto:
I 2004 (A) = 15 / 13 x 100 = 115,38% : el precio del producto A subió un 15,38% entre el 2003 y el
2003 2004.
I 2004 (B) = 21 / 25 x 100 = 84,00% : el precio del producto B bajó un 16,00% entre el 2003 y el
2003 2004.
I 2004 (C) = 6 / 5 x 100 = 120,00% : el precio del producto A subió un 20,00% entre el 2003 y el
2003 2004.
Veamos para ese mismo grupo de productos, algunos índices compuestos de precios:
 Media de relativos simples (o media de índices simples): es la media aritmética de todos los
índices simples que calculamos anteriormente. Para el ejemplo que estamos viendo, el cálculo es
así:
I 2004 (A,B,C) = [ I 2004 (A) + I 2004 (B) + I 2004 (C) ] / 3 = (115,38 + 84 + 120)/3 = 106,46%
2003 2003 2003 2003
En base a este criterio, los precios de los productos A,B,C subieron en conjunto un 6,46% entre
los años 2003 y 2004.
 Relativo de agregados no ponderados (o índice de agregados no ponderados): se construye como
cociente entre la sumatoria (agregación) de los precios para el año 2004 y la sumatoria
(agregación) de los precios para el año base 2003.
I 2004 (A,B,C) = 15 + 21 + 6 = 97, 67%
2003 13 + 25 + 5
En base a este criterio, los precios de los productos A,B,C bajaron en conjunto un 2,33% entre
los años 2003 y 2004.
 Relativo de agregados ponderados (o índice de agregados ponderados): en su construcción se
emplean, además de los precios, las cantidades consumidas de cada producto. Esto incorpora al
índice un elemento de poderación, al cuantificar la incidencia relativa de los distintos productos.
26
La división más general que hace el Indec de estos productos es: Alimentos y bebidas, Indumentaria, Vivienda y
servicios básicos, Equipamiento y mantenimiento del hogar, Atención médica y gastos para la salud, Transporte y
comunicaciones, Esparcimiento, Educación, Otros bienes y servicios. Luego subdivide cada uno de estos capítulos con
mayores detalles.
____________________
Producto Precio 2003 Cantidad 2003 Precio 2004 Cantidad 2004

A 13$ 500 15$ 550
B 25$ 280 21$ 250
C 5$ 990 6$ 1200
La cuestión que aparece a continuación es decidir con qué cantidades ponderar: las del año tomado
como base (año base), las del año para el que queremos hacer el estudio (año dado) o las de cualquier
otro año que presente características favorables (año típico).
- El criterio de Laspeyres27 toma, para ponderar, las cantidades consumidas en el año base y es el
criterio que utilizan los institutos de estadística de la mayoría de los estados (en particular el Indec de
Argentina) para la elaboración de los índices generales de precios como el IPC (índice de precios al
consumidor), SIPIM (sistema de indices de precios mayoristas) e ICC (índice de costos de la
construcción.
En el ejemplo que estamos desarrollando, el cálculo del índice de precios según el criterio de
Laspeyres para el conjunto de los productos A, B, C es:
L 2004 (A,B,C) = ( 15x500 + 21x280 + 6x990 ) / ( 13x500 + 25x280 + 5x990 ) x 100 = 104,72%
2003
Y se lee así: los precios de los productos A,B,C subieron en conjunto un 4,72% entre los años 2003 y
2004. Es decir que en 2004 esos productos fueron en conjunto un 4,72 % más caros respecto del año
2003.
Como en la práctica, las cantidades consumidas relevadas están en unidades de medida distintas (kg,
litro, etc.), ello obliga a estandarizarlas antes de su intervención en el índice. Luego de esa
estandarización, debe establecerse el “peso” con el que cada producto incidirá en el índice, y el
conjunto de todos los “pesos” –expresados ahora en porcentajes– describen lo que se denomina
estructura de ponderación28.
L 2004 (A,B,C)=(15x28,25+21x15,82+6x55,93)/(13x28,25+25x15,82+5x55,93)x100 = 104,72%
2003
- El criterio de Paasche29 usa las cantidades del año dado para ponderar. En el caso de los tres
productos y en el mismo período, su cálculo es:
P 2004 (A,B,C) = ( 15x550 + 21x250 + 6x1200 ) / ( 13x550 + 25x250 + 5x1200 ) x 100 = 106,70%
2003
Como se mencionó anteriormente, en este caso hay que contar con la información de las cantidades
consumidas en el año dado y para la elaboración de índices generales eso implica un serio problema
operativo.
- El criterio de Fisher combina las virtudes de los índices de Laspeyres y de Paasche, mediante el
cálculo de su media geométrica30, aunque termina cargando con las mismas limitaciones operativas de
P. _________
Se expresa: F=LxP
27
Publicado en 1870 por el economista y estadístico alemán Ernst Louis Etienne Laspeyres.
28
La estructura de ponderación del IPC nacional establecida para el año base 2003 y que tiene una vigencia nominal de
diez años es: Alimentos y bebidas, 35,3%; Indumentaria, 6,6%; Vivienda y servicios básicos, 10,2%; Equipamiento y
mantenimiento del hogar, 6,6%; Atención médica y gastos para la salud, 8,8%; Transporte y comunicaciones, 16,4%;
Esparcimiento, 8,7%; Educación, 2,8%; Otros bienes y servicios, 4,6%.
29
1873
30
La media geométrica es menos sensible, más robusta o más estable, que la media aritmética ante nuevos valores que se
incorporen a la distribución y que se encuentren alejados de su zona central (característica también tiene la mediana).
____________________
___________________
Para los tres productos del ejemplo es: F =  104,72 x 106,7 = 105,70%
De acuerdo a pautas metodológicas acordadas a nivel internacional, los años base se establecen
nominalmente cada 10 años. El trabajo operativo en cada año base implica el relevamiento de
todas las cantidades consumidas ese año, es decir que hay que relevar todo el universo de
productos consumidos en todo el territorio (en realidad se relevan los conglomerados urbanos
más numerosos y luego se extrapola hacia el resto del país).
Los años base de los distintos Indices generales de Precios fueron:
IPC: 1933, 1943, 1960, 1974, 1988, 1999, 2003.
SIPM: 1913 (Banco Nación), 1939 (Banco Central), 1953 (Banco Central), 1956 (Dirección
Nacional de Estadística y Censos), 1981 (Indec), 1993 (Indec)…
ICC: 1943, 1956, 1980, 1993, 2003.
Uso de los índices

Llamemos i, j a dos años dados cualesquiera y o al año base.
En las publicaciones de los índices generales aparecen todos referidos al año base (=100) :
I i/o
I j/o
Si para algún uso específico necesitamos un índice que describa la evolución del precio de un grupo
de productos entre los años i y j haremos uso de las llamadas cadenas o enlaces relativos :
I i/o x I j/i = I j/o de donde: I j/i = I j/o / I i/o
Suponiendo que el índice compuesto de precios de varios productos fue de 120 en 2000 y de 129 en
2001, calculados ambos con base 1999, ¿cuánto aumentó el nivel de precios entre 2000 y 2001?
La respuesta se calcula así: 129 / 120 x 100 =107,50 %. El nivel de precios aumentó un 7,50 %
Consideremos ahora el siguiente problema:
El índice de precios al consumidor y el promedio de salarios por hora en ciertas industrias
seleccionadas son:
Salarios por hora (en $)
Año IPC Servicios Comercio al menudeo Manufactura
1988 100,0 7,17 5,50 8,48
1989 109,6 8,18 5,95 9,37
1990 113,6 8,81 6,06 9,37
1991 117,1 9,49 6,60 10,01
¿Qué le sucedió al salario real de un empleado representativo en cada una de las tres industrias
seleccionadas, entre el año 1988 y el año 1991?
Multiplicando el salario por hora del sector Servicios del año 1988 (7,17$) por el índice IPC del año
1991 (como coeficiente es 1,171) resulta: 8,40 $. Este es el valor del salario del año 1988 corregido
por el costo de la vida en el lapso 1988-1991. Si lo comparamos con el que recibe (9,49$) en 1991,
vemos que su salario real aumentó un 12,98 % (=9,49/8,40x100).
La función que cumplió en el problema el IPC, fue la de mover en el tiempo un salario, y poder
compararlo con él mismo pero en otro momento. Así usado, se lo llama índice deflactor.
Un índice de precios usado como Indice deflactor sirve para corregir el valor de una magnitud
económica, en este caso los salarios, lo que permite efectuar comparaciones a lo largo del tiempo.
____________________
Elementos de METODOLOGÍA ESTADÍSTICA en la elaboración y en la lectura de tasas.

- Todo guarismo que exprese una tasa, se construye exclusivamente en base a alguna de las tres –y
sólo tres, en sentido topológico– medidas de intensidad.
- Las lecturas e interpretaciones deben hacerse sobre los datos (como ya se aclaró anteriormente
para las medidas de posición). Si una variable cuantitativa está organizada en intervalos de clase,
la tasa elaborada en base a uno o más de ellos, deberá leerse interactuando entre los intervalos y
los datos (salvo que no se cuente con éstos).
- El criterio de Paasche puede usarse más bien en trabajos de pequeña o mediana magnitud, donde
se tengan planificados y asegurados los recursos que satisfagan los requerimientos operativos de
este índice. El de Fisher se denomina también índice ideal de Fisher porque aprovecha las virtudes
de los índices de Laspeyres y de Paasche pero, en cuanto a su construcción, carga con las mismas
exigencias operativas que tiene el índice de Paasche.
Erratas en la enseñanza-aprendizaje y uso de las tasas
Observadas en algunos textos universitarios de estadística:
- Presentar una variedad de tasas que exceden las tres que vimos aquí, al considerar, erróneamente,
una misma tasa como dos medidas distintas por el mero hecho de expresarla una vez como coeficiente
y otra como porcentaje.
- Descontextualizar al índice, al incluir sólo la proporción y la razón en el concepto de tasa.
La tercera fase de la implantación de políticas neoliberales en Latinoamérica, consiste en una etapa
de gobiernos constitucionales (concepto que incluye al poder legislativo, al ejecutivo y al judicial)
conviviendo con un corpus de leyes promulgadas durante las dictaduras cívico-militares y los
gobiernos neoliberales (vbgr. el menemato en la Argentina), que entorpecen seriamente tanto la
distribución equitativa de la riqueza como, por ejemplo, la producción de alimentos y el
reordenamiento de la producción agropecuaria en general (actualmente regulada por las empresas
multinacionales y la oligarquía terrateniente local, como resultado de la disolución de las juntas
nacionales de granos y de carnes en 1992 ya mencionada en el capítulo II).
Del artículo periodístico sobre los peones rurales adjuntado y analizado en el capítulo III y vuelto a
analizar a lo largo de este capítulo, pudieron extraerse algunos indicadores socioeconómicos que
describen la inequidad en la distribución de la riqueza producida en el campo.
Glosario
Proporción: mide cuánto incide un valor o grupo de valores de la variable en el total.
Razón: compara un valor o grupo de valores, contra otro valor o grupo de valores.
Indice: compara un valor o grupo de valores consigo mismo, pero en dos situaciones distintas
en el tiempo o en el espacio.
____________________
Cap.V – DISPERSIÓN
El principal rasgo de un fenómeno social, físico, etc. que habilita a estudiarlo estadísticamente,
es la variabilidad interna de sus atributos. El concepto mismo de variable estadística surge a
partir de la variabilidad de los valores o de las categorías que ella toma.
Si en todos los temas desarrollados anteriormente hemos explotado esa dispersión, en este lo
que haremos es explorarla para elaborar indicadores que directa o indirectamente reflejan el
grado de dispersión de los datos.
Las medidas de dispersión se definen en el espacio de los números reales, por lo que se aplican
sólo a las variables cuantitativas.
MEDIDAS DE DISPERSIÓN
Rango
Es la forma más gruesa de observar la dispersión de los datos de una distribución:
Rango = Xmáx – Xmín
En la variable “Cantidad de personas ocupantes” (tomada de la matriz de datos correspondientes a una
muestra de 32 vivendas del barrio, cuaderno I) el rango es:
5-2 = 3.
Quiere decir que en una franja o amplitud de 3 ocupantes se encuentra toda la “diversidad” –en cuanto
a cantidad de ocupantes– de las viviendas del barrio.
El déficit de esta medida es que no tiene en cuenta todos los valores intermedios entre Xmáx y Xmín
Rango intercuartílico
Es: RI = Q3 – Q1
Expresa algo parecido a lo que dice el rango de toda la distribución, pero se refiere únicamente a los
datos centrales. Como aquél, también es deficitario al no tener en cuenta a todos los datos centrales.
Varianza
Fue propuesta por el astrónomo, geodesta y matemático K.F. Gauss31 y recorre, ahora sí, todos los
valores de los datos de la distribución. Para su construcción, se elige la media aritmética como
referencia para contabilizar los desvíos del valor de cada uno de los datos respecto de ella:
desvío = Xi – Media
Gráficamente, estos desvíos pueden verse alrededor de la media así:
(–) (+)
         
R1
Media
31
Karl Friedrich Gauss (1777-1855 ). Geodesta, astrónomo y matemático alemán. Obras: Disquisitiones arithmeticae
(Leipzig, 1801), Theoría motus corporum cælestium (Hamburgo, 1809), Teoría combinationis observationum.
____________________
En el diagrama anterior, los datos se volcaron como puntos en el espacio R1 de los números reales y
las fechas representan los desvíos (aunque no se dibujaron todos) de cada uno de los datos.
La construcción que estamos haciendo apunta a conseguir una suerte de “fecha promedio” es decir
un desvío promedio. Como algunos desvíos son positivos –los ubicados a la derecha de la media– y
otros negativos –los ubicados a la izquierda–, un simple promedio de todos daría siempre cero32. Para
anular los signos una opción es tratar con los valores absolutos |Xi – Media| de los desvíos y otra, con
los llamados desvíos cuadráticos (Xi – Media)². La primera opción lleva al desvío medio de Laplace33
y la segunda a la varianza de Gauss.
A continuación se suman todos los desvíos cuadráticos:  (Xi – Media)²
De aquí en más designaremos a la media aritmética poblacional con la letra griega

(mu) y el símbolo  lo aplicaremos exclusivamente a la media aritmética muestral.
Cuando el grupo de datos es la población, esa sumatoria se divide por la cantidad N (tamaño de la
población) y tendremos la varianza poblacional:
² =  (Xi – )² / N
designada con la letra griega  (sigma) elevada al cuadrado.
Si el grupo de datos es una muestra, aquella sumatoria se divide por la cantidad n-1 llamada grados
de libertad 34, y tendremos entonces la varianza muestral:
s² =  (Xi – )² / n-1
La media y la varianza muestrales de la variable “Gasto mensual del grupo” extraída de la matriz de
datos de la muestra de 32 viviendas del barrio (cuaderno I), son:
 = 1.227,25 $ y s² = 195.607,537 $²
Se puede apreciar que la magnitud de la varianza es el cuadrado de la magnitud de la variable. Eso
aparentemente complica las cosas, porque por ejemplo el Rango –que es una medida más tosca, ya lo
dijimos antes– dice claramente que en una franja de 1.425$ (2.205 – 780 = 1.425) se encuentran todos
los gastos mensuales de los 32 hogares encuestados.
Desvío estándar
Para poder compatibilizar la magnitud de la dispersión con la magnitud de la variable, simplemente le
sacamos la raíz cuadrada a la varianza, resultando una medida llamada desvío estándar.
Hay entonces un desvío estándar poblacional y un desvío estándar muestral, que se obtienen de sus
respectivas varianzas:
______________________ _________________________
 =  (Xi – )² / N ) y s =  (Xi – )² / n-1 )
La variable “gasto mensual…” tiene un desvío estándar muestral de:
32
Recordar que la Media es el punto de equilibrio de toda la distribución y si sumamos todos los desvíos con su signo,
para luego promediarlos, el resultado siempre daría cero.
33
Pierre Simón de Laplace (1749-1827). Astrónomo y matemático francés. Obras: Mecánica Celeste, El sistema del
mundo y otras.
34
La media poblacional es una sola, como también lo es la varianza poblacional . En cambio hay tantas medias muestrales
como muestras distintas se puedan hacer en esa población; y también hay tantas varianzas muestrales como medias
muestrales puedan obtenerse. Por lo que una varianza muestral está atada a una determinada media, tiene un (1)
condicionamiento que no tenía la poblacional. Ese condicionamiento le resta (1) un grado de libertad.
____________________
S = 422,28 $
En rigor, un desvío estándar no es interpretable aisladamente en la distribución para la que fue
calculado35, y sí es muy útil para comparar la dispersión de dos o más distribuciones bajo la misma
variable.
Por ejemplo, podemos comparar la dispersión de la variable Gasto Mensual entre las 32 viviendas y
otro grupo de hogares que tiene un S = 550 $ (y además un gasto promedio parecido). Como el desvío
422,28$ es menor que el desvío 550$, decimos que, respecto de la variable Gasto Mensual, el primer
grupo es más compacto, menos disperso, más homogéneo que el segundo.
También podemos decir que el 2° grupo es más heterogéneo, más disperso, que el 1°, en relación con
la variable Gasto Mensual.
OTROS ESTUDIOS BASADOS EN LAS MEDIDAS DE DISPERSIÓN

Coeficiente de variación
Se debe a K. Pearson36 y permite comparar la dispersión de las distribuciones de variables que tienen
distinta magnitud.
Es en realidad una dispersión relativa –no absoluta como el desvío estándar– y se calcula como el
cociente del desvío estándar con la media:
C.V. = desvío estándar
media
De ese cociente resulta que el C.V. no tiene magnitud, es adimensional. En esto radica su habilidad
para comparar las dispersiones de variables con distinta magnitud. Puede expresarse como
coeficiente o como porcentaje.
Calculemos los C.V. de todas las variables cuantitativas contenidas en la matriz de datos del barrio:
CVCANTIDAD DE AMBIENTES = S = 1,26 ambientes = 0,38
 3,34 ambientes
CVCANTIDAD DE PERSONAS OCUPANTES = S = 0,94 personas = 0,30
3,12 personas
CVGASTO MENSUAL = S = 422,28 $ = 0,34
 1227,25$
CVPERSONAS MAYORES CON TRABAJO = S = 0,98 personas = 0,33
 2,94 personas
Comparándolos, se concluye que el grupo de viviendas relevadas es más compacto, más homogéneo,
menos disperso, en relación con la cantidad de personas ocupantes, porque tiene el menor de los
coeficientes calculados. También puede concluirse que el grupo de viviendas de la muestra es más
heterogéneo, más disperso, menos compacto, en relación con la cantidad de ambientes.

En el caso de las Pymes integrantes de la muestra hecha a partir del Censo Económico 2004/2005
(cuya matriz de datos se encuentra en la adenda del capítulo I), el grupo es más homogéneo según la
variable Cantidad de personal (con un CV de 0,53 menor que el 0,77 de la variable antigüedad).

35
Aunque, en algunas distribuciones simétricas el desvío estándar describe un entorno alrededor de la media que contiene
aproximadamente a las 2/3 partes ( 68%) de los datos.
36
Ver nota al pie en el capítulo II, pág.12.
____________________
Bajo circunstancias especiales, también puede aplicarse el C.V. a una misma variable pero en dos
grupos (dos matrices) significativamente diferentes. Supongamos que una tercera muestra de hogares
tiene un desvío estándar S = 1.000$, pero que la media mensual de gastos es = 4.000 $.
Usando los desvíos estándar para comparar la variabilidad de los gastos del primer grupo con los
gastos de este tercer grupo de hogares, se diría que el primero es más compacto que el tercero. Pero
resulta que sus medias nos están indicando que los dos grupos de hogares son significativamente
diferentes en cuanto al nivel económico, por lo que se puede convenir en que prácticamente se trata de
dos variables distintas, si bien ambas expresan en $ los gastos mensuales, por lo que es viable aplicar
el C.V.. Entonces
CVPRIMER GRUPO = 422,28 / 1.227,25 = 0,34
CVTERCER GRUPO = 1.000 / 4.000 = 0,25
Ahora sí puede apreciarse que, en realidad, el tercer grupo es más homogéneo que el primero en
cuanto a los gastos mensuales.
Otro ejemplo37:
En una empresa se estudiaron los ingresos anuales de los ejecutivos y el de los empleados no
calificados. Los resultados indicaron que el ingreso anual medio de los ejecutivos es de 86.000$con un
desvío estándar de 5.000$ y el ingreso anual medio de los empleados no calificados es de 7.200$ con
un desvío estándar de 800$. ¿Cuál de los dos grupos de sueldos es más consistente (más homogéneo,
menos disperso)?.
Una primer comparación usando los desvíos, nos dice que los sueldos de los empleados no
calificados se parecen más entre ellos, están menos dispersos, que los sueldos de los ejecutivos:
EMPL = 800$ contra EJEC = 5000$
La circunstancia especial que mencionábamos antes es que, si bien la variable es una sola (sueldos en
$) los dos grupos de sueldos son marcadamente distintos (eso se aprecia observando sus medias), son
de distinta naturaleza, como si fueran distintas variables.
Calculamos los C.V. para cada grupo:
C.V. EMPL = 800$ = 0,11 C.V. EJEC = 5.000$ = 0,06
7.200$ 86.000$
Y vemos que, en cuanto a sus sueldos, es más homogéneo el grupo de los ejecutivos que el grupo de
los trabajadores no calificados. Es decir que en relación con su media, los sueldos de los ejecutivos
tienen una dispersión menos significativa que la de los sueldos de los empleados no calificados en
relación con su respectiva media.
Detección de datos raros (outliers) en variables cuantitativas

Para detectar valores que “desentonan” con el conjunto de la distribución, el procedimiento que
usaremos aquí se basa en un gráfico –Gráfico de caja y bigotes o box-plot 38– que se construye sobre
el espacio de los números reales, por lo que sólo se aplica a variables cuantitativas, y se diseñó para
ser explotado con los datos originales de campo, por lo que no puede elaborarse a partir de una
distribución organizada en intervalos.
Son 5 los elementos –números sumarios o números resumen– con los que se inicia la construcción
(en borrador, primero) de un box-plot:
Xmín , Q1 , Q2 , Q3 y X máx.
37
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
38
“Box-and-whisker plots”. Tukey J., Exploratory data analysis,. Addison Wesley. 1977.
____________________
Como los tres cuartiles son en realidad “marcas” geométricas sobre el espacio de los datos ordenados,
para trasladarlos al eje real habrá que asignarles un número real a cada uno, estableciendo alguna
convención. Cuando el cuartil cae entre dos datos lo usual es tomar su valor medio39 y cuando pasa
por sobre un dato, tomar el valor del dato mismo.
En el caso de la variable cantidad de ambientes los números sumarios son:
X mín. = 1 Q1 = 2,5 Q2 = Me = 3,5 Q3 = 4 X máx. = 6
y el “box-plot” inicial (todavía en borrador) es:
 
1 2 3 4 5 6 Cantidad de ambientes
Xmín Q1 Me Q3 Xmáx
El gráfico queda “flotante” por sobre el eje real donde se vuelcan los 5 elementos. La caja central
tiene una amplitud total igual al rango intercuartílico RI = Q3 – Q1 y es definitiva tal como se la
dibujó. En principio los bigotes son provisorios y luego de aplicado el criterio de Tukey40, que se verá
a continuación, pueden se retocados o no para su versión definitiva.
El criterio de Tukey se basa en el Rango intercuartílico (RI) y en base a él se califica a los datos en
cuatro tipos: centrales, adyacentes, raros externos y raros lejanos.
 Los datos centrales son los que se encuentran dentro del rango intercuartílico es decir dentro de
la caja (entre Q1 y Q3) y nominalmente representan el 50% del total.
 Los adyacentes se encuentran por fuera de la caja, en las inmediaciones de ella hasta una distancia
de: 1,5 x RI, que designaremos de aquí en adelante como distancia de Tukey: dT=1,5xRI.
 Todos los datos que caen más allá de una distancia de Tukey son datos raros. 
Haciendo las cuentas correspondientes: Q1–1,5xRI y Q3+1,5xRI y volcando los resultados como
marcas o vallas41 provisorias en el gráfico
 
1 2 3 4 5 6 cantidad de ambientes
se puede comprobar que la variable Cantidad de ambientes no tiene ningún dato raro, es decir ningún
dato que caiga más allá de una distancia de Tukey desde los bordes de la caja. Los bigotes definitivos
quedan, en este caso, iguales a los provisorios:
 
1 2 3 4 5 6 cantidad de ambientes
39
En rigor, cualquier número real comprendido entre los dos valores, sirve para representar el cuartil en R1
40
Tukey J. Exploratory data analysis. Addison Wesley. 1977
41
En la denominación original de Tukey se llaman “fences” lo que se traduce como: cercos, vallas.
____________________
Los bigotes representan a los datos adyacentes y la caja contiene a los datos centrales. Los valores se
leen sobre el arreglo de datos ordenados (hecho en el capítulo III). 3 y 4 ambientes son los valores de
los datos centrales y 1, 2, 4, 5 y 6 ambientes son los valores de los datos adyacentes. No hay viviendas
que tengan, para la muestra, alguna cantidad rara o atípica de ambientes.
En el caso de los C.I. de 60 estudiantes, sobre el arreglo de datos ordenados (ver cap.II, pág.11)
determinamos los cuartiles:
85 87 87 88 89 89 90 90 91 92 93 93 94 94 94|95 95 96 96 96 96 97 97
98 98 98 100 100 100 100|101 101 102 102 103 103 103 104 104 104 105 105
106 106 106|107 107 108 108 110 110 112 115 116 118 119 120 120 128 131
Los cinco números sumarios son:

Xmín = 85 Q1 = 94.5 Me = 100.5 Q3 = 106.5 Xmáx = 131
y el cálculo de las vallas provisorias da:
Q1-1.5(Q3-Q1)= 94.5 - 1.5 x (106.5 – 94.5) = 76.5
Q3+1.5(Q3-Q1)= 106.5 + 1.5 x (106.5 – 94.5) = 124.5
          
50 60 70 80 90 100 110 120 130 140 150
raros adyacentes centrales adyacentes raros
Más allá de la valla provisoria 124.5 hay datos raros que, leídos en el arreglo de datos ordenados, son
los coeficientes 128 y 131. Es decir que en el grupo de 60 estudiantes son raros, o atípicos para el
grupo, los CI de 128 y 131.
Tukey considera además dos tipos de datos raros: los externos y los lejanos. La línea divisoria entre
ambos se traza poniendo nuevas marcas o vallas provisorias a dos distancias de Tukey (2xdT = 3xRI) a
ambos lados de la caja. Es decir:
Q3+2xdT= Q3+2x1,5(Q3-Q1)=Q3+3(Q3-Q1)= 106.5 + 3 x (106.5 – 94.5) = 142.5
Q1–3(Q3-Q1)= 94.5 – 3 x (106.5 – 94.5) = 58.5
          
50 60 70 80 90 100 110 120 130 140 150
lejanos externos adyacentes centrales adyacentes externos lejanos
Evidentemente no hay datos raros lejanos. Los valores 128 y 131 corresponden a datos raros externos
y los representamos con el símbolo :
____________________

128 131

          
50 60 70 80 90 100 110 120 130 140 150
Y los bigotes definitivos llegan hasta los valores adyacentes más alejados de la caja: 85 hacia atrás y
120 hacia delante. Para leer esos valores hay que interactuar con el arreglo de datos ordenados.
Supongamos que en vez de 131, el Xmáx hubiere sido 148. Este valor se categoriza como lejano, su
símbolo es * y el box-plot hubiera quedado así:
 *
128 148
          
50 60 70 80 90 100 110 120 130 140 150
Si contamos con dos o más distribuciones o grupo de datos, todos referidos a una misma variable
cuantitativa, los correspondientes box-plot pueden integrarse en un mismo gráfico tal como ve:
Grupo A
128 131

* * Grupo B

  Grupo C

          
50 60 70 80 90 100 110 120 130 140 150
El gráfico muestra que en el grupo C todos los datos son centrales o adyacentes y no hay C.I. raros.
Observando a escala, se ve que los C.I. 68 y 125 son datos adyacentes en el grupo C, mientras que
en el grupo B ellos representan valores raros y se califican como externo y lejano respectivamente.
Análisis de asimetría
Este análisis se desarrolla en el espacio de los números reales, por lo que puede aplicarse solamente
a las variables cuantitativas. En este curso nos remitiremos a realizarlo en su manera más elemental
como lo es comparar simplemente tres medidas de posición: Moda, Mediana y Media.
Si una distribución es simétrica, en su zona central coinciden la Moda, la Mediana y la Media. Es
decir:
Mo  Me  
Por este motivo, dichas medidas de posición también se llaman medidas de tendencia central.
____________________
Si una distribución es asimétrica, las medidas de tendencia central se separan. La más afectada por la
asimetría, es decir por los valores alejados del centro de la distribución es la Media . En
consecuencia, cuando las tres medidas quedan ubicadas sobre el eje real de la siguiente forma:
Mo < Me < 
la asimetría es hacia la derecha porque los valores más alejados hacia la derecha “tiran” a la media
más que a las otras dos.
Si la ubicación de esas medidas en el eje real es:
 < Me < Mo
la asimetría es hacia la izquierda.
Como esas tres medidas se determinan en espacios distintos y sólo la media se calcula en el mismo
espacio donde se hace este análisis, a las otras dos habrá que sacarlas de su espacio natural
asignándole un número real mediante alguna convención razonable. Por ejemplo, para la variable
cantidad de ambientes de la muestra de 32 viviendas del barrio que hemos tratando anteriormente
cualquier número real que se encuentre entre 3 y 4 (sin ser ninguno de esos dos) puede representar a la
mediana en el espacio R1. Mantendremos la convención de asignarle un número real a la mediana (a
quien queremos volcar en R1 a pesar de no ser un número real) adoptando el punto medio entre los
valores de los datos que la rodean, es decir:
Me = 3,5 ambientes
La Moda, para este caso, es fácilmente reducible a un n° real: Mo = 4
Entonces si: 3,34 < 3,5 < 4 : la asimetría es hacia la izquierda
En los casos en que la moda no esté muy clara, ubicándose entre las otras dos medidas (por ejemplo 
< Mo < Me ) conviene desecharla y realizar el análisis de asimetría solamente con  y Me.
Si aplicamos a la distribución de los C.I. de 60 estudiantes las nociones de asimetría vistas, usamos el
valor ya calculado de la media (101,7), convenir en un n° real para la mediana (Me = 100.5, dado que
la marca está entre 100 y 101) y también convenir en algún valor puntual para la moda tomado desde
el intervalo modal, por ejemplo el punto medio de ese intervalo, con lo queda Mo = 94,8. Comparando
las tres medidas de tendencia central vemos que: Mo < Me < 
porque: 94,8 < 100,5 < 101,7
entonces la distribución es asimétrica hacia la derecha. Esta medición puede corroborarse
visualmente observando el histograma.
Glosario:
Rango: diferencia entre el valor máximo y el valor mínimo de una variable cuantitativa. Mide la
dispersión de la distribución sin tomar en cuenta los valores intermedios.
Rango intercuartílico: diferencia entre el cuartil 3 y el cuartil 1. Mide la dispersión de la parte central
de la distribución sin tomar en cuenta los valores de los datos que caen dentro de la caja.
Desvío: diferencia entre el valor de un dato y la media de toda la distribución.
Varianza o desvío medio cuadrático: es el promedio de los cuadrados de los desvíos. Mide la dispersión
de una distribución teniendo en cuenta todos los datos. Su magnitud es el cuadrado de la magnitud de la
variable.
Desvío estándar: es la raíz cuadrada de la varianza. Su magnitud es igual a la de la variable. En algunas
distribuciones simétricas describe un entorno alrededor de la media que encierra aproximadamente las
2/3 partes de todos los datos.
Coeficiente de variación: es la relación entre el desvío estándar y la media. Mide dispersión relativa. Es
un coeficiente adimensional y sirve sobre todo para comparar, dentro de un mismo grupo de unidades de
observación, la dispersión de variables que tienen distinta magnitud.
____________________
ADENDA
Elaboración de modelos poblacionales.

El conjunto de medidas estadísticas elaboradas para un grupo de datos, describe las características
sobresalientes de ese grupo. Si él es una muestra, a tales medidas las llamamos estadísticos muestrales
o simplemente estadísticos. Y si es la población misma, a esas medidas las llamamos parámetros
poblacionales o simplemente parámetros.
En el estudio de poblaciones interesa detectar fenómenos que, si bien en apariencia pudieran ser
disímiles, presenten una familiaridad conceptual, un parecido respecto del proceso de generación de
cada una de esas poblaciones de datos. La parte más interesante de ese parecido conceptual entre
fenómenos se la busca y se la encuentra más bien en la relación intrínseca entre parámetros, por
ejemplo entre la media y el desvío estándar  o/y en la forma de la envolvente del histograma
poblacional. Esta actitud de búsqueda de mecanismos comunes entre fenómenos, es eminentemente
inductiva y conduce a la elaboración de modelos estadísticos poblacionales.
Un modelo estadístico tiene dos componentes: una es conceptual y la otra es matemática.
Antes de llegar al modelo, con lo que se cuenta es con un grupo de distribuciones empíricas cuyos
indicadores resumen respectivamente el comportamiento específico de cada uno de los fenómenos.
Inductivamente se trabaja en la componente conceptual buscando un hilo conductor común entre esos
fenómenos y cuando surge, se busca la componente matemática por distintos caminos, tanto
inductivos como deductivos.
Uno de los modelos más comunes y “populares” es el modelo Normal o gaussiano con una muy
característica envolvente en forma de campana y una relación funcional entre  y muy definida42.
Este modelo está presente en fenómenos tan disímiles como una máquina cortando piezas metálicas de
una misma longitud nominal y una población de personas concurriendo a realizar un trámite idéntico y
que para todos debería consumir el mismo tiempo nominal. En ese mecanismo común a ambos
fenómenos, queda delineada la componente conceptual.
Además, cada población tiene su propio  y , expresados en mm en el primer caso y en minutos en el
segundo caso, pero hacia el interior de cada una de esas poblaciones la relación funcionalentre esos
dos parámetros es muy similar y también la envolvente de sus respectivos histogramas, y esa es la
componente matemática del modelo.
42 –½((x – )/)²
La expresión funcional de la envolvente gaussiana es: f(x) = 1/(2) x e y se obtiene mediante un
procedimiento deductivo como se describirá sucintamente en el capítulo X de estas Notas.
____________________
Cap. VI - ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

(con aplicaciones econométricas)
Concepto de Econometría43.-
El objeto básico de la Econometría consiste en especificar un modelo de relación entre dos o más
variables económicas para estimar el comportamiento de determinados agentes económicos.
En su forma más general tal modelo de relación puede representarse matemáticamente como:
Y = f ( X1 , X2 , ... , XK )
donde Y es la variable cuyo comportamiento se pretende explicar y X1 , X2 , ... , XK son las distintas
variables potencialmente explicativas de la primera.
En este curso vamos a limitarnos al estudio de modelos lineales de relación entre las variables:
Y = a + b1 . X1 + b2 . X2 + ... + bk XK
y en particular a los bivariados, es decir a los concernientes a sólo dos variables:
Y = a + b. X
Por ejemplo, para analizar si la expansión monetaria en un país ha sido inflacionaria, será preciso
especificar un modelo de relación entre las tasas de inflación y las tasas de crecimiento monetario.
El modelo que se obtenga tendría que permitir explicar algunas cuestiones como: si la tasa de
inflación (Y) está influenciada por el crecimiento monetario(X) y si es así cuánto.
_________________________________________________________________
Lo que sigue a continuación es la construcción del modelo lineal bivariado, lo que comprende dos
tipos de análisis: el de regresión y el de correlación.
_____________________________________________________________
ANALISIS DE REGRESIÓN
Se debe al biómetra inglés Sir Francis Galton44, uno de los principal constructores de la moderna
teoría de la estadística, en su búsqueda de las leyes de la herencia.
Basándose en algunas leyes estudiadas por L.A.J.Quetelet45 (a la sazón astrónomo real de Bélgica y
“máxima autoridad en estadística social y de población” en las palabras del mismo Galton46), trató de
encontrar leyes particulares que describieran la relación original – de ahí la palabra regresión – entre
las alturas de padres e hijos, por ejemplo.
Este análisis tiene por objeto determinar “como” se relacionan las variables en estudio47.
Si el modelo elegido para explicar la relación entre las variables estudiadas es el lineal, la primera
etapa del cálculo consiste en encontrar los coeficientes a y b de la ecuación de regresión lineal.
El método usado por Galton para calcular dichos coeficientes había sido usado por Gauss desde 1795
y publicado por él en 1809: el método de los cuadrados mínimos.48
43
Tomado y adaptado de: Estadística y Econometría. Alfonso Novales. McGraw Hill/Interamericana. 1998.
44
A quien ya presentamos en estas notas cuando vimos la OJIVA de Galton en el capítulo II .
45
Quetelet (1796-1874) astrónomo y sociólogo belga. Fundador de la Antropometría (1871). Además, realizó interesantes
estudios sobre geometría, física y meteorología.
46
En: “Clasificación de los hombres según sus dotes naturales”, capítulo del Genio Hereditario (1869).
47
Una describe las causas y la otra describe los efectos. Igualmente este análisis puede aplicarse a variables que no
necesariamente tengan una vinculación causa-efecto.
48
”Theoria motus corporum coelestium”. K.F.Gauss, 1809
____________________
A partir de las observaciones de campo, se cuenta con un listado de n datos bivariados, cada uno
expresado mediante un par de valores portantes de información bivariada.
X Y
x1 y1
x2 y2
x3 y3
. .
. .
xn yn
Cada par de valores, cada dato bivariado, se representa como un punto en un gráfico de puntos o
diagrama de dispersión.
La recta promedio de todos esos puntos cumple un rol similar al que cumple la media aritmética de
varios puntos ubicados sobre el eje real (1). La única diferencia es que la recta se ubica en un plano
real (2). Es decir que ella cumple también, pero en 2, con el postulado de la media aritmética de
Gauss: es un recta de equilibrio entre todos los puntos y es una y sólo una. Su ecuación
es:
Y=a+b.X
Elegimos el símbolo “  ” para representar la media en el plano. Las medias de cada una de las
variables X,Y tomadas individualmente sobre sus respectivos ejes son:  e . 
Definida así, la recta de regresión hace mínimos los desvíos o residuos restantes entre los puntos y
ella misma. Llamamos desvío o residuo a la diferencia:
Yi – Yi

donde Yi es el valor observado conjuntamente con un cierto Xi, e Yi es el valor estimado que se
calcula con la ecuación de la recta para el mismo Xi.
En rigor, lo que propone el criterio de cuadrados mínimos es que la recta debe ser tal que haga mínima
la suma de los cuadrados de los desvíos49:
( Yi – Yi )² = mínimo
Insertando la expresión de la recta, la condición de cuadrados mínimos queda:
( Yi – a – b . Xi )² = mínimo
Esa expresión se deriva respecto de a y el resultado se iguala a cero (dado que la primera derivada de
un mínimo es cero). Aparte, la expresión original se deriva nuevamente pero ahora respecto de b y
nuevamente se iguala cero (por el mismo motivo anterior). Es decir:
( Yi – a – b . Xi )² = 0
a

( Yi – a – b . Xi )² = 0
b
Queda un sistema de dos ecuaciones con dos incógnitas (a y b)50. Resolviéndolo, resultan las
expresiones:
49
El criterio de cuadrados mínimos aplicado en 1 a una sola variable propone que la media aritmética (el punto medio, el
promedio) debe ser tal que haga mínima la suma de los cuadrados de los desvíos Xi – , es decir: ( Xi –  )² = mín. Es
decir que hay uno y sólo un número real, al que llamamos media aritmética, que hace mínima esa suma. 
48
En 2 hay uno y sólo un par de números reales a,b que hacen mínima la suma de los cuadrados de los desvíos Yi – Y
____________________
b = XiYi – 1/n Xi Yi a= –b.

Xi² – 1/n ( Xi)²
con las cuales podemos calcular los valores de a y b para un grupo de n datos, es decir n pares X,Y.
A la ecuación de la recta de regresión la usaremos para interpretar la pendiente b,

que por su importancia se la llama coeficiente de regresión.
Problema51
Las ventas (efecto) anuales de cierto artículo parecen dependen mucho del nivel de publicidad (causa).
Para estudiar la relación entre estas dos variables económicas se registraron los montos de ventas en
cuatro momentos distintos y en cada oportunidad se anotó las cantidades invertidas en publicidad:
Gastos anuales en publicidad Ventas anuales

(en millones de pesos) (en millones de pesos)
0.8 2.5
2 5
1.4 3
2.2 5.9
b = + 2,45
a = 0,18

La ecuación es entonces: Y = 0,18 + 2,45 . X
El coeficiente de regresión b nos informa que en la muestra seleccionada las ventas de ese artículo
se incrementaron en 2.450.000 pesos, en promedio, por cada millón de pesos en que se incrementó
la inversión en su publicidad.
ANÁLISIS DE CORRELACIÓN
Se debe al biómetra inglés Karl Pearson52, y tiene por objeto medir “cuánto” se relacionan las dos
variables. El “cómo“ se relacionan lo vimos en el análisis de regresión.
El instrumento que nos permitirá medir la fuerza de esa relación es el coeficiente r de correlación de
Pearson. En valor absoluto este coeficiente toma valores entre 0 y 1: es 0 cuando no hay ninguna
relación entre las variables y 1 cuando la relación es perfecta, máxima.
El r tiene algo en común con el coeficiente de regresión b: el signo.
Es decir que si la recta de regresión asciende (pendiente positiva) el coeficiente de correlación tomará
un valor positivo entre 0 y 1 y diremos que la correlación es directa. Si la recta de regresión
desciende (pendiente negativa) el coeficiente de correlación tomará un valor negativo entre 0 y –1 y
entonces la correlación es inversa.
Por lo tanto el recorrido de este coeficiente es: – 1 < r < 1. Si r es (+) positivo, la correlación es
directa. Si r es (–) negativo, la correlación es inversa.
Para calcular dicho coeficiente usaremos la expresión:
51
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003.
52
En estas notas nos habíamos referido a Pearson en las oportunidades de ver el histograma y el coeficiente de variación.
____________________
r² = [XiYi – 1/n Xi Syi ]² .

[Xi² – 1/n ( Xi)²] . [Yi² – 1/n ( Yi)²]
Para el problema visto en la página anterior, el r es:
___ ___________
r = ±r² = ±0.9210 = ± 0.9597

Como la pendiente es positiva, el r es positivo: r = + 0.9597
El coeficiente de correlación r nos dice que en la muestra hay una muy alta asociación directa entre
las ventas de ese artículo y la inversión en su publicidad.
El r² calculado inicialmente, es en sí mismo otro coeficiente llamado coeficiente de determinación,
que siempre será positivo (r² = 0.9210) y se lo interpreta en forma de porcentaje (92.10%):
En la muestra, el 92.10% de las variaciones en las ventas anuales de ese artículo, pueden explicarse,
pueden entenderse, por las variaciones en los gastos anuales de su publicidad.
El 7.90% restante corresponde a las variaciones de las ventas no explicadas por las variaciones de los
gastos en publicidad y pueden deberse a la influencia sobre las ventas de otra u otras variables, la
cuales no entraron en este análisis, o a cuestiones meramente aleatorias.
___________________________________________________________
____________________
Cap. VII – SERIES DE TIEMPO
En los capítulos anteriores, al observar los valores de una variable estadística, presuponíamos o
acordábamos implícitamente que las observaciones se realizaban en un mismo momento (sin
enunciarlo, en realidad estamos "congelando" el tiempo).
Por eso, la repetición de apariciones de un mismo valor (una misma clase, una misma categoría) daba
lugar al concepto primario de frecuencia (frecuencia absoluta).
Con este enfoque, hasta aquí, hemos organizado los conjuntos de datos en distribuciones que
llamamos SERIES DE FRECUENCIAS.
Si hay razones para suponer que los valores están influidos por los momentos de tiempo en que
se los observa y eso caracteriza ahora al fenómeno estudiado estadísticamente, el enfoque debe
cambiar. Esto significa que debemos observar cada valor de la variable anotando el transcurso del
tiempo (ya no su frecuencia).
Esta nueva serie será distinta que la anterior, y con esta modalidad los datos quedan organizados en lo
que llamamos SERIES DE TIEMPO.
Se resalta que estamos hablando de la misma variable, pero son dos los enfoques para describir la
distribución de sus valores.
Serie de frecuencias: Serie de tiempo:
variable frecuencia variable tiempo

x1 f1 x1 t1
x2 f2 x2 t2
. . . .
. . . .
xn fn xn tn
Las segundas columnas de las distribuciones marcan la diferencia de enfoques: una distribución es
una serie de frecuencias y la otra una serie de tiempo.
Mientras que en las series de frecuencias la variable estadística observada es independiente y
puede verse a la frecuencia como una variable matemática dependiente, en las series de tiempo
nuestra variable estadística es dependiente de la variable matemática tiempo.
Serie de frecuencias: Serie de tiempo:
frecuencia variable
variable tiempo
Por este motivo, la forma usual de organizar los datos en una serie de tiempo es:
____________________
tiempo variable
t1 x1
t2 x2
. .
. .
tn xn
A - ANALISIS DESCRIPTIVO DE UNA SERIE DE TIEMPO
Modelo matemático
Al estudiar estadísticamente cierto fenómeno en el marco de una serie de tiempo, debemos considerar
que cada dato relevado es la resultante, para un momento, de los efectos producidos por distintas
causas, que actúan sobre la variable (X) en distintos lapsos de tiempo y con comportamientos
diferentes.
Al modelar matemáticamente el fenómeno observado, los efectos participan en el modelo como
componentes. De éstas, interesan sobre todo las que suministran información, describiendo primero
una tendencia (T) general y luego las distintas variaciones cíclicas (C) alrededor de ella. Finalmente
también participan del modelo las componentes que no suministran información, a las que llamamos
ruido (R) estadístico.
En cierto tipo de fenómenos (vbgr. algunos de los estudiados en astrometría) los efectos no interactúan
entre sí y en consecuencia cada una de las componentes mencionadas mantiene su escala a lo largo del
tiempo. La resultante es la agregación de todas ellas y el modelo matemático es:
X = T + C + R.
En los fenómenos económicos, en general, los efectos interactúan entre sí –se magnifican unos a otros
al interactuar– y por lo tanto las componentes cambian de escala a lo largo del tiempo. El modelo
matemático es en estos casos:
X=T.C.R
Este es el modelo matemático básico que seguiremos en estas notas.
Algunas variaciones cíclicas pueden ser periódicas (Cp) y otras no periódicas (Cnp):
X = T . Cp. Cnp . R
Mientras que T representa una única componente, Cp y Cnp representan familias de componentes con
ciclos de distinta longitud.
En las series de tiempo económicas, una componente cíclica periódica importante es la llamada
variación estacional (E), para la cual el ciclo dura un año.
Dado que en la práctica se hace muy difícil distinguir entre los ciclos no periódicos y el ruido,
trataremos a ambos (Cnp y R) como si fueran una sola componente, a la que llamamos variación
irregular (I). Es decir: I = Cnp . R
Por lo que, sin perder generalidad, el modelo básico deviene en:
X = T . Cp . I (A-1)
____________________
Ahora, dejando de lado la generalidad, desarrollaremos el modelo alrededor de una componente

periódica específica CL, con un determinado ciclo de longitud L.
Para ello, los datos deben estar tomados por lo menos cada medio ciclo53 y mejor aún si los lapsos
de tiempo entre datos son menores que la mitad del ciclo estudiado (se describiría la función con más
detalles). Para estudiar, por ejemplo, una componente que tiene ciclos de 10 años, debemos contar con
datos cada 5 años por lo menos; mejor si los tenemos para cada año. Si la componente es estacional,
es decir que tiene ciclos de un año, debemos contar con datos cada 6 meses por lo menos; si los
tenemos por trimestre será mejor y aún más si los datos son mensuales.
Al resto de las componentes periódicas las calificamos en dos tipos: las C>L que tienen ciclos mayores
que L y las C<L de menor longitud que él. Una calificación similar también puede aplicarse a las
variaciones irregulares: I>L, IL, I>L. Luego:
X = T . C>L . CL . C<L . I>L . IL . I<L
Agrupando convenientemente, el modelo es finalmente:
X = T . (C>L . I>L) . (CL . IL). (C<L . I<L) (A-2)
- Luego:
- una serie filtrada por tendencia:
X = (C>L . I>L) . (CL . IL). (C<L . I<L) (A-3)
T
contiene información y ruido de todas las longitudes.
- una serie filtrada por las componentes con longitudes mayores que L:
X = (CL . IL) . (C<L . I<L) (A-4)
T.(C>L . I>L)
contiene información y ruido de igual y menor longitud que L.
- una serie filtrada por componentes de mayor e igual longitud que L:
X = (C<L . I<L) (A-5)
T.(C>L . I>L). (CL . IL)
contiene información y ruido de menor longitud que L.
- una serie filtrada únicamente por ciclos de longitud L:
X = T.(C>L . I>L).(C<L . I<L);
(CL . IL)
y en particular si el ciclo es estacional, es una serie desestacionalizada:
X = T.(C>E. I>E).(C<E . I<E); (A-6)
(CE . IE)
Como estrategia general de cálculo para series de tiempo de variables económicas, se modelarán
funciones, contínuas o discretas, para describir cada componente por separado. Ello permitirá no solo
aislar cada componente e interpretarla individualmente, sino también “limpiar” o “filtrar” a la serie de
esa componente. Las funciones se obtendrán operando sobre la serie de datos mediante algoritmos que
llamamos operadores matemáticos.
53
Esta exigencia, llamada frecuencia de Nyquist, se entiende porque una función cíclica pasa dos veces por cero.
____________________
Cálculo y aplicación de operadores.

Hay que distinguir entre los operadores que modelan componentes (método de los cuadrados
mínimos, promedio móvil, índices cíclicos) y el operador que entrega una serie filtrada (algoritmo de
los residuos relativos) por alguna componente ya modelada.
– método de los cuadrados mínimos.54
Servirá para describir la tendencia T general mediante el ajuste de todos los datos de la serie según
una línea (recta o curva) promedio. La función así obtenida es continua.
Supongamos que se elige una línea recta como la más adecuada para representar la tendencia en el
tiempo del fenómeno estudiado: 
T = X = a+b.t

Con X simbolizamos que el valor de la tendencia es un valor medio (promedio), pero en función
del tiempo. A la notación  la reservamos para la media de los datos prescindiendo del tiempo (al
igual que en las series de frecuencias).
Llamamos desvío a la diferencia aritmética entre un dato de la serie y su correspondiente valor
calculado con la ecuación de la tendencia. Por ejemplo, usando como tendencia la función lineal
anterior, para cada dato Xi el desvío es: 
Xi – X ó también: Xi – T
La condición de cuadrados mínimos del método, significa que la recta deberá ser tal que haga
mínima la suma los cuadrados de todos los desvíos. Hay una sola recta que cumple con esa condición,
y para conocerla deben calcularse a y b:
___ __
b = tiXi – 1/n ti Xi a= X–bt

 t² – 1/n ( t)²
– residuos relativos.

Si hiciéramos una lista con todos los desvíos Xi–T, tendríamos una nueva serie que a diferencia de
la serie original no contiene la información correspondiente a la tendencia. Los desvíos pueden
interpretarse ahora como los residuos que quedaron luego suprimir la tendencia de la serie original.
El análisis de los residuos, por lo general en forma gráfica, puede mostrar que la serie contiene
información cíclica periódica, por ejemplo.
Debido al modelo matemático multiplicativo (A-1) usado, conviene convertir los residuos absolutos
Xi–T (que tienen la misma magnitud que la variable) en residuos relativos (que son adimensionales),
de la forma:
( Xi – T) / T ó
100 . ( Xi – T) / T expresados como porcentajes de la tendencia.
Distribuyendo: 100 . Xi / T – 100 . T / T
y simplificando: 100 . Xi / T – 100
El análisis de los residuos puede hacerse entonces con los residuos relativos en lugar de los
absolutos, siendo suficiente el uso del primer término de la última expresión:
54
”Theoria motus corporum coelestium”K.F.Gauss, 1809. Ya comentado en el capítulo anterior.
____________________
(X / T ) . 100
El resultado es una nueva serie de datos filtrados por tendencia y expresados como porcentajes de
la tendencia.
El procedimiento de los residuos relativos puede aplicarse a cualquier otra serie aunque no
sea la original, es decir que sus datos puedan estar ya filtrados e inclusive expresados como relativos,
y usando un nuevo filtro correspondiente a cualquier otra componente.
– promedio móvil.
Este operador recorre toda la serie entregando la media de los datos incluidos en intervalos
consecutivos del tamaño de un ciclo. Esos intervalos son superpuestos (es decir que tienen datos
comunes) y sesgados (cada promedio pierde un dato del intervalo anterior y gana un dato del
posterior). Por ejemplo: si el ancho del ciclo es 1 año y está fraccionado en 5 datos por año (fracciones
de ciclo: I, II, III, IV y V) el tamaño de este filtro es 5 (se promedian 5 datos en forma móvil).
Al calcularlo sobre una serie (A-3) ya filtrada por tendencia, la interpretación del operador puede
llevar a distinguir alguna componente periódica C>L de mayor longitud que L ó a reconocer el ruido
I>L creado al usar una línea de tendencia inapropiada.
Usándolo para filtrar la serie anterior, mediante el procedimiento de los residuos relativos aplicado a
este caso, se la estaría “limpiando” de (C>L . I>L), obteniéndose la (A-4) que es una serie libre de
tendencia y de variaciones de mayor longitud que L. La información que contiene la serie (A-4) es
precisamente una mezcla de ciclos periódicos de longitudes igual a L y menores que L, con
variaciones irregulares de longitudes igual y menores que L: (CL . IL).
Entonces este operador describe (C>L . I>L) en realidad, y al aplicarse como filtro a una serie deja
pasar (CL . IL). Este efecto se debe a su naturaleza discreta.
– índices cíclicos ó coeficientes cíclicos.

Son los descriptores discretos del ciclo periódico mezclado con variaciones irregulares de la misma
longitud: (CL . IL). Hay uno para cada fracción de ciclo (es decir 5 índices estacionales para el
ejemplo).
El operador propiamente dicho es la media aritmética de todos los residuos relativos obtenidos para
cada fracción de ciclo a lo largo de toda la serie (A-4).
Al aplicarse el conjunto de índices como filtro a una serie, deja pasar (C<L . I<L).
Desarrollo de un ejemplo55
t X__
Los datos corresponden a los ingresos
1 1134 (1991) trimestrales (en millones de pesos) de un
2 1354 grupo de empresas de transporte aéreo en
3 1673 concepto de operaciones internacionales,
4 1414 desde 1991 a 1994.
5 1449 (1992)
55
Los datos están tomados de: Estadística, ejercicios resueltos. Editorial C&C. 1995.
____________________
6 1603
7 1992
8 1574
9 1329 (1993)
10 1627
11 1932
12 1501 a) Graficar la serie.
13 1366 (1994)
Calcular la recta de tendencia: T = 1418,45 + 16,028 . t
14 1601
Trazarla sobre el gráfico.
15 1912
16 1494
Interpretar la pendiente: los ingresos del grupo de empresas fueron, en promedio y en ese período, a
razón de 16 millones 28.000 $ por trimestre.
b) Calcular un valor por tendencia para cada dato relevado:
serie tendencia serie
datos b) c)
t X T (A-3)
1 1134 1434 79,08
2 1354 1450 93,38 c)- Dividir la serie original por la tendencia.
3 1673 1466 114,12 Resulta así una nueva serie filtrada por
4 1414 1482 95,41 tendencia, cuyos datos se expresan en
5 1449 1499 96,66 porcentajes de ella.
6 1603 1515 105,81
7 1992 1531 130,11
8 1574 1547 101,74
9 1329 1563 85,03
10 1627 1579 103,04
11 1932 1595 121,13
12 1501 1611 93,17 d) Graficar la serie c).
13 1366 1627 83,96
14 1601 1643 97,44
15 1912 1659 115,25
16 1494 1675 84,42
e)- A partir del análisis de los residuos observados en el gráfico d), reconocer alguna componente
cíclica periódica.
f)- Definir la longitud L del ciclo periódico identificado y numerar (con números romanos) las
fracciones de ciclo en relación con la cantidad de datos dentro de él.
serie tendencia serie

datos b) c) f)
t X T (A-3) L=4
1 1134 1434 79,08 I
2 1354 1450 93,38 II
3 1673 1466 114,12 III
4 1414 1482 95,41 IV
5 1449 1499 96,66 I
____________________
6 1603 1515 105,81 II

7 1992 1531 130,11 III
8 1574 1547 101,74 IV
9 1329 1563 85,03 I
10 1627 1579 103,04 II
11 1932 1595 121,13 III
12 1501 1611 93,17 IV
13 1366 1627 83,96 I
14 1601 1643 97,44 II
15 1912 1659 115,25 III
16 1494 1675 84,42 IV
g)- Calcular los promedios móviles de intervalos de L datos, a partir de la serie obtenida en c), y
volcarlos en el gráfico d). Su interpretación gráfica y/o analítica puede llevar a distinguir alguna
componente de mayor longitud que L, o a reconocer el ruido agregado al usar una línea de tendencia
inapropiada 56.
h)- Dividir la serie c) por los promedios móviles, lo que representa “limpiarla” de las componentes
con longitudes mayores que L. Ese filtrado produce otra nueva serie con información y ruido de igual
y menor longitud que L, y sus datos están expresados en porcentajes de los promedios móviles.
serie tendencia serie prom.móv serie índ.cíclic. serie
datos b) c) f) g) h) j) k)
t X T (A-3) L=4 (C>4.I>4) (A-4) (C4 . I4) (A-5)
1 1134 1434 79,08 I
2 1354 1450 93,38 II
3 1673 1466 114,12 III 97,70 116,81 119,38 97,84
4 1414 1482 95,41 IV 101,45 94,05 94,50 99,47
5 1449 1499 96,66 I 105,00 92,06 86,31 106,72
6 1603 1515 105,81 II 107,79 98,19 99,80 98,39
7 1992 1531 130,11 III 107,13 121,44 119,38 101,72
8 1574 1547 101,74 IV 105,08 96,56 94,50 102,18
9 1329 1563 85,03 I 103,49 81,84 86,31 94,82
10 1627 1579 103,04 II 101,18 101,38 99,80 101,58
11 1932 1595 121,13 III 99,89 120,58 119,38 101,00
12 1501 1611 93,17 IV 99,62 93,52 94,50 98,95
13 1366 1627 83,96 I 98,19 86,38 86,31 99,06
14 1601 1643 97,44 II 96,36 101,12 99,80 100,63
15 1912 1659 115,25 III
16 1494 1675 84,42 IV
(S) (F) (S) (F) (S) (F) (S)
Nótese la secuencia de series y filtros alternados.
i)- Graficar la serie h).
56
Si en la etapa g) al volcar los promedios móviles en el gráfico d), apareciera una componente periódica de mayor
longitud es conveniente suspender lo calculado para la componente de longitud L y realizar la rutina para la nueva
componente desde f) en adelante. Posteriormente, al retomar el cálculo para la componente suspendida, se lo hará a partir
de la serie resultante en k) para la componente más larga, no a partir de la obtenida en c) como la primera vez que se la
trató.
____________________
j)- Calcular un índice cíclico para cada fracción de ciclo, a partir de la serie obtenida en h), y volcarlos
en el gráfico i). El conjunto de índices cíclicos describe la componente periódica CL.
k)- Dividir la serie h) por los índices calculados en j), resultando una serie final con los últimos
residuos, donde cada uno de ellos está expresado como porcentaje del índice cíclico que le
corresponda, y que representan las variaciones irregulares de corto período.
l)- Graficar la serie k).
m) Si al interpretar el gráfico l) se visualizara alguna componente periódica de menor longitud que la
ya analizada, a partir de la serie resultante en k) aplicar a la nueva componente la rutina desde el
punto f) en adelante.
_______________________________________
Para una obtención rápida de los índices cíclicos j) y en lugar del algoritmo de los promedios móviles,
puede optarse por calcular cada índice como la media aritmética de las fracciones correspondientes.
Es decir, de la columna c) se extraen todos los valores que corresponden a la fracción I y se los
promedia; lo mismo para los valores correspondientes a la fracción II y así para el resto. Resulta así:
serie tendencia serie índice cíclic. serie
datos b) c) f) j) k)
t X T (A-3) L=4 (C4 . I4) (A-7)
1 1134 1434 79,08 I 86,18 91,76
2 1354 1450 93,38 II 99,92 93,45
3 1673 1466 114,12 III 120,15 94,98
4 1414 1482 95,41 IV 93,68 101,85
5 1449 1499 96,66 I 86,18 112,16|
6 1603 1515 105,81 II 99,92 105,89
7 1992 1531 130,11 III 120,15 108,29
8 1574 1547 101,74 IV 93,68 108,60
9 1329 1563 85,03 I 86,18 98,66
10 1627 1579 103,04 II 99,92 103,12
11 1932 1595 121,13 III 120,15 100,82
12 1501 1611 93,17 IV 93,68 99,45
13 1366 1627 83,96 I 86,18 97,42
14 1601 1643 97,44 II 99,92 97,52
15 1912 1659 115,25 III 120,15 95,92
16 1494 1675 84,42 IV 93,68 90,11
Por un lado nótese que los índices calculados mediante este algoritmo rápido y por lo tanto más
operativo, casi no difieren de los calculados anteriormente. Pero por otro lado y con rigor conceptual
hay que aclarar que la componente y/o el ruido mayores que L, como consecuencia de este algoritmo
rápido, van a mezclase en la última columna con las componentes y/o ruidos menores que L:
X = (C<L . I<L). .(C>L . I>L ) (A-7)
T. (CL . IL)
que contiene entonces información y ruido de menor longitud que L, pero también de mayor longitud
que L. Lo que queda de manifiesto si se comparan los residuos de la columna k) de ambos cálculos.
Interpretación de los índices cíclicos: en promedio, en los primeros trimestres de cada año de ese
período estudiado, los ingresos estuvieron un 14% por debajo de la tendencia; en los segundos
____________________
trimestres, se correspondieron con ella; en los terceros estuvieron un 20% por arriba y en los
cuartos trimestres fueron un 6% inferior a la tendencia.
Desestacionalizar la serie original.

Los índices cíclicos calculados pueden aplicarse directamente a la serie original, mediante el
procedimiento de los residuos relativos.
El resultado de esa aplicación es una serie filtrada por la componente correspondiente al grupo de
índices usados, tal como se adelantó en las expresiones (A-6).
Si se aplican los índices estacionales que describen la componente estacional E, la serie quedará
desestacionalizada.
Algunos elementos metodológicos para tener en cuenta en la construcción de los operadores

– Como la media aritmética no se corresponde, en rigor, con el modelo matemático adoptado
(multiplicativo), se agrega ruido estadístico durante el algoritmo del promedio móvil y en el cálculo
de los índices cíclicos (sería más apropiado usar la media geométrica).
– Para minimizar entonces el ruido que se agrega durante dichos procedimientos, parece más
juicioso separar siempre primero la componente de mayor longitud en el tiempo y seguir así
separando hacia las de menor longitud, si bien el modelo matemático usado (multiplicativo)
autorizaría a poder hacerlo en cualquier orden. Así, cada paso conduce a un nuevo gráfico y/o a un
nuevo análisis de residuos a una escala más detallada.
– También se agrega ruido estadístico al tomar como una recta la línea de tendencia, cuando en
realidad fuera más representativa alguna línea curva.
– Si se intuye algún ciclo periódico, cuya primera aproximación se conoce de la observación de
los gráficos ó por información adicional obtenida por otra vía, se pueden realizar varios cálculos con
distintos tamaños de filtro (menores, mayores e igual al ciclo nominal) y estudiar la convergencia
hacia el valor más aceptable. Como la resultante de cada filtrado carga con ruido adicional pueden
aparecer ciclos periódicos ficticios, por lo que para el estudio de convergencia citado deben usarse
siempre los datos crudos originales, a lo sumo filtrados por tendencia.
B – PRONÓSTICOS: (tópico correspondiente a ESTADÍSTICA INFERENCIAL)

Las funciones que describen la tendencia y las componentes periódicas pueden emplearse para
pronosticar eventos antes, durante o después del período de observación de la variable. Ejemplos:
P1995-I = T1995-I x CI = (1418,45 + 16,028 . 17) x 0,8618 = 1690,92 x 0,8618 = 1457,24
Se estima que los ingresos del primer trimestre de 1995 fueron de 1.457 millones 240.000$ aprox.
P1995-II = T1995-II x CII = (1418,45 + 16,028 . 18) x 0,9992 = 1706,95 x 0,9992 = 1705,59
Se estima que los ingresos del segundo trimestre de 1995 fueron de 1.705 millones 590.000$ aprox.
P1990-IV = T1990-IV x CIV = (1418,45 + 16,028 . 0) x 0,9368 = 1418,45 x 0,9368 = 1328,80
Se estima que los ingresos del cuarto trimestre de 1990 fueron de 1.328 millones 800.000$ aprox.
P1990-III = T1990-III x CIII = (1418,45 + 16,028 . -1) x 1,2015 = 1402,42 x 1,2015 = 1685,01
Se estima que los ingresos del tercer trimestre de 1990 fueron de 1.685 millones 10.000$ aprox.
____________________
PROBLEMA57 .-
La siguiente información , elaborada en base a datos del INDEC, fue extraída del Anuario Estadístico
de la República Argentina 2000, sección Economía, de un diario de tirada nacional.
BALANZA COMERCIAL
ARGENTINA
Millones de dólares 35
Año Exportaciones Importaciones Saldo
1984 8.107 4.585 3.522 30
1985 8.396 3.814 4.582
1986 6.852 4.724 2.128 25
1987 6.360 5.818 542
1988 9.135 5.322 3.813 20
1989 9.579 4.203 5.376
1990 12.353 4.077 8.276 15
1991 11.978 8.275 3.703
Exportaciones
1992 12.235 14.672 -2.637 10
1993 13.118 16.784 -3.666
1994 15.839 21.590 -5.751 5
1995 20.963 20.122 841 Importaciones
1996 23.811 23.762 49 0
1997 26.431 30.450 -4.019 '84 '85 '86 '87 '88 '89 '90 '91 '92 '93 '94 '95 '96 '97 '98 '99
1998 26.441 31.404 -4.963
1999 23.333 25.508 -2.175
EVOLUCIÓN DEL COMERCIO
En millones de dólares
Se puede analizar por separado la evolución en el tiempo de las variables exportaciones e

importaciones (y hasta una tercera como el saldo del comercio exterior). Es decir:
Millones de u$s
Año Exportaciones
1984 8.107 30
1985 8.396
1986 6.852 25
1987 6.360
1988 9.135 20
1989 9.579
1990 12.353 15
1991 11.978
1992 Exportaciones
12.235 10
1993 13.118
1994 15.839 5
1995 20.963
1996 23.811 0
1997 26.431 '84 '85 '86 '87 '88 '89 '90 '91 '92 '93 '94 '95 '96 '97 '98 '99
1998 26.441
1999 23.333
O también:
57
____________________
Millones de u$s
Año Importaciones 35
1984 4.585
1985 30
3.814
1986 4.724 25
1987 5.818
1988 5.322 20
1989 4.203
15
1990 4.077
1991 8.275 10
1992 14.672
1993 16.784 5
Importaciones
1994 21.590
0
1995 20.122 '84 '85 '86 '87 '88 '89 '90 '91 '92 '93 '94 '95 '96 '97 '98 '99
1996 23.762
1997 30.450
1998 31.404
1999 25.508
En cada análisis hay una sola variable económica (variable estadística, variable aleatoria) en juego y
se analiza su evolución a lo largo del tiempo (que es una variable matemática, no es una variable
estadística). Si bien es un caso de estadística univariada se pueden usar perfectamente los recursos de
la matemática de dos variables como lo hicimos anteriormente.
El rol del tiempo como variable independiente X es indiscutible.
Los puntos que representan los datos recolectados a lo largo del tiempo se unen, precisamente para
expresar la cronología (a diferencia del diagrama de dispersión aplicado en el capítulo XIII del caso
anterior donde no hay cronología que señalar).
Para procesar más cómodamente las observaciones, conviene codificar el tiempo. Por ejemplo
asignarle 1 al momento de tiempo en que se tomó el primer dato, 2 al del segundo dato, etc., etc. Pero
también se podría ponerle 0 al tiempo de toma del primer dato, 1 al del segundo, etc.etc. Eso es
convencional, porque es una codificación (pero ¡ojo!, cuando ya se decidió una codificación hay que
mantenerla así hasta el final).
Elegimos la codificación más natural que es: x=1 p/1984, x=2 p/1985 y así correlativamente:
Millones de u$s Millones de u$s
Año Exportaciones Año Importaciones
1 8.107 1 4.585
2 8.396 2 3.814
3 6.852 3 4.724
O también:
4 6.360 4 5.818
5 9.135 5 5.322
6 9.579 6 4.203
7 12.353 7 4.077
8 11.978 8 8.275
9 12.235 9 14.672
10 13.118 10 16.784
11 15.839 11 21.590
12 20.963 12 20.122
13 23.811 13 23.762
14 26.431 14 30.450
15 26.441 15 31.404
16 23.333 16 25.508
____________________
Vamos a procesar la variable Exportaciones y señalemos que la recta de ajuste, que en el primer caso
llamábamos recta de regresión, aquí se llama tendencia de la serie de tiempo o serie temporal.
a =2.782,55 b = +1.400,075
Interpretación de la pendiente b de la tendencia: por cada año transcurrido (en el período tomado), las
exportaciones aumentaron en promedio 1.400, 075 millones de dólares por año.
Pronósticos.
Usando sólo la recta de tendencia calculada, pronosticar las exportaciones para:
- el año 2000
Cálculo: +2782,55 + 1400,075 x 17 = 26.583,825 (17 es el código para el año 2000)
Interpretación: se estima que en el año 2000 las exportaciones fueron del orden de los 26.583,825
millones de u$s.
- el año 1982
Cálculo: +2782,55 + 1400,075 x (-1) = 1.382,475 (-1 es el código para el año 1980)
millones de u$s.
- el año 2020
Interpretación: el año para el que se quiere pronosticar, está muy alejado del rango observado; no es
conveniente usar el valor calculado como pronóstico o estimación
- el año 2007
millones de u$s.
______________________________________
____________________
Cap. VIII – PROBABILIDAD
El objetivo de esta parte del curso es desarrollar una herramienta –la probabilidad– necesaria
para trabajar con muestras representativas de una población y para estudiar la relación
entre variables, todo lo cual nos permitirá abordar con fundamentos los problemas de la
Estadística Inferencial.
“... Las salas de juego estaban repletas de público. ¡Cuánta insolencia y cuánta avidez! Me
abrí paso entre la muchedumbre y me coloqué frente al propio croupier. Empecé a jugar
tímidamente, arriesgando cada vez dos, tres monedas. Entretanto, observaba. Tengo la
impresión de que el cálculo previo vale para poco y, desde luego no tiene la importancia que le
atribuyen muchos jugadores: llevan papel rayado, anotan las jugadas, hacen cuentas, deducen
las probabilidades, calculan; por fin, apuestan y pierden. Igual que nosotros simples mortales,
que jugamos sin cálculo alguno. He llegado, sin embargo, a una conclusión, al parecer, justa:
existe, en efecto, si no un sistema, por lo menos cierto orden en la sucesión de probabilidades
casuales, lo cual es muy extraño. Suele ocurrir, por ejemplo, que tras las doce cifras centrales
salgan las doce últimas. Cae, por ejemplo, dos veces en las doce últimas y pasa a las doce
primeras. De las doce primeras, vuelve a las centrales: sale tres o cuatro veces seguidas y de
nuevo pasa a las doce últimas. Tras dos vueltas, cae sobre las primeras, que no salen más de
una vez, y las cifras centrales salen sucesivamente tres veces. Esto se repite durante hora y
media o dos horas. Uno, tres y dos; uno, tres y dos. Resulta muy divertido. Hay días, mañanas,
en que el negro alterna con el rojo, casi en constante desorden, de modo que ni el rojo ni el
negro salen más de dos o tres veces seguidas. Al día siguiente, o a la misma tarde, sale el rojo
hasta veinticinco veces sucesivas, y continúa así durante algún tiempo, a veces, durante todo el
día...”. Párrafo del capítulo IV de El jugador (1866), una de las más célebres y populares
novelas de Fedor Dostoyevski, en gran parte un relato autobiográfico.
La búsqueda de las leyes que supuestamente gobernarían el azar, no solo atrae la concentración de algún
jugador empedernido, sino que domina permanentemente los cálculos de los actuarios de seguros y recorre
casi todo el espectro científico desde –cronológicamente– la astronomía hasta la economía.
Lo que aparece claramente en el párrafo seleccionado anteriormente es la observación del fenómeno que
interesa estudiar –la ruleta para el caso– mediante series de frecuencias (inclusive se observa algún atisbo
de elaborar una serie de tiempo). Todas las observaciones previas quedan finalmente al servicio de una
jugada que llamaremos de aquí en más experimento aleatorio y cuyo resultado está en manos del azar.
EXPERIMENTOS ALEATORIOS
Para especular con el resultado de un experimento aleatorio podríamos hacer una lista de valores
posibles –valores aleatorios– cuyas respectivas ocurrencias tendràn una probabilidad asociada 58.
Si en vez de jugador nuestro protagonista fuera un actuario de seguros, el esquema no cambiaría
demasiado. Él observaría previamente la frecuencia de ocurrencia de, supongamos, robos de autos, y como
probabilidad –frecuencia relativa– la tendría en cuenta al momento de asegurar un nuevo vehículo tomado
al azar.
Llamaremos espacio muestral (E) al espacio de los valores que resulten del experimento aleatorio:
E = {todos los números de la ruleta} = {0, 1, 2, 3, ......... , 34, 35, 36} o E = { robo , no robo}
Es el espacio de donde se extraen las muestras, de ahí su nombre, e involucra a toda la población. Es el
espacio de los valores visto en Estadística descriptiva, instalado ahora en un experimento aleatorio.
58
Esta probabilidad tiene que ver con la frecuencia –relativa– con que ocurrió cada valor anteriormente.
____________________
Tanto la jugada única del jugador como el aseguramiento de un auto tomado al azar, son experimentos
aleatorios simples porque involucran un solo elemento tomado al azar en una población59.
Dentro del espacio muestral algunos sucesos o eventos –sucesos aleatorios– son:
S1 = {que salga par} = {2, 4, 6, 8, 10, 12, 14, 16, 18 , 20, 22, 24, 26, 28, 30, 32, 34, 36}
S2 = {que no roben el auto asegurado} = { no robo }
S3 = {que salga dos} = { 2 }
S4 = {que salga 49} = { } = 
S5 = {que salga un número entre 0 y 36} = E
S6 = {que sea rojo} = {1, 3, 5, 7, 8, 9, 12, 14, 16, 18, 19, 21, 23, 25, 27, 30, 32, 34, 36}
S7 = {que salga cero} = { 0 }
En particular, los sucesos aleatorios S2, S3 y S7 son sucesos elementales porque contienen un solo elemento
del espacio muestral, el S4 es un suceso imposible y el suceso S5 es un suceso cierto porque va a ocurrir sí
o sí al realizar el experimento. El espacio muestral y los sucesos aleatorios pueden representarse mediante
el siguiente diagrama de Venn60:
E
11 S6
S1 1 13
15 2 3 5
4 6 12 8 7 17
28 20 14 9
10 16 18 19
22 30 21
24 32 23 29
34
26 36 25
31 0
59
Tanto la avidez del jugador como la de la compañía de seguros, llevan a los experimentos aleatorios compuestos –tomar
más de un elemento al azar– donde el jugador haría varias jugadas o la compañía aseguraría varios autos
60
Juan Venn (1834-1923). Filósofo e historiador inglés. Su obra de lógica más original es la Lógica del azar.
____________________
RELACIONES ENTRE SUCESOS

Relación de identidad: dos sucesos son idénticos cuando tienen los mismos elementos.
No importa cómo se hayan definido por comprensión cada uno de esos sucesos aleatorios. Si al
momento de detallar todos los elementos de cada uno de los sucesos vemos que aquellos son los
mismos, esos sucesos son idénticos.
Relación de exclusión. Los tres casos que pueden presentarse se grafican a continuación:
Mutuamente Excluyentes No Excluyentes Inclusión

Primer caso: dos sucesos son mutuamente excluyentes cuando la ocurrencia de uno, excluye la ocurrencia
del otro. Es decir que no tienen elementos en común y la intersección entre ellos es vacía.
Segundo caso: dos sucesos aleatorios aleatorios son no excluyentes, cuando tienen elementos en común.
Esos elementos comunes están ubicados en la intersección.
Tercer caso: la relación se reduce a la inclusión cuando uno de los sucesos incluye al otro. Es decir que
todos los elementos del incluido son parte de los elementos del incluyente.
En los ejemplos dados anteriormente: los sucesos aleatorios S 3 con S7 son mutuamente excluyentes y lo
son también S3 con S6; no son excluyentes los sucesos S1 y S6; y S3 está incluido en S1.
Relación de independencia: dos sucesos son independientes cuando la ocurrencia de uno no condiciona
la ocurrencia del otro.
En comparación con la de exclusión, esta relación es menos gráfica, más intangible y mucho más sutil.
Por ejemplo, en una encuesta de opinión se asegura la independencia de las respuestas de un encuestado
tomando recaudos para que él no haya escuchado previamente las respuestas del entrevistado anterior.
Igualmente nos apoyaremos hasta donde podamos en los diagramas planteados para la relación de
exclusión. En el caso de que los sucesos fueran mutuamente excluyentes, si uno ocurriera el otro nunca
podría ocurrir. Es decir que si el elemento tomado a azar fuera del primero, como no tienen ningún
elemento en común queda descartada la posibilidad de que el segundo pueda ocurrir y ello implica la total
dependencia (dependencia fuerte) del segundo suceso respecto del primero, y también a la inversa.
Si dos sucesos son excluyentes son fuertemente dependientes.
Ahora, en el tercer caso donde un suceso está incluido en otro, si ocurriera el incluido, como todos sus
elementos lo son también del incluyente, éste está obligado a ocurrir sí o sí (dependencia fuerte). Hay una
total dependencia del incluyente respecto del incluido.
El suceso incluyente es fuertemente dependiente del suceso incluido.
Finalmente el caso donde los sucesos son no excluyentes, comprende el resto de las situaciones de
dependencia y todos los casos de independencia. Se presenta así una situación de ambigüedad, que deberá
resolverse con información adicional.
____________________
ALGEBRA DE SUCESOS
Consiste en un conjunto de cuatro operaciones que aplicadas a dos o más sucesos aleatorios nos devuelven
nuevos sucesos aleatorios. Ellas son las tres operaciones de Boole61 (unión, intersección y complemento)
más la operación diferencia.
Unión: S1  S6 = {1,2,3,4,5,6,7,8,9,10,12,14,16,18,19,20,21,22,23,24,25,26,27,28,30,32,34,36}
El nuevo suceso (S1  S6) es que el elemento tomado al azar sea indistintamente Par o Rojo.
Intersección: S1  S6 = {8,12,14,16,18,30,32,34,36}
El nuevo suceso (S1 S6) consiste en que el elemento tomado al azar sea simultáneamente (conjunta-
mente) Par y Rojo.
Complemento: S1 = {no par} = {0,1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35}
El nuevo suceso es que el elemento tomado al azar no sea Par.
Diferencia: S1  S6 = {2,4,6,10,20,22,24,26,28}
El suceso (S1  S6) consiste en que el elemento tomado al azar sólo sea Par.
DEFINICIONES DE PROBABILIDAD
Definición Clásica
Se debe a Pierre Simón de Laplace62 para quien “... La teoría del azar consiste en... determinar el
número de casos favorables al acontecimiento cuya probabilidad se indaga. La razón de este número con
la de todos los casos posibles es la medida de la probabilidad, que no es más que una fracción cuyo
numerador es el número de casos favorables y cuyo denominador es el número total de casos posibles...”
63
. Es decir:
p  casos favorables
casos posibles
Se tiene por implícito que todos y cada uno de los resultados del experimento deben ser, en las palabras de
Laplace, “...igualmente posibles...”(sic). Este concepto, que llamamos equiprobabilidad, implica que
cuando vayamos a tomar –al azar– algún elemento de la población, todos tengan la misma posibilidad de
ser seleccionados. Es decir que al confeccionar una muestra con n elementos, debemos asegurarnos que
todos los elementos de la población tengan la misma oportunidad de integrarla.
Apliquemos esta definición a todos los sucesos tratados anteriormente:
P(S1) = 18 / 37 = 0,4865
P(S3) = 1 /37 = 0,0270
P(S4) = 0 / 37 = 0
P(S5) = 37 /37 = 1
P(S6) = 19 / 37 = 0,5135
P(S7) = 1/ 37 = 0,0270
P(S1  S6) = 28 / 37 = 0,7568
P(S1  S6) = 9 /37 = 0,2432
61
Estudiadas sistemáticamente por el lógico irlandés J.Boole (1815-1864) y aplicadas al diseño de circuitos electrónicos a
partir de 1939 y a la telefonía, control automático y computadoras en general hasta hoy.
62
Pierre Simón de Laplace (1749-1827). Astrónomo y matemático francés. Obras: Mecánica Celeste, El sistema del
mundo.
63
Essai philosophique sur les probabilités (1814).
____________________
__
P( S1 ) = 19 / 37 = 0,5135
P(S1  S6) = 9 / 37 = 0,2432
Siguiendo el mismo proceder, el actuario podría querer calcular la probabilidad del suceso S 2, y haría:
P(S2) = 1 / 2 = 0,50
El razonamiento más elemental y nuestro instinto nos dicen a coro que este cálculo está fallando en algo,
quedando en evidencia las limitaciones de la definición clásica. La lógica nos avisa que en realidad
deberíamos observar previamente el fenómeno –es decir observar con qué frecuencia no roban autos– y
con ello contar con la probabilidad para un caso nuevo. Ese proceder podemos extenderlo también al caso
de la ruleta obligándonos a observarla previamente –es decir observar con qué frecuencia ocurre cada uno
de los 37 números– y con ello disponer rigurosamente de un mapa de probabilidades para una nueva
jugada.
Definición Frecuencial.
Aparece como la solución a nuestro problema anterior y consiste en observar un número grande de
veces los resultados numéricos de la ruleta y anotar la frecuencia de aparición de cada número, o tomar en
cuenta muchos casos anteriores de autos asegurados y contar cuántos fueron robados.
Richard E. von Mises64 –quien propuso esta definición en 1919– se refiere a la probabilidad como “...el
Valor Límite de la Frecuencia Relativa... Esta es la razón del número de casos en que el atributo a sido
hallado al número total de observaciones...”65
Es decir: p = fr
Habiendo observado el comportamiento de la ruleta –de una ruleta en particular– supongamos 1000 veces,
podría ser que el número 2 saliera 32 veces. En ese caso la probabilidad del suceso S 3 sería:
P(S3) = 32 /1000 = 0,0320
Supongamos también que el actuario pueda recabar información sobre una cantidad grande de autos
asegurados, y que de ellos el 15% sufrió algún robo.
La probabilidad ahora del suceso S2 es: P(S2) = 0,85
ALGEBRA DE LAS PROBABILIDADES

Su utilidad reside en entregar al cálculo de probabilidades una herramienta, precisamente, algebraica. Es
decir, un conjunto de operaciones y maneras de operar con probabilidades.
Fue estructurada en los años de 1930 por matemáticos de la escuela ruso-francesa66, dentro de una teoría
especial de la medida de conjuntos. Esa teoría de la medida nos permitiría hablar de la probabilidad de un
suceso aleatorio, como la medida de que él ocurra.
Su cuerpo principal consiste en tres axiomas67 y un grupo de propiedades (teoremas), a saber:
Axiomas
1) P  0 (la probabilidad es un número positivo)
2) P(E) = 1 (la probabilidad del suceso cierto es 1)
3) Si dos sucesos A y B son mutuamente excluyentes: P(AB) = P (A) + P(B)
Para repasar intuitivamente este último axioma conviene mirar el diagrama del primero (sucesos
mutuamente excluyentes) de los tres casos de la página 3 de estas notas, y relacionar la medida de la
probabilidad con la medida del “área” de cada suceso.
64
Matemático y Filósofo austríaco (1883-1953).
65
Tomado de su libro Probabilidad, Estadística y Verdad (1928).
66
Kolmogoroff, Cantelli, Borel y otros.
67
Los axiomas son proposiciones intuitivas aceptadas sin demostración y que a partir de ellos pueden deducirse las
propiedades (teoremas).
____________________
Propiedades (teoremas) 68
a) 0  P  1 (esta propiedad se deduce de los axiomas 1 y 2 y nos dice que la probabilidad
es un número positivo entre cero y uno)
b) P() = 0 (probabilidad del suceso imposible; se deduce de los axiomas 3 y 2)
__
c) P( A ) = 1 – P(A) (probabilidad del suceso complementario; se deduce de los axiomas 2 y 3)
d) si dos sucesos A y B no son excluyentes: P(AB) = P (A) + P(B) – P(AB)
Esta última propiedad puede comprobarse con apoyo del diagrama del segundo caso (página 3 de estas
notas), donde se vería que la simple suma P (A) + P(B) haría que la zona de intersección se sume dos
veces, por lo que hay que restarla una vez para que integre “sin preferencias” la unión.
TIPOS DE PROBABILIDAD
Probabilidad Total. En líneas generales, es la probabilidad del suceso resultante de aplicar la
operación unión a los sucesos A y B. Se representa:
P(AB)
y expresa la probabilidad de que ocurra uno u otro suceso indistintamente.
En particular, la probabilidad total más simple es la que resulta de contar los casos a favor de un
suceso y dividir por la cantidad de casos posibles. De las probabilidades calculadas en la página 4 de
estas notas, además de P(S1  S6) entran en el concepto de probabilidad total P(S1), P(S3), P(S4),
P(S5), P(S6) y P(S7). El tercer axioma se refiere al cálculo de la probabilidad total de la unión de
sucesos mutuamente excluyentes, y la cuarta propiedad del álgebra de las probabilidades, implica el
cálculo de la probabilidad total de la unión de sucesos no excluyentes.
Probabilidad Condicional. Mide la ocurrencia de un suceso B pero anotando que está condicionado por la
ocurrencia de otro A. Se la representa de la siguiente manera:
P(B / A)
donde la barra inclinada no es una operación, es una notación –notación de Keynes69– y donde el suceso A
representa la condición.
Expresa la probabilidad de que ocurra B, pero condicionado por la ocurrencia de A.
Para el ejemplo de la ruleta (ver el diagrama de Venn de la página 2 de estas notas) la probabilidad de que
la próxima jugada salga un rojo si (tal que, a condición de que) el resultado fuera par, es una condicional:
P(S6 / S1 ) = 9 casos favorables
18 casos posibles
Hay nueve casos favorables: que salga 8 o 12 o 14 o 16 o 18 o 30 o 32 o 34 o 36.
Y dieciocho casos posibles: los 18 elementos del suceso condición S1.
Probabilidad Compuesta. Es la probabilidad del suceso resultante de aplicar la operación intersección a
los sucesos A y B. Se representa:
P(AB)
Y expresa la probabilidad de que ocurran ambos sucesos a la vez, conjuntamente, simultáneamente.
Es una probabilidad conjunta o compuesta el caso P(S1  S6) de la página 4 de estas notas.
Si los sucesos A y B involucrados son independientes: P(AB) = P(A) . P(B)
Si los sucesos A y B involucrados no son independientes (supongamos que B depende de A):
P(AB) = P(A) . P(B/A)
donde P(A) es la probabilidad total del suceso condición.
Despejando la última expresión, se obtiene otra forma de calcular la probabilidad condicional:
68
Entre todas las propiedades deducibles a partir de los 3 axiomas, seleccionamos aquí las 4 más importantes.
69
J.M.Keynes (1883-1946). Economista inglés. Tratado sobre las probabilidades(~1933).
____________________
P(B/A) = P(AB)
P(A)
Glosario
Experimento aleatorio o probabilístico o estocástico: es aquel experimento cuyos
resultados son aleatorios, es decir que pueden ocurrir o no.
Espacio muestral: espacio de los valores que pueden resultar del experimento aleatorios. Es
el espacio donde quedan representadas todas las muestras posibles de hacer en la población.
Suceso aleatorio: cualquier subconjunto del espacio muestral.
Probabilidad: es la medida de la ocurrencia de un suceso y se basa en su frecuencia relativa.
Equiprobabilidad: es la igualdad de oportunidad que tiene cualquier elemento de una
población, respecto de los otros elementos, de ser seleccionado para integrar una muestra.
CÁLCULO DE PROBABILIDADES
EXPERIMENTOS ALEATORIOS SIMPLES

En un experimento simple hay involucrada una sola variable y, al azar, se selecciona un solo elemento
de la población. Un experimento simple nos suministra, en rigor, una muestra de tamaño n=1.
Problema70: Los alumnos inscriptos en la materia Estadística en el presente cuatrimestre, en la Facultad
XX, se encuentran distribuidos en tres turnos. En el turno mañana hay 120 alumnos, 160 en el turno tarde
y 375 alumnos en el turno noche.
Si se elije un alumno al azar, según los turnos en que pudiera estar inscripto el espacio de los valores
aleatorios o espacio muestral es E = {M, T, N} y las probabilidades asociadas a cada valor aleatorio son,
respectivamente, P(M)=120/655=0,1832, P(T)=160/655=0,2443 y P(N)=375/655=0,5725.
Todo lo cual puede resumirse en la siguiente tabla:
Turnos Probabilidades
M 0,1832
T 0,2443
N 0,5725
La probabilidad de que el alumno que se va a seleccionar al azar, esté inscripto:

a) en el turno tarde es: 0,2443
b) en el turno mañana es: 0,1832
c) en el turno tarde o noche: P(TN) = P (T) + P(N) = 0,2443 + 0,5725 = 0,8168
____________
d) en cualquier turno menos el de la noche: P( N ) = 1 – P(N) = 1 – 0,5725 = 0,4275

Las probabilidades a) y b) son totales, calculadas de la manera más directa. En c) se aplicó el 3er. axioma
del álgebra de probabilidades: probabilidad total de sucesos mutuamente excluyentes. Y en d) la 3ª
propiedad: teorema de la probabilidad del suceso complementario.
EXPERIMENTOS COMPUESTOS POR REPETICIÓN DE UNO SIMPLE

El proceso de tomar al azar dos o más elementos de la población, constituye un experimento aleatorio
compuesto por repetición de uno simple, cuyo objetivo es armar muestras de tamaño n2.
Hay que resaltar que en el armado de las muestras, usualmente se cuida que haya independencia entre las
n unidades de observación seleccionadas, básicamente porque en los trabajos de campo se hace muy difícil
medir esa influencia o sea medir la dependencia. Es decir que, por ejemplo, se cuida que las respuestas de
una entrevista no influyan ni condicionen los resultados de la siguiente entrevista.
70
Tomado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Tenemos, entonces, dos tipos de experimentos compuestos por repetición de uno simple: uno con
independencia entre repeticiones (que es el que realmente interesa en los trabajos de campo) y otro con
dependencia. Para cada uno de los dos casos, haremos un desarrollo por separado.
En la población de inscriptos en esa materia (655 alumnos) haremos una muestra de tamaño n=2. Para
describir el espacio muestral podemos ayudarnos con un diagrama de árbol, donde cada una de las ramas
representa a cada uno de los elemento compuestos del espacio muestral:
M T
T T
N T
El espacio muestral es: E = { MM, MT, MN, TM, TT, TN, NM, NT, NN }
En primera instancia trabajaremos con el modelo que más nos interesa, el de independencia entre las n
extracciones y para conseguirlo aquí recurrimos al recurso de reponer la unidad de observación tomada al
azar devolviéndola a la población. En el ejemplo, se repone al grupo el alumno seleccionado la primera
vez, y el árbol con probabilidades incluidas queda:
120 / 655 M
120/655 M 160 / 655 T
375 / 655 N
120 / 655 M
160 / 655 T 160 / 655 T
375 / 655 N
120 / 655 M
375 / 655 N 160 / 655 T
375 / 655 N
Como se ve, las probabilidades en la segunda extracción no cambiaron con respecto a las probabilidades
de la primera y por lo tanto hay independencia de la 2ª respecto de la 1ª. No perdamos de vista, que
reponer es sólo el recurso que tenemos aquí para trabajar sobre un modelo de independencia, porque en el
armado de muestras reales no se repone (no se le da la oportunidad a una misma persona de ser
entrevistada dos veces, si por azar vuelve a salir).
Las probabilidades que acompañan a la primera selección son probabilidades totales:
P(M1)=120/655=0,1832 P(T1)=160/655=0,2443 P(N1)=375/655=0,5725
También son totales, las probabilidades que acompañan la 2ª extracción, porque no hubo cambios.
____________________
Las probabilidades de cada uno de los elementos del espacio muestral, son compuestas y se calculan así:
P(M1M2) = P( M1  M2 ) = P (M1) . P(M2) = 0,1832 x 0,1832 = 0,0336
P(M1T2) = P( M1  T2 ) = P (M1) . P(T2) = 0,1832 x 0, 2443 = 0,0448
P(M1N2) = P( M1  N2 ) = P (M1) . P(N2) = 0,1832 x 0, 5725 = 0,1049
P(T1M2) = P( T1  M2 ) = P (T1) . P(M2) = 0,2443 x 0,1832 = 0,0448

P(T1T2) = P( T1  T2 ) = P (T1) . P(T2) = 0,2443 x 0,2443 = 0,0597
P(T1N2) = P( T1  N2 ) = P (T1) . P(N2) = 0,2443 x 0,5725 = 0,1398
P(N1M2) = P( N1  M2 ) = P (N1) . P(M2) = 0,5725 x 0, 1832 = 0,1049
P(N1T2) = P( N1  T2 ) = P (N1) . P(T2) = 0,5725 x 0, 2443 = 0,1398
P(N1N2) = P( N1  N2 ) = P (N1) . P(N2) = 0,5725 x 0,5725 = 0,3277
A continuación volcamos en una tabla el espacio muestral (1ª columna) y las probabilidades asociadas a
sus elementos (2ª columna) que son las probabilidades compuestas calculadas.
MM 0,0336
MT 0,0448
MN 0,1049
TM 0,0448
TT 0,0597
TN 0,1398
NM 0,1049
NT 0,1398
NN 0,3277
Y la usamos para responder rápidamente algunas preguntas como:
“¿cuál es la probabilidad de que ambos integrantes de la muestra estén inscriptos a la tarde?”
P (TT)= 0,0597
O también: ¿ cuál es la probabilidad de que entre los dos seleccionados, ninguno esté a la tarde?:
P (MM o MN o NM o NN) = P (MM  MN NM  NN) = P(MM) + P(MN) + P(NM) + P(NN) =
 (aquí se aplica el 3er. axioma del álgebra de
las probabilidades, porque los sucesos elementales son mutuamente excluyentes)
=0,0336+ 0,1049+0,1049+0,3277= 0,5711
Abordaremos ahora el experimento en que los resultados de la segunda selección son dependientes de
los resultados de la primera. Aquí, el recurso será no reponer el elemento que salga en la primera
extracción. El árbol con probabilidades es:
119 / 654 M2
120 / 655 M1 160 / 654 T2
375 / 654 N2
120 / 654 M2
160 / 655 T1 159 / 654 T2
375 / 654 N2
120 / 654 M2
375 / 655 N1 160 / 654 T2
374 / 654 N2
____________________
Las probabilidades que acompañan a la segunda selección son ahora probabilidades condicionales.
P(M2/M1) = 119/654 = 0,1820 P(T2/M1) = 160/654 = 0,2446 P(N2/M1) = 375/654 = 0,5734
P(M2/T1) = 120/654 = 0,1835 P(T2/T1) = 159/654 = 0,2431 P(N2/T1) = 375/654 = 0,5734
P(M2/N1) = 120/654 = 0,1835 P(T2/N1) = 160/654 = 0,2446 P(N2/N1) = 374/654 = 0,5719
El conjunto de todas las probabilidades compuestas que se calculan por afuera del árbol son:
P (M1M2) = P( M1  M2 ) = P (M1) . P(M2 / M1) = 0,1832 x 0,1820 = 0,0333
P (M1T2) = P( M1  T2 ) = P (M1) . P(T2 / M1) = 0,1832 x 0,2446 = 0,0448
P (M1N2) = P( M1  N2 ) = P (M1) . P(N2 / M1) = 0,1832 x 0,5734 = 0,1050
P (T1M2) = P( T1  M2 ) = P (T1) . P(M2 / T1) = 0,2443 x 0,1835 = 0,0448
P (T1T2) = P( T1  T2 ) = P (T1) . P(T2 / T1) = 0,2443 x 0,2431 = 0,0594
P (T1N2) = P( T1  N2 ) = P (T1) . P(N2 / T1) = 0,2443 x 0,5734 = 0,1401
P (N1M2) = P( N1  M2 ) = P (N1) . P(M2 / N1) = 0,5725 x 0,1835 = 0,1051
P (N1T2) = P( N1  T2 ) = P (N1) . P(T2 / N1) = 0,5725 x 0,2446 = 0,1400
P (N1N2) = P( N1  N2 ) = P (N1) . P(N2 / N1) = 0,5725 x 0,5719 = 0,3274
La siguiente tabla contiene el espacio muestral (1ª columna) y las probabilidades de sus elementos (2ª
columna):
MM 0,0333
MT 0,0448
MN 0,1050
TM 0,0448
TT 0,0594
TN 0,1401
NM 0,1051
NT 0,1400
NN 0,3274
Y las mismas preguntas anteriores, ahora concluyen así.
P (TT) = 0,0594
P (MM o MN o NM o NN) = P (MM  MN NM  NN) = P(MM) + P(MN) + P(NM) + P(NN) =
= 0,0333 +0,1050 +0,1051 + 0,3274 = 0,5708
EXPERIMENTOS COMPUESTOS BIVARIADOS

El objetivo de estos experimentos es estudiar si dos variables están relacionadas.
En el capítulo II (pág.15) se presentó una tabla bivariada relativa a 40 tipos de aceite, donde las variables
involucradas son el modo de regulación y el nivel de aumento de precios en el mercado interno.
modo de regulación Regulado por las Escapa a la regulación

transnacionales de las transnacionales
aumentó
mucho 27 2
poco 3 8
Dividiendo cada una de las frecuencias absolutas por el total (40) obtenemos frecuencias relativas
conjuntas. Si consideramos a los 40 tipos de aceites como población, podemos crear un ambiente de
experimento aleatorio tomando al azar un tipo de aceite y hacernos preguntas tales como ¿cuál es la
probabilidad de que el tipo seleccionado esté regulado por las transnacionales y haya aumentado mucho?.
La respuesta es: P(Reg.  Mucho) = 27 / 40 = 0,6750
Si calculamos la probabilidad para cada uno de los restantes casilleros tendremos:
P(Reg.  Poco) = 3 / 40 = 0,0750
P(No Reg.  Mucho) = 2 / 40 = 0,0500
____________________
P(No Reg.  Poco) = 8 / 40 = 0,2000

Con las probabilidades compuestas calculadas, elaboramos una tabla de contingencias:
transnacionales de las transnacionales
aumentó
mucho 0,6750 0,0500
poco 0,0750 0,2000
Si la ampliamos de la manera que sigue, tendremos además probabilidades totales:
transnacionales de las transnacionales Total
aumentó
mucho 0,6750 0,0500 0,7250
poco 0,0750 0,2000 0,2750
Total 0,7500 0,2500 1
Por su ubicación en la tabla, a las probabilidades totales se las llama también probabilidades marginales.
Además de preguntas que involucren probabilidades compuestas, con la tabla de contingencias podemos
ahora responder directamente las relativas a probabilidades totales:
- Si se toma un tipo de aceite al azar, ¿cuál es la probabilidad de que esté regulado por las
transnacionales?. Respuesta: P(Reg.) = 0,7500
- Si se toma un tipo de aceite al azar , ¿cuál es la probabilidad de que haya aumentado mucho?.
Respuesta: P(Mucho) = 0,7250
Por afuera de la tabla de contingencias, calculamos las probabilidades condicionales que se originan a
partir de preguntas tales como:
- Si tomamos un tipo de aceite al azar entre los regulados por las transnacionales, ¿cuál es la
probabilidad de que él haya aumentado mucho?. Respuesta:
P(Mucho / Reg.) = P ( Mucho  Reg.) = 0,6750 = 0,9000
P(Reg.) 0,7500
- Si tomamos al azar un tipo de aceite y resultara que aumentó mucho, ¿cuál es la probabilidad de que él
esté regulado por las transnacionales?. Respuesta:
P(Reg./ Mucho) = P ( Mucho  Reg.) = 0,6750 = 0,9310
P(Mucho) 0,7250
Si tenemos en cuenta que la variable Modo de Regulación puede ser considerada como la causa y la
variable Aumento como el efecto, se ve que la primera de las dos condicionales explora la probabilidad
del efecto (Mucho) a partir de una determinada causa (Regulado). A este enfoque de la probabilidad
condicional se lo considera clásico:
P ( efecto / causa) la condición es la causa
La segunda de las dos probabilidades condicionales, explora la causa (Reg.) a partir de la supuesta y previa
ocurrencia del efecto (mucho). Este enfoque se debe Thomas Bayes71 (1702-1761) y se llama precisamente
enfoque bayesiano o de la probabilidad condicional de las causas72:
P ( causa / efecto) la condición es el efecto
Problema73:
Se ha observado las frecuencias relativas –probabilidad– con que se producen accidentes en una autopista
71
Reverendo Thomas Bayes (1702-1761).
72
An Essay Towars Solving a Problem in the Doctrine of Chances (publicado póstumamente en1763, por R.Price).
73
____________________
–podemos suponer que en el relevamiento previo las unidades de observación fueron días y en una
determinada franja horaria– y sobre esa base también las frecuencias de los embotellamientos, tal como se
indica en el siguiente diagrama:
P(Embotellamiento) = 0,95
P(Accidente) = 0,2
P(No embotellamiento) = 0,05
P(Embotellamiento) = 0,15
P(No accidente)= 0,8
P(No embotellamiento) = 0,85
Cabe aclarar que la información del árbol podría haber sido dada en prosa, como sigue:
“Se ha observado frecuencialmente la probabilidad de que en un día cualquiera se produzca un accidente
en una autopista –podemos suponer que la unidad de observación fue el día– es del 20%. También se
observó frecuencialmente que en el 95% de los días con accidente hubo embotellamientos y que estos se
produjeron sólo en el 5% los días sin accidente”.
Nótese que a diferencia del ejemplo anteriormente desarrollado, en este problema la información con que
contamos y que está en el árbol consiste en probabilidades totales de las causas:
P(Accidente) = 0,20 P(No accidente) = 0,80
y probabilidades condicionales clásicas:
P(Embotellamiento / Accidente) = 0,95
P(No embotellamiento / Accidente) = 0,05
P(Embotellamiento / No accidente) = 0,15
P(No embotellamiento / No accidente) = 0,85
Hay que resaltar que ambas probabilidades se basan en observaciones de campo: fueron medidas. Y las
frecuencias relativas de campo se transformaron en probabilidades.
Leyéndolas simplemente, podemos decir que si tomamos un día cualquiera al azar (en esa franja horaria),
la probabilidad de que en él ocurra un accidente es de 0,20. O también que si en ese día ocurriera un
accidente, la probabilidad de que en consecuencia se produzca un embotellamiento es de 0,95.
¿Qué pasa si nos preguntamos por la probabilidad total de algún efecto?. Por ejemplo, para un día tomado
al azar, ¿cuál es la probabilidad de que haya embotellamiento?:
P(embotellamiento)
Como ella, las probabilidades totales de los efectos no son observaciones de campo. No están en el árbol.
Hay que calcularlas.
¿Y si nos preguntamos por una probabilidad condicional bayesiana?. Por ejemplo, si en un día tomado al
azar se detectara embotellamiento, ¿cuál es la probabilidad de que él haya sido causado por un accidente?.
Para nuestro caso, las probabilidades condicionales bayesianas no se desprenden de las observaciones de
campo. Hay que calcularlas.
A continuación vamos a construir una tabla de contingencias, calculando las probabilidades compuestas a
partir de las probabilidades totales de las causas y las probabilidades condicionales clásicas que están,
ambas, en el árbol.
Accidente
Accidente no accidente Total
Embotellamiento
embotellamiento 0,1900 0,1200
no embotellamiento 0,0100 0,6800
Total 0,2000 0,8000 1
____________________
Aquí las probabilidades totales de las causas 0,20 y 0,80 son transcriptas desde el árbol, y las conjuntas
fueron calculadas de la siguiente manera:
P(accidenteembotellamiento) = P(accidente) x P(embotellamiento/accidente) = 0,2 x 0,95 = 0,19
P(accidenteno embotellam.) = P(accidente) x P(no embotellam./accidente) = 0,2 x 0,05 = 0,01
P(no accidenteembotellam.) = P(no accidente) x P(embotellam./no accidente) = 0,8 x 0,15 = 0,12
P(no accidenteno embotell.) = P(no accidente) x P(no embotell./no accidente) = 0,8 x 0,85 = 0,68
Lo que primero podemos hacer con ellas es calcular las probabilidades totales de los efectos:
Accidente
accidente no accidente Total
Embotellamiento
embotellamiento 0,1900 0,1200 0,3100
No embotellamiento 0,0100 0,6800 0,6900
Total 0,2000 0,8000 1
Es decir:
P(embotellamiento) = P(accidenteembotellamiento) + P(no accidenteembotellamiento)
P(no embotellamiento) = P(accidenteno embotellamiento) + P(no accidenteno embotellamiento)
Repasando todo el camino realizado para llegar al 0,3100 por ejemplo, nos queda una expresión general
para calcular la probabilidad total de un efecto, a partir de las probabilidades totales de sus causas y de las
probabilidades condicionales de los efectos dadas las causas (clásicas):
P(embotell.) = P(accidente) x P(embotell./accidente) + P(no accidente) x P(embotell./no accidente)
Generalizando:
P(efecto) = P (causa i) x P(efecto / causa i) + P (causa j) x P (efecto / causa j) + P(causa k) x P(efecto / causa k)
Expresión que corresponde al llamado Teorema de la probabilidad total de los efectos.

Calculadas las probabilidades totales de los efectos, pueden entonces calcularse las probabilidades
condicionales bayesianas. Para nuestro problema serían:
P(accidente / embotellamiento) = P(accidente  embotellamiento) = 0,19 = 0,6129
P(embotellamiento) 0,31
P(no accidente / embotellamiento) = P(no accidente  embotellamiento) = 0,12 = 0,3871
P(embotellamiento) 0,31
P(accidente / no embotellamiento) = P(accidente  no embotellamiento) = 0,01 = 0,0145
P(no embotellamiento) 0,69
P(no accidente / no embotellamiento) = P(no accidente  no embotellamiento) = 0,68 = 0,9855
P(no embotellamiento) 0,69
Generalizando:
P (causa i /efecto) = P(causa i) x P(efecto / causa i) __ ________ .

P (causa i) x P(efecto / causa i) + P (causa j) x P (efecto / causa j) + P(causa k) x P(efecto / causa k)
Expresión del llamado Teorema de Bayes o Teorema de la probabilidad condicional de las causas74. Que
no es más que el cálculo que hicimos anteriormente, pero totalmente desagregado..
74
Bayes es el primero en expresar en forma cuantitativa uno de los modos de la inferencia inductiva. Es decir que el
enfoque bayesiano introduce el razonamiento inductivo dentro de la teoría de las probabilidades.
____________________
Elementos de METODOLOGÍA ESTADÍSTICA en el tratamiento de las probabilidades

- En los experimentos aleatorios simples y también en los compuestos bivariados, todo el conocimiento
que se tenga previamente de la población, usualmente la distribución de frecuencias relativas simples o
relativas conjuntas según el caso, se pone al servicio exclusivamente de una sola extracción aleatoria.
Luego, siguiendo la misma consigna, todo se vuelve a repetir una y otra vez cuando el objetivo sea tomar
varios (n) elementos de la población o sea elaborar una muestra.
- Si dos variables que se tratan mediante una tabla conjunta o un árbol no tienen un vínculo causa/efecto
real, puede aplicarse la expresión del teorema de Bayes a algún cálculo, pero a la interpretación de éste no
debe dársele ninguna connotación bayesiana. Es decir, que al no existir causa/efecto sólo habrá
probabilidades totales y condicionales a secas.
ERRATAS en la enseñanza-aprendizaje de las probabilidades.
Algunas de las erratas observadas son:
- Categorizar como una definición más de probabilidad (definición “axiomática”) al paquete de
operaciones que constituyen el Algebra de las probabilidades, desnaturalizándolo conceptualmente.
- Invisibilización de la definición frecuencial de probabilidades y reducción de la definición clásica a
sólo una referencia histórica, so-pretexto de que ya no hacen falta porque fueron superadas por la, mal
llamada, definición axiomática. Esta errata tiene su raíz en el modus operandi, ya mencionado en el
cuaderno I, de enseñar la estadística como si fuera una matemática.
En nuestra vida diaria vivimos haciendo especulaciones de tipo probabilístico a partir de hechos que nos
tocan de cerca o no. Hasta usamos bien algún grado de formalización, por ejemplo al emplear palabras que
son vox pópuli como “aleatorio” y “probabilidad”. Usamos rutinariamente la definición frecuencial de
probabilidad, sin enunciarla por supuesto, al especular sobre la posible ocurrencia o no de un hecho con
características que reconocemos, basados en nuestro conocimiento y/o experiencia anterior, si bien
usualmente no le ponemos un número entre 0 y 1 a nuestra especulación probabilística, aunque a veces nos
animamos a asociarle algún porcentaje.
La condicional clásica participa regularmente de nuestra vida, como por ejemplo: si reconocemos
ciertas condiciones meteorológicas (causas) especulamos sobre el comportamiento (efectos) del clima
durante el día. O también: conociendo los antecedentes de corrupción (causa) que rodean a ciertos
políticos y o empresarios podemos inferir, con una alta probabilidad, que su eventual participación en
cargos públicos estarían también signados por la corrupción. Uno de los casos más paradigmáticos es el
del lumpen-empresario/político Mauricio Macri, actual intendente de Bs.As., para quien todos sus
antecedentes hacían prever con una alta probabilidad que su gestión estaría fuertemente marcada por la
corrupción administrativa, el atropello a la salud, a la educación y a la cultura (efectos), como
efectivamente hoy puede comprobarse.
También la condicional bayesiana interviene frecuentemente en nuestra vida cotidiana, en particular
cuando ante un hecho ocurrido (efecto) elaboramos opiniones que conjeturan sobre las causas. Por
ejemplo: cada vez que nos enteramos de algún violento secuestro extorsivo (efecto), lo usual es inferir que
es muy probable que en ese hecho esté involucrado algún policía o algún personal de seguridad (causas).
La construcción de tal opinión es genuinamente bayesiana y es el resultado de la acumulación (consciente
o inconsciente) durante años, de información sobre esa problemática.
____________________
ADENDA al cap.VIII
Cuadro resumen de probabilidades
RELACIONES ENTRE SUCESOS TIPOS DE PROBABILIDAD

EXCLUSIÓN INDEPENDENCIA TOTAL COMPUESTA CONDICIONAL
E
los
B sucesos P(A B) = P(A B) =
A son DEPENDENCIA P(A / B) = 0
MUTUAMEN- FUERTE = P(A) + P(B) = P() = 0
TE
EXCLUYEN-
TES
E P(A B) =
INDEPENDEN- P(A / B) =
son CIA = P(A) . P(B) P(A)
A B NO P(A B) =
EXCLUYEN-
TES = P(A) + P(B)
P(A B) P(A B) = P(A / B) =
DEPENDENCIA = P(B).P(A / B)  P(A B)
P(B)
E
uno
A incluye DEPENDENCIA P(A B) = P(A B) = P(A / B) = 1
B al FUERTE P(A) P(B)
otro
____________________
Cap. IX – VARIABLE ALEATORIA DISCRETA
En el capítulo anterior abordamos a los sucesos aleatorios describiéndolos primero por

comprensión y luego por extensión, lo que facilitó organizar el cálculo de probabilidades
mediante la aplicación del álgebra de las probabilidades.
Ahora vamos a introducir otro actor en los experimentos aleatorios como lo es la
variable aleatoria, a la sazón cuantitativa, cuyo rol es asignar un número real a cada
elemento del espacio muestral, y consecuentemente a cada uno de los elementos de un
determinado suceso aleatorio. Es decir que lo que antes se relató, por comprensión y por
extensión, ahora lo cuenta una variable aleatoria discreta o, según el caso, lo mide una
variable aleatoria continua.
Una variable estadística cuantitativa puede transformarse en una aleatoria sin más trámite que
situarla dentro de un experimento aleatorio75. En cambio a una cualitativa deberá aplicársele algún
procedimiento o mecanismo que convierta sus categorías en valores numéricos. Por ejemplo, si
entre las 32 viviendas del barrio (consideradas en esta instancia como una población en sí misma y
cuyos datos están en el cuaderno I) tomamos una al azar, la variable cantidad de ambientes por
vivienda se transforma sin más en la v.a. X cuyo recorrido –todos los valores aleatorios que pueden
llegar a salir al tomar una vivienda al azar– es r(X): 1, 2, 3, 4, 5, 6 ambientes. Sus correspondientes
probabilidades no son más que las frecuencias relativas observadas anteriormente76 para cada uno de
los valores, que ahora son aleatorios. También adoptaremos las frecuencias acumuladas relativas
como probabilidades acumuladas.
Entonces: v.a.X: cuenta cantidad de ambientes para una vivienda tomada al azar en el barrio.
r(X) h(r) F(r)

1 amb. 0,0938 0,0938
h(r) : función de probabilidad
2 amb. 0,1562 0,2500
3 amb. 0,2500 0,5000 F(r) : función de distribución
4 amb. 0,3438 0,8438
5 amb. 0,1250 0,9688
6 amb. 0,0312 1
1
Lo que antes era la frecuencia relativa ahora se llama función de probabilidad h(r).
Lo que antes era la frecuencia acumulada relativa ahora es la función de distribución F(r).
La h(r) nos devuelve probabilidades puntuales del tipo P(X=a) y la F(r) nos devuelve probabilidades
acumuladas del tipo P(Xa).
Algunas de las preguntas que surgen al hacer el experimento aleatorio son, por ejemplo:
1) ¿cuál es la probabilidad de que esa vivienda tomada al azar tenga 3 ambientes?,
2) ¿cuál es la probabilidad de que esa vivienda tomada al azar tenga como máximo 3 ambientes?,
3) ¿cuál es la probabilidad de que esa vivienda tomada al azar tenga más de 3 ambientes?,
4) ¿cuál es la probabilidad de que esa vivienda tenga más de 2 y hasta 5 ambientes?.
75
En rigor, hay que asegurarse que el proceso –observado anteriormente y sometido ahora a un experimento aleatorio–
mantenga las mismas características con que fue observado y las frecuencias relativas puedan ser usadas como
probabilidades.
76
Un proceso aleatorio donde las frecuencias relativas observadas con anterioridad puedan ser usadas como
probabilidades, se llama proceso ergódico.
____________________
Calculamos y respondemos:
1) P(X=3) = h(3) = 0,25 (es una probabilidad puntual, es decir la probabilidad para un valor entero)
La probabilidad de que esa vivienda tomada al azar entre las 32 tenga 3 ambientes es del 25%.
2) P(X  3) = F(3) = 0,50 (es una probabilidad acumulada)
o también: P(X  3) = h(1) + h(2) + h(3) = 0,0938+0,1562+0,2500 = 0,50
La probabilidad de que esa vivienda tomada al azar entre las 32 tenga hasta 3 ambientes es del 50%.
3) P(X  3) = h(4)+h(5)+h(6) = 0,3438+0,1250+0,0312 = 0,50
o también: P(X  3) = 1 – P(X  3) = 1 – F(3) = 1 – 0,50 = 0,50
La probabilidad de que esa vivienda tomada al azar tenga más de 3 ambientes es del 50%.
4) P(2 < X  5) = F(5) – F(2) = 0,9688 – 0,25 = 0,7188
o también: P(2 < X  5) = h(3) + h(4) + h(5) = 0,25+0,3438+0,1250 = 0,7188
La probabilidad de que esa vivienda tenga más de 2 y hasta 5 ambientes es del 71,88%
Entonces:77
Propiedades de h(r) y F(r)

h(r) 0 (esta propiedad se basa en el 1° axioma del álgebra de probabilidades)

 h(r) = 1 (se basa en los axiomas 2° y 3° del álgebra de probabilidades)

h(a) = P(X=a) (probabilidad puntual)
 F(a) = P(Xa) (probabilidad acumulada; se basa en el 3° axioma)
1 – F(a) = P(Xa) (se basa en la propiedad c) del álgebra de probabilidades)
 F(b) – F(a) =P(a < X b)
También podemos calcular algunas medidas tal cual lo hicimos en estadística descriptiva, por ejemplo
la media y el desvío estándar o la varianza.
La Media de la v.a. X ya no es un valor observado sino que es un valor esperado. En el “juego” de
los valores que pueden llegar a salir y sus correspondientes probabilidades “se espera” que la
vivienda seleccionada tenga 3,34 ambientes.
A la media esperada de una variable aleatoria se la llama ESPERANZA: E(X)
El concepto de “esperanza matemática” se debe a Christian Huygens (1629-1695), astrónomo y gran
físico teórico holandés. Fue él quien publicó el primer libro sobre probabilidades78.
Para representar cómo se la calcula, recordemos una de las formas de calcular la media observada de
una variable estadística (capitulo III), en particular:  =  Xi . fr
Reemplazando la variable por el recorrido y la frecuencia relativa por la función de probabilidad:
E(X) = r(X) . h(r)
Para el ejemplo que estamos viendo es:
E(X) = 1 . 0,0938 + 2 . 0,1562 +3 . 0,2500 + 4 . 0,3438 + 5 . 0,1250 + 6 . 0,0312 = 3,34 ambientes
Es decir: si tomamos una vivienda al azar entre las 32 relevadas, se espera que ella tenga 3,34 amb.
77
Las propiedades que se enuncian son válidas en cualquier experimento aleatorio, sea simple o compuesto.
78
“De ratiociniis in ludo aleae”(1657). Se le debe además, entre otros trabajos, el descubrimiento del anillo de Saturno y
su primer satélite (“Systema saturnium”, 1659) y la aplicación del péndulo en los relojes, cuya teoría desarrolla en el
“Horologium oscillatorium”(1673).
____________________
Aunque la variable es discreta, es correcto tomar a la esperanza como un número real porque es un
indicador definido en el espacio de los números reales (este concepto ya se vio anteriormente).
En realidad en la práctica, con una calculadora de mano o con un programa utilitario como Excel, el
cálculo de la esperanza no difiere del que hacemos para la media observada. Simplemente hay que
usar las probabilidades, o las frecuencias relativas, en vez de las frecuencias absolutas. Ídem para el
desvío estándar DS(X), que al utilitario o a la calculadora debe pedírselo como poblacional.
El cálculo de la varianza es: V(X) = E(X²) – [E(X)]²
O también, si ya se cuenta con DS(X), puede calcularse así: V(X) = DS²(X)
El gráfico para la función de probabilidad h(r) de esta variable aleatoria es el mismo gráfico de
bastones que se hizo en el capítulo II para una variable estadística discreta. Difiere nada más en que
se debe consignar h(r) con su correspondiente escala, en lugar de la frecuencia f o f% o fr.
El gráfico para la función de distribución F(r) es un gráfico de escalones construido tal cual se lo
hizo en el capítulo II, usando ahora exclusivamente las frecuencias acumuladas relativas, es decir, las
probabilidades acumuladas.
__________________________________
Veamos ahora una variable estadística cualitativa inserta en un experimento aleatorio, para cual
deberíamos diseñar ahora una variable aleatoria. Ejemplo: turnos de inscripción en la materia
Estadística (ver capítulo VIII).
Las categorías observadas anteriormente (M, T, N) no son números. Mediante un simple mecanismo
–contar– convertiremos categorías cualitativas en valores cuantitativos. La variable aleatoria que
diseñamos para ese fin contará cantidad de alumnos inscriptos a la tarde (T), por ejemplo, para un
alumno seleccionado al azar:
x : cuenta cantidad de “T” para un alumno tomado al azar
El recorrido de esta variable es: r(x) : 0 , 1
porque la variable contará cero si el alumno seleccionado al azar estuviera inscripto de mañana o
de noche, y contará uno si estuviera inscripto a la tarde.
Y los valores correspondientes de la función de probabilidad son:
h(0) = P(x=0) = P(M o N) = P(M  N) = P(M) + P(N) = 120/655 + 375 / 655 = 495 / 655 = 0,7557
 Esta cuenta se hace aplicando el 3er axioma del
álgebra de las probabilidades, porque los sucesos M y N son mutuamente excluyentes.
h(1) = P(x=1) = P(T) = 160 / 655 = 0,2443
r(x) h(r) F(r)

0T 0,7557 0,7557
1T 0,2443 1 E(x) = 0,2443 T
El experimento que se hizo se llama ensayo de Bernoulli 79. Es un experimento simple y tiene sola-
mente dos resultados llamados éxito uno y fracaso el otro. En el caso desarrollado, se eligió como
éxito a Tarde –y por lo tanto fracaso es No Tarde– y la variable x es una variable de Bernoulli.
La variable aleatoria de Bernoulli cuenta cantidad de éxitos al seleccionar al azar un solo elemento
de la población.
79
Santiago Jacobo Bernouilli o Bernoulli (1654-1705), matemático suizo de origen belga. Entre otras cosas fue quien usó
por primera vez la palabra “integral” y escribió el “Ars conjectandi” sobre el cálculo de probabilidades.
____________________
Propiedades80 de E(X) y V(X)

E(C) = C (la esperanza de una constante es ella mismo)

E(C+n.X) = C+n.E(X) (C+n.X es una nueva v.a. resultante de una

transformación lineal de X)
E(n.X) = n.E(X) (caso particular que se desprende de la propiedad anterior)
E(X+Y) = E(X)+E(Y) (X+Y es una nueva v.a., resultante de sumar X e Y)
 V(X+Y) = V(X)+V(Y) (sólo si X e Y son independientes)
80
V.A. EN EXPERIMENTOS COMPUESTOS POR REPETICIÓN

Extraeremos, con independencia entre las extracciones, 2 alumnos al azar entre todos los inscriptos en
Estadística. La forma que tenemos a mano para provocar la independencia entre las extracciones, es la
reposición (es decir que luego de seleccionar el primero lo devolvemos a la población y
seleccionamos nuevamente uno). Este es un experimento compuesto por repetición de uno simple.
El espacio muestral es: E = { MM, MT, MN, TM, TT, TN, NM, NT, NN }
Y diseñamos una v.a.X que “cuente” alumnos inscriptos en el turno tarde entre los dos seleccionados
al azar con reposición, cuyo recorrido es: r(X): 0, 1, 2.
Los valores de la función de probabilidad h(r) son:
h(0) = P(X=0) = P(ningún T) = P(MM,MN,NM,NN) = 0,5711 (cálculo en capítuloVIII)
h(1) = P(X=1) = P(un T) = P(MT,TM,NT,TN) = 0,3692
h(2) = P(X=2) = P(dos T) = P(TT) = 0,0597 (cálculo en capítuloVIII)
La distribución de probabilidades es:
r(X) h(r) F(r)
0T 0,5711 0,5711
1T 0,3692 0,9403 E(X) = 0,4886 T
2T 0,0597 1
Como se puede apreciar, la v.a.X “cuenta” en números lo que los sucesos “relatan” por comprensión
y por extensión. Dicho de otra manera, la v.a.X le asigna el número 0 al suceso (MM,MN,NM,NN),
un 1 al (MT,TM,NT,TN) y el 2 al suceso (TT) y por ello hemos podido usar los cálculos hechos en el
cuadernillo VII explotando la relación de identidad entre los sucesos “relatados” y los “contados” por
X. Son idénticos, por ejemplo, los sucesos (ningún T) y (X=0).
Se espera que entre los dos alumnos seleccionados, haya 0,4886 alumnos inscriptos en el turno Tarde
(es decir que prácticamente ninguno de los dos vaya a la Tarde).
4.
Comparando esta esperanza con la del experimento simple anterior, puede verificarse que:
E(X) = n.E(x) = 2x0,2443 = 0,4886. Ésta, entre otras, es una propiedad de la Esperanza.
80
Estas propiedades son válidas también para las v.a.continuas que se tratarán en el capitulo X.
____________________
Problema81: Con el propósito de verificar la exactitud de sus estados financieros, las compañías tienen
auditores permanentes para verificar los asientos contables. Suponiendo que los empleados de una
compañía efectúan asientos erróneos en el 6% de las veces. Si un auditor verifica dos asientos al azar:
a) Describir el espacio muestral correspondiente al experimento.
Si los resultados de las verificaciones son independientes entre sí:
b) Calcular los valores de la función de probabilidad, fundamentando cada cálculo en los axiomas y
teoremas del álgebra de probabilidades y las propiedades de las probabilidades compuestas.
c) ¿Cuántos errores se espera encontrar en esas dos verificaciones?.
d) ¿Cuál es la probabilidad de que el auditor encuentre como mínimo un error?
a)
0,06 e
0,06 e
0,94 n
E = ee,en,ne,nn
0,06 e
0,94 n
0,94 n
X: cuenta “e” en 2 verificaciones independientes. Recorrido: r(X) = 0 , 1 , 2

b) h(0) = P(X=0) = P(nn) = P(n) . P(n) = 0,94 . 0,94 = 0,94² = 0,8836
 Esta cuenta se hace teniendo presente la independencia entre las
verificaciones.
h(1) = P(X=1) = P(en , ne) = P(en) + P(ne) = P(e) . P(n) + P(n) . P(e) = 2 . P(e) . P(n) =
3er. axioma Estas cuentas se hacen teniendo
presente la independencia entre las verificaciones.
= 2 . 0,06 . 0,94 = 0,1128
h(2) = P(X=2) = P(ee) = P(e) . P(e) = 0,06. 0,06 = 0,06² = 0,0036
 Esta cuenta se hace teniendo presente la independencia entre las
verificaciones.
c) E(X) = 0,12 e. Se espera encontrar 0,12 errores entre las dos verificaciones.
d) P(X 1) = h(1) + h(2) = 0,1164.
3er. axioma
__________________________________________________
V.A. EN EXPERIMENTOS COMPUESTOS BIVARIADOS

Si las variables que se cruzan en un experimento bivariado son dicotómicas o están dicotomizadas
(describen cada una por separado un experimento simple de Bernoulli) y además tienen alguna
característica de naturaleza común a ambas, es posible instalar en dicho experimento compuesto una
variable aleatoria que “cuente” la cantidad de veces que se presenta esa característica en cada uno de
sus sucesos elementales.
En el problema desarrollado en el capítulo VIII de Probabilidad, para las variables que se cruzan
(accidente y embotellamiento) puede imaginarse una característica común a ambas como es el hecho
81
____________________
de que ambas representan “inconvenientes” para el funcionamiento normal del tránsito por la
autopista.
En esas condiciones podemos diseñar una variable aleatoria X que “cuente” cantidad de
inconvenientes que pueden presentarse un día cualquiera tomado al azar en la misma franja horaria
(prescindiendo, como si no existieran, otros tipos de inconvenientes distintos de esos dos), y cuyo
recorrido r(X) sería: 0, 1, 2.
Rescatando la tabla de contingencias que se elaboró en el capítulo VIII para estas dos variables:
Accidente ___
Accidente (A ) No Accidente (A ) Total

Embotellamiento
Embotellamiento (E) 0,19 0,12 0,31
___
No embotellamiento (E ) 0,01 0,68 0,69

Total 0,20 0,80 1
los valores de la función de probabilidad h(r) son entonces:

__ ___
h(0)=P(X=0)=P(AE ) = 0,68
___ ___
h(1)=P(X=1)=P(AE,EA ) = 0,0,01+0,12 = 0,13

h(2)=P(X=2)=P(AE ) = 0,19
P(X 1) = 1 – h(0) = 0,32
E(X) = 0,51 inconvenientes
Se espera 0,51 inconvenientes en un día cualquiera tomado al azar en esa autopista y en esa franja
horaria y la probabilidad de que haya por lo menos un inconveniente es del 32%.
_________________________________________________
Problema82: El departamento de Bromatología de un municipio realiza sistemáticamente dos

inspecciones independientes en cada restaurante de la ciudad y éste mantiene la habilitación sólo si
ambos inspectores dan un dictamen positivo. El inspector A tiene mucha experiencia y, por lo mismo,
anteriormente sólo el 2% de los restaurantes que habían violado el código sanitario pudieron
engañarlo y fueron aprobados por él. El inspector B tiene menos experiencia y aprobó el 7% de los
que estaban en infracción. Si se tomara al azar un restaurante entre los que se sabe están violando el
código sanitario, ¿cuál es la probabilidad de que por lo menos uno de los dos inspectores lo apruebe?.
Inspect.A Inspect.B
0,07 b
0,02 a _
0,93 b
_ 0,07 b
0,98 a _
0,93 b
82
____________________
___
Inspector B No Aprueba ( b )
Aprueba ( b ) Total
Inspector A
Aprueba ( a ) 0,0014 0,0186 0,02
___
No Aprueba ( a ) 0,0686 0,9114 0,98

Total 0,07 0,93 1
___ ___
h(0)=P(X=0)=P(a b) = 0,98 x 0,93 = 0,9114

___ ___ ___ ___
h(1)=P(X=1)= P(a b , a b) = P(a b) + P(a b) = 0,02 x 0,93 + 0,98 x 0,07 = 0,0186 + 0,0686 = 0,0872
h(2)=P(X=2)= P(a b) = 0,0014
Respuestas:
P(X 1) = 1 – h(0) = 0,08860,09
E(X) = 0 x 0,9114 + 1 x 0,0872 + 2 x 0,0014 = 0,09 aprobaciones 0,1 aprobaciones
Se espera que un restaurante que esté violando el código sanitario tenga 0,1 aprobaciones en dos
inspecciones independientes y hay una probabilidad de 9% de que por lo menos una inspección lo
apruebe .
___________________________________________
Problema83: Se toma al azar un estudiante entre los 300 que cursan el primer año de la Licenciatura en
Administración. Los inscriptos en Contabilidad son 200 en total, en Matemática totalizan un número
de 100 estudiantes y se constató que hay 30 que están inscriptos en ambas materias.
X: cuenta la cantidad de inscripciones, en las materias nombradas, que pudiere tener un estudiante
tomado al azar entre los 300 que cursan el primer año de la Licenciatura en Administración.
#C = 200 E
#M = 100 C
#(CM) = 30 M
170
 30 30 70
#(CM) = #C + #M – #(CM) = 270



#(CM) = 30
h(0) = 30/300 = 0,10
h(1) = 170+70 = 0,80
300
h(2) = 30/300 = 0,10
E(X) = 1 materias
Se espera que un estudiante tomado al azar esté inscripto en 1 de esas materias y hay una
probabilidad del 90% de que esté inscripto en por lo menos una de las dos.
__________________________________
Todas las distribuciones de probabilidades vistas hasta aquí, deben ser consideradas distribuciones
empíricas, lo que indica que tenemos que contar siempre con la lista completa de los valores que toma
la función de distribución para cada uno de los valores de la v.a..
83
____________________
En lo que sigue, trataremos con modelos de distribución de probabilidades, que son la resultante de
identificar primero las características que tienen en común fenómenos en apariencia distintos, y luego
formular un paquete de fórmulas que, entre otras cosas, permitan calcular directamente el valor de la
función de probabilidad que nos interese, prescindiendo del listado completo como ocurría con las
distribuciones empíricas.
Un modelo probabilístico tiene dos componentes:
La componente conceptual: interpreta y describe las características comunes a fenómenos en
apariencia distintos, y
La componente matemática: comprende un grupo de fórmulas (función de probabilidad, cálculo
directo de la esperanza y la varianza sin depender del listado de todos los valores de la función de
probabilidad, etc.), que abrevian los largos cálculos ligados a las distribuciones empíricas.
DISTRIBUCIÓN BINOMIAL
Repitiendo 2 o más veces –con independencia– un ensayo de Bernoulli (ver pág.81) estamos en
presencia de un experimento compuesto llamado experimento Binomial 84.
Dentro de un experimento binomial pueden definirse más de una variable aleatoria, con sus
correspondientes distribuciones de probabilidad, cumpliendo distintos roles dentro del mismo
experimento. Ellas son las v.a. binomial, v.a. geométrica y v.a. de Pascal (o binomial negativa).
La variable aleatoria binomial cuenta “éxitos” en n repeticiones independientes de un ensayo de
Bernoulli.
Los problemas desarrollados anteriormente: dos alumnos tomados al azar y verificación de dos
asientos contables, son experimentos binomiales:
éxito: T éxito: “e”

fracaso: “n”
___
fracaso: T
probabilidad de éxito: P = 0,2443 probabilidad de éxito: P = 0,06
probabilidad de fracaso: 1-P= 0,7557 probabilidad de fracaso: 1-P = 0,94
cantidad de verificaciones: n = 2 cantidad de verificaciones: n = 2
Llamando r a un valor puntual del recorrido, cada una de las probabilidades puntuales dadas por la
función de probabilidad pueden calcularse separadamente mediante la siguiente fórmula binomial:
r n–r
P(X=r) = h(r) = nCr . P . (1 – P)
Donde el número combinatorio nCr calcula la cantidad de combinaciones de n elementos tomados de
a r, es decir que cuenta la cantidad de subgrupos de tamaño r que pueden armarse a partir de n
elementos.
 n y P constituyen los dos parámetros de la distribución binomial.
Para calcular alguna probabilidad necesitamos, sí o sí, conocer la probabilidad de éxito en cada ensayo
simple y la cantidad de repeticiones independientes de ese ensayo.
La esperanza y la varianza –y en consecuencia el desvío estándar– de una variable aleatoria binomial
son respectivamente:
84
O esquema de Bernoulli o esquema de las pruebas dicotómicas repetidas con probabilidad constante (es decir con
independencia entre las repeticiones). Estudiado sistemáticamente por Santiago Jacobo Bernoulli.
____________________
_________________
E(X) = n . P V(X) = n . P . (1-p)  DS(X) =  n . P . (1-P)
Con la fórmula binomial y la expresión de la esperanza de una v.a. binomial, puede verificarse
rápidamente lo calculado anteriormente. Y además calcular el desvío estándar. Por ejemplo, para el
caso de los de asientos:
__________________________
DS(X) =  2 x 0,06 x 0,94 = 0,34e

Problema:
Para cierta enfermedad la probabilidad de que una persona elegida al azar la tenga es de 0,05. Si se
seleccionan 20 personas al azar.
a) ¿Cuál es el número esperado de personas, entre las 20, que tendrían esa enfermedad?.
b) ¿Cuál es la probabilidad. de que ninguna persona de las 20 tenga la enfermedad?.
c) ¿Cuál es la probabilidad de que no más de uno (es decir como máximo 1) tengan la enfermedad?
éxito: “enfermo”
fracaso: “no enfermo”
probabilidad de éxito: P = 0,05
probabilidad de fracaso: 1-P = 0,95
cantidad de personas seleccionadas: n = 20
X: cuenta “enfermos” en 20 personas tomadas al azar.
El recorrido es: r(X) = 0, 1 , 2, ....., 19, 20.
a) E(X) = n . P = 20 x 0,05 = 1 e
Se espera que entre las 20 personas seleccionadas al azar, una tenga esa enfermedad.
b) P(X=0) = h(0) = 0,3585
c) P(X) = P(X=0) + P(X=1) = h(0) + h(1) = 0,3585+0,3774 = 0,7359
DISTRIBUCIÓN DE POISSON
Proceso aleatorio poissoniano o proceso de Poisson.- Es un proceso aleatorio de naturaleza binomial
donde los “éxitos” ocurren en el transcurso del continuo y “fracaso” es la no ocurrencia de éxito85.
Lo que caracteriza a un determinado proceso de Poisson es la intensidad media () de ocurrencias de
éxito en la unidad del continuo. Tal intensidad media fue observada con anterioridad y debe
considerársela como la cantidad esperada de éxitos por unidad del continuo. Ello, mientras dicho
proceso sea ergódico86,.
Diferentes  sólo indicarían procesos poissonianos distintos.
En un proceso aleatorio poissoniano puede definirse una variable aleatoria discreta (que se analizará a
continuación) y más de una variable aleatoria continua (una de las cuales se verá en el capítulo X).
85
En un experimento binomial propiamente dicho, los fracasos sí pueden ocurrir.
86
Que un proceso aleatorio sea ergódico significa que las frecuencias relativas observadas con anterioridad pueden usarse
como probabilidades. Ver nota al pie en la primer página de este capítulo.
____________________
Variable aleatoria de Poisson. Es una variable discreta y cuenta la cantidad de “éxitos” que podrían
ocurrir en un cierto intervalo continuo, durante un proceso de Poisson.
La probabilidad P(X=r) de que sucedan r éxitos en un intervalo t dado:
.t
P(X=r)  (.t) . e
r
- depende únicamente de la longitud (t) del intervalo considerado:
r!
- no depende de la ocurrencia de éxitos en alguno de los intervalos precedentes87,
- ni del lugar del continuo donde se ubique dicho intervalo88;
.t es la cantidad esperada E(X) de éxitos en el intervalo de longitud t y constituye el parámetro ()
de la distribución de Poisson:
E(X) =.t
Para intervalos de diferente longitud t habrá distintas distribuciones de probabilidad, cada una con su
propio todas dentro de un mismo proceso caracterizado por 

h(r) = P(X=r)   . e 
r
La función de probabilidad se expresa, entonces, así:
r!
Lo particular de esta v.a. es que su varianza también es: V(X)
_____________________________________________________
Problema: Una distribuidora mayorista metal–mecánica comprobó que para cierta maquinaria recibe,
3 pedidos de embarque cada 5 días hábiles en promedio (= 3/5 = 0,6 pedidos/día).
A lo largo de los días, pueden pasar dos cosas: que haya pedidos (éxito) o que no haya (fracaso). El
proceso es de naturaleza binomial y se desarrolla a lo largo del tiempo (el continuo). Es un proceso
de Poisson caracterizado por un = 0,6 pedidos/día.
a) ¿Cuál es la probabilidad de que en los próximos 10 días hábiles , se reciban 5 pedidos?.
 =  . t = 0,6 pedidos/día . 10 días = 6 pedidos
h(5) = P(X=5) = 65 . e– 6 / 5! = 0,1606
b) ¿Cuántos pedidos se espera que haya en esos próximos 10 días?.
E(x) = 0,6 pedidos/día . 10días = 6 pedidos
Se esperan 6 pedidos para los próximos 10 días hábiles.
c) En esos 10 próximos días hábiles, ¿con qué probabilidad habrá como mínimo 3 pedidos?.
P(X3) = 1–P(X<3) = 1–[ h(0) + h(1) + h(2)] = 1–[0,0025 + 0,0149 + 0,0446] = 0,9380
87
Así se manifiesta aquí la independencia estadística presente en todo experimento de naturaleza binomial, e implica que
cualquier suceso en el presente intervalo tampoco condiciona a los sucesos que puedan ocurrir en intervalos sucesivos.
88
Esto define para un proceso aleatorio, su calidad de estacionario.
____________________
Glosario:
Variable aleatoria o estocástica: es aquella que en un experimento aleatorio asigna un
número a cada resultado del mismo.
Variable aleatoria discreta: asigna un número entero a cada resultado aleatorio.
Función de probabilidad: asigna una probabilidad a cada valor de una v.a. discreta.
Función de distribución: asigna una probabilidad acumulada a cada valor de una v.a.
Variable aleatoria continua: asigna un número real a cada resultado aleatorio.
Experimento de Bernoulli: experimento aleatorio simple que tiene solo dos resultados y
donde se conviene en llamar éxito a uno y fracaso al otro.
Experimento binomial: es un experimento compuesto por repetición de un experimento
simple de Bernoulli y donde las n repeticiones son independientes.
Variable aleatoria binomial: cuenta éxitos en n repeticiones independientes de un
experimento de Bernoulli.
Proceso aleatorio de Poisson: es un proceso de naturaleza binomial donde los éxitos
ocurren a lo largo del continuo y fracaso es la no ocurrencia de éxito.
Variable aleatoria de Poisson: cuenta éxitos en intervalos continuos.
____________________
Cap. X – VARIABLE ALEATORIA CONTINUA

Como vimos en el cuaderno anterior, los valores de las variables aleatorias discretas son números
enteros y resultan de reemplazar la descripción con forma de “relato” de los sucesos aleatorios, por
una forma de descripción basada en un “conteo”, obviamente numérico y entero, de dichos sucesos. Y
a cada cantidad r que resultara del conteo en el experimento aleatorio, le asociamos una probabilidad
dada por la función de probabilidad h(r) y una probabilidad acumulada dada por la función de
distribución F(r). Es decir que para las variables aleatorias discretas disponemos de dos leyes de
probabilidad, que podemos usarla a gusto y de acuerdo a la necesidad.
Las variables aleatorias continuas reemplazan el relato de los sucesos aleatorios por valores que son
números reales y que resultan de “medir” una magnitud en un experimento aleatorio.
Para asociar probabilidades a los valores aleatorios, veremos si es posible usar los conceptos de
función de probabilidad y función de distribución. La función de probabilidad asigna probabilidad a
un punto, es lo que llamábamos probabilidad puntual: h(r) = P(X=r). Pero si ese punto es un número
real, ¿es posible asignarle una probabilidad puntual?. Veamos.
Supongamos que el punto sea el número real 4,23276639827584. Preguntarnos por la probabilidad de
que él pueda ser seleccionado entre los infinitos números reales que podrían llegar a salir, implica
hacer un cálculo del tipo: P(X=4,23276639827584) = casos a favor = 1 = 0
casos posibles 
Para cualquier número real, la probabilidad puntual siempre va a ser cero.
Por lo tanto nos quedamos sin la herramienta de la función de probabilidad. En su lugar, en variables
aleatorias continuas dispondremos de una función –la función de densidad f(x)– que si bien describe
cómo se comportan las probabilidades a lo largo del recorrido de la variable aleatoria continua, no nos
entrega probabilidades puntuales porque éstas siempre serán 0.
La función de densidad nos dice dónde hay más probabilidad y donde hay menos, y cómo evolucionan
las probabilidades. Pero no responde una pregunta sobre probabilidad puntual.
La función que sí puede seguir sirviendo es la Función de distribución F(X). Ella, igual que en las
discretas, nos devuelve la probabilidad acumulada hasta un punto. El punto por sí mismo no aporta
probabilidad, como ya lo analizamos, pero hasta él sí puede acumularse probabilidad.
Propiedades de f(x) y F(x)

f(x) 0 (esta propiedad se basa en el 1° axioma del álgebra de probabilidades)
 +∞
 ∫ f(x) dx = 1 (se basa en los axiomas 2° y 3° del álgebra de probabilidades)
-∞
P(x=a) = 0 (expresa que no hay probabilidades puntuales)

 F(a) = P(xa) = P(xa) (porque el punto a no aporta probabilidad)
1 – F(a) = P(xa) = P(x≥a) (se basa en la propiedad c- del álgebra de probabilidades)
 F(b) – F(a) =P(a<Xb) =P(aX<b) =P(a<X<b) =P(a  X  b)
____________________
La función de densidad puede verse, en principio, como la envolvente del histograma poblacional
tanto en distribuciones empíricas como en distribuciones que responden a modelos poblacionales.
La expresión de la Función de distribución acumulativa de una v.a. continua es:

a
F(a) = P(X<a) = P(Xa) = ∫ x.f(x).dx  
-∞
Que puede razonarse como una transcripción de la F(X) de una v.a.discreta, adaptada al “ambiente” de
una v.a. continua. El símbolo de suma discreta es reemplazado por la notación ideada por
G.W.Leibniz 89 para la suma continua ( ∫ )90. La función de probabilidad discreta es reemplazada por
una superficie infinitesimal de probabilidad expresada por el cálculo: f(x).dx.
Esperanza y varianza de una v.a. continua.
A partir de la expresión de la esperanza de una v.a. discreta (ver capítulo anterior), vamos a transcribir
los elementos que participaron en aquella, pero adaptándolos.
 +∞ 
E(X)= ∫ x.f(x).dx
-∞
Para el cálculo de la varianza puede aplicarse la siguiente expresión:

  +∞ +∞

V(X) = E(X²) – E²(X) = ∫ x².f(x).dx – [ ∫ x.f(x).dx ]² 
-∞ -∞
Las propiedades de la E(x) y la V(x) son las enunciadas en el capítulo anterior para las v.a.discretas.
____________________________________
Abordaremos a continuación dos modelos de distribución de probabilidades para v.a. continuas.

El primero de ellos es el caso de la distribución Normal o gaussiana.
Por un lado, la función de densidad normal es la envolvente del histograma de una población normal,
es decir que el fenómeno que la origina responde al modelo normal. Y por otro lado, puede arribarse
analíticamente a la función de densidad normal partiendo de la función de probabilidad binomial.
En el segundo caso, distribución exponencial, la función de densidad no está respaldada por una
distribución poblacional (porque no hay población exponencial) por lo que la estrategia del cálculo de
probabilidades cambia respecto del modelo anterior.
89
Leibniz Gottfried Wilhelm (1647-1716) es considerado, desde una visión eurocéntrica, el último sabio universal de la
historia de la humanidad. Sus contribuciones abarcaron todas las ramas del saber, desde la lógica, la filología y el derecho,
hasta la teología y el diseño de un submarino y una calculadora mecánica.
90
En 1675, Leibniz utilizó por primera vez el símbolo ∫ que hoy empleamos para denotar la integral y que constituye una
estilización de la notación S que inicialmente usó para denotar la suma continua, diferenciándola de la suma discreta .
____________________
DISTRIBUCIÓN NORMAL
Se debe a K.F.Gauss quien la desarrolló en el marco de ciertos estudios astronómicos y geodésicos.
Puede llegarse a la expresión analítica de la función de densidad normal por un procedimiento
deductivo que consiste en tomar la función de probabilidad binomial –siendo P  1-P, es decir
probabilidad de éxito aproximadamente igual a la probabilidad de fracaso– y llevándola al límite para
n  (es decir para un número muy grande de repeticiones):
Lím. [función de probabilidad binomial h(r)] = función de densidad normal f(X)
n
P=1-P
Gráficamente esa ida al límite91 puede verse así:
n=8  n = 16  n=
La simetría de los dos gráficos de bastones se debe a que P = 1-P = 0,5092.
Detrás de cualquier curva normal hay que imaginarse una población normal con media  y desvío
estándar .
Las preguntas que ahora nos hacemos son del tipo:
P(X < k) = (área debajo de la curva normal desde – hasta el punto k) = F(k)
Y como el punto k no aporta probabilidad (k es un número real), también es:
P(X k) = P(X k) = F(k)
Problema 93:
El tiempo de servicio que requiere un determinado trámite por persona en una caja bancaria tiene una
media de =130 segundos y un desvío estándar de = 43 segundos. Como, idealmente, toda la
población de personas que realizan ese trámite deberían tardar lo mismo y por supuesto que en la
realidad no va a ser así, es razonable considerar que los tiempos tengan distribución Normal
a) ¿Cuál es la probabilidad de que una persona elegida al azar requiera menos de 100 seg. para hacer
ese trámite?: P(X<100 seg.) = 0,2427
Si se usa la tabla de la función acumulativa de la variable normal estándar Z, se debe estandarizar
primero. El cálculo es en ese caso: P(X<100) = P(Z < 100 – 130 ) = P(Z < - 0,70) = 0,2420
43
b) ¿Cuál es la probabilidad de que una persona elegida al azar tarde entre 2 y 3 minutos?:
P(120seg.<X<180seg.) = P(120 – 130 < Z < 180 – 130) = P(-0,23<Z<1,16) = F(1,16) – F(-0,23) =
43 43
= 0,8770 – 0, 4090 = 0,4680
c) Si llega a la caja una persona que dispone de como máximo 3 minutos para hacer el trámite, ¿cuál
es la probabilidad de que tarde más de 2 minutos?.
91
En rigor, en la h(r) binomial se reemplaza la variable X por la variable X/n, y es con ésta con la que se va al límite.
92
Si P≠1-P≠0,50 los primeros gráficos de bastones serán más asimétricos pero inexorablemente, aunque más lentamente y
para n>100, el proceso de ida al límite nos devolverá una curva Normal, como puede apreciarse en:
http://www.youtube.com/watch?v=PUydiGzSPTE&feature=fvwrel
93
____________________
El suceso que interesa estudiar es que tarde más de 2 min. para ese trámite, pero con la condición de
no pasarse del tiempo de que se dispone (condición: tardar menos de 3minutos).
P(X>120 seg. / X < 180 seg.)  P(X>120 seg.  X < 180 seg.) P(120 seg. < X < 180 seg.) 
P( X < 180 seg.)  P( X < 180 seg.)
Aquí se convierte un suceso
compuesto (X>120 seg.  X < 180 seg.) en uno simple (120 seg. < X < 180 seg.), a partir de la
relación de identidad entre ambos sucesos.

F(180 seg.) – F(120 seg.)  0,4695 0,5350

F(180 seg.) 0,8775
d) En la población previamente observada, ¿cuánto tiempo tardaron como máximo en hacer ese
trámite, el 90% de las personas?
P(X< ?) = 0,90  X?
P(X< ?) = P(Z<Z?) = 0,90 = F(Z?)  Z? = 1.28 (dentro de la tabla el valor de probabilidad
acumulada más cercana a 0,90 corresponde a un valor de Z=1,28)
Luego: X? =  + Z?. 130 seg. + 1.28 x 43 seg. = 185.04 seg.
El 90% de las personas que hicieron ese trámite tardaron hasta 185.04 seg. O también: una persona
cualquiera tomada al azar entre las que se arriman a esa caja bancaria para ese trámite, con un 90%
de probabilidad tardará hasta 185,04 seg.
Problema94:
El resultado que obtuvo una empresa al aplicar una prueba a postulantes para ingresar a ella, reveló
que la puntuación media de la prueba fue de 500 con un desvío de 50. La distribución de los datos es
aproximadamente normal.
a) En base a su experiencia, el director de personal plantea no tener en cuenta a las personas que
tengan puntuaciones de 400 o menos en la prueba. ¿Aproximadamente qué porcentaje de
postulantes no se tendrán en cuenta?
P(X<400 puntos) = P(Z<–2) = F(–2) = 0,0228  Respuesta: el 2,28%
b) Debido al número limitado de vacantes este año, los solicitantes con puntuaciones entre 400 y 485
se pondrán “en espera”. Si fueron 1.000 personas en total las que hicieron la prueba, ¿cuántas
quedarán en la clasificación de “espera”?
P(400 puntos < X < 485 puntos) = P(–2 < Z < –0,3) = F(–0,3) – F(–2) = 0,3820 – 0,0228 = 0,3592

Respuesta: 0,3592 x 1.000 personas = 359 personas

c) La dirección está considerando asignar en puestos de responsabilidad a las personas cuya
puntuación esté en el 6% superior de la distribución. ¿Cuál es la puntuación más baja que debe
tener un egresado para calificar para un puesto de responsabilidad?
P(X > ?) = 0,06  P(X < ?) = 0,94 X?
P(X< ?) = P(Z<Z?) = 0,94 = F(Z?)  Z? = 1.55 (dentro de la tabla, el valor de probabilidad
acumulada más cercana a 0,94 corresponde a un valor de Z=1,55)
Luego: X? =  + Z?. 
X? = 500 puntos + 1.55 x 50 puntos = 577, 74 puntos
d) Los que calificaron para un puesto de responsabilidad, ¿qué porcentaje representan dentro del
grupo de los que entran a trabajar en la empresa?.
94
____________________
P(X>577,74 puntos / X > 485 puntos)  P(X>577,74  X > 485)  P(X>577,74) 
P( X > 485 )  P( X > 485 )
Explotando nuevamente
la relación de identidad entre sucesos, el suceso compuesto (X>577,74  X > 485) se reduce al
suceso simple (X>577,74), siendo que éste está incluido en aquél.
 P(X>577,74)  0,06  0,06  0,0971
1–P(X<485 puntos) 1 – 0,3820 0,6180
Los que calificaron para un puesto de responsabilidad, representan el 9,71% de los que entran a
trabajar en la empresa.
DISTRIBUCIÓN EXPONENCIAL
Dentro de un proceso de Poisson –caracterizado por un cierto – es posible diseñar una variable
aleatoria continua, que mida el intervalo transcurrido entre dos éxitos, es decir desde que suceda uno
hasta que ocurra, aleatoriamente, el siguiente. Desde un valor cero inicial en coincidencia con el
primer éxito, ella recorrerá valores reales aleatorios que miden el continuo hasta el siguiente éxito,
punto en el cual el experimento terminará. La idea puede extenderse a experimentos que no
comiencen con un éxito, pero que sí concluyan con uno. En estos casos el cero corresponde al inicio
del experimento, y él finaliza cuando ocurra éxito
El experimento así definido y la nueva variable que él genera, llevan el nombre de exponencial.
Particularidades del experimento exponencial.
Repasando la forma en que se definió el experimento exponencial vemos que todo ocurre entre dos
éxitos ó entre el inicio del experimento y el éxito. En ninguna instancia aparece una colección de
medidas con la cual elaborar un polígono de frecuencias relativas y cuya curva límite pueda ser,
definición frecuencial de probabilidad mediante, una función de densidad de probabilidad.
Es decir que no hay población exponencial que respalde la función de densidad exponencial, a
diferencia de la función de densidad normal, por ejemplo, que sí tiene detrás la distribución de una
población normal.
En el espacio muestral hay sólo dos sucesos aleatorios: X<t (que éxito ocurra antes que t) y X>t (que
éxito ocurra luego de transcurrido t) y son mutuamente excluyentes. Dentro del mismo experimento
cualquier otro suceso, distinto de los dos señalados, es imposible.
En consecuencia no hay sucesos compuestos y por lo tanto no hay probabilidades conjuntas95.
Tampoco puede existir un suceso como condición previa de otro96. La ocurrencia de un suceso elegido
forzadamente como condición implicaría el fin del experimento y, en todo caso, el estudio del otro
suceso correspondería a un nuevo experimento exponencial. Por lo tanto no hay probabilidades
condicionales97.
Función de distribución y función de densidad.
Conceptualmente, entonces, no podríamos buscar la función de densidad exponencial a partir de
encerrar con una curva una población exponencial que no existe. El camino que haremos para
conseguir una función de densidad será indirecto –aunque sin salir del proceso poissoniano– a través
de la distribución discreta de Poisson.
95
Lo que puede formalizarse matemáticamente como: P(X<t X>t) = 0 ó P(X<t ) = 0 ó P(X>t ) = 0.
96
Cuando se interpreta una probabilidad condicional en términos frecuenciales, el suceso condición es en realidad un
subconjunto de la población; como ésta no existe en el experimento exponencial tampoco hay tal subconjunto de ella, es
un suceso imposible.
97
Lo que puede formalizarse matemáticamente como: P(X<t / X>t) = 0 ó P(X<t /) =  ó P(X>t /) = 
____________________
A partir de iniciado el experimento, definamos el siguiente suceso S: transcurrirá todo un intervalo

de longitud t sin que suceda éxito. O lo que es idéntico: el próximo éxito ocurrirá luego de
transcurrido t.
La definición de S dada en primera instancia equivale a decir que durante el transcurso de t la
variable aleatoria de Poisson contará cero éxitos: XP = 0
La definición dada en segunda instancia corresponde a un suceso idéntico a S y está redactado en
términos de la variable aleatoria exponencial, quien medirá el lugar aleatorio del continuo donde
ocurra el próximo éxito y que sería posterior a t: XE > t
Para asignarle probabilidad al suceso S, se podrían usar cualquiera de las dos variables:
P(S) = P(XP = 0) = P(XE > t)
Pero claro, por el momento sólo podemos calcular P(S) con la distribución de Poisson:
P(S) = P(XP = 0) = (.t)0 . e.t = e.t
0!
.t
Por lo que: P(XE > t) = e
Luego: P(XE < t) = 1  P(XE > t) = 1  e.t = F(t)
Teniendo en cuenta la forma en que se diseñó esta variable, ella nunca tomará valores negativos y la
expresión general de la función de distribución acumulada de la variable aleatoria exponencial es:
F(X) = 0 para todo X <0
.X
F(X) = 1 e para todo X >0
Nótese que hemos arribado a la F(X) sin pasar previamente por la f(X).
Técnicamente, la función de densidad puede obtenerse derivando la función de distribución:
f(X) = F´(X)
quedando finalmente: f(X) = 0 para todo X <0
 f(X) =  e.X para todo X 0
Como se ve, el parámetro de esta distribución es el mismo  que caracteriza al proceso de Poisson.
f(x)

0 X
Esperanza de la variable aleatoria exponencial.

Recordando que  es el valor esperado de éxitos por unidad del continuo:
____________________
 = éxitos .
unidad del continuo
Operando sobre él:  .  = /  éxitos = 1 éxito .
 1 /  unidades del continuo 1/ unidades del continuo
El denominador de la última expresión puede leerse como un valor esperado: se espera medir 1/ del
continuo hasta la ocurrencia del éxito. Como la v.a. exponencial mide el continuo hasta que ocurra
éxito, entonces 1/ es su valor esperado. Es decir:
E(x) = 1/
donde E(x) se expresa en unidades del continuo.
Veamos ahora un par de aplicaciones distintas con sus respectivas soluciones.
_____________________________________________________________________________________________
Como distribución de los tiempos de espera, la exponencial puede aplicarse a problemas de rotación
de inventario donde el experimento comienza a partir de un pedido (éxito) y luego la variable recorre
los valores aleatorios del tiempo en que puede ocurrir el siguiente (éxito) pedido.
Problema 1. Una distribuidora mayorista comprobó que cada 5 días hábiles recibe en promedio 3
pedidos de embarque de cierto artículo (= 3 pedidos/5 días = 0,6 pedidos/día).
a): teniendo en cuenta que el tiempo para reponer un embarque en depósito es de 1 día, despachado un
pedido ¿con qué probabilidad el siguiente llegará después de ese lapso?
Solución: P(X>1día) = e– 0,6 x 1 = 0,5488
b): siendo el tiempo medio esperado entre pedidos: E(X) = 1/= 1,67 días, ¿con qué probabilidad el
siguiente pedido será antes de lo esperado?.
Solución: P(X<1,67 días) = 1 – e– 0,6 x 1,67 = 0,6328
c): con una probabilidad de 0,90 ¿de cuánto tiempo se dispone entre dos pedidos?
Solución: P(X>t) = e– 0,6 x t = 0,90  t = ln 0,90 / –0,6 = 0,18 días
d): Habiendo despachado un pedido, ¿con qué probabilidad el siguiente llegará entre 1 y 2 días
después?.
Solución: P(1día<X<2días) = F(2) – F(1) = (1– e–0,6 x 2) – (1– e– 0,6 x 1) = e– 0,6 x 1 – e–0,6 x 2 = 0,2476
_______________________________________________________________________________________
También puede aplicarse a problemas de fiabilidad (duración de materiales o de mercancías

perecederas) ó de plazo de servicio de los artículos en circulación, donde la variable recorre los
valores aleatorios de vida útil de los mismos hasta quedar fuera de servicio. Aquí no hay dos éxitos: el
experimento comienza con el inicio del servicio y termina en la falla, que es el único éxito.
Problema 2. Para ciertaslámparas de bajo consumo, su fabricante midió que la vida media de
funcionamiento es de 8000 horas. Si se instalara una cualquiera de esas lámparas:
a): ¿cuánto tiempo se espera que dure?.
Dentro del experimento aleatorio, que consiste en tomar al azar una de las lámparas e instalarla, la
media observada con anterioridad se convierte en un media esperada.
Solución: E(X) = 8000 h
b): ¿con qué probabilidad durará más de 8.000 h?
Deberá calcularse primero el parámetro = 1/E(X) = 1/8000 = 0,000125
Solución: P(X>8000 h) = e– 0,000125. 8000 = e–1 = 0,3679
c): ¿cuántas horas de funcionamiento se puede garantizar, con una probabilidad de 0,90?.
Solución: P(X>t) = e–0,000125. t = 0,90  t = ln 0,90 / 0,000125 = 842 horas
____________________
Cap. XI -TEORÍA DEL MUESTREO

Conseguir una muestra representativa de una población, implica asegurarse que el azar esté siempre
presente en el muestreo (muestreo aleatorio) y cuidar el principio de la equiprobabilidad: que todos
los elementos de la población tengan la igual oportunidad de integrar la muestra.
Las medidas que se practiquen sobre la muestra aleatoria colectada, serán los mejores estimadores que
tendremos respecto de los parámetros poblacionales.
Medida muestrales Medidas poblacionales

permiten estimar
ESTADÍSTICOS muestrales PARÁMETROS poblacionales
Media:  
Varianza: s² ²
Proporción p(i) P(i)
La teoría del muestreo es precisamente el estudio de las relaciones existentes entre los parámetros
poblacionales y sus estimadores (los estadísticos muestrales).
ESTUDIO DE LAS RELACIONES ENTRE LOS ESTADÍSTICOS MUESTRALES Y LOS

PARÁMETROS POBLACIONALES
Para poder estudiar cómo se relacionan los estadísticos muestrales con los parámetros poblaciones,
será necesario trabajar sobre un población conocida, “de laboratorio”, inventada y controlada por
nosotros. Por ejemplo: 3, 4, 5, 6
Procesándola y tomado una medida de cada tipo (posición, dispersión e intensidad), tenemos:
= 4.5
 = 1.118 ² = 1.25
P(pares) = 2 = 0.50
4
medidas que constituyen los parámetros de esa población “de laboratorio”. Media y varianza hay una
sola para esa población, pero proporciones hay tantas como sucesos se nos ocurra por lo que se eligió
una en particular (proporción de números pares en la población).
Si sobre esa población se proyecta hacer una muestra de tamaño n=2 con independencia entre las
sucesivas extracciones, es decir se proyecta realizar un experimento aleatorio compuesto por
repetición (donde para asegurarnos la independencia entre extracciones el mecanismo será con
reposición98), el espacio muestral resultante es:
E = {3 3, 3 4, 3 5, 3 6, 4 3, 4 4, 4 5, 4 6, 5 3, 5 4, 5 5, 5 6, 6 3, 6 4, 6 5, 6 6}
98
La reposición será sólo un recurso “de laboratorio” para asegurarnos la independencia. En general, las muestras tomadas
“en la calle” son sin reposición, pero está presente la independencia entre extracciones: en una encuesta nos aseguramos
que la respuesta que nos da una persona tomada al azar no esté influenciada por la respuesta de otra que entrevistamos
anteriormente ni que influya sobre la próxima que vamos a entrevistar, pero por otro lado no le preguntamos dos o más
veces a la misma persona, aunque el azar la haya elegido así. Es decir que el mecanismo es estrictamente sin reposición y
con independencia.
____________________
Es el conjunto de todas las muestras posibles de tamaño 2 que pueden extraerse de esa población y se
refiere a todo lo que puede pasar cuando, experimento aleatorio compuesto mediante, se obtenga una
muestra de 2 elementos de la población original. Esto lo hacemos pensando en que si la población (de
cuatro números: 3, 4, 5 y 6) fuera desconocida y de ella extrajéramos aleatoriamente una muestra de
tamaño 2, esta sería indefectiblemente una de las contenidas en el espacio muestral.
Dentro del experimento compuesto, podemos definir más de una variable aleatoria. La primera que
se nos ocurre es una, a la sazón binomial, que X: “cuenta” pares entre los resultados del espacio
muestral. Esta v.a. mantiene la estructura constructiva que empleamos anteriormente (ver capítulo IX),
pero también podemos pensar otras variables aleatorias que siguen otros diseños, por ejemplo:
v.a.p (pares):”calcula la proporción de pares” entre los resultados del espacio muestral.
v.a.: “calcula la media” de los resultados del espacio muestral.
v.a.s²: “calcula la varianza” de los resultados del espacio muestral.
E X p (pares)  s²
3 3 0 0 3 0
3 4 1 0.50 3.5 0,50
3 5 0 0 4 2
3 6 1 0.50 4.5 4.50
4 3 1 0.50 3.5 0,50
4 4 2 1 4 0
4 5 1 0.50 4.5 0.50
4 6 2 1 5 2
5 3 0 0 4 2
5 4 1 0.50 4.5 0.50
5 5 0 0 5 0
5 6 1 0.50 5.5 0.50
6 3 1 0.50 4.5 4.50
6 4 2 1 5 2
6 5 1 0.50 5.5 0.50
6 6 2 1 6 0
En la muestra {5 4}, por ejemplo, mientras la v.a. binomial X cuenta 1 par, la v.a. proporción
muestral calcula 0.50 (o 50%), la v.a. media muestral calcula 4.5 y la v.a. varianza muestral calcula
0.50.
Cada una de estas nuevas variables aleatorias tiene su distribución y sus respectivos parámetros
(esperanza y desvío estándar). Así tendremos:
r(p) f h(r)
0 4 0.25 p = E(p) = 0.50
0.5 8 0.50 p = D.S.(p) = 0.3536
1 4 0.25
n = 16 1
____________________
r() f h(r)
3 1 0.0625
3.5 2 0.1250  = E() = 4.50
4 3 0.1875  = D.S.() = 0.79
4.5 4 0.2500
5 3 0.1875
5.5 2 0.1250
6 1 0.0625
n = 16 1
r( s²) f h(r)
0 4 0.250
0.5 6 0.375 s² = E(s²) = 1.25
2 4 0.250
4.5 2 0.125
n = 16 1
Podemos hacernos preguntas similares a las que nos hacíamos en los capítulos IX y X en relación con
las variables aleatorias tratadas en esa oportunidad, pero ahora referidas a estas nuevas v.a., por
ejemplo:
- ¿cuál es la probabilidad de que la media de la muestra sea menor que 4.3?:
P( < 4.3) = 0.0625 + 0.1250 + 0.1875 = 0.3750
- ¿cuál es la probabilidad de que la proporción de pares en la muestra sea menor que 0.6?:
P(p < 0.6) = 0.25 + 0.50 = 0.75
Propiedades.- A continuación verificaremos algunas propiedades que relacionan los parámetros de
las nuevas variables aleatorias p,  y s² con los parámetros P,  y ² de la población original.
*  = D.S.() =  

 = E() = 
n
Efectivamente, de la primera página de este capítulo traemos:  = 4.50 y  n = 1.118 /  2 = 0.79,
y los comparamos con los parámetros de la v.a.  calculados al comienzo de esta página:  = E() =
4.50 y  = D.S.() = 0.79.
Estas dos propiedades nos dicen que la distribución de la v.a. está centrada con la distribución de la
población original y tiene una menor dispersión que ésta.
*
__________
p = E(p) = P p = D.S.(p) =  P (1-P) / n
____________________
_ ________________ ____________________
Nuevamente traemos: P = 0.50 y  P (1-P) / n = 0.50 x 0.50 / 2 = 0.3536, y los cotejamos con los
parámetros p = 0.50 y p = 0.3536 obtenidos al procesar la v.a. p.
*
s² = E(s²) = ²
________________ ____________________
Ídem, traemos ²= 1.25 de la primera página y lo cotejamos con s² = E(s²) = 1.25 obtenido en el
procesamiento de la v.a. s².
A los desvíos estándar de estas nuevas variables aleatorias se los llama también error estándar.
Las propiedades anteriores fueron verificadas para una población muy chica y muestras chicas, pero
se cumplen también para grandes poblaciones y muestras grandes.
¿Qué pasa si contamos con grandes poblaciones y por lo tanto podríamos hacer muestras también
grandes?.
A continuación veremos un importante teorema, que nos permitirá extender hacia escalas más grandes
las verificaciones y las preguntas sobre probabilidades que nos hicimos en una escala pequeña.
Teorema central del límite.-
En el gráfico que sigue superpondremos las distribuciones de la v.a. X de la población original y la
v.a.  de nuestro ejemplo:
f
4 _
3 _
_
2
1 _
| | | | | | | | |
3 4 5 6  X
Si bien las variables son aleatorias y el eje vertical debería tener h(r), se usaron las frecuencias
absolutas para resaltar el efecto gráfico que está a la vista.
Lo que se aprecia muy fácilmente es como se “levanta” la distribución de la v.a.  respecto de la v.a.
X, lo que se vería en forma mucho más contundente si las muestras fueran grandes (por supuesto
tomadas de una población grande).
____________________
Ese efecto es un primer paso hacia un “acampanamiento” gaussiano de la distribución de las , el cual
es descrito por un teorema llamado teorema central del límite99 que dice lo siguiente:
Cualquiera sea la distribución de la población original, para muestras grandes (n>30) la distri-
bución de la v.a. media muestral tiende a una distribución normal con parámetrosy 
 n
 X
Como se ve, la población original X es una población con una distribución empírica no normal, y sin
embargo es normal la distribución de las medias  de todas las muestras (n>30) que potencialmente
se pueden hacer. Y lo que queda a la vista, es la versión gráfica del teorema central del límite.100
Si la población original fuera normal, el teorema central del límite se vería gráficamente así:


 X
Esta última versión, grafica de una forma mejor que la anterior, la propiedades verificadas en la
página 98, es decir que las dos curvas están centradas y que la dispersión de las  es menor que la
dispersión de las X.
Problema101:
Se hará una muestra entre las 1.000 cuentas de una entidad bancaria, tomando aleatoriamente 36 de
ellas. Si el valor promedio depositado de todas las cuentas es de $2200 con un desvío de $360.
¿Cuál es la probabilidad de que la media muestral:
a) sea inferior a $2150?
b) se encuentre entre $2100 y $2300.
Por las propiedades que se verificaron anteriormente, la media de la v.a.  es  y su desvío estándar
es:  = 360 = 60 $
 n 36
a) P( < 2150$) = P(Z < 2150 – 2200) = P(Z < – 0.83) = 0.2033
60
99
Se presenta aquí la versión clásica o canónica –esencialmente inductiva– de este teorema. Ver también:
http://www.youtube.com/watch?v=xZmFqLHIFJk
100
Una formalización deductiva de este teorema, fue hecha por el físico y matemático ruso A. Liapunov (1857-1918).
101
____________________
b) P(2100$ <  < 2300$) = F(-1.67) – F(1.67) = 0.9522 – 0.0478 = 0.9044

___________________________________________________________
Para la proporción, una versión ad-hoc del teorema central del límite se lee de la siguiente manera:
En experimentos binomiales sobre una población donde P es la proporción de éxitos, 1-P la
proporción de fracasos y las muestras sean grandes –de tamaño n>100–, la distribución de la v.a.
proporción muestral p tiende a una distribución normal con parámetros P y P x (1-P) / n .
Dado que p=X/n, lo expresado en el párrafo anterior está vinculado directamente con el origen de la
función de densidad Normal a partir de la distribución binomial puesta en condiciones límites para
n y P  1-P, como se mostró en el capítulo X, pág.91.
Si P y 1-P fueran aproximadamente iguales (por ej. 0,45 y 0,55), ya con un tamaño de las muestras
n>30 tiene validez el teorema.
La curva de distribución Normal de todos los p`s alrededor del punto P (proporción poblacional) es:
________
 P (1-P) / n
P p
Problema102:
Una inmobiliaria de Santa Fé ha cambiado su política de alquileres introduciendo una opción de
alquiler a sola firma –sin garante– y actualmente el 55% de los departamentos que ofrece tienen esa
modalidad. Del archivo de alquileres de la inmobiliaria se tomó una muestra aleatoria de 180 fichas.
¿Cuál es la probabilidad de que la proporción de inquilinos sin garante esté comprendida entre el 48%
y el 60% ?.
P(0,48 < p < 0,60) = P( 0,48 – 0,55 < Z < 0,60 – 0,55 ) = P( – 1.88 < Z < + 1.35) =
0,55x0,45/180 0,55x0,45/180
= F(1.35) – F(–1.88) = 0.9115 – 0.0301 = 0.8814
Distribución de la v.a.varianza muestral s² en poblaciones normales.-

Tomemos una población original “de laboratorio” con distribución Normal y realizamos todas las
muestras posibles de tamaño n. Luego calculamos las respectivas varianzas muestrales s², listamos el
espacio muestral y finalmente (como hicimos anteriormente pero en pequeña escala) confeccionamos
la distribución de probabilidades de la variable aleatoria varianza muestral s². Gráficamente, la
envolvente de esa distribución toma la siguiente forma:
102
____________________
0 s² ²
Esta distribución se llama Chi-cuadrado ² y fue descubierta en 1876103 por el geodesta y astrónomo
alemán Friedrich R. HELMERT (1843-1917) en el marco de sus investigaciones sobre las variaciones
del campo geopotencial terrestre. A posteriori (1900) Karl Pearson introdujo la notación que se usa
hasta hoy, hizo importantes aplicaciones a la biometría y desde su revista Biometrika, a partir de 1901,
la difundió entre las demás ciencias.
Su parámetro son los grados de libertad Trabajando con una sola variable (estadística univariada)
los grados de libertad (g.l) son = n-1, así que para distintos tamaño de muestra, tendremos distintos
grados de libertad y distintas curvas. Hay una familia de curvas ², que se aplican a distintos tamaño
de muestra, en rigor distintos grados de libertad. Todas comienzan en cero (porque obviamente no hay
varianzas negativas) y terminan en infinito. Con bajos grados de libertad las curvas son muy
asimétricas y a medida que se agrandan los grados de libertad se van haciendo más simétricas,
tendiendo a una forma normal.
Las preguntas respecto de la s² de la muestra que a futuro extraigamos de la población (normal) serán
del tipo: P(s² < a) o P(s² > b) o P(a < s² < b). Para responder estas preguntas disponemos de tablas
pre-calculadas.
La conversión a ² de un valor de la s² se hace mediante la expresión: ² = (n-1) x s²
² 
Como la estructura de entrada/salida de estas tablas es muy distinta que la de una normal estándar,
dejaremos su abordaje para los capítulos siguientes cuando empecemos a usarla en inferencias.
Glosario
Estadístico: medida muestral
Parámetro: medida poblacional
Error estándar : desvío estándar de la distribución de un estadístico alrededor del parámetro
correspondiente.
103
Die Mathematischen und Physikalischen Theorieen der höheren GeodäsieDie. Leipzig 1880 (vol.1), 1884 (vol.2).
____________________
ADENDA al capítulo XI
Obtención de estimadores.
Si bien aceptamos que, por ejemplo, la media muestral es el mejor estimador con que contamos para
estimar la media poblacional, hay que reconocer que esa expresión, así como está dicha, se basa sobre
todo en el sentido común, sin un riguroso planteo metodológico que justifique esa elección.
Entonces caben formularse las siguientes cuestiones metodológicas: ¿qué propiedades debería cumplir
un estadístico para ser el estimador de un parámetro? y ¿con qué procedimiento general obtenemos
ese estimador?.
Brevemente comentaremos a continuación algunas de las propiedades que debe cumplir un estadístico
para ser considerado el estimador de un parámetro y también comentaremos, muy someramente, los
procedimientos aceptados en la literatura estadística para obtener estimadores.
Algunas propiedades de un estimador

Insesgado: que la distribución del estadístico esté centrada alrededor del parámetro. Dicho de otro
modo, que no haya diferencia entre el valor esperado (esperanza) del estimador y el parámetro.
Eficiente o de varianza mínima: que sea mínima la dispersión de la distribución del estimador
alrededor de su valor esperado.
Consistente: que el estimador tienda al valor del parámetro cuando se hace crecer sin límites el tamaño
de la muestra (en todo caso, el límite es el tamaño de la población).
Suficiente: que el estimador resuma toda la información muestral relevante para la estimación del
parámetro.
Procedimientos de obtención de estimadores

Método de máxima verosimilitud.
Consiste en vincular el parámetro con la información muestral, mediante una función llamada de
verosimilitud.
Recordando que una muestra es un experimento aleatorio compuesto y tomando el caso de las
muestras en que cada extracción sea independiente de las demás, la función de máxima verosimilitud
es la probabilidad del suceso compuesto correspondiente a esa muestra que, como ya sabemos, es
igual al producto de las probabilidades de los sucesos que lo componen.
La estrategia consiste en maximizar esa función con respecto al parámetro y obtener la expresión del
estadístico que es el estimador de máxima verosimilitud.
Método de momentos.
Como en este curso, en lo correspondiente a estadística descriptiva, no se desarrolló el concepto de
momento, sólo cabe mencionar grosso modo que este procedimiento consiste en igualar el momento
poblacional respecto al origen con el correspondiente momento muestral, formando una ecuación cuya
resolución nos devuelve el estimador buscado.
____________________
ESTADÍSTICA INFERENCIAL
PROBLEMAS DE ESTADÍSTICA INFERENCIAL

Abordaremos los dos principales tipos de problemas de inferencia estadística: estimar un parámetro
y/o probar alguna hipótesis sobre él.
Para cualquiera de los problemas de la estadística inferencial la solución se basa en la información
muestral –estadísticos muestrales– suministrada por la muestra representativa extraída de la población
mediante muestreo aleatorio.
 La estimación nos dirá –con una cierta probabilidad asociada– entre qué valores se
encontraría ese parámetro desconocido.
Esos dos valores describen un intervalo, y la probabilidad asociada representa el grado de confianza
que tenemos respecto de que él contenga a ese parámetro desconocido.
Por ello a esa probabilidad se la llama nivel de confianza o confianza a secas y al intervalo: intervalo
de confianza.
Este aspecto de la inferencia será cubierto a lo largo del capítulo XII.
 Si se contara con alguna suposición respecto del parámetro o si se especulara con un valor que
él podría tener o debería tener (en cuestiones de control de calidad, por ejemplo), ese valor constituye
lo que llamaremos un parámetro hipotético del parámetro, o parámetro de referencia.
El verdadero parámetro poblacional, que en rigor nunca vamos a conocer puntualmente, podría
corresponderse aceptablemente con el hipotético o no.
Decir, por un lado, que el verdadero parámetro podría diferir significativamente del parámetro
hipotético o, por otro lado, decir que la diferencia entre ambos podría no ser significativa, constituyen
dos hipótesis que deberán competir sometiéndose a una prueba de hipótesis.
Esta será la temática del capítulo XIII.
 Tanto la construcción de intervalos de confianza como la realización de pruebas de hipótesis, se

fundamentan en las distribuciones de los estadísticos muestrales alrededor de los parámetros
poblacionales, vistas en la Teoría del muestreo esbozada en el capítulo XI.
____________________
Cap. XII – ESTIMACIÓN POR INTERVALOS DE CONFIANZA
INTERVALO DE CONFIANZA PARAESTIMAR 

Fundamentos.-.
Mantengamos por un momento más las pautas usadas en la teoría del muestreo (capítulo X):
población conocida, es decir  y  conocidos, de la cual vamos a extraer una muestra de tamaño n. La
distribución de los  alrededor de puede ser imaginada de la siguiente forma:
 
Esta curva de color es la distribución de la v.a. alrededor de su propia media  la cual coincide con
la media poblacional  (páginas 89 y 90, capítulo X). Y recordemos que los parámetros de esa
distribución son y  que, en virtud de las propiedades vistas en Teoría del muestreo, son:

  
n
Recordemos que debajo de esta curva están todas las  que podrían obtenerse a partir de
todas las muestras de tamaño n que esa población puede dar.
Cuando seleccionemos una muestra y le calculemos su media, podemos imaginar que en ese momento
estamos extrayendo al azar una  de la población de ´s que está debajo de la curva de color.
Y nos podemos hacer preguntas tales como: P(a <  < b) = 1 –  (ver Teoría del muestreo)
a  b 
Convenimos en llamar 1– a la probabilidad de que la  de la muestra que vamos a hacer caiga
dentro del intervalo [a,b] simétrico alrededor de la  conocida.
____________________
Si 1– es la probabilidad que está por arriba del intervalo [a,b],  será la probabilidad que queda
fuera de él, y como a propósito vamos a considerar un intervalo simétrico alrededor de ,  queda
dividida en dos partes iguales con  /2 de probabilidad cada una. Entre todas las preguntas que
pudimos hacernos respecto del resultado de la muestra por hacer (por ejemplo la pregunta b- del
problema de página 90).
Y a propósito también plantearemos la respuesta estandarizando según Z, lo que puede resumirse
gráficamente así:
1–
 
/2 a  b 
Z 0 Z1– Z
2 2
Los subíndices de ada uno de los dos Z están puestos en relación con la forma de acumulación usual.
Como el punto a acumula /2 de probabilidad, su estandarizado Z será Z/2 y como el punto b
acumula 1–/2 de probabilidad (= /2 + 1–), su estandarizado será Z1–/2.
En rigor Z/2 y Z1–/2 son iguales en valor absoluto pero tienen signo contrario (observar que son
simétricos alrededor del 0). Por lo que conociendo 1–/2 se obtiene el Z1–/2, e inmediatamente el
Z/2 = – Z1–/2. El planteo general es entonces:
P(a <  < b) = P (a –  <  –  < b –  ) = P ( Z/2 < Z < Z1–/2) = P (– Z1–/2 < Z < Z1–/2) = 1–
 
n n n
A propósito se detallaron todas las estandarizaciones porque ahora, combinando el segundo miembro
con el tercero, rescataremos la siguiente expresión:
P ( –Z1–/2 <  –  < Z1–/2) = 1 – 

n
Y despejando: P (–Z1–/2 . <  –  < Z1–/2 . ) = 1 – 
 n n
Dado que todavía estamos en el caso donde conocemos ,  –  es la diferencia que podría haber
entre la media de la muestra que vamos a hacer y la media conocida de la población. Y eso puede
considerarse como error:
 – es el error de la media muestral respecto de la media poblacional y 1–es su

probabilidad.
El máximo valor que puede tomar esa diferencia –ese error– en valor absoluto es:
máx = | Z1-/2 | . 
 n
____________________
Si se presta atención se verá que el intervalo alrededor de , resaltado en el último de los gráficos
anteriores, es dos veces el error máximo máx .
Entonces tendremos: P ( – máx <  –  < + máx ) = 1 – 
__________________________________________________________
Pasemos ahora a la realidad “de la calle” donde, para el caso, concretamente: se desconoce el
parámetro  de la población (por el momento consideraremos  conocido) y la muestra ya se hizo
(y se calculó ).
Despejamos la última expresión, dejando en el medio la incógnita que ahora es :
P ( – máx <  <  +máx ) = 1 – 
Y podemos decir que con 1– de probabilidad confiamos en que el verdadero  de la población
esté contenido por el intervalo:
I[  – máx ;  +máx ]
O también: I =  máx
Cualquiera de las tres formas expresa un intervalo de confianza para estimar intervalo que, en el
eje real y alrededor del valor de , puede representarse así:

El mismo intervalo (con una probabilidad 1–asociada) que anteriormente se ubicaba alrededor del
, ahora se ubica alrededor del  para poder estimar (con una confianza 1 – ) el  desconocido.
Nótese además que, en rigor, lo único que se trajo del estudio previo es el “segmento” que se colocó
sobre  y su probabilidad asociada, nada más. No hay una distribución sobre él (la distribución de
la muestra, en todo caso, no forma parte de la construcción que hicimos).
Problema resuelto.-104
Con el fin de controlar el proceso de llenado de paquetes de galletitas de medio kilo, se seleccionaron
al azar 16 de esos paquetes y el peso en gramos de cada uno de ellos fue el siguiente:
505; 510; 495; 508; 504; 512; 496; 512; 514; 505; 493; 496; 506; 502; 509; 497.
La precisión de la máquina al envasar está dada por un desvío estándar de  = 5 gramos.
Se puede razonar (ver comentario 1) que la distribución de los pesos de todos los paquetes fabricados
por la máquina es normal.
Comentario 1: los procesos de medición (medir longitudes, pesar, etc.) de una misma magnitud
aleatoria, entregan naturalmente poblaciones normales.
Es decir que contamos con la siguiente información poblacional:

- población normal
-  conocido
Procesando la muestra obtenemos información muestral:
104
____________________
-  = 504 gr
- s = 6,80 gr
- n = 16 paquetes
a) En base a la media de la muestra hecha y con el  = 5 gramos, estimar el peso medio de todos
los paquetes envasados por esa máquina, mediante un intervalo de confianza del 95%.
1 –  = 0,95   = 0,05  /2 = 0,025  1 – /2 = 0,975 Z1-/2 = Z0,975= + 1,96
máx = | Z1-/2| x  = 1.96 x 5 gr = 2.45 gr
 n16
I[  – máx ;  +máx ] = [ 504 gr – 2,45 gr ; 504 gr + 2,45 gr ] = [ 501,55 gr ; 506,45 gr ]
Conclusión: En base a una muestra de 16 paquetes y con una confianza del 95%, se estima que el peso
medio de todos los paquetes fabricados se encuentra entre 501.55 gr y 506. 45 gr.
Comentario 2: siendo la población normal, aunque las muestras fueran chicas (como es nuestro
caso) la distribución de las medias muestrales es normal. Si la población no fuera normal (o no
se supiera si es normal) deberán hacerse muestras grandes para que en virtud del teorema
central del límite la curva de color usada para respaldar la estimación sea una curva normal.
b) Supongamos que el error máximo nos parece grande. Para mejorar la estimación habrá que
achicar esa indeterminación, es decir achicar el error máximo.
Comentario 3: disminuir la confianza para achicar el error máximo no es la forma correcta de

mejorar la estimación. Si bien eso sirve para reducir el intervalo, se lo hace sacrificando
probabilidad: la zona que contendría al parámetro se achica, pero ahora con menos
posibilidades de contenerlo.
Si se observa detalladamente la fórmula del error máximo se verá que, manteniendo la misma
confianza, lo que cabe es agrandar la muestra.
¿De qué tamaño deberá ser la nueva muestra para que, con el mismo nivel de confianza, el error
máximo asociado de la futura estimación sea, por ejemplo, la mitad del obtenido en a)?.
De la misma fórmula del error máximo, despejando, puede obtenerse la fórmula para calcular el
tamaño de la muestra:
máx = | Z1-/2 | x  n = ( Z1-/2 x máx ) ²
 n
Para nuestro problema tendremos: n = ( Z1-/2 . máx ) ² = (1,96 x 5/ 1,225)² = 64 paquetes
Conclusión: Para poder estimar con un error máximo de 1.225 gr y con una confianza del 95%, la
media de todos los paquetes envasados por esa máquina, deberá hacerse una muestra de 64 paquetes
como mínimo.
Cuanto más grande sea la muestra, mejor será la estimación, por lo que 64 paquetes es un mínimo.
____________________

INTERVALO DE CONFIANZA PARA ESTIMAR  
Si la población de la que se tomó una muestra tiene distribución normal, le estimación de la varianza
poblacional se realiza utilizando la distribución ² de Helmert dado que es la curva de distribución
del estimador s2 (ver págs. 102 y 103 del capítulo XI).
Como la curva ² es asimétrica, para estimar  mediante un intervalo de confianza no podría
aplicarse la estrategia que se empleó para estimar  (construcción en la que se hacía pivotear el máx
alrededor del  aprovechando la simetría de la curva normal) y habrá que calcular por separado los
límites del intervalo de confianza.
Para una confianza de 1- y n-1 grados de libertad, el intervalo de estimación se calcula así:
I = [ (n-1) x s2 ; (n-1) x s2 ]

²n–1;1–/2²n–1;/2
Para estudiar el gasto diario en viáticos de una población de oficinistas que trabajan en el centro de la
ciudad y tienen un mismo perfil laboral, se tomaron al azar 20 oficinistas y sus respectivos gastos ($)
en viáticos fueron:
28,4; 31,2; 36,0; 29,4; 32,5; 37,4; 24,2; 26,6; 34,1; 22,3; 28,5; 36,3; 24,3; 27,3; 21,4; 23,8; 26,2; 24,7;
29,5; 34,2
Puede considerarse razonablemente que los gastos en viáticos de toda la población tienen
distribución Normal, porque dado que tienen el mismo perfil laboral puede idealizarse de que todos
gastarían lo mismo. Y luego partiendo de esa idealización, se entiende que algunos pocos gastarían
muy por debajo y otros pocos muy por arriba y la mayoría se agruparían alrededor de lo que
constituye el gasto medio.
Lo dicho, describe un fenómeno que se comporta Normalmente.
Razonar que la población de gastos en viáticos es Normal, nos habilita a usar la distribución ² de
Helmert para respaldar la estimación de la varianza poblacional .
Procesando la muestra obtenemos la siguiente información muestral:
-  = 28,915$
- s = 4,886$  s2= 23,877
- n = 20 personas
Nivel de confianza que asignamos a la estimación es 1– = 0.90
 = 0.10 /2 = 0.05 1–/2=0,95
Entonces:
²n–1;/2²19;0,05 = 10,117
²n–1;1–/2²19;0,95 = 30,14
Finalmente: I = [ 19 x 23,877 / 30,14 ; 19 x 23,877 / 10,117 ] = [ 15,05 $² ; 44,84 $² ]
Para que la interpretación de la estimación de la variabilidad poblacional sea más entendible, más
amigable, conviene hacerla en $ (no en $²). Para ello, calcularemos un intervalo de confianza para el
desvío poblacional I simplemente sacando la raíz cuadrada a cada uno de los límites del I:
I = [ 15,05 $² ; 44,84 $² ]
Y queda entonces:
105
Tomado y adaptado de: Estadística y Econometría. Alfonso Novales. McGraw Hill/Interamericana. 1998.
____________________
I = [ 3,88 $ ; 6,70 $ ]
Interpretación:
En base a una muestra de 20 personas se estima que el desvío estándar (la variación) de los gastos
diarios en viáticos de toda la población de oficinistas se encuentra, con una confianza del 90%, entre
3,88 $ y 6,70 $.
INTERVALO DE CONFIANZA PARA ESTIMAR CON DESCONOCIDO.-

Supongamos que ahora queremos estimar el promedio poblacional  de los gastos en viáticos de todos
los oficinistas que trabajan en el centro de la ciudad y tienen un mismo perfil laboral.
Listamos entonces la información con que contamos, tanto la poblacional como la muestral.:
Información poblacional:
- población normal
-  desconocido
Información muestral:
-  = 28,915$
- s = 4,886$  s2= 23,877
- n = 20 personas
La variante que aparece ahora, respecto del problema de pág.108 y siguientes, es que se desconoce 
¿Es posible calcular el error máximo reemplazando el , ahora desconocido, por su mejor estimador
que es el desvío muestral s?.
El bioquímico y estadístico W. Gosset106 le encontró solución a este problema, pero esa solución se
restringe a los casos donde las varianzas muestrales s2 tienen distribución ² (o, lo que es lo mismo,
que la población sea normal). Para ello diseñó una distribución que llamó “t” como resultado del
cociente: t = Z _, donde son los grados de libertad.
²/
Su parámetro son los grados de libertad  (como ocurre con la ²)Trabajando con una sola variable
(estadística univariada) los grados de libertad (g.l) son = n-1, así que para distintos tamaño de
muestra, tendremos distintos grados de libertad y distintas curvas t. Hay una familia de curvas t, que
se aplican a distintos tamaño de muestra, en rigor distintos grados de libertad. Con bajos grados de
libertad las curvas son muy achatadas y a medida que se agrandan los grados de libertad se van
aproximando a la Z.
g.l.grande (>30)
g.l.chico (<30)
0 
La distribución “t” es asintóticamente normal para n Recién en  la “t” es exactamente igual a

la Z, pero mucho antes (alrededor de n=30) ya se le parece bastante.
106
William Sealy Gosset (1876-1937). A partir de 1908 publicó ésta y otras investigaciones en la revista Biometrika de
Karl Pearson.
____________________
La t de Gosset107 reemplaza a la Z en el cálculo del error máximo:

máx = | tn–1;1–/2 | . s 
 n
Para el problema de estimación que nos ocupa establecemos un nivel de confianza: 1– = 0.95
 = 0.05 /2 = 0.025 1–/2=0,975
Entonces:
tn–1;1–/2 t19;0,975,093
Finalmente: I = [ 28,915 – 2,093 x 4,89 / 20 ; 28,915 + 2,093 x 4,89 / 20 ] = [ 26,63$ ; 31,20$ ]
Interpretación:
En base a una muestra de 20 personas se estima que el promedio de los gastos diarios en viáticos de
toda la población de oficinistas se encuentra, con una confianza del 95%, entre 26,63$ y 31,20$ $.
INTERVALO DE CONFIANZA PARA ESTIMAR P

Fundamentos.
Tal como lo hicimos anteriormente, mantengamos por un momento la pauta de que la población es
conocida –es decir que P es conocido– y que de ella vamos a extraer una muestra de tamaño n.
Si P ~ (1-P) y n es grande (nla distribución alrededor de P de todos las p que puedan obtenerse
a partir de todas las muestras de tamaño npuede ser imaginada de la siguiente forma:
P p
A la curva de color hay que verla como la curva límite para n  de una distribución binomial con P
como probabilidad de éxito y (1-P) como probabilidad de fracaso, tal como se graficó en el cap.X.
Debajo de esta curva están todas las p que podrían obtenerse a partir de todas las muestras que pueden
extraerse de la población y, en virtud del teorema central del límite, es una curva normal centrada en P
y con una dispersión (desvío estándar) P.(1-P)/n (releer pág.4 al medio y pág.6 al medio, de las notas
sobre Teoría del muestreo).
Cuando seleccionemos una muestra y le calculemos su proporción, podemos imaginar en ese
momento que estamos extrayendo al azar una p de la población virtual de p´s que está debajo de la
curva de color.
107
Injustamente se la sigue difundiendo hasta hoy en la literatura estadística como t de Student, cuando éste fue sólo un
pseudónimo que tuvo que usar Gosset para poder publicar sus trabajos científicos en la revista Biometrika, a raíz de la
prohibición de hacerlo con su nombre y apellido por parte de las destilerías Guinness en donde trabajó como químico
desde que se graduó en Oxford a los 22 años hasta su muerte en 1937. Para honrar las investigaciones de un científico
como Gosset, la literatura estadística debería dejar de llamar “t de Student” a la t de Gosset, y esto es lo que haremos en
estas Notas de Estadística.
____________________
Y nos podemos hacer preguntas tales como: P(a < p < b) = 1–
a P b p
Aquí también 1– es la probabilidad de que la p de la muestra que vamos a hacer caiga dentro del
intervalo [a,b] alrededor de la P conocida y por lo tanto  será la probabilidad que p caiga fuera de él.
Como a propósito estamos considerando un intervalo simétrico alrededor de P,  queda dividida en

dos partes iguales con  /2 de probabilidad cada una.
Estandarizando según Z:
1–

/2 a P b p
Z 0 Z1– Z
2 2
Recordemos que Z/2 y Z1–/2 son iguales en valor absoluto pero tienen signo contrario, por lo que
obteniendo Z1–/2 inmediatamente: Z/2 = – Z1–/2.
El planteo es entonces:
P(a < p < b) = P ( a–P < p– P < b–P ) = P (– Z1–/2 < Z < Z1–/2) = 1 – 
 P(1-P)/n  P(1-P)/n  P(1-P)/n
Combinando:
P(a < p < b) = P ( – Z1–/2 < p– P < Z1–/2) = 1 – 
 P(1-P)/n
Y despejando: _______ __ __ _
P (– Z1–/2 .  P(1-P)/n < p–P < Z1–/2 .  P(1-P)/n = 1 – 
Dado que todavía estamos en el caso donde conocemos P, p–P es la diferencia que podría haber entre
la proporción de la muestra que vamos a hacer y la proporción conocida de la población. Esa
diferencia puede entenderse como un error:
 = p–P es el error de la proporción muestral respecto de la proporción poblacional y 1–es su
probabilidad.
____________________
El máximo valor que puede tomar esa diferencia –ese error– en valor absoluto es:
________
máx = | Z1–/2 | .  P(1-P)/n
Entonces tendremos: P ( – máx < p – P < + máx ) = 1 – 
________________________________
Pasemos a considerar ahora desconocido el parámetro P de la población.
Despejamos la última expresión, dejando en el medio la incógnita que ahora es P:
P ( p – máx < P < p + máx ) = 1 – 
Lo que equivale a decir que con 1– de probabilidad confiamos en que el verdadero P de la población
esté contenido en el intervalo:
IP[ p – máx ; p +máx ]
O también: IP = p máx
Cualquiera de las tres formas expresa un intervalo de confianza para estimar Pque en el eje real y
alrededor del valor de p puede representarse así:
p
El mismo intervalo que anteriormente se ubicaba alrededor del P, ahora se ubica alrededor del p para
poder estimar el P ahora desconocido.
En el cálculo del error máximo, se presenta aquí un pequeño escollo: P no se conoce. Para sortear este
inconveniente, reemplazamos P en el cálculo por su mejor estimador como lo es p, quedándonos en
realidad una fórmula de aproximación:
____ _ ___ _ _
máx = | Z1–/2| .  P(1-P)/n  | Z1–/2| .  p(1-p)/n
Una muestra aleatoria de 100 obreros extraída de una población expuesta durante más de 15 años de
trabajo en minas de plomo reveló mediante análisis clínicos que el 55% de ellos se hallaba afectado
por saturnismo (enfermedad del plomo).
a) Estimar mediante un intervalo de confianza del 99% la proporción de enfermos de saturnismo en
toda la población de obreros expuestos durante más de 15 años de trabajo en minas de plomo.
1–= 0.99 = 0.01 /2= 0.005 1–/2= 0.995  Z1–/2 = Z0.995 = 2.58 (o 2.57)
_____ _ ____ _ ____
máx  | Z1–/2 | .  p(1-p)/n = 2.58 x 0.55 x 0.45 /100 = 0.13
IP = [ p – máx ; p + máx ] = [0.55 – 0.13 ; 0.55 + 0.13] = [ 0.42 ; 0.68 ]
Conclusión: en base a una muestra representativa de 100 mineros y con una confianza del 99%, la
proporción de afectados por saturnismo en toda la población de mineros con más de 15 años de
exposición en minas de plomo se encuentra entre el 42% y el 68%.
O también: IP = p máx = 0.55 0.13
108
____________________
que es otra forma de expresar la estimación por intervalo, pero que además resalta mejor la precisión
de la estimación: 13%
b) Puede ser que la estimación anterior nos parezca muy imprecisa (13%). Si queremos mejorarla,
llevarla por ejemplo a 5%, habrá que agrandar la muestra (no sirve tocar la confianza).
¿De qué tamaño deberá ser la nueva muestra para que con una precisión del 5% (máx = 0.05) se
pueda estimar con la misma confianza anterior la proporción de enfermos de saturnismo en toda la
población de mineros del plomo expuestos durante más de 15 años?.
Como lo hicimos para la media, deberíamos despejar n de la fórmula del error máximo, que en su
forma original y en su forma aproximada es:
____ _ ___ _ _
máx = | Z1–/2 | .  P(1-P)/n  | Z1–/2 | .  p(1-p)/n
No conocemos P porque queremos estimarlo y no conocemos p porque la nueva muestra no se hizo
todavía (justamente necesitamos calcular de qué tamaño mínimo deberá ser para cumplir con la nueva
exigencia de precisión).
Para sortear este problemita partiremos de la suposición teórica de que P = 0.50:
____________
máx = | Z1–/2 | .  0.50(1-0.50)/n
Lo que no es descabellado porque es el sustento teórico de la curva de color que respalda todo lo que
venimos haciendo; aunque luego –como es esperable– la realidad difiera del modelo teórico.
Nos queda así una expresión para el error máximo:
_____________ ____________ _______
máx = | Z1–/2 | .0.50(1-0.50) / n = | Z1–/2 | . 0.50 x 0.50 / n = | Z1–/2 | . 0.50² / n
Ahora sí, despejando: ____
n = (|Z1–/2 | . 0.50² / máx.)² = (Z1–/2 x 0.50 / máx.)²
Para nuestro problema tendremos:
n = ( 2.58 x 0.50 /0.05)² = 665.64  666 mineros
Conclusión: para poder estimar con un error máximo del 5% y una confianza del 99% la proporción
de enfermos de saturnismo en toda la población de mineros expuestos al plomo durante más de 15
años, deberá hacerse una muestra de 666 mineros como mínimo.
____________________
Cap. XIII - INTRODUCCIÓN A LAS PRUEBAS DE HIPOTESIS
En el tipo de problemas de estadística inferencial que se abordará a continuación, se tiene alguna

referencia previa sobre el parámetro que interesa estudiar: una suposición sobre él, alguna información
sobre su comportamiento histórico, una condición que debería cumplir (en control de calidad, por ej.)
o algún valor establecido arbitrariamente. Es decir que, si bien se desconoce el verdadero valor del
parámetro poblacional, se cuenta con un parámetro de referencia o parámetro hipotético.
Para otorgarle alguna validez a esa referencia previa deberá vinculársela con la evidencia provista por
una muestra representativa, y allí es cuando surgen las técnicas de la pruebas de hipótesis, donde
compiten dos hipótesis paramétricas: una, que adopta el valor hipotético como válido para el
verdadero parámetro (a la sazón desconocido) y otra, que no.
FUNDAMENTOS
Desarrollaremos el test para la media, pero sus fundamentos son extensibles a las pruebas para otros
parámetros poblacionales.
Simulemos por un momento que conocemos la población, entonces es posible hacer una lista de todas
las muestras de un cierto tamaño n que pueden llegar a tomarse de dicha población. Si calculamos
para cada una de aquellas su media muestral , obtendremos otra lista cuyos valores conforman una
población nueva: la población de las medias  de todas las muestras de tamaño n que pueden
obtenerse de la población original (procedimiento visto en el capítulo X, teoría del muestreo).
Calculando la media  y el desvío  de esa nueva población, podría comprobarse que su curva de
distribución109:
distribución de las  alrededor de 



  
está centrada con la distribución de la población original, es decir:   
Si se planeara tomar una muestra representativa de tamaño n, mediante un muestreo aleatorio sobre la
población original, podríamos hacernos preguntas tales como: ¿cuál es la probabilidad de que la media
de esa muestra resulte superior a un cierto valor * ?. La respuesta la buscaríamos bajo la misma curva
anterior, a la sazón distribución de la variable aleatoria , y sería del tipo: P(>*) = 
distribución de la v.a. alrededor de 


 * 
Cuando n es grande esa nueva distribución se aproxima a la Normal (teorema central del límite):  ~ N () para n.
109
____________________
O simétricamente, para un punto * ubicado a la izquierda de : P(<*) = 




*  
Ahora convengamos en que el punto *, en cualquiera de los dos casos, define la divisoria entre lo
cercano y lo lejano a . y que por ello lo llamaremos punto crítico. En consecuencia, si la  de la
muestra por realizar se ubicara en la cercanía de es decir más cerca de  que el punto crítico,
podríamos decir que la diferencia  no es significativa. Y, por el contrario, si la  cayera lejos de la
zona central de la distribución, es decir más allá del punto crítico, podríamos considerar que la
diferencia  es significativa.
En esas condiciones, para cualquiera de los dos casos planteados, hacemos la siguiente lectura:
 es la probabilidad de que la  de la muestra por realizar difiera significativamente de 
______________________________________________
A partir de aquí asumimos que  es realmente desconocida y que sólo contamos con un valor
hipotético1100 del parámetro. La distribución del estadístico muestral  será ahora alrededor de 0:

distribución del estadístico  alrededor de 0
0 

Tomada y procesada la muestra, debemos cotejar  con 0 para ver si el punto crítico queda
ubicado a la derecha o a la izquierda de 0 y adoptando una probabilidad  quedará fijado
exactamente. Suponiendo >0 :
distribución del estadístico  alrededor de 0
1  

0 * 
a) Si  se ubica más cerca de 0 que el punto crítico la diferencia 0 no es significativa.

b) Si  se ubica en la región más alejada de 0 que el punto crítico, llamada región crítica, la
diferencia 0 es significativa.
110
Hay que resaltar, aunque sea obvio, que el valor hipotético es puntual, por lo que si no fuera puntual la referencia previa que se
tenga del parámetro desconocido, deberá interpretársela y reducirla a un punto.
____________________
Basándonos en que  es la evidencia con que contamos acerca de , hacemos el siguiente

razonamiento clave:
 si ocurriera a): distribución del estadístico  alrededor de 0

1 

0 * 

nos animamos a concluir, con una probabilidad 1-a favor, que tampoco sería significativa la
diferencia , es decir que  podría considerarse igual  = );
 y si ocurriera b): distribución del estadístico  alrededor de 0

1 

0 * 

podríamos genuinamente sospechar con un margen de error , consecuentemente la probabilidad 
que se fije debería ser siempre pequeña, que la población de donde proviene  se corresponde mejor
con otra población hipotética, con media , alternativa a la de referencia; es decir que = .
distribución distribución del estadístico 
del estadístico  alrededor de 
alrededor de 
 

0 * A 
Entonces hay dos hipótesis en juego: una principal (H0:  = o) y una alternativa (HA:  = ), y si
contáramos con un valor puntual de referencia para A podrían calcularse las probabilidades  y
 a un lado y otro del punto crítico, usando la distribución del estadístico  alrededor de  

distribución distribución del estadístico 

del estadístico  alrededor de 
alrededor de 
 
 
0 * A 
Si hubieran varias alternativas puntuales, podrían plantearse sendas hipótesis alternativas H1 1, H2 2, H3 3, etc.
111
____________________
H0 :  = o
HA:  = 
Si no contamos con algún valor concreto para A, en su lugar adoptaremos una familia infinita de
medias poblacionales alternativas significativamente distintas a 0. Es decir que la hipótesis
alternativa será >  ó < ,112 según el caso.

Si >0:
distribución 
del estadístico  H0:  = 
alrededor de  HA:  > 


0 *región crítica 
Si <0:


 H0:  = 

HA:  < 


región crítica * 0 
Para ambos casos113, si  cayera fuera de la región crítica: aceptamos H0 (también llamada hipótesis
nula porque supone nula la diferencia   ), y si  cayera dentro de la región crítica: rechazamos H0
a favor de HA114, con un margen de error ó nivel de significación .
TÉCNICA DEL TEST DE HIPÓTESIS
Lo usual es desarrollar los tests en el ámbito de una distribución estándar como por ejemplo la normal,
por lo que el punto crítico estandarizado será z* y el estadístico muestral  una vez estandarizado será
el estadístico de prueba:
Z = 

Si >0:
distribución 
del estadístico Z bajo H H0:  = 
HA:  > 


0 z* z
112
Es una hipótesis compuesta porque involucra más de un valor, a diferencia de la hipótesis principal que es simple.
113
La región crítica se ubica en relación con la evidencia que provee la muestra y determina la hipótesis alternativa.
114
La alternativa, aunque es verdaderamente la hipótesis estadística de la investigación, no se acepta ni se rechaza en este test
porque es compuesta y en todo caso implicaría la realización de un test compuesto especial para ella.
____________________
Si <0:
 H0:  = 
HA:  < 


z*  z
- Una vez establecido el nivel de significación  queda fijado el punto crítico z*.
- Si el estadístico de prueba Z cayera fuera de la región crítica, se acepta H0.
- Si Z cayera dentro de la región crítica, se rechaza H0. Por este efecto, la región crítica puede
llamarse también región de rechazo.
- Si Z cayera en el mismo z* ó en un entorno muy próximo a él, conviene agrandar la muestra.
Pruebas de dos colas

Se generan en ciertos problemas donde previamente a la realización de la muestra es necesario tener
definida la región de rechazo, por ejemplo en algunas rutinas de control de calidad, porque se
considera que se estaría en situación crítica si  cayera tanto a la derecha como a la izquierda de .
H0:  = 
HA:   


z* 0 z* z
Salvo en que la región de rechazo está definida en dos tramos y hay dos puntos críticos, la técnica para
el desarrollo de la prueba es igual a las anteriores de una cola: si el estadístico de prueba Z cayera
fuera de la región crítica, se acepta H0; si Z cayera dentro de la región crítica, se rechaza H0; y si
estuviera muy próximo a los, ahora, dos puntos críticos z* ó z*, es conveniente agrandar la muestra.
Si se quisiera fundamentar el test de dos colas de la forma en que se fundamentaron los de una cola,
habría que imaginarse para el estadístico muestral una distribución alternativa del tipo:
distribución de bajo H0 distribución de bajo HA
* * 
cuya existencia no puede verificarse y, en consecuencia, contradice el teorema central del límite.
De otra forma, podría pensarse en dos familias de poblaciones alternativas ubicadas a ambos lados de
, que produzcan sendas distribuciones de  y que a priori, antes de la evidencia muestral, sean tan
posibles unas como otras (en realidad tan críticas unas como otras). Este camino permite darle un
respaldo razonable, más que un fundamento, a un test que es eminentemente operativo.
____________________
PROBLEMAS RESUELTOS
PRUEBAS DE HIPÓTESIS PARA 

Al problema desarrollado en el capítulo XII-intervalos de confianza, págs.108y 109, le agregamos la
siguiente pregunta:
e) ¿Es posible imprimir el valor nominal de 500 gr. en todos los paquetes envasados por esa
máquina?.
Como la máquina no es perfecta –tiene una cierta precisión– todos los paquetes no pesarán
exactamente lo mismo. Como exigencia del control de calidad, lo que se pretende es que el peso
medio de todos ellos no difiera significativamente del valor nominal que se debe imprimir en todos los
envases.
El valor nominal de 500 gr. es el peso medio hipotético o de todos los paquetes envasados.
La evidencia que tenemos acerca de todos los paquetes envasados es la muestra:
 = 504 gr ; s = 6,80 gr ; n = 16 paquetes
También contamos, por el momento, con información (poblacional) sobre la precisión de la máquina:
 = 5 gramos
Comparando simplemente  con o se ve que:  > o.
Recordemos que la  muestral es toda la evidencia que tenemos sobre la  poblacional desconocida
y que la lectura objetiva  >o que hacemos para la media muestral, termina avalando el derecho a
preguntarnos algo parecido para la media poblacional, es decir: ¿será también  > o? (en rigor,
¿será  significativamente mayor que o?).
Por lo tanto la hipótesis alternativa, que es la hipótesis estadística de investigación, será:  > o.
Tendremos entonces: Ho:  = o
HA: > o
Es decir: Ho:  = 500 gr
HA: > 500 gr
Para la prueba asignaremos un nivel de significación = 0.05
se acepta Ho se rechaza Ho
0.95
0.05
*
0 Z 0.95 Z
= 1.65
El estadístico muestral  estandarizado según Z, que llamamos estadístico de prueba, será:
Z =  – o

 n
____________________
Entonces: Z = 504 gr – 500 gr = 3.2

5 gr / 16
El estadístico de prueba Z cae dentro de la región crítica, por lo tanto: rechazamos Ho y nos
inclinamos a favor de la HA.
Conclusión, en base a la muestra de 16 paquetes y con un margen de error del 5%: podría haber una
diferencia significativa entre la media de todos los paquetes envasados y el valor nominal de 500 gr;
o, el peso medio de todos los paquetes envasados podría ser significativamente superior a 500 gr.
La conclusión debe ser en potencial: podría. Porque rechazar la hipótesis nula no significa aceptar la
alternativa; en todo caso, al rechazar la hipótesis nula nos inclinamos a favor (nada más que eso) de la
hipótesis alternativa (releer nota al pie n°114 de pág.119 de este capítulo).
En consecuencia, habría que ajustar el peso de envasado en la máquina y desarmar los paquetes ya
hechos para volver a llenarlos con la máquina corregida. Como esta decisión implica costos
adicionales en la fabricación, conviene antes que nada: agrandar la muestra y luego ante los nuevos
resultados del test decidir.
El nivel de significación puede interpretarse, en términos de margen de error, como la
probabilidad de equivocarnos al rechazar una Ho que eventualmente fuera cierta. Dicho error es
llamado de tipo I. También hay un error de tipo II que consiste en equivocarnos al aceptar una
hipótesis nula que fuese falsa, y su probabilidad, designada con  se ubica a partir del punto crítico*
pero debajo de la curva alternativa vinculada a A, como se muestra en la pág.118 de este capítulo.
PRUEBAS DE HIPÓTESIS PARA CON DESCONOCIDO
Las curvas de distribución de las  que respaldan estas pruebas son curvas t, siempre que la población
sea normal, porque se desconoce .
Supongamos ahora que para el caso de los viáticos de todos los oficinistas que trabajan en el centro de
la ciudad y tienen un mismo perfil laboral (lo que habilita a razonar que la población tiene distribución
normal), se tiene como valor de referencia un promedio poblacional  = 25$.
Listamos entonces la información con que contamos, tanto la poblacional como la muestral:
Información poblacional: - población normal
- desconocido
Información muestral: -  = 28,915$
- s = 4,886$  s2= 23,877
- n = 20 personas
Prueba: -  = 25$
-  0,05
El juego de hipótesis es: Ho:  = 25$
HA: > 25$
0.95
0.05
0 t*19 ; 0.95 = 1,729

El estadístico muestral  estandarizado según t, es:
____________________
t =  – o = 28,915 – 25$ = 3,58

s4,886$
n 20
El estadístico de prueba t cae dentro de la región crítica: rechazamos Ho a favor de HA.
Conclusión:
En base a la muestra de 20 oficinistas y con un nivel de significación del 5%, se concluye que el
viático promedio de la población de oficinistas sería significativamente superior a los 25$.
PRUEBAS DE HIPÓTESIS PARA P 115

Problema 1.- En una encuesta de opinión un candidato obtiene 212 votos sobre una muestra de 400
encuestados.
¿Qué puede decirse sobre cómo le irá a ese candidato el día de la votación, es decir cuando vote toda
la población?.
Procesando la muestra tenemos: n = 400 ; p = 212 = 0.53
400
En la muestra el candidato tiene mayoría, pero ¿y en la población?.
Lo que está en juego gira alrededor de un número: 50%. Este número es la forma en que se presenta
en este problema el valor hipotético, es decir Po = 0.50.
Comparando simplemente p con Po se ve que: p > Po
Recordemos que p muestral es toda la evidencia que tenemos acerca del comportamiento de toda la
población a la hora de votar. Es decir que p es toda la evidencia que tenemos sobre la verdadera P, la
cual desconocemos.
Si leemos que p > Po, ¿será también P > Po?
Esa pregunta que nos hacemos, es la hipótesis de investigación y constituye la hipótesis alternativa
para un test.
La hipótesis nula es siempre: P = Po
Tendremos entonces: Ho: P = Po
HA: P > Po
Es decir: Ho: P = 0.50
HA: P > 0.50
0.95
0.05
*
0 Z 0.95 Z
= 1.64
115
Tomados y adaptados de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
El estadístico muestral p estandarizado según Z, que llamamos estadístico de prueba, es:

Z = p – Po _
Po(1-Po)/n
Entonces: Z= 0.53 – 0.50 = 1.2
0.50x0.50/400
El estadístico de prueba Z cae fuera de la región crítica, por lo tanto: aceptamos Ho.
Concluimos, en base a la muestra de 400 personas y con un nivel de significación del 5%, que el
candidato no tendría una mayoría significativa de votos en toda la población.
Problema 2.-
Entre todas las personas que anteriormente usaron un cierto método de lectura veloz, el 40 % no
llegaron a los resultados esperados. Con el fin mejorar la eficiencia del método, los diseñadores
hicieron algunas modificaciones a los procedimientos que se emplearon históricamente.
Para medir la nueva efectividad, se tomó una muestra de 180 personas entre todas las que siguieron
los nuevos procedimientos. En la muestra el 30% de los casos no llegaron a los resultados esperados.
¿Hubo un cambio significativo al reformar los procedimiento históricos?.
Tomando como éxito: no llegar a los resultados esperados, sobre la proporción P de éxitos en toda la
población de personas que siguieron el nuevo método sólo se conoce la evidencia provista por la
muestra, es decir p = 0.30.
El valor hipotético Po se presenta aquí como el comportamiento histórico del método. Contra él se
contrasta la efectividad (en realidad la falta de ella, porque es lo que elegimos como éxito) del nuevo
método.
Leemos que p < Po y nos preguntamos si también P < Po
Las hipótesis son entonces: Ho: P = Po
HA: P < Po
Es decir: Ho: P = 0.40
HA: P < 0.40
se rechaza se acepta Ho
Ho
0.99
0.01 *
Z 0.095 0 Z
 –2.33
El estadístico de prueba Z, es: Z= 0.30 – 0.40 = – 2.74
0.40x0.60/180
El estadístico de prueba Z cae en la región crítica, por lo que: rechazamos Ho a favor de la HA.
Conclusión: en base a la muestra de 180 personas y con un nivel de significación del 1% se concluye
que con el nuevo método la proporción de personas que no llegan a los resultados esperados sería
significativamente menor respecto del método anterior. Es decir, que con las modificaciones habría
mejorado su efectividad.
____________________
Como el estadístico de prueba cayó no muy lejos del punto crítico, en un entorno relativamente
próximo a él, antes de llegar a alguna conclusión puede optarse por agrandar la muestra y volver a
hacer el test. Esto es lo que se denomina como tercera regla de decisión.
PRUEBAS DE HIPÓTESIS PARA ².-
Problema116. Una compañía ha comprado nueva maquinaria de producción y realiza sobre ella la
siguiente muestra (n=5): 70,0; 69,9; 70,1; 70,1; 69,8. La varianza de la maquinaria antigua es de 0,1.
Con un nivel de significación del 5%, someter a prueba la varianza poblacional de la nueva
maquinaria tomando como valor hipotético de referencia la varianza de la maquinaria antigua.
Información muestral:
-  = 69,98
- s = 0,13  s2= 0,02
- n=5
Información poblacional: población normal
Prueba: ² = 0,1
= 0,05
Juego de hipótesis: Ho: ² = 0.1
HA: ² < 0.1
Rechazo Ho
a favor acepto Ho
de HA
0,05
0
*
²4;0,05
=
0,71
En detalle, el punto crítico 0,71 corresponde a un ² con n-1=4 grados de libertad y =0,05 de
probabilidad acumulada. Es decir: ²n-1; = ²4;0,05 = 0,71
El estadístico de prueba ², es: ² = (n-1) x s² = (5-1) x 0,02 = 0,80
² 0,1
El estadístico de prueba cae fuera de la región crítica: acepto Ho.

En base a una muestra de 5 unidades de observación tomadas al azar para la nueva maquinaria y con
un nivel de significación del 5%, se concluye que la varianza de la nueva maquinaria no sería
significativamente menor que la varianza de la vieja maquinaria.
Dicho de otro modo, la precisión de la nueva maquinaria no sería significativamente distinta a la
precisión de la anterior.
116116
Adaptado de Estadística utilizando Excel . 2005. Serie Professional Tools. MP Ediciones S.A.
____________________
Este es un caso donde podría considerarse la aplicación de la tercera regla de decisión, porque el
estadístico de prueba cae relativamente bastante cerca del punto crítico. Por lo tanto convendría no
decidir, luego agrandar la muestra y finalmente volver a hacer el test de hipótesis.
ADENDA a los cap.XII y XIII

Diagrama orientativo para realizar inferencias para 
____________________
Cap. XIV - ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
En este segundo abordaje del análisis de regresión y correlación enfocaremos su aspecto inferencial
(el aspecto descriptivo fue visto en el capítuloVI) que comprende dos tipos de problemas: pruebas de
hipótesis y estimación.
Los parámetros poblacionales y sus correspondientes estadísticos muestrales son117 ahora:
Medida muestrales Medidas poblacionales

permiten estimar
 ESTADÍSTICOS muestrales PARÁMETROS poblacionales

 a 

 b 


r 


Porque el modelo de regresión lineal para la población se expresa: Y =  +  . X

Y su estimador muestral es: Y = a + b . X
Complementariamente, el r muestral es el mejor estimador con que contamos para el  poblacional.
En forma parecida a lo hecho anteriormente en estadística univariada, ahora en base a los

estadísticos a, b y r podríamos querer hacer estimaciones de los parámetros ,  y , mediante
intervalos de confianza (I, I e I), o también podríamos querer hacer pruebas de hipótesis a partir de
la identificación de ciertos valores hipotéticos o, o y o de los respectivos parámetros.
Como una extensión de la estimación de parámetros, en este ambiente bivariado se agrega una
variante que no tuvimos en estadística univariada y es el problema de estimar el valor de la variable Y
para un dado valor de X. Para esto hay dos caminos posibles: estimación por intervalo118 de confianza
o hacer una estimación puntual de Y.
La primera solución demanda hacer una muestra muy grande, en principio, y abundantemente
distribuida a lo largo de los valores de X, a fin de poder contar con una suficiente cantidad de valores
de Y para algunos valores de X.
La segunda solución permite explotar la muestra que tengamos, si bien siempre es conveniente que la
muestra sea lo más grande que podamos hacer, y es la que desarrollaremos en estas notas.
Y respecto de las pruebas de hipótesis, aquí sólo veremos las relativas a la correlación poblacional,
cuestión que pasamos de desarrollar en primer término:
PRUEBA DE HIPÓTESIS PARA LA CORRELACIÓN

Para fundamentar esta prueba, habría que estudiar previamente la distribución del estadístico muestral
r alrededor del parámetro poblacional .
117
Ver la primera página de Teoría del muestreo, capítulo XI.
118
Un ejemplo de esto son las tablas de alturas /pesos con que cuentan los médicos de familia. Para valores dados de la
altura.(X), esas tablas devuelven intervalos de confianza para los pesos.
____________________
Como se hizo en el capítulo XI, para ese estudio deberíamos contar con una población bivariada
conocida, lo que permitiría:
- calcular el  de esa población,
- practicar todas las muestras posibles de tamaño n,
- calcular el r de cada muestra,
- y analizar cómo se distribuyen todos los r´s muestrales alrededor del  poblacional conocido.
Una particularidad que tiene este caso, a diferencia de los casos estudiados en el capítulo X, es que
sólo cuando la población “de laboratorio” no presenta ninguna correlación (=0) entre las variables X
e Y, sólo en ese caso, aparece una curva de distribución modelable y conocida que pueda respaldar
una prueba de hipótesis. Y esa curva es una distribución “t” de n-2 grados de libertad.
t
=0
En rigor, el estadístico muestral estandarizado es el que tiene un comportamiento t con n-2 grados de
libertad119. El algoritmo de estandarización es: ____
t = _r n–2 .
 (1–r²)
__________________________________________________________________________
Si el estudio de “laboratorio” se hiciera sobre poblaciones con   0 , no aparecería ninguna curva

identificable y/o útil para hacer inferencias. El ejemplo extremo es el caso una población con =1,
donde todas las muestras de tamaño n serían rectas muestrales encaballadas, todas, sobre la recta
poblacional y todas con r = 1. La distribución de los r alrededor de  sería:
=1 r
lo que no tiene utilidad para la inferencia120.
__________________________________________________________________________
Por lo dicho, en todas las pruebas de hipótesis para el valor hipotético siempre tendrá que ser 0
(o=0) y en consecuencia la hipótesis principal o hipótesis nula siempre deberá suponer que no hay
correlación en la población. Siempre la hipótesis nula será Ho :  = 0.
Al igual que lo expresado en el capítulo XIII, el planteo de la hipótesis alternativa dependerá de la
evidencia muestral. Si r es positivo entonces HA :  > 0 y si r es negativo HA :  < 0.
Para el problema que venimos desarrollando, la información muestral es:
n=4
119
Esta aplicación de la “t” a la correlación fue estudiada por el propio W.Gosset, creador de esa distribución.
120
Bajo el nombre de función impulso o función delta de Dirac, esa función sí es muy útil en sismología.
____________________
r = + 0,9597
r² = 0,9210
Como r > 0, el juego de hipótesis para la prueba es:
Ho :  = 0
HA :  > 0
Acepto Ho Rechazo Ho
| =0,05
0 t*2;0,95
=
2,92
___
El estadístico estandarizado (o estadístico de prueba) es: t = 0.9597 . 2= 4,83
(1- 0.9210)
El estadístico de prueba cae dentro de la región crítica: se rechaza Ho a favor de HA.
En base a una muestra de 4 registros conjuntos de inversiones en publicidad y de ventas, y con un
margen de error del tipo I (nivel de significación) del 5% se concluye que habría una correlación
significativa directa entre la inversión en publicidad y las ventas de ese artículo, es decir que cada
vez que se incremente la publicidad de ese artículo habría, correlativamente, un aumento en las
ventas, y si la publicidad disminuye también las ventas disminuirían.
ESTIMACIÓN PUNTUAL O PREDICCIÓN 121

Para predecir/estimar el comportamiento de la variable Y para un valor dado de la variable X,
simplemente usamos la ecuación de la recta de regresión muestral.
Y para que esa estimación tenga sentido, esas dos variables deberían estar significativamente
correlacionadas en la población, por lo que primero debe hacerse la prueba de hipótesis para la
correlación poblacional, como condición previa sine qua non.
En el caso sobre el que venimos trabajando, la prueba de hipótesis nos dio que habría correlación
poblacional significativa entre las dos variables, así que podemos hacer estimaciones.
Para una futura inversión anual de 1,8 millones de pesos en publicidad estimamos que las ventas de
ese artículo serán del orden de los 4,59 millones de pesos.
Esto se calculó así: 0,18 + 2.45 x 1,8 = 4,59 y es una interpolación en relación con el rango de valores
relevados para X.
Para una futura inversión de 2,6 millones de pesos en publicidad estimamos que las ventas serán del
orden de los 6,55 millones de pesos.
Esto se calculó así: 0.18 + 2.45 x 2.6 = 6.55, y es una extrapolación no muy alejada del rango de
relevamiento de X.
Una extrapolación muy alejada del rango de relevamiento de X, por ejemplo 5 millones de pesos de
inversión en publicidad, nos devuelve un valor estimado de ventas anuales muy poco confiable.
Entonces, desechamos esa predicción porque está muy fuera del rango muestral de X.
121
En estadística el concepto de predicción comprende tanto a las extrapolaciones hacia ambos lados del rango de X,
como a las interpolaciones. El concepto también vale para las series de tiempo, en donde a las predicciones estadísticas
también las llamamos pronósticos.
____________________
PROBLEMAS RESUELTOS (incluyen tanto el aspecto descriptivo como el inferencial)

Problema 1.- Mediante un análisis de regresión y correlación estudiaremos la asociación entre la
Cantidad de personal y la Antigüedad de las PyMEs del Censo Nacional Económico 2004/2005. En la
Adenda del capítulo I (Introducción) de estas notas, está la matriz de datos correspondientes a una
muestra de 24 Pymes tomadas al azar entre todas las PyMEs de dicho censo.
Los estadísticos muestrales bivariados para las dos variables mencionadas son:
a = 142,4 pers. b = –4,50 pers./año r = –0,4147 (r²=0,1716)
1) Interpretar la información muestral.
Entre las PyMEs de la muestra, por cada año de mayor antigüedad la cantidad de personal
disminuyó 4,5 personas, en promedio.
Entre las PyMEs de la muestra hay una mediana correlación (un poco menos que mediana) entre
la cantidad de personal y la antigüedad que tienen las empresas.
En la muestra, sólo el 17,16% de las variaciones en la cantidad de personal puede explicarse por
las variaciones en la antigüedad de las empresas. El 82,84 % restante se debería a otras variables
que influyen sobre la cantidad de personal.
2) Inferir, con un margen de error del 5%, si entre todas PyMEs del Censo 2004/2005 habría
correlación significativa entre la cantidad de personal y la antigüedad que tienen esas empresas.
Información muestral: n = 24 r = –0,4147
Planteo de las hipótesis: Ho :  = 0
HA :  < 0 (porque r es negativo)
Margen de error del test:  = 0,05 punto crítico: t*22;0,05 = – 1,717
Región crítica (o de rechazo) < – 1,717
Estadístico estandarizado: t = –0,4147 x 22 / (1-0,1716) = – 2,14
Como el estadístico de prueba cae dentro de la región crítica, se rechaza Ho a favor de HA.
Conclusión: en base a la muestra de 24 PyMEs y con un margen de error del 5%, se puede
inferir que entre todas las PyMEs del censo, las variables cantidad de personal y antigüedad
estarían significativamente correlacionadas.
3) Inferir la cantidad de personal que podría tener una PyME de 20 años de antigüedad, tomada entre
la población de PyMEs del Censo 2004/2005. Ídem para PyMEs de 20 y 30 años.
Cálculos: 142,4 – 4,50 x 20 = 52,4 personas
142,4 – 4,50 x 30 = 7,4 personas
Se estima que una PyME de 20 años de antigüedad tomada entre todas las del Censo 2004/2005
tendría alrededor de 52 personas trabajando.
Se estima que una PyME de 30 años de antigüedad tomada entre todas las del Censo 2004/2005
tendría alrededor de 7 trabajadores.
____________________
Problema 2.- 122
La siguiente información , elaborada en base a datos del INDEC, fue extraída del Anuario Estadístico
de la República Argentina 2000, sección Economía, de un diario de tirada nacional.
BALANZA COMERCIAL
ARGENTINA
Millones de dólares 35
Año Exportaciones Importaciones Saldo
1984 8.107 4.585 3.522 30
1985 8.396 3.814 4.582
1986 6.852 4.724 2.128 25
1987 6.360 5.818 542
1988 9.135 5.322 3.813 20
1989 9.579 4.203 5.376
1990 12.353 4.077 8.276 15
1991 11.978 8.275 3.703
Exportaciones
1992 12.235 14.672 -2.637 10
1993 13.118 16.784 -3.666
1994 15.839 21.590 -5.751 5
1995 20.963 20.122 841 Importaciones
1996 23.811 23.762 49 0
1997 26.431 30.450 -4.019 '84 '85 '86 '87 '88 '89 '90 '91 '92 '93 '94 '95 '96 '97 '98 '99
1998 26.441 31.404 -4.963
1999 23.333 25.508 -2.175
EVOLUCIÓN DEL COMERCIO
En millones de dólares
Cruzando las variables Exportaciones e Importaciones, resulta el siguiente diagrama:
35.000
30.000
Importaciones
25.000
20.000
15.000
10.000
5.000
0
0 5.000 10.000 15.000 20.000 25.000 30.000
Exportaciones
Aquí se eligió al monto de las exportaciones como variable X arbitrariamente porque no hay motivo
para pensar que ella sea la variable explicativa (causa) o independiente, y los montos de las
importaciones la variable respuesta (efecto) o dependiente Y.
122
____________________
REGRESIÓN Y CORRELACIÓN MUESTRAL. (estadística Descriptiva bivariada).

Mirando el diagrama de dispersión, se considera razonable adoptar una recta como modelo de
regresión. A continuación se calculan b y a (en ese orden si el cálculo es manual) es decir la pendiente
(o coeficiente de regresión) y la ordenada al origen de la recta de regresión, y luego r (coeficiente de
correlación cuyo signo es el signo de b).
Recordar que con una calculadora de
a = – 5682,807 mano de dos variables, simplemente
b = +1,3452 introduciendo primero los pares X,Y,
r = + 0,9453 los tres estadísticos muestrales (a, b y r)
 r² = 0,8936 (coeficiente de determinación) pueden obtenerse directamente.
Interpretación del coeficiente de regresión muestral b: durante el período considerado, por cada 1
millón de dólares que aumentaron las exportaciones, en promedio las importaciones aumentaron en
1,3452 millones de dólares.
El subrayado en aumentaron es para señalar su conexión directa con el signo + de b (si el b hubiera
sido negativo, habría que haber leído disminuyeron). Es decir que la asociación entre las variables es
directa.
Interpretación del coeficiente de correlación muestral r: hay una muy alta asociación directa entre las
importaciones y las exportaciones.
Interpretación del coeficiente de determinación muestral r²: el 89,36 % de las variaciones de las
importaciones del período pueden explicarse por las variaciones de las exportaciones. O también: el
89,36% de las importaciones del período considerado pueden explicarse por el modelo de regresión
calculado.
INFERENCIAS (estadística Inferencial bivariada)

a) Realizar una prueba de hipótesis para la correlación con =0,05.
b) Si la prueba anterior diera que habría correlación significativa entre ambas variables, estimar el
monto de las importaciones si las exportaciones fueran de: 20.000 millones de dólares, 30.000
millones de dólares y 45.000 millones de dólares.
a) Prueba de hipótesis.
n = 16 años
r = + 0,9453
r²=0,8936
Como r > 0, el juego de hipótesis para la prueba es:
Ho :  = 0
HA :  > 0
Acepto Ho Rechazo Ho
=0,05
|
0 t*14;0,95
=
1,761
____________________
El estadístico estandarizado (o estadístico de prueba) es: t = + 0,9453. 14= 10,84

(1- 0,8936)
El estadístico de prueba cae dentro de la región crítica: se rechaza Ho a favor de HA.
En base a una muestra de 16 años y con un margen de error del tipo I (nivel de significación)
del 5% se concluye que habría una correlación significativa directa entre ambas variables, es
decir que si se incrementaran las exportaciones cabría esperar, correlativamente, un aumento
en las importaciones, y si las exportaciones disminuyeran se esperaría que también las
importaciones disminuyan.
b) Dado que en la prueba se concluyó que habría correlación significativa entre ambas variables, se
pueden hacer las estimaciones requeridas.
- 20.000 millones de dólares.
Cálculo: –5682,807 + 1,3452 x 20.000 = 21.221,193
Interpretación: si las exportaciones fueran de 20.000 millones de dólares, se estima que
las importaciones llegarían a los 21.221,193 millones de dólares.
- 30.000 millones de dólares
Cálculo: –5682,807 + 1,3452 x 30.000 = 34.673,193
Interpretación: si las exportaciones fueran de 30.000 millones de dólares, se estima que
las importaciones llegarían a los 34.673,193millones de dólares.
- 45.000 millones de dólares
Cálculo: –5682,807 + 1,3452 x 45.000 = 54.851,193
Interpretación: como el valor de X (45.000) está muy alejado del rango de las observaciones (de las
exportaciones; entre 6.360 y 26.441), se evalúa como no conveniente usar el valor calculado
(54.851,193) para estimar el monto de las importaciones.
_____________________________________________
____________________
Algunas REFERENCIAS BIBLIOGRÁFICAS
Babbie, Earl R., Métodos de Investigación por encuesta, Biblioteca de la Salud, Fondo de
cultura económica. 1988.
Gosset W.S. (Student). The probable error of a mean. Biometrika, 1908. Cambridge
University Press, 1942.
Gmurman V.E. Teoría de las probabilidades y estadística matemática. Editorial MIR. 1974.
Hampel F.R. et al. Robust Statistics. E. John Wiley & Sons. 1986.
Koch K.-R. Parameter Estimation and Hypothesis Testing in Linear Models. 3a.ed. Springer-
Verlag. 1999.
Linnik Yu.V. Method of Least Squares and Principles of the Theory of Observations.
Pergamon Press. 1961.
Novales A. Estadística y Econometría. McGraw Hill/Interamericana. 1998.
Press S.J. Bayesian Statistics: Principles, Models, and Applications. John Wiley & Sons.
1989.
Pugachev V.S. Introducción a la teoría de las probabilidades. Editorial MIR. 1973.
Rozanov Y. Procesos aleatorios. Editorial MIR. 1973.
Tukey J., Exploratory data analysis. Addison-Wesley Publish.Co. 1977.
Von Mises Richard E.. Probabilidad, Estadística y Verdad. 1928. Edición argentina: Espasa
Calpe Argentina.S.A..1946.
Yule G.U./ Kendall M.G. Introducción a la teoría estadística. M. Aguilar, Editor. 1947.
____________________

(Teoria) Notas de Estadistica

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

(Teoria) Notas de Estadistica

Cargado por

Copyright:

Formatos disponibles

Notas

Título 1: ESTADÍSTICA DESCRIPTIVA

Título 3: ESTADÍSTICA INFERENCIAL 105

Algunas Referencias bibliográficas 134

¿Cómo podría definirse a la Estadística?.

Estado de Cantidad Gasto medio Cantidad de ¿Hay Tipo de

muestras representativas de la población, el mecanismo básico es el azar. El estudio del azar

ERRATAS5 en la enseñanza-aprendizaje de la Estadística

Tipo Antigüe- Endeu- Cantidadde Puestosdetrabajo

Materia prima: Nacional o Importada.

edad sexo Anti- Especia- Confor- Quincena$

Las unidades de observación son los trabajadores de la empresa cooperativa.

Cap. II – ORGANIZACIÓN DE LOS DATOS – GRÁFICOS

o distribución de frecuencias11, donde f es la frecuencia absoluta resultante de nuestro conteo

Empecemos a organizar los datos confeccionando el arreglo de datos ordenados:

Luego, tal como se hizo anteriormente, correspondería construir su distribución de frecuencias y

Variables cualitativas ordenables

M. 5 15,62 0,1562 5 15,62 0,1562

Gráfico de torta o circular16 (aplicable a todo tipo de variable, cuantitativa o cualitativa):

Variables cualitativas no ordenables

Caso de dos variables cuantitativas.

Elementos de METODOLOGÍA ESTADÍSTICA en el diseño de variables estadísticas.

Cap.III – MEDIDAS DE POSICIÓN

El espacio de definición de la media, es el espacio de los números reales (1)

Con las frecuencias f% y fr, se amplían las posibilidades de cálculo de la Media:

El espacio de definición de la mediana es el espacio de los datos ordenados

1 1 1 2 2 2 2 2|3 3 3 3 3 3 3 3|4 4 4 4 4 4 4 4|4 4 4 5 5 5 5 6

M M M M M R R R|R R R R R R R R|B B B B B B B B|B B B B B E E E

La incorporación del lenguaje de porcentajes agrega versatilidad al uso de los fractiles,

Resolución porcentual del dato

O, por afuera de la tabla: Mo : B

Determinación de la moda en base a intervalos

IMo = 91.5 – 98.1

Elementos de METODOLOGÍA ESTADÍSTICA en la determinación de indicadores

(económicos, de salud, educacionales, etc.), la moda o la mediana (en lo posible acompañada de

Erratas en la enseñanza-aprendizaje los indicadores estadísticos y uso.

Cap. IV – MEDIDAS DE INTENSIDAD o TASAS

La cantidad de desocupados en los 28 centros urbanos encuestados por el Indec

- había 1,44 desocupados por cada subocupado demandante25;

las que se formalizan matemáticamente mediante las siguientes expresiones:

En consecuencia, estas medidas pueden aplicarse a cualquier tipo de variables, cuantitativa o

- el 40,62% de las viviendas tienen un mantenimiento Bueno (proporción simple).

r(a,b,c / d,e) = (fa + fb + fc ) / (fd + fe )

I  (a,b,c) = (fa + fb + fc ) / (fa + fb + fc )

Donde  y  representan las distintas situaciones (en el tiempo o

Producto Precio 2003 Cantidad 2003 Precio 2004 Cantidad 2004

Uso de los índices

Elementos de METODOLOGÍA ESTADÍSTICA en la elaboración y en la lectura de tasas.

De aquí en más designaremos a la media aritmética poblacional con la letra griega

 =  (Xi – )² / N ) y s =  (Xi – )² / n-1 )

La variable “gasto mensual…” tiene un desvío estándar muestral de:

OTROS ESTUDIOS BASADOS EN LAS MEDIDAS DE DISPERSIÓN

Detección de datos raros (outliers) en variables cuantitativas

Los cinco números sumarios son:

Elaboración de modelos poblacionales.

Cap. VI - ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

b = XiYi – 1/n Xi Yi a= –b.

A la ecuación de la recta de regresión la usaremos para interpretar la pendiente b,

Gastos anuales en publicidad Ventas anuales

r² = [XiYi – 1/n Xi Syi ]² .

r = ±r² = ±0.9210 = ± 0.9597

Cap. VII – SERIES DE TIEMPO

variable frecuencia variable tiempo

P (causa i /efecto) = P(causa i) x P(efecto / causa i) ______ .