Está en la página 1de 78

1

Logística Apuntes de Estadística


Parte I: Probabilidades

Con respecto a los orígenes de la Estadística, nos remitimos a la palabra “estado” en relación con
la articulación entre los distintos agentes del gobierno sobre una población en un territorio. El
volumen de información que debía manejarse hace unos 600 años era suficientemente grande como
para requerir que secretarios especializados recabaran, depuraran, clasificaran, ordenaran y
organizaran tal información, además de presentar síntesis que quien debía tomar una decisión
pudiese interpretar fácilmente. El primer trabajo de inferencia estadística se remonta al siglo XVII
sobre la natalidad y mortalidad en una región de Polonia.
El cálculo de probabilidades tuvo un origen relacionado con el problema de los juegos de azar.
Un planteo más matemático intentaba explicar por qué el número de éxitos era más favorable en
ciertas apuestas que en otras en diferentes juegos. En ciertos aspectos fue contemporáneo con el
origen de la estadística, pero el tratamiento formal fue posterior.
Es claro que los orígenes fueron diferentes: el manejo de información real y especulaciones
sobre los juegos de azar. Sin embargo ambos problemas tienen de común la incertidumbre en los
resultados. En los juegos de azar se conoce las reglas del juego pero no los resultados hasta que el
juego no se realiza. En la toma de decisión sobre la base de información previa, se conocen los
datos pero no el resultado de la decisión a tomar.
Precisemos primero el significado del término “decisión”. Una decisión se toma cuando hay dos
o más opciones entre las que hay que elegir una, y no se tiene la seguridad absoluta del éxito en
relación con la elección realizada. Si se tuviese la seguridad absoluta sería una “determinación”.
Tanto la estadística como el cálculo de probabilidades contribuyen a ofrecer criterios para la
toma de decisión. El cálculo de probabilidades lo hace por medio de elaborar herramientas
matemáticas formales sobre las que se apoya la estadística para inferir posibles resultados de las
decisiones tomadas a partir de datos experimentales.
Se suele separar la estadística en “estadística descriptiva”, cuando se limita a la recopilación de
datos, su depuración, clasificación, ordenamiento, organización y síntesis gráfica y numérica. Por
otra parte la “estadística de inferencia” se apoya en la teoría de probabilidades para ofrecer
herramientas formales y cuantitativas como criterio para la toma de decisión.
En una primera parte del curso nos ocuparemos de introducirnos en el cálculo de probabilidades,
luego abordaremos la estadística descriptiva y finalmente algunos elementos del lenguaje de la
estadística de inferencia.

Cálculo de probabilidades y juegos de azar

Introduciéndonos en el cálculo de probabilidades, analizamos primero los elementos mínimos de


un juego de azar. Para ello usaremos como referencia dos ejemplos muy simples pero
suficientemente claros para comprender los conceptos básicos. Sean éstos una y dos monedas, y un
dado.
Al tirar una moneda decimos que tenemos dos opciones posibles como resultados válidos, que
apostaremos a una como favorable, y que la posibilidad de éxito es del cincuenta por ciento. Lo que
hemos hecho es simplemente considerar las reglas del juego válidas para una moneda equilibrada en
la que la cara y la ceca son distinguibles.
Que sea equilibrada –que no esté doblada o con el peso desbalanceado– asegura que las dos
caras de la moneda tengan la misma posibilidad de salir. Que sean distinguibles quiere decir que la
“cara” del rey y la “ceca” donde la moneda fue acuñada tengan un dibujo diferente y no haya
confusión acerca del resultado.
El “experimento aleatorio” consiste en tirar la moneda, pero no de una manera deliberada para
que salga el resultado deseado, sino forzando la aleatoriedad o el azar en el resultado final. Para ello
se la tira al aire y deja que gire y golpee varias veces antes de detenerse. En el juego de azar
2

forzamos así la aleatoriedad de modo que no pueda manipularse el resultado y haya incertidumbre
total. De esta manera podemos decir que ambos resultados son igualmente posibles y, si hemos
considerado uno como favorable, la idea intuitiva que suele expresarse como “una de dos
posibilidades a favor”, se traduce naturalmente en un formato matemático como

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠


𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 é𝑥𝑖𝑡𝑜 =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

En un formato más simbólico, si llamamos p al número “probabilidad de éxito” y abreviamos las


referencias a casos favorables y posibles, escribimos

𝑐𝑓
𝑝=
𝑐𝑝

En el ejemplo de tirar un dado, se asume que debe estar perfectamente equilibrado, es decir que
debe ser un cubo perfecto y el centro de gravedad coincidir con el centro geométrico, las caras
deben ser distinguibles, y el experimento debe realizarse de modo que garantice la aleatoriedad.
El experimento correspondiente a tirar dos monedas es el más sencillo dentro de un nivel
superior en complejidad. Notemos que hay cuatro resultados diferentes de acuerdo con las
alternativas
Cara Cara
Cara Ceca
Ceca Cara
Ceca Ceca

Vemos que en este caso el ordenamiento en la secuencia de resultados conduce a cuatro


opciones posibles a partir de un experimento realizado con dos monedas. Es fácil ver que si el
experimento se realiza con tres monedas, habrá ocho resultados posibles.
En relación con los resultados favorables, si se considera que “cara” es un resultado favorable
entre los dos posibles de tirar una moneda, vemos que a partir de la definición informal anterior,

𝑐𝑓 1
𝑝= = = 0,5 = 50%
𝑐𝑝 2

El cálculo nos lleva inmediatamente a expresar la probabilidad como una fracción, como un
número decimal, o en porcentaje.
Al tirar un dado, la probabilidad de que quede en posición superior la cara que contiene dos
puntos, el número “2”, se obtiene dividiendo un caso favorable (el 2) entre seis caras o casos
posibles, de modo que
𝑐𝑓 1
𝑝= = = 0,1666 … ≅ 0,167 = 16,7%
𝑐𝑝 6

El signo ≅ significa “aproximadamente igual” y se utiliza porque se ha redondeado el último


dígito decimal al valor entero más próximo.
Podemos preguntarnos cuánto vale la probabilidad de obtener dos caras al tirar dos monedas, y
vemos a partir de la tabla que vale
𝑐𝑓 1
𝑝= = = 0,25 = 25%
𝑐𝑝 4
3

En cambio, si preguntamos “cuánto vale la probabilidad de obtener una cara” al tirar dos
monedas, vemos que hay dos resultados favorables entre cuatro posibles. Si llamamos éxito a
obtener al menos una cara, habrá tres resultados favorables entre los cuatro posibles, con lo cual las
probabilidades valdrán 2/4=0,5=50% en el primer caso y 3/4=0,75=75% en el segundo.
Si al tirar un dado nos preguntamos por la probabilidad de obtener un número par vemos que hay
tres resultados favorables entre seis posibles. Si pedimos que se obtenga un número menor que tres
habrá dos resultados favorables. Si debe ser el número par y menor que tres, habrá sólo un resultado
favorable: el “2”. Pero si queremos que sea par o menor que tres, serán favorables el “1”, el “2”, el
“4” y el “6”, cuatro favorables entre seis posibles.
Por otra parte vemos que no puede haber casos favorables negativos. Eventualmente puede no
haber ningún caso favorable (𝑐𝑓 = 0), con lo cual la probabilidad de éxito será nula. Tomemos
como ejemplo pedir que salgan tres caras al tirar dos monedas. O bien podemos plantear una
situación en la que todos los casos son favorables, sea por ejemplo pedir menos de tres caras al tirar
dos monedas. Es claro que habrá cuatro casos favorables, tantos como posibles. En el primer
ejemplo, la probabilidad de éxito es nula, de modo que se tiene la seguridad absoluta de fracaso. El
evento es entonces “determinístico” y no “probabilístico”. En el segundo ejemplo, la probabilidad
de éxito vale “uno”, o “cien por ciento”. Se trata de otro evento determinístico con seguridad
absoluta de éxito.
En ambos casos (𝑝 = 0) y (𝑝 = 1) se tiene seguridad absoluta, mientras que en todas las
situaciones intermedias habrá incertidumbre y está involucrado el cálculo de probabilidades.
De modo que obtenemos la primera conclusión general:

0≤𝑝≤1

El símbolo ≤ se lee “menor o igual” y se establece así el rango permitido del número
“probabilidad”. Los extremos son determinísticos y todo el rango intermedio 0 < 𝑝 < 1 es
probabilístico.
A modo de ejercicios:
1. Hallar la probabilidad de obtener dos cecas a tirar dos monedas
2. Hallar la probabilidad de obtener exactamente una ceca al tirar dos monedas
3. Hallar la probabilidad de obtener al menos una ceca al tirar dos monedas
4. Hallar la probabilidad de obtener ninguna ceca al tirar dos monedas
5. Hallar la probabilidad de obtener a lo sumo dos cecas al tirar dos monedas
6. Hallar la probabilidad de obtener un seis al tirar un dado.
7. Hallar la probabilidad de no obtener un seis al tirar un dado.
8. Hallar la probabilidad de que se obtenga un número par y mayor que cuatro al tirar un dado
9. Hallar la probabilidad de que se obtenga un número par o mayor que cuatro al tirar un dado.
10. Hallar la probabilidad de obtener dos seis al tirar dos dados.
4

Elementos teóricos generales del cálculo de probabilidades

Trataremos de precisar la noción de probabilidad y utilizar algunas operaciones de conjuntos


para plantear problemas más generales que los relativos a los juegos de azar.
En términos mucho más amplios que tirar un dado o una moneda, planteamos un experimento
aleatorio como la realización de un proceso que termina en un resultado que no se conocía antes de
haber sido realizado.
No es necesario pensar mucho al respecto para darnos cuenta de que casi todas las actividades
que se realizan cotidianamente son experimentos aleatorios, desde la decisión de cursar una carrera
hasta la de cruzar la calle. A diferencia de los juegos de azar, cuyos resultados posibles se conocen a
priori y las reglas también son conocidas, los experimentos aleatorios de la vida diaria no tienen
“reglas del juego” escritas y ni siquiera se conocen todos los resultados posibles.
Para abordar el problema de un modo más general usaremos algunas notaciones más abstractas.
Por ejemplo llamaremos “E” a un experimento, que puede consistir en tirar una moneda, elegir una
carrera o cruzar la calle. Llamaremos “S” al conjunto de resultados posibles asociados al
experimento E. Este conjunto de resultados posibles recibirá el nombre de “espacio muestral”. Si se
trata de tirar una moneda, S={Cara; Ceca} es el conjunto de los resultados posibles, pero no
podemos expresar el conjunto de resultados posibles de elegir una carrera, sería tratar de enumerar
todas las cosas que pueden llegar a ocurrir. Ni siquiera podemos decir todas las cosas que pueden
llegar a ocurrir al cruzar una calle.
Podemos asignar letras para identificar los sucesos. Por ejemplo, A={Cara} y B={Ceca}. Con
esta notación escribiríamos S={A;B}. No se ha ganado mucho y hasta se ha complicado el
problema de tirar una moneda, pero al cruzar la calle escribiríamos S={A;B;C;…;Z} refiriéndonos a
la posibilidad de muchas cosas que pueden llegar a ocurrir. O bien, de un modo más general

𝑆 = {𝐴1 ; 𝐴2 ; … ; 𝐴𝑛 }

De este modo podemos decir que hay no sólo dos resultados posibles sino n resultados posibles
al cruzar la calle: A1=llegar en diez segundos al otro lado, A2=tropezar en mitad de la calle…. Hay
unas pocas cosas de las que se puede tener seguridad absoluta: que algo va a ocurrir entre todas las
opciones posibles, o lo que es lo mismo, es imposible que no ocurra nada.
Si nos referimos a la probabilidad de un evento como

𝑃(𝐴) = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎 𝑎𝑙 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴

en el experimento consistente en tirar una moneda será

1
𝑃(𝐴) = 𝑃{𝐶𝑎𝑟𝑎} = 𝑝𝐴 = = 0,5 = 50%
2

La notación 𝑝𝐴 refiere al valor numérico de la probabilidad del evento A. La dificultad es


asignar un número a los eventos de la vida real. Por ejemplo

𝑃(𝐴2 ) = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎 𝑎 𝑡𝑟𝑜𝑝𝑒𝑧𝑎𝑟 𝑒𝑛 𝑚𝑖𝑡𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑙𝑙𝑒 =¿ ?

Lo que sí sabemos es que no es imposible que tal evento ocurra, por lo tanto

𝑃(𝐴2 ) = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎 𝑎 𝑡𝑟𝑜𝑝𝑒𝑧𝑎𝑟 𝑒𝑛 𝑚𝑖𝑡𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑙𝑙𝑒 > 0

Lo que aseguramos es que esta probabilidad es mayor que cero, simplemente que es un evento
posible.
5

En síntesis, aseguramos que la probabilidad de cualquier evento es mayor que cero y menor que
uno, que la probabilidad del espacio muestral vale uno y que la probabilidad de un evento imposible
vale cero. En términos de la teoría de conjuntos, diremos

𝑃(𝐴) > 0 𝑃(𝑆) = 1 𝑃(∅) = 0

En orden: la probabilidad de cualquier evento es mayor que cero, la probabilidad del espacio
muestral vale uno, y la probabilidad de un evento vacío vale cero. Como la máxima probabilidad
posible vale uno, cualquier probabilidad de un evento real tiene que ser menor que uno.

A modo de paréntesis, si es necesario recuperar algunas nociones de conjuntos y operaciones con


conjuntos, incluimos un par de páginas, con letra más pequeña, que pueden omitirse si no necesitan tales
aclaraciones. Retomamos nuestro texto en la página 7.

Relaciones entre conjuntos: inclusión y equivalencia

Si el conjunto de días del año es el conjunto de referencia, se dice que es el conjunto “universal” “U”. El
conjunto de días nublados es parte del conjunto “U”, por lo tanto se dice que “A” es un “subconjunto” de “U”
o que está incluido en “U” (𝐴 ⊂ 𝑈). Es razonable que los días lluviosos sean también nublados. Si somos más
estrictos en la definición y entendemos que “día nublado” quiere decir que “hay al menos una nube en el
cielo”, si llamamos “B” al conjunto de días lluviosos resulta que 𝐵 ⊂ 𝐴 y, por lo tanto, a su vez en “U”, por
lo tanto 𝐵 ⊂ 𝐴 ⊂ 𝑈.
Si admitimos que ningún día despejado puede ser lluvioso y llamamos “C” al conjunto que cumple con
estas dos propiedades, resulta que “C” no posee ningún elemento. Se dice que es un “conjunto vacío” y
representa por “∅”. Se admite que el conjunto vacío está incluido en todos los conjuntos (∀𝐴, ∅ ⊂ 𝐴).
Para expresar la relación de inclusión entre conjuntos por medio de relaciones lógicas utilizamos la
implicación
(𝐴 ⊂ 𝐵) ⇔ ∀𝑥/𝑥 ∈ 𝐴 => 𝑥 ∈ 𝐵
En un diagrama

En el diagrama se representa el elemento “x” dentro del conjunto “A”. Como todos los elementos que
están dentro de “A”, también están dentro del conjunto “B”, entonces “x” también está dentro del conjunto
“B”. Podemos recordar que “todos los hombres (A) son mortales (B), Sócrates (x) es hombre (𝑥 ∈ 𝐴),
entonces Sócrates es mortal (𝑥 ∈ 𝐵)”.
Otra relación entre conjuntos es la de igualdad. Si todos los elementos de “A” están en “B” y a su vez
todos los de “B” están en “A” se dice que “A” y “B” son iguales: 𝐴 = 𝐵.

(𝐴 = 𝐵) ⇔ ∀𝑥/𝑥 ∈ 𝐴 <=> 𝑥 ∈ 𝐵

Un diagrama requiere superponer los dos dibujos. A modo de ejemplo, “A” es el conjunto de “los griegos”
y “B” es el conjunto de las “personas de nacionalidad griega”. El ejemplo es obvio pero “equivalencia” refiere
a decir lo mismo de una manera diferente.
La inclusión de conjuntos es válida para la igualdad, es decir, si A=B es cierto que AB y AB (A está
incluido en B y B está incluido en A). Recíprocamente si AB y BA debe ser A=B (Si A está incluido en B
y B está incluido en A, entonces A es igual a B).
Notemos también que la inclusión puede ser estricta cuando, como en el último diagrama, un conjunto está
contenido dentro de otro pero existe algún elemento del otro conjunto que no pertenece al primero. Si así no
fuera, podrían ser iguales. En general la inclusión no es estricta y admite la igualdad de modo que, cuando se
6

trate de una inclusión estricta debe aclararse o diferenciarse la inclusión estricta de la que no lo es, por
ejemplo 𝐴 ⊂ 𝐵 para la inclusión, tal como la hemos definido, que admite la igualdad, y 𝐴 ⊂ 𝐵 para la
inclusión estricta.

Operaciones con conjuntos

Dados dos conjuntos es posible formar otro nuevo por medio de operaciones. Por ejemplo el conjunto
“unión” es el formado por los elementos que pertenecen al menos a uno de los conjuntos. Puede notarse que
se asocia con la operación lógica “disyunción”.

𝐴 ∪ 𝐵 = {𝑥 / (𝑥 ∈ 𝐴)˅(𝑥 ∈ 𝐵)}
En un diagrama

El conjunto intersección está formado por los elementos que pertenecen a ambos conjuntos A y B. La
intersección se asocia con la operación lógica “conjunción”.

𝐴 ∩ 𝐵 = {𝑥 / (𝑥 ∈ 𝐴)˄(𝑥 ∈ 𝐵)}
En un diagrama

El complemento de “A” es el conjunto de elementos que pertenecen al universal al cual “A” está referido,
pero que no pertenecen a “A”. Se asocia con la operación lógica “negación”.

𝐴̅ = {𝑥/(𝑥 ∉ 𝐴)˄(𝑥 ∈ 𝑈)} = {𝑥 / 𝑥 ∉ 𝐴}

En la segunda igualdad se omite la referencia a la pertenencia al conjunto universal, lo cual se asume. En


un diagrama

Las tres operaciones mencionadas se llaman elementales porque no pueden obtenerse por medio de la
combinación de otras. Una operación derivada es la diferencia entre conjuntos, escrita como 𝐴 − 𝐵 y dada por
el conjunto de elementos que pertenecen a A pero no a B

𝐴 − 𝐵 = {𝑥 / (𝑥 ∈ 𝐴)˄(𝑥 ∉ 𝐵) = 𝐴 ∩ 𝐵̅
7

La última igualdad expresa que la diferencia entre A y B equivale a la intersección entre A y el


complemento de B, por lo tanto puede expresarse a través de las operaciones elementales de conjuntos.
La diferencia simétrica, a veces escrita como 𝐴∆𝐵, es el conjunto de elementos que pertenecen a “A” o a
“B”, pero no a ambos simultáneamente. Puede derivarse de una manera muy sencilla en la forma

𝐴∆𝐵 = (𝐴 ∪ 𝐵) − (𝐴 ∩ 𝐵)

Las leyes de De Morgan se expresan


̅̅̅̅̅̅̅
𝐴 ∪ 𝐵 = 𝐴̅ ∩ 𝐵̅
Y
̅̅̅̅̅̅̅
𝐴 ∩ 𝐵 = 𝐴̅ ∪ 𝐵̅

Se sugiere verificar las leyes de De Morgan sombreando los diagramas, conocidos como “diagramas de
Venn”, respetando gráficamente las operaciones de unión, intersección y complemento.

En relación con las operaciones de conjuntos, se llama “unión” entre dos conjuntos a la reunión
de los elementos de dos conjuntos. Suele notarse con el símbolo ∪ y escribimos

𝐴 ∪ 𝐵 = 𝑢𝑛𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜𝑠 𝐴 𝑦 𝐵

Para que un evento se encuentre en la unión entre dos conjuntos, tal evento debe pertenecer al
menos a uno de los dos conjuntos mencionados. A modo de ejemplo, si al tirar un dado se establece
como evento A={números pares}={2;4;6} y como B={números menores que 3}={1;2}, la unión de
ambos eventos se escribe
𝐴 ∪ 𝐵 = {1; 2; 4; 6}

Los números 1, 2, 4, 6 cumplen al menos una de las dos condiciones: ser par o menor que tres.
La otra operación de conjunto se llama “intersección” y suele notarse con el símbolo ∩ de modo
que un evento perteneciente a la intersección requiere que pertenezca a los dos eventos
simultáneamente. Sobre el ejemplo anterior diremos que

𝐴 ∩ 𝐵 = {2}

El número 2 es el único que cumple las dos condiciones: ser par y menor que tres.
Para vincular estas operaciones con el cálculo de probabilidades, notemos que podemos escribir
la probabilidad de la unión en términos de las probabilidades individuales de la forma

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)

Verifiquemos que esta forma de calcular la probabilidad de la unión de eventos es correcta. La


probabilidad de que al tirar un dado el resultado sea par vale P(A)=½=0,5. La probabilidad de que
un número resulte menor que tres vale P(B)=1/3=0,333. La probabilidad de que salga el número 2,
1
el único en la intersección, vale 𝑃(𝐴 ∩ 𝐵) = 6 = 0,1666. La probabilidad asociada a la unión vale
4
𝑃(𝐴 ∪ 𝐵) = 6 = 0.6666. Se deja como ejercicio de cálculo verificar que se cumple la expresión de
cálculo propuesta.
La otra operación fundamental de conjuntos se llama “complemento”. El complemento de un
conjunto refiere a los elementos que no pertenecen al conjunto. Se lo denota con la denominación
del conjunto y una línea horizontal sobre ella. De modo que

𝐴̅ = {𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑞𝑢𝑒 𝑛𝑜 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒𝑛 𝑎𝑙 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜 𝐴}


8

Para calcular la probabilidad del complemento de un evento recurrimos a una operación muy
sencilla.
𝑃(𝐴̅) = 1 − 𝑃(𝐴)

Sobre el ejemplo del dado el complemento 𝐴̅ = {1; 3; 5} y el complemento 𝐵̅ = {3; 4; 5; 6}.


Podemos verificar que
1 1
𝑃(𝐴̅) = 1 − 𝑃(𝐴) = 1 − = = 0,5 = 50%
2 2
y
1 2
𝑃(𝐵̅) = 1 − 𝑃(𝐵) = 1 − = = 0,666 = 66,66%
3 3

En particular, si dos resultados son mutuamente excluyentes, es decir, que no pueden ocurrir en
forma simultánea, por ejemplo que sea par e impar a la vez, la probabilidad de su ocurrencia
simultánea o intersección es nula y la probabilidad de la ocurrencia de al menos uno de los
resultados o de la unión será la suma de las probabilidades de cada uno de ellos. Esto es válido para
la probabilidad de la ocurrencia alternativa de muchos resultados excluyentes, que será la suma de
las probabilidades individuales. Como 𝑃(𝐴 ∩ 𝐵) = 0

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)

A modo de ejercicio que permita consolidar lo anterior, proponemos: Hallar la probabilidad de


que un número entre 1 y 30 sea múltiplo de tres, de que sea par, de que sea múltiplo de tres y par, de
que sea múltiplo de tres o par, de que no sea múltiplo de tres, de que no sea par, de que no sea
múltiplo de tres ni par y de que no sea ambas cosas simultáneamente.
Resolvamos primero el ejercicio propuesto. Separemos los números entre el 1 y el 30 en los que
son pares pero no múltiplos de 3 (2, 4, 8, 10, 14, 16, 20, 22, 26, 28), los que son múltiplos de 3 pero
no pares (3, 9, 15, 21, 27), los que son pares y múltiplos de 3 (6, 12, 18, 24, 30), y los que no son
pares ni múltiplos de 3 (1, 5, 7, 11, 13, 17, 19, 23, 25, 29). Llamemos a los pares
A={2,4,6,8,10,12,14,16,18,20,22,24,26,28,30} y llamemos ahora al conjunto formado por los
múltiplos de 3, B={3,6,9,12,15,18,21,24,27,30}. Basta contar para obtener que la P(A)=1/2 y que
P(B)=1/3. Si observamos en la primera clasificación que hay cinco elementos en la intersección, es
decir en los que son pares y múltiplos de tres, escribimos P(A∩B)=1/6.
Al pedir que sea múltiplo de tres o par, se refiere a la unión de los conjuntos indicados arriba.
Basta contarlos para ver que son veinte elementos, por lo tanto, P(A∪B)=2/3, pero el objetivo es
poner en práctica los teoremas relativos a la unión y al complemento, de modo que también
podemos aplicar la ley relativa a la unión de conjuntos, con lo cual verificaríamos tanto el teorema
como la conformación de los conjuntos

1 1 1 4 2
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) = + − = =
2 3 6 6 3

De la misma manera podemos verificar la validez de la ley relativa al complemento para los que
no son pares o no pertenecen al conjunto A, y para los que no son múltiplos de tres, o no pertenecen
a B,
1 1 1 2
𝑃(𝐴̅) = 1 − 𝑃(𝐴) = 1 − = 𝑦 𝑃(𝐵̅) = 1 − 𝑃(𝐵) = 1 − =
2 2 3 3

Que no sea múltiplo de 3 ni par refiere a los que quedan excluidos de ambos conjuntos. En la
1
agrupación inicialmente propuesta hallamos diez elementos. Escribiríamos 𝑃(𝐴̅ ∩ 𝐵̅) = 3. Por otra
9

parte, los que no son simultáneamente par y múltiplo de 3, refiere a no pertenecer a los elementos
de la intersección. Vemos que hay 24 elementos que no cumplen a la vez las dos condiciones.
5
Luego 𝑃(𝐴 ̅̅̅̅̅̅̅
∩ 𝐵) = 6. Como se trata de un complemento, podemos verificar que

1 5
̅̅̅̅̅̅̅
𝑃(𝐴 ∩ 𝐵) = 1 − 𝑃(𝐴 ∩ 𝐵) = 1 − =
6 6

Probabilidad condicional e independencia

Hasta el momento hemos hablado de la probabilidad de un evento, simbolizado con una letra
genérica A, asociada con un experimento aleatorio. A modo de ejemplo, el experimento aleatorio
puede consistir en tirar un dado y el evento, que el resultado sea un número mayor que 3. Ya hemos
dicho que la probabilidad asociada vale 1/2=0,5=50% dado que serían favorables el 4, 5 y 6. Pero si
nos dan una información adicional, como por ejemplo que se trata de un número par, sabemos que
los números posibles son el 2, 4 y 6 porque excluimos los impares. Entre ellos el 4 y el 6 son
mayores que el número 3. De modo que la información adicional acerca de que se trata de un
número par limita el número de casos posibles a tres valores, de los cuales dos son pares (4 y 6). Por
lo tanto el número de casos posibles vale 3 (pares, dado que los impares fueron descartados), y lo
favorables son 2 (los pares y mayores que 3). En consecuencia podemos escribir

2
𝑃(𝑀𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 3 𝑠𝑎𝑏𝑖𝑒𝑛𝑑𝑜 𝑞𝑢𝑒 𝑒𝑠 𝑝𝑎𝑟) =
3

Para expresarlo en un lenguaje simbólico, si A representa el evento “sale un número mayor que
3” y B representa el evento “sale un número par”, dado que los casos posibles son los favorables a
B. Notaremos con una barra “/” el texto “sabiendo que”.

𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑎 𝐴 𝑦 𝑎 𝐵
𝑃(𝐴/𝐵) =
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑎 𝐵

En nuestro ejemplo, el resultado vale 2/3, pero podemos expresarlo de una manera más general
en términos de probabilidades.
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴/𝐵) =
𝑃(𝐵)
En nuestro caso será
𝑃(𝐴 ∩ 𝐵) 2/6 2
𝑃(𝐴/𝐵) = = =
𝑃(𝐵) 3/6 3

Lo que llamaremos “probabilidad condicional” es precisamente el cálculo de una probabilidad


cuando no sólo se conoce el experimento aleatorio sino alguna información adicional acerca de los
resultados posibles. En otro ámbito, podríamos preguntarnos por la probabilidad de aprobar un
examen final dado que se aprobó los dos parciales con diez, que intuitivamente no será la misma
que si se aprobaron los dos parciales con cuatro. O la duración de un viaje puede depender del día
de la semana o del estado del tiempo, o del estado de la ruta.
Es muy frecuente que la probabilidad de ocurrencia de un evento dependa de alguna información
relativa a la ocurrencia de otro con el cual está asociado o del cual “depende” de alguna manera. De
allí que se dice que los eventos son “dependientes” si la información acerca de la ocurrencia de uno
de ellos afecta la probabilidad de ocurrencia del otro.
10

A modo de ejemplo, si la probabilidad de obtener un número mayor que tres, al tirar un dado,
vale 2/3 si se sabe que salió un número par, si se supiera que el resultado fue un número impar, ésta
probabilidad valdrá 1/3 porque sólo habrá un resultado favorable: el 5.
La noción de “independencia” es el planteo opuesto a la dependencia. Es decir, cuando la
probabilidad de ocurrencia de un evento no se modifica por la ocurrencia o no ocurrencia del otro.
Por ejemplo, la probabilidad de aprobar un examen sabiendo que llueve, o la probabilidad de
obtener un número par al tirar un dado sabiendo que hace frío.
En tal caso podemos escribir que

𝑃(𝐴/𝐵) = 𝑃(𝐴/𝐵̅) = 𝑃(𝐴)

Bajo condiciones de independencia, omitimos la referencia condicional al evento B o a su


complemento considerando que el evento A no depende del evento B. Si retomamos la forma
general de la probabilidad condicional

𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴/𝐵) =
𝑃(𝐵)
y decimos que si hay independencia

𝑃(𝐴/𝐵) = 𝑃(𝐴)
resulta
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴) =
𝑃(𝐵)
Haciendo un pasaje de términos

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴). 𝑃(𝐵)

Esto nos dice que, cuando dos eventos son independientes, la probabilidad de la intersección,
también llamada probabilidad “conjunta”, se obtiene como producto de las probabilidades
individuales.
Recordemos que la probabilidad de obtener “cara” al tirar una moneda vale 1/2. Si tiramos dos
monedas, la probabilidad de obtener cara en las dos vale

1 1 1
𝑃(𝑐𝑎𝑟𝑎 𝑦 𝑐𝑎𝑟𝑎) = 𝑃(𝑐𝑎𝑟𝑎). 𝑃(𝑐𝑎𝑟𝑎) = ∗ =
2 2 4

Esto es válido para cualquier cálculo de probabilidad en tanto los eventos sean independientes.
A modo de ejercicios, planteemos, al tirar un dado.
1. Hallar la probabilidad de obtener un número par y menor que 3.
2. Hallar la probabilidad de obtener un número impar o menor que 3.
3. Hallar la probabilidad de obtener un número par sabiendo que es menor que 4.
4. Hallar la probabilidad de obtener un número impar sabiendo que es menor que 4.
5. Al tirar una moneda y un dado, hallar la probabilidad de obtener una cara y un número menor
que 3.
6. Al tirar tres monedas, hallar la probabilidad de obtener tres caras.
7. Al tirar dos dados, hallar la probabilidad de que la suma de los resultados sea mayor que 10.
11

Resolución de los ejercicios

Al plantear que al tirar un dado se obtenga un número par, tenemos como casos favorables el 2,
4 y el 6. Al pedir que sea menor que 3, tenemos el 1 y el 2. El único número que cumple con las dos
condiciones es el 2. Como hay seis casos posibles, resulta que

1
𝑝=
6

En el segundo planteo pedimos que sea impar o menor que tres, por lo tanto que se cumpla al
menos una de las dos posibilidades, en consecuencia los casos favorables sería el 1, 2, 3, o 5 y
resulta
4 2
𝑝= =
6 3

En el tercer ejercicio se dice “sabiendo que es menor que 4”, por lo tanto los casos posibles son
el 1, 2 y 3. Entre ellos solamente el 2 es par, luego

1
𝑝=
3

Plantearemos el mismo problema usando la definición de probabilidad condicional.

𝑃(𝐴 ∩ 𝐵) 𝑃(𝑝𝑎𝑟 𝑦 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 4) 1/6 1


𝑃(𝐴/𝐵) = = = =
𝑃(𝐵) 𝑃(𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 4) 1/2 3

Si en cambio pedimos como favorable que sea impar, hay dos casos favorables menores que 4 y
serían el 1 y 3, luego
2
𝑝=
3

Plantearemos otra vez el mismo problema usando la definición de probabilidad condicional.

𝑃(𝐴 ∩ 𝐵) 𝑃(𝑖𝑚𝑝𝑎𝑟 𝑦 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 4) 2/6 2


𝑃(𝐴/𝐵) = = = =
𝑃(𝐵) 𝑃(𝑖𝑚𝑝𝑎𝑟) 1/2 3

Al tirar una moneda y un dado, como son experimentos independientes, la probabilidad de que
ocurran los dos eventos será el producto de las probabilidades individuales. La probabilidad de cara
vale ½ y la probabilidad de obtener un número menor que 3 vale 2/6=1/3, luego

1 1 1
𝑝= ∗ =
2 3 6

Al tirar una moneda, la probabilidad de obtener una cara vale p=1/2. Como se la tira tres veces y
son eventos independientes, podemos obtener la probabilidad de que los tres resultados sean cara
multiplicando las probabilidades, es decir

1 1 1 1
𝑝= ∗ ∗ =
2 2 2 8
12

En el último ejercicio se pide que al tirar dos dados se obtenga 6 en las dos tiradas. La
probabilidad de que al tirar un dado se obtenga el 6 vale 1/6, pero como las dos tiradas son
independientes, volvemos a multiplicar las dos probabilidades

1 1 1
𝑝= ∗ =
6 6 36

El número de casos en que la suma excede de diez corresponde a los pares (5;6), (6; 5) y (6;6),
por lo tanto, hay 3 casos favorables entre 36 casos posibles y la probabilidad vale 1/12.

Variable aleatoria

Para abordar la última etapa en el planteo teórico del problema del cálculo de probabilidades,
trataremos lo que se conoce como “variable aleatoria”. Se trata de representar a los eventos por
medio de números. Así como las caras del dado pueden ser numeradas, también se puede asignar un
número a las caras de una moneda, por ejemplo

𝐶𝑒𝑐𝑎−→ 0 𝐶𝑎𝑟𝑎−→ 1

Lo mismo podemos hacer con la asignación de números a las bolillas de un bolillero, o a los
números de documento, o a los números de libreta de estudiante, a las calles o a las casas.
Hay números que se asignan de manera arbitraria, como puede ser los que asignamos a las caras
de la moneda o a las caras del dado, o a las bolillas del bolillero. En el caso de los números de las
casas y las calles, si bien son arbitrarios, responden a cierto criterio. Notemos que también en el
dado porque la suma de los números de las caras opuestas da siete. Los números de documento son
menos arbitrarios aun porque están secuenciados de acuerdo con la fecha de nacimiento y de
realización del trámite de documentación. Por otra parte el número de estudiantes en un curso o el
número de vehículos que pasan por hora por una esquina están determinados con un cierto criterio
objetivo.
Así como no sabemos qué número va a salir al tirar un dado, tampoco sabemos qué número de
documento nos va a tocar o cuántos estudiantes habrá en un curso. Vemos que los tres experimentos
son aleatorios en el sentido que no se conoce el resultado previamente a la realización del
experimento, pero en cada uno de ellos tenemos un conocimiento a priori diferente. En el dado sólo
conocemos las reglas del juego, de modo que sabemos cuáles son los resultados posibles y que son
igualmente probables. Al tramitar un número de documento, no sabemos cuál nos va a tocar pero
tenemos una idea aproximada en función de la secuencia. Al contabilizar el número de inscriptos en
un curso sólo sabemos que no puede superar la capacidad del aula donde se dictará.
Si bien estas variables aleatorias son diferentes en su naturaleza, tienen algo en común: que se
las puede contar. A este tipo de variables aleatorias que pueden contarse se las llamará “variables
aleatorias discretas”.
Otros experimentos aleatorios, como medir el tiempo de viaje, el peso de una carga, la velocidad
de un vehículo, la distancia recorrida en un minuto, no pueden ser respondidos siempre con
números enteros. Tomemos la distancia recorrida. Puede ser de 25m (25 metros), o de 25,4m (25
metros 4 decímetros), o de 25,47m (25 metros, 4 decímetros y 7 centímetros). Podríamos agregar
todos los decimales que deseemos en tanto tenga sentido en la medición. En todo caso podemos
tener una limitación técnica o conveniencia en recortar el número de decimales a informar, pero en
principio podríamos asignar infinito número de decimales a la medida. A este tipo de variables
aleatorias se debe asignar un continuo de números reales y se las llama “variables aleatorias
continuas”.
13

Por el momento nos limitaremos a consolidar esta idea por medio de un par de ejercicios. Entre
los siguientes experimentos, ¿a cuáles podría asociarse una variable aleatoria continua y a cuáles
una variable aleatoria discreta?

-Tirar veinte monedas y contar el número de caras


-Tirar tres dados y sumar los resultados obtenidos.
-Contabilizar el número de contenedores que puede cargar un buque.
-Registrar el tiempo que se requiere para cargar el buque.
-La carga en toneladas que puede llevar un camión.
-La velocidad máxima registrada durante un viaje.
-La cantidad de cajas de un equipo que puede llevar un vehículo.
-El número de libros que puede almacenar una biblioteca.
-El peso de los libros almacenado en la biblioteca.
-El consumo eléctrico durante el curso del mes.

Por otra parte, proponer otros cinco experimentos que puedan asociarse a una variable aleatoria
discreta y cinco a una variable aleatoria continua.

En general se usa una notación para la variable aleatoria por medio de letras mayúsculas,
frecuentemente la X, Y, Z, o bien X1, X2, X3, típicamente utilizadas para variables. Por ejemplo, al
tirar un dado, si X es la variable aleatoria discreta asociada, escribiríamos

𝑋 = {1; 2; 3; 4; 5; 6}

como una manera de establecer el conjunto de valores posibles. Si asignamos el cero a la cara y el
uno a la ceca al tirar una moneda, y lo representamos por la variable aleatoria Y, notaríamos

𝑌 = {0; 1}

Si fuese una variable aleatoria continua, quizá un tiempo de viaje que puede durar entre dos y
cuatro horas, escribiríamos
𝑇 = {𝑡/ 2ℎ ≤ 𝑡 ≤ 4ℎ 𝑡 ∈ 𝑅}

como una manera de decir que la variable aleatoria T, asociada a la palabra “tiempo”, está
representada por un número real (𝑡 ∈ 𝑅 se lee “t pertenece al conjunto de números reales”) en el
rango entre dos horas y cuatro horas.
Se trata sólo de notaciones para expresar de un modo general un problema específico que puede
ser tanto si salió cara o ceca, como el tiempo de duración de un viaje.
Para expresar que se pretende conocer la probabilidad de obtener un cinco al tirar un dado,
escribiríamos
1
𝑃(𝑋 = 5) =
6

Lo leemos “la probabilidad de que la variable aleatoria X, asociada a los resultados posibles de
tirar un dado, dé por resultado concreto el número 5, vale un sexto”. El texto puede resultar extenso
pero la notación es abreviada y resulta clara en la medida que se hace costumbre su uso. Al tirar una
moneda
1
𝑃(𝑌 = 0) =
2

tiene un significado que se propone como ejercicio escribir en palabras.


14

Si preguntamos, sobre el experimento consistente en tirar un dado

𝑃(𝑋 < 3) 𝑃(𝑋 = 𝑛ú𝑚𝑒𝑟𝑜 𝑝𝑎𝑟) 𝑃(𝑋 < 3 𝑦 𝑋 𝑛ú𝑚𝑒𝑟𝑜 𝑝𝑎𝑟)

reconocemos preguntas planteadas previamente, pero en un formato más general que nos va
acostumbrando a leer el cálculo de probabilidades en términos de la variable aleatoria. Tratemos de
asignar los valores de probabilidad que corresponde a los planteos que acabamos de hacer.
Para expresar el planteo de un problema de probabilidades en una forma muy general,
escribimos
𝑃(𝑋 = 𝑥) = 𝑝𝑥

Si comparamos esta notación con la relativa a la probabilidad de obtener un cinco al tirar un


dado, vemos que es similar. En el ejemplo del dado, 𝑋 = {1; 2; 3; 4; 5; 6}, 𝑥 = 5, y 𝑝𝑥 = 1/6. En
general X es la variable aleatoria, x es un resultado particular de la variable aleatoria y 𝑝𝑥 es la
probabilidad asociada a ese resultado particular.

Expresiones de la distribución puntual

Vamos a aplicar la noción de distribución puntual de probabilidad para el dado. En la siguiente


tabla presentamos la variable aleatoria con sus resultados posibles a la izquierda y los valores de
probabilidad en la columna derecha

𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
1 1/6 1/6
2 1/6 2/6
3 1/6 3/6
4 1/6 4/6
5 1/6 5/6
6 1/6 6/6=1

El siguiente gráfico presenta la tabla como un conjunto de columnas correspondientes a los


valores numéricos 1 al 6 con un valor de probabilidad de 1/6.

En algunas ocasiones se puede ofrecer una expresión matemática o cálculo de la distribución de


probabilidad, otras veces una tabla y se puede visualizar en un gráfico. Todos son modos diferentes
de expresar la idea de conocer el valor de probabilidad asociado a cada uno de los resultados
posibles de la variable aleatoria.
15

Al tirar dos monedas y contabilizar el número de caras, la distribución de probabilidad


corresponde a la siguiente tabla
𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝
𝑥
0 ¼=0,25 ¼=0,25
1 2/4=½=0,5 ¾=0,75
2 ¼=0,25 4/4=1,00

Si tiramos dos dados y sumamos los resultados de las caras, vemos que pueden estar en el rango
de 2 (dos unos) a 12 (dos seis). La distribución resulta de contabilizar el número de combinaciones
de resultados que permite sumar cada uno de los valores posibles. Agregamos el “1”, el “13” y el
“14” para decir explícitamente que son resultados imposibles porque no hay ninguna combinación
de formas en que puedan caer los dados que dé esa suma. Sabemos que hay 36 casos posibles pero
sólo uno de ellos dará por resultado la suma X=2. Si sale “1” el primero y “2” el segundo o bien “2”
el primero y “1” el segundo, la suma dará X=3, de modo que hay dos casos favorables entre 36
posibles para obtener como suma X=3. Si seguimos analizando los posibles resultados veremos que
hay tres modos diferentes de obtener X=4 con un máximo de seis casos favorables para obtener
X=7, el máximo de probabilidad de la distribución. La tabla resulta finalmente

𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
1 0 0
2 1/36=0,028=2,8% 2,8%
3 2/36=0,056=5,6% 8,4%
4 3/36=0,083=8,3% 16,7%
5 4/36=0,11=11% 28,7%
6 5/36=0,14=14% 42,7%
7 6/36=0,17=17% 59,7%
8 5/36=0,14=14% 73,7%
9 4/36=0,11=11% 84,7%
10 3/36=0,083=8,3% 92,0%
11 2/36=0,056=5,6% 97,6%
12 1/36=0,028=2,8% 100%
13 0
14 0

Se deja como ejercicio construir los gráficos de las distribuciones de probabilidad de los dos
experimentos previos.
Retomemos la primera tabla

𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
1 1/6 1/6=0,167
2 1/6 2/6=0,333
3 1/6 3/6=0,500
4 1/6 4/6=0,667
5 1/6 5/6=0,833
6 1/6 6/6=1,000
16

En la última columna hemos agregado la distribución puntual acumulada. Esto es la suma de


todos los valores de probabilidad hasta llegar a la variable aleatoria indicada. Por ejemplo la
expresión 𝑃(𝑋 ≤ 3) = 0,5 nos dice que la probabilidad de obtener un resultado menor o igual que
tres al tirar un dado (1, 2 o 3) vale 0,5. El símbolo ∑ 𝑝𝑥 es una forma abreviada de escribir
𝑖

𝑃(𝑋 ≤ 𝑥𝑖 ) = ∑ 𝑝𝑥𝑗
𝑗=1

Se lee “la probabilidad acumulada hasta el valor de la variable aleatoria dado por 𝑥𝑖 es la suma
de los valores de índice j desde el valor j=1 hasta j=i”. Por ejemplo
4
1 1 1 1 4
𝑃(𝑋 ≤ 𝑥4 ) = ∑ 𝑝𝑥𝑗 = 𝑝𝑥1 + 𝑝𝑥2 + 𝑝𝑥3 + 𝑝𝑥4 = + + + = = 0,666 …
6 6 6 6 6
𝑗=1

Presentamos el gráfico de la distribución acumulada correspondiente al experimento aleatorio


“tirar un dado”.

Pero no vamos a preocuparnos por la notación sino por la idea de acumular probabilidad hasta
cada resultado posible.
Agreguemos la distribución acumulada para las dos monedas

𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 (𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
0 ¼=0,25 0,25
1 2/4=½=0,5 0,75
2 ¼=0,25 1,00

Se deja como ejercicio construir los gráficos de distribución puntual correspondientes a tirar dos
monedas y contar el número de caras, y a tirar dos dados y sumar los resultados obtenidos en las
caras. También los de distribución acumulada.

Función de distribución

Hemos visto que la distribución puntual se limita a conocer los valores de probabilidad
asignadas a cada uno de los resultados posibles de la variable aleatoria con la que se está trabajando.
17

Como debe informarse para todos los resultados posibles, tiene que ser un número finito o limitado
de valores. Esto sólo puede aplicarse a variables aleatorias discretas.
Hemos definido la distribución acumulada como la suma de los valores de probabilidad a
medida que se incrementa la variable aleatoria. Lo podemos ver en la tercera columna de la última
tabla de la página anterior.
Veremos luego que esta distribución acumulada puede utilizarse tanto para variables aleatorias
discretas como continuas. Por el momento definamos una forma más general de distribución
acumulada, que se llama “función de distribución”.
Para quienes recuerden la definición de una función en matemática, se trata de asignar un valor a
una variable dependiente (y) a partir de diferentes valores de la variable independiente (x). Suele
notarse habitualmente 𝑦 = 𝑓(𝑥).
En el cálculo de probabilidades, sobre la base de la idea general de función en matemática, se
define la “función de distribución” 𝐹(𝑥), en letra mayúscula

𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥)  𝑥𝑹

La notación precedente se lee “la función de distribución se define como la probabilidad


acumulada de que la variable aleatoria sea menor o igual que todos los números reales”.
Sobre la base del ejemplo anterior podemos construir la función de distribución correspondiente
al experimento aleatorio “tirar un dado”.

0 𝑥<1
1
1≤𝑥<2
6
2
2≤𝑥<3
6
3
3≤𝑥<4
𝐹(𝑥) = 6
4
4≤𝑥<5
6
5
5≤𝑥<6
6
6
{6 = 1 6≤𝑥

Esta definición difiere de la anterior en que se trata de una función de números reales definida
sobre todo el campo de los números reales. Por lo tanto nos habilita a usar herramientas del análisis
de funciones aplicadas al cálculo de probabilidades, en particular veremos que se podrá aplicar a
variables aleatorias continuas.
En el siguiente gráfico se presenta la función de distribución correspondiente a “tirar un dado”
de acuerdo con la descripción anterior
18

Vemos que numéricamente los valores de la función de distribución y de la distribución


acumulada son iguales, pero mientras la distribución acumulada asigna valores puntuales en cada
uno de los valores numéricos que pueden resultar de “tirar un dado”, en la función de distribución
se representa con un gráfico escalonado con valores de F(x) para todos los números reales, no
solamente los resultantes de tirar un dado.
La actividad propuesta consistirá en construir la función de distribución correspondiente a los
ejercicios propuestos la semana pasada: tirar dos monedas y contabilizar el número de caras y tirar
dos dados y sumar los resultados de las caras.
En una variable aleatoria continua la noción empírica de probabilidad pierde sentido porque se
trataría de un número finito de casos favorables entre infinitos posibles. Hay eventos como el
tiempo que tarda en desarrollarse un proceso y en general medidas de distancia, de masa, de
temperatura que tienen asociado un rango continuo de valores posibles como variable aleatoria. En
tales casos, no es posible obtener una distribución puntual de probabilidades. En cambio tiene
validez la función de distribución 𝐹(𝑥) en tanto probabilidad acumulada. Si la variable aleatoria
tiene un rango continuo, 𝐹(𝑥) será una función continua no decreciente en tanto acumula
probabilidad en cada punto del rango de la variable aleatoria.
Para ofrecer una idea más concreta. Tomemos como referencia el gráfico de la página anterior.
Allí se indican los seis saltos de probabilidad correspondientes a los incrementos de probabilidad
acumulada en un dado. Imaginemos que nuestro dado tiene doce caras con los números 0,5 a 6,0 en
intervalos de 0,5, es decir que la nueva variable aleatoria sería

𝑋 = {0.5; 1.0; 1.5; 2.0; 2.5; 3.0; 3.5; 4.0; 4.5; 5.0; 5.5; 6.0}

Cada uno de estos doce valores posibles de la variable aleatoria tendría una probabilidad
asociada de un doceavo, a diferencia de un sexto en un dado normal. La forma del grafico sería la
misma, pero con doce saltos de un doceavo de probabilidad cada vez que avanzamos en 0,5 en la
variable aleatoria.
Sigamos por este camino y construyamos un dado de sesenta caras. Nuestra nueva variable
aleatoria será
𝑋 = {0.1; 0.2; 0.3; … … … ; 5.7; 5.8; 5.9; 6.0}

Tendremos sesenta saltos de 1/60 (un sesentavo) de probabilidad durante el recorrido de todos
los valores posibles de esta variable aleatoria. El gráfico sería similar pero con sesenta saltos muy
pequeños. Y si seguimos con un dado de seiscientas caras

𝑋 = {0.01; 0.02; 0.03; … … … ; 5.97; 5.98; 5.99; 6.00}


19

Si lo miramos desde una cierta distancia ya no se distinguirán los seiscientos saltos, de 1/600 en
probabilidad, de un segmento de recta.
Si continuamos el razonamiento con 6000, 60000, 6.000.000 de caras, a los fines prácticos
funcionará como si fuera una “pelota”, y si lo llevamos más lejos, podemos imaginar una esfera con
“infinitas caras”. Si cada punto de la esfera tiene asociado un punto, todos tendrán la misma
probabilidad de que al rodar se detenga con uno de los puntos hacia arriba (que salga ese número),
pero cada número o punto tendrá un infinitésimo de probabilidad.
Más allá de lo anterior, que puede resultar muy abstracto, nuestro gráfico será más amigable. Si
en lugar de los seis saltos del dado cúbico, tenemos los sesenta o seiscientos o seis millones, de
saltos cada vez más pequeños, el gráfico se parecerá cada vez más a una línea. Para una esfera será
estrictamente una línea. De modo que el gráfico de la distribución de probabilidad asociada a la
esfera tendrá la forma

Nuestra función de distribución de probabilidad acumulada asociada a la esfera numerada en su


superficie con los números del cero al seis será un segmento de recta que comienza a acumular
probabilidad a partir de X=0, y habrá acumulado toda la probabilidad posible cuando X=6.
Escrito como función de distribución será

0 𝑥<0
𝑥
𝐹(𝑥) = { 0≤𝑥≤6
6
1 6<𝑥

Notemos que la probabilidad acumulada hasta la un tercio del rango será

2
𝑃(𝑋 ≤ 2) = 𝐹(2) = = 0,33
6

La probabilidad acumulada en la mitad superior del rango será dada por el complemento

2 2
𝑃(𝑋 > 2) = 1 − 𝑃(𝑋 ≤ 2) = 1 − 𝐹(2) = 1 − = = 0,67
6 3

La probabilidad acumulada entre 2 y 5 será la diferencia entre lo acumulado hasta el límite


superior indicado (5) y el límite inferior (2).

5 2 3
𝑃(2 < 𝑋 ≤ 5) = 𝑃(𝑋 ≤ 5) − 𝑃(𝑋 ≤ 2) = 𝐹(5) − 𝐹(2) = − = = 0,5
6 6 6
20

3 1 2
Tomemos otros límites como 𝑃(1 < 𝑋 ≤ 3) = 𝐹(3) − 𝐹(1) = − = = 0,3333
6 6 6

En el siguiente gráfico representamos la probabilidad acumulada entre los números 2 y 5. Para


ello nos ubicamos en el punto 𝑋 = 5, recorremos el gráfico verticalmente hasta intersectar el
segmento de recta y desde allí nos movemos horizontalmente hasta determinar el valor de
probabilidad acumulada desde 𝑋 = 0. Obtenemos 5/6. De la misma manera vamos desde 𝑋 = 2
hasta el segmento de recta y desde allí hasta obtener la probabilidad acumulada entre 𝑋 = 0 y 𝑋 =
2 de valor 2/6. La diferencia entre las dos probabilidades acumuladas nos da como resultado 5/6-
2/6=3/6=1/2=0,5, tal como lo habíamos escrito más arriba.

A los fines de ejercitar un poco este método gráfico y analítico para el cálculo de probabilidades,
dejamos algunos ejercicios para completar.

1. Hallar la probabilidad acumulada hasta 4. (2/3=0,666…)


2. Hallar la probabilidad de que la variable aleatoria sea mayor que 4. (1/3=0,333…)
3. Hallar la probabilidad acumulada entre 2 y 4. (1/3=0,333…)

Podemos definir una nueva función como medida de la velocidad de acumulación de


probabilidad. A tal función se la llama “función de densidad” y se nota con letras minúsculas

𝑓(𝑥) = 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑

Es una medida de la rapidez de crecimiento de la función de distribución. El nombre proviene de


la noción de densidad aplicada a un cuerpo material. Un cuerpo es más denso cuando más materia
contiene en el volumen que ocupa. La “densidad de probabilidad” refiere a cuánta probabilidad se
acumula en cada región del dominio en que está definida la variable aleatoria.
Veamos la aplicación concreta a la distribución que hemos estudiado a partir de incrementar las
caras del dado. La velocidad de crecimiento de esta variable aleatoria es constante en el intervalo
[0;6] en que la hemos definido, mientras que esa velocidad de crecimiento es nula fuera de ese
intervalo. Luego
0 𝑥<0
1
𝑓(𝑥) = { 0≤𝑥≤6
6
0 6<𝑥
21

El valor “un sexto” es la pendiente del segmento de recta que crece en la vertical desde cero
hasta uno (variable dependiente) cuando en la horizontal la variable aleatoria (variable
independiente) se desplaza desde cero hasta seis.
Si representamos gráficamente esta función de densidad se obtiene

Es claro por qué se llama “uniforme” a esta distribución de probabilidad: es constante y vale lo
mismo para todos los puntos en los que está definida la variable aleatoria.
El área encerrada debajo de la función de densidad representa la probabilidad de obtener un
resultado dentro del intervalo pedido. Tomemos, a modo de ejemplo, el ejercicio 3, en el que se
pide la probabilidad 𝑃(2 ≤ 𝑥 ≤ 4).

El área encerrada debajo de la representación de la función de densidad es un tercio del área total
y puede calcularse como “base por altura”, siendo

1 2 1
Á𝑟𝑒𝑎 = (4 − 2) ∗ = = = 0,333 …
6 6 3

Esta distribución de probabilidad es tan usada que hasta tiene un nombre y una nomenclatura, se
llama distribución “uniforme”, suele utilizarse para aplicar técnicas de muestreo y caracterizar lo
que se llama “ruido aleatorio” en análisis de señales.
La nomenclatura suele ser 𝑈[𝑎; 𝑏] para la función de distribución y 𝑢[𝑎; 𝑏] para la función de
densidad definidas en la forma

0 𝑥<𝑎
1
𝑢[𝑎;𝑏] (𝑥) = { 𝑎≤𝑥≤𝑏
𝑏−𝑎
0 𝑏<𝑥
Y
22

0 𝑥<𝑎
𝑥−𝑎
𝑈[𝑎;𝑏] (𝑥) = { 𝑎≤𝑥≤𝑏
𝑏−𝑎
1 𝑏<𝑥
Con gráficos de densidad

Y de distribución

Otras funciones de distribución y de densidad

La que hemos presentado como “distribución uniforme” es la más simple entre las distribuciones
continuas y representa la misma probabilidad para todos los puntos del intervalo. Sin embargo las
distribuciones pueden tener aspectos muy variados y complejos. Por ejemplo en la siguiente figura
presentamos las funciones de densidad de probabilidad de precipitaciones sobre dos ríos de España
(Guadalquivir y Segura)

https://www.researchgate.net/figure/Figura-1-Funcion-de-Densidad-de-Probabilidad-para-las-
precipitaciones-cuencas-del_fig1_227452493
23

La curva de la izquierda, del río Segura, tiene un mínimo de precipitación en unos 200mm y un
máximo en torno a los 800mm anuales, mientras presenta un máximo de probabilidad en torno a los
400mm (no discutiremos el eje vertical porque corresponde a un análisis estadístico).En cambio la
densidad de probabilidad del río Guadalquivir tiene un mínimo de precipitación en torno a los
300mm y un máximo en el orden de 1200mm, con un máximo de probabilidad alrededor de
650mm. La distribución del río Segura es más concentrada que la del río Guadalquivir.
El área encerrada debajo de ambas curvas vale uno, de modo que si se quiere calcular la
probabilidad de que la precipitación sobre el río Segura sea menor que 500mm bastaría calcular el
área debajo de la curva que le corresponde a la izquierda de un segmento que corte el eje horizontal
en 500mm. Una observación del gráfico permite estimar esta probabilidad en el orden del 60%,
mientras que la misma probabilidad estimada para el río Guadalquivir difícilmente alcance el 20%.
El siguiente gráfico es una simulación de una forma típica de la densidad de probabilidad de la
velocidad del viento para estudios de energía eólica

Luego veremos el significado de la línea de trazos (Average windspeed o velocidad promedio


del viento). Por el momento observemos el área sombreada que representa la probabilidad de que la
velocidad del viento se encuentre entre V1 y V2.
La siguiente es una función de densidad comparable a distribuciones de probabilidad de
detección de un electrón en las proximidades del núcleo de un átomo como el hidrógeno o el helio.
La presentamos sóloo para representar intervalos con altos valores de probabilidad y otras regiones
con mínimos de probabilidad. Si bien es un dibujo inventado, puede ser
24

https://postdata-
statistics.com/introestadistica/impartidos/quimicauah20142015/sesion05b/sesion05b

La siguiente tiene un nombre, se llama “función de densidad exponencial”, y tiene aplicaciones


en tiempos de espera y procesos de decaimiento radioactivo. Notemos el interés puesto en el cálculo
del área como probabilidad de que el resultado sea menor que X0

https://www.uv.es/ceaces/base/modelos%20de%20probabilidad/MODEPR1.htm

Vemos que hay variadas formas de las funciones de densidad que describen el comportamiento
probabilista de muchos sistemas reales. El cálculo de probabilidades se realiza por medio del
cálculo de áreas encerradas bajo las curvas, o bien si se dispone de las funciones de distribución.
Una forma típica de las funciones de distribución correspondientes a los primeros gráficos es
25

https://www.uv.es/ceaces/base/variable%20aleatoria/varalea.htm

El punto de máxima inclinación de la función de distribución o punto de máxima velocidad de


acumulación corresponde al punto de máxima densidad de probabilidad. Si presentan tres máximos
de probabilidad la distribución será sinuosa con tres máximos de inclinación.
La siguiente función de distribución es típica de la correspondiente a la función de densidad
exponencial. En el ejemplo gráfico, a un valor de la variable aleatoria “x” le corresponde una
probabilidad acumulada “y”.

http://www.sc.ehu.es/sbweb/fisica/cursoJava/numerico/montecarlo/aleatoria/aleatoria.htm

En general se utiliza funciones explícitas cuando es posible, tablas de distribución de


probabilidad acumulada cuando éstas están disponibles, o bien una estimación gráfica cuando no
hay métodos más precisos de cálculo.

Parámetros de las distribuciones

Para continuar debemos ocuparnos ahora de caracterizar propiedades de las funciones de


densidad y distribución. Con este fin es usual resumir tales propiedades en unos pocos parámetros
numéricos. En el cálculo de probabilidades se seleccionan parámetros como medidas de posición,
de variabilidad y de forma que analizaremos a continuación.
26

El “mínimo” de una distribución es el menor valor que puede adquirir una variable aleatoria, de
la misma manera que el “máximo” es el mayor valor posible. Así, al tirar un dado, el mínimo vale 1
y el máximo vale 6. El “rango” de valores posibles, rango de definición o simplemente rango, para
una variable continua se obtiene como la diferencia entre el máximo y el mínimo,

𝑅𝑎𝑛𝑔𝑜 = 𝑀á𝑥𝑖𝑚𝑜 − 𝑀í𝑛𝑖𝑚𝑜

para una variable discreta es más conveniente expresar los extremos, así, al tirar un dado el rango va
entre 1 y 6 (seis valores posibles).
Un parámetro usado muy frecuentemente es la “moda” o valor modal, que se interpreta como el
valor de variable aleatoria con máximo de probabilidad.
Otro parámetro de uso general se conoce como “mediana” 𝑥̃ y es el valor de la variable aleatoria
que divide la distribución en dos partes iguales. Es decir que 𝑃(𝑋 ≤ 𝑥̃) = 0,5, o lo que es lo mismo
𝐹(𝑥̃) = 0,5.
Sobre la base de la misma idea se definen los “terciles” o valores de variable aleatoria que
1
dividen la distribución en tres partes iguales, es decir que si 𝑥𝑡1 y 𝑥𝑡2 son los dos terciles, 𝐹(𝑥𝑡1 ) =
3
2 1 2
y 𝐹(𝑡𝑡2 ) = . También se utilizan “cuartiles” 𝑥𝑐1 , 𝑥𝑐2 y 𝑥𝑐3 tales que 𝐹(𝑥𝑐1 ) = , 𝐹(𝑥𝑐2 ) = y 𝐹(𝑥𝑐3 ) =
3 4 4
3
4
.Puede verse que el segundo cuartil coincide con la mediana. También se utilizan “quintiles” 𝑥𝑞1
hasta 𝑥𝑞4 , “deciles”, 𝑥𝑑1 a 𝑥𝑑9 y “percentiles” 𝑥𝑝1 a 𝑥𝑝99 . Aquí el percentil cincuenta coincide con
la mediana. En la práctica se usan como medidas rústicas que aproximan valores de probabilidad
cuando no se puede pedir mucha precisión a la información disponible. Por ejemplo los terciles
separan el tercio central del tercio más pequeño y el tercio más grande, los quintiles hacen algo
parecido con un poco más de resolución separando el veinte por ciento más alejado en ambos
extremos del veinte por ciento central, y dos medidas de apartamiento de la centralización no tan
extremas en los quintos segundo y cuarto. Los deciles subdividen medidas de probabilidad con
resolución de un diez por ciento y los percentiles con un uno por ciento, aunque para poder llegar a
tal nivel de resolución se requiere mucha información y se aplica a situaciones en que la
aproximación a la distribución de probabilidad es casi totalmente empírica. Veremos que los
cuartiles tienen algunas aplicaciones como medidas de variabilidad y de forma.
La moda y la mediana son medidas de posición, de localización o de centralización, en el sentido
que definen la ubicación de la distribución dentro del eje real, la moda en el sentido del “valor más
probable” o evento más probable, y la mediana en términos de la mitad de la distribución o de la
probabilidad acumulada. El rango 𝑅𝑔 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 , el rango intercuartílico 𝑥𝑐3 − 𝑥𝑐1 y otras
medidas similares caracterizan la dispersión de la distribución, el primero delimitando el rango
máximo de dispersión de la variable en cuestión y el segundo el rango donde se distribuye el 50%
de la probabilidad. Pero también hay medidas de forma, como la posición relativa entre la moda y la
mediana o los rangos intercuartílicos laterales 𝑥𝑐3 − 𝑥𝑐2 y 𝑥𝑐2 − 𝑥𝑐1 que analizaremos luego.

Esperanza

El concepto de “esperanza” es uno de los más útiles, aunque su interpretación resulta un poco
más oscura que las de otros parámetros ya mencionados. Inclusive el nombre “esperanza” induce a
error debido a que no se trata de ningún valor que se espere obtener como resultado de un
experimento aleatorio. La esperanza es un parámetro de posición definido como una manera de
determinar el punto de equilibrio de una distribución puntual o de una función de densidad. En tal
sentido es una medida de posición o de localización central de la distribución. Se la interpreta como
la ubicación en la cual debería encontrarse toda la distribución de probabilidad asociada a un
experimento si ésta se concentrase en un único punto. En este sentido nos permite expresarnos en
un lenguaje determinista como si toda la distribución estuviese concentrada en el valor esperado.
27

Varianza y Dispersión

La “varianza” es una medida de variabilidad. Es la esperanza de la diferencia cuadrática con


respecto a la esperanza de la distribución. En tal sentido será mayor en la medida que la distribución
sea dispersa, es decir, que existan muchos valores de la variable aleatoria alejados de la esperanza y
con alta probabilidad de ocurrencia.
Sobre la base de la varianza se define la dispersión, también llamada dispersión estándar de una
distribución, como la raíz cuadrada de la varianza. Usualmente se la expresa con el símbolo griego
σ (sigma)
𝜎 = √𝑉(𝑥)

Es usual que en estadística se exprese la varianza como 𝜎 2 (sigma cuadrado) y a la esperanza


como μ (mu). El objetivo de definir la desviación estándar es recuperar las dimensiones (unidades)
de la variable aleatoria y así disponer de una medida de dispersión comparable con el rango,
esperanza y otros parámetros, expresados en las unidades propias de la variable aleatoria. Así, si la
variable aleatoria es una distancia, la dispersión se medirá en metros pero su varianza quedará
expresada en metros cuadrados. Sin embargo la varianza es una medida de variabilidad de
distancias, no una medida de superficie. De allí que la raíz cuadrada de la varianza hace
comparables la dispersión resultante con los otros parámetros.
En general hay un 60% a 70% de probabilidad de que, al realizar un experimento aleatorio, se
obtenga un valor de la variable aleatoria entre la esperanza y los límites definidos por la diferencia y
la suma con respecto a la esperanza: 𝜇 − 𝜎 y 𝜇 + 𝜎. Así, la varianza es una medida de dispersión,
muy útil a los fines de cálculo, pero de difícil interpretación. La dispersión, en cambio, es de más
sencilla interpretación y comparable con el rango de variabilidad en términos de las dimensiones de
la variable aleatoria. Los límites 𝜇 − 𝜎 y 𝜇 + 𝜎 también son de sencilla interpretación y pueden ser
graficados en la misma escala que la variable aleatoria. Estos límites se encuentran dentro del rango
de la variable aleatoria y la probabilidad de obtener resultados dentro de tal intervalo es tanto mayor
cuanto más concentrada, unimodal y simétrica es la distribución.

Medidas de forma

Se interpretan como medidas de forma ciertos parámetros que caracterizan el aspecto de la


distribución. Esto resulta complejo y muy variado. Sólo consideraremos uno que se conoce con el
nombre de “asimetría” o “sesgo”. Este parámetro tiene un valor nulo si la distribución es simétrica.
Si el gráfico de la distribución se “estira” hacia la derecha, tiene asimetría positiva, pero si se
“estira” hacia la izquierda, tiene asimetría negativa.
Una medida de forma menos objetiva pero sencilla está dada por la ubicación relativa entre la
esperanza, la mediana y la moda cuando es unimodal. Si la distribución tiene sesgo positivo, el
orden típico es moda-mediana-esperanza, y, si tiene sesgo negativo, es esperanza-mediana-moda.
También la posición relativa de los cuartiles es una medida de forma, así, si la distancia entre el
primero y segundo cuartil es menor que entre el segundo y tercero, la distribución tiene asimetría
positiva, mientras que lo contrario ocurre si tiene asimetría negativa, y si son iguales será simétrica,
y en tal caso también coinciden la mediana y la esperanza (no necesariamente la moda, a menos que
sea unimodal)

𝑆𝑖 𝑥𝑐2 − 𝑥𝑐1 < 𝑥𝑐3 − 𝑥𝑐2 → 𝐴 > 0


𝑆𝑖 𝑥𝑐2 − 𝑥𝑐1 = 𝑥𝑐3 − 𝑥𝑐2 → 𝐴 = 0
𝑆𝑖 𝑥𝑐2 − 𝑥𝑐1 > 𝑥𝑐3 − 𝑥𝑐2 → 𝐴 < 0
28

En el gráfico precedente retomamos la distribución de velocidad del viento que vimos unas
páginas atrás. En ella ubicamos el mínimo (Xm), el máximo (XM) y el rango (Rg o Rango). Si
reconocemos la línea de puntos (average significa “promedio”, veremos en estadística por qué se
utiliza esta denominación y asocia con la idea de esperanza), esa línea representa la esperanza o
punto de equilibrio de la distribución (µ). La moda (Mo) es el valor de máxima probabilidad y la
mediana (Me) representa el punto que divide a la distribución en dos partes de igual área y, por lo
tanto, la misma probabilidad. Con dos paréntesis (< y >) representamos los puntos correspondientes
a la esperanza menos la desviación estándar (µ-σ) y a la esperanza más la desviación estándar
(µ+σ). Dentro de estos límites se encuentra aproximadamente dos tercios de la probabilidad de la
distribución o del área total.
Podemos notar que la curva está “estirada” hacia la derecha, es decir que tiene un rápido
crecimiento hacia el máximo y un decrecimiento más lento. Este tipo de distribuciones están
“sesgadas a derecha” o tienen “sesgo positivo”. Es típico de la distribución del viento y de muchas
otras que están asociadas con la energía. Si estuviese estirada hacia la izquierda con rápido
decrecimiento, tendría “sesgo negativo”. Y si fuese simétrica tendría sesgo nulo o sería “insesgada”.
En el ejemplo gráfico, el orden de los tres parámetros de posición es, de izquierda a derecha: moda-
mediana-esperanza. Si tuviera sesgo negativo el orden típico sería: esperanza-mediana-moda.
Si presenta un ascenso rápido y un lento decrecimiento se dice que tiene “sesgo positivo” y, si el
crecimiento es lento con un decrecimiento rápido, el “sesgo” es “negativo”, según se ve en las
figuras que siguen.
29

En el gráfico que sigue mostramos las distribuciones de probabilidad correspondientes a dos ríos
diferentes, el Segura (CHS) y el Guadalquivir (CHG). Ubicamos la moda y la esperanza en cada
uno de ellos, así como los puntos correspondientes a la esperanza más y menos un desvío estándar
para el Segura en trazo grueso y para el Guadalquivir en trazo fino. Podemos ver que tanto el rango
como los intervalos entre desvíos son más anchos para el Guadalquivir que para el Segura, lo que
indica una mayor varianza y mayor variabilidad en el comportamiento para el primero que para el
segundo. Los dos tienen sesgo positivo, aunque es más notable en el Segura que en el Guadalquivir.

Finalmente volvemos a presentar uno de los gráficos que vimos previamente.


30

Esta distribución es “trimodal” con una moda principal (Mp) o máximo absoluto de
probabilidad, y dos modas secundarias (Ms) que representan máximos relativos de probabilidad.
Esta distribución también presenta asimetría positiva pero el comportamiento es mucho más
complejo y es muy difícil ubicar visualmente la esperanza, la mediana y el intervalo entre desvíos,
para lo cual hay que recurrir necesariamente al cálculo.
A modo ilustrativo, quizá ayuden estos videos a comprender mejor la idea de “distribución de
probabilidad”
Variable aleatoria
https://www.youtube.com/watch?v=n0T_HcJ7oak
Distribución de probabilidad
https://www.youtube.com/watch?v=naEqsDvkIXs
Función de densidad (omitir referencia a integrales)
https://www.youtube.com/watch?v=2gI8Ri792ig

Distribución normal o de Gauss (campana de Gauss)

Algunas distribuciones, como la “uniforme”, o la mencionada “exponencial” tienen propiedades


características que justifican un estudio particular e inclusive un nombre y nomenclatura propios. La
distribución normal es conocida también como “campana de Gauss” precisamente por la forma de
“campana” que tiene su función de densidad. Tiene como aspecto singular que describe el
comportamiento de una variable aleatoria continua de un experimento que se realiza totalmente al
azar. Sólo hay dos parámetros que determinan la forma de la función de densidad y del cálculo de
probabilidad a través de la distribución: la esperanza (µ) y la varianza (σ2).
En el siguiente gráfico presentamos la forma típica de la función de densidad. Se indica que la
probabilidad de obtener un valor entre cada una de las regiones sombreadas. Esto nos muestra que
los eventos aleatoriamente alejados de la esperanza en más de tres desvíos estándar son muy raros
(dos por mil).

https://es.wikipedia.org/wiki/Distribución_normal

La distribución normal se simboliza 𝑁(; ²) de una manera general. Por ejemplo 𝑁(3; 4)
refiere una distribución gaussiana o normal con esperanza 3 y varianza 4, por lo que la desviación
estándar vale 2. Debemos recordar que la desviación estándar (σ) es la raíz cuadrada de la varianza.
La distribución es simétrica y unimodal centrada en la esperanza. Eso quiere decir que el punto
de equilibrio (la esperanza) coincide con la moda (el máximo de probabilidad) y la mediana (el
punto que divide a la distribución por la mitad en probabilidad).
Al dibujar una curva se llama “punto de inflexión” al punto donde el gráfico cambia de
curvatura. En el gráfico que sigue, la intersección de las líneas horizontal y vertical indica la
posición del punto de inflexión. También se indica la tangente o pendiente, que es máxima en ese
31

punto. Puede verse que antes del punto de inflexión el gráfico está curvado hacia arriba y después
está curvado hacia abajo. De allí que sea el “punto de cambio de curvatura”.

https://es.wikipedia.org/wiki/Punto_de_inflexión

Volvemos a copiar el dibujo de la distribución normal debajo. Podemos ver dos puntos de
inflexión. La primera parte de la función de densidad está curvada hacia arriba (curvatura positiva)
incrementándose progresivamente en forma cada vez más rápida. En el eje horizontal ese punto se
indica como µ-σ. Sigue creciendo en forma cada vez más lenta hasta alcanzar un máximo en la
esperanza, coincidente con la mediana y la moda. Luego decrece hasta el siguiente punto de
inflexión, con curvatura hacia abajo (negativa), localizado en µ+σ. De allí en adelante vuelve a
cambiar de curvatura (positiva) decreciendo en forma cada vez más lenta.

Idealmente, esta distribución se extiende sobre todo el eje real, entre “menos infinito” y “más
infinito”, pero en la práctica puede notarse que más allá de tres desvíos estándar con respecto a la
esperanza la función de densidad es casi nula.
La probabilidad correspondiente a la región ubicada entre la esperanza y un desvío estándar a
izquierda y derecha (entre µ-σ y µ+σ) es de 68,2%. Si extendemos los límites simétricos entre la
esperanza y dos desvíos a izquierda y derecha tenemos el 95,4% de probabilidad (entre µ-2σ y
µ+2σ) y si nos extendemos a tres desvíos, la probabilidad acumulada es casi del 100% (99,8%). De
allí que tener eventos más alejados que tres desvíos con respecto a la normal son muy raros.
Presentamos ahora conjuntamente la función de densidad y la función de distribución.
32

https://es.wikipedia.org/wiki/Tabla_normal_estándar

Nos limitaremos a analizar el dibujo. En azul podemos ver el gráfico de la función de densidad
normal y el área sombreada en celeste, que representa la probabilidad acumulada.
En naranja podemos ver la función de distribución acumulada que va progresivamente
calculando el área encerrada bajo la curva de la función de densidad interpretándola como la
probabilidad acumulada correspondiente a cada punto. En el gráfico se ha indicado un valor como
ejemplo de 0,84134.
Por el momento nos limitaremos a dibujar algunas funciones de densidad normal o campanas de
Gauss a partir de los datos de esperanza y varianza. Retomamos el ejemplo inicial. 𝑁(3; 4) refiere
una distribución gaussiana o normal con esperanza 3 y varianza 4, por lo que la desviación estándar
vale 2. Centraremos nuestro gráfico en “µ=3”, calcularemos los límites µ-σ=3-2=1 y µ+σ=3+2=5, y
ubicaremos allí los puntos de inflexión. En µ-3σ=3-3*2=-3 y en µ+3σ=3+3*2=9 la curva
prácticamente debería tocar el eje. Trataremos de hacer este dibujo a mano alzada para
familiarizarnos con la forma. Dejamos como ejercicios graficar a) N(25; 25), b) N(-3;9) y c)
N(10;16).
Les envío un par de videos que podrían quizá ayudar al estudio de la distribución normal. El
primero puede contribuir a interpretar qué es y en qué tipo de situaciones se aplica. Algunas son un
poco forzadas en el video, pero sirven.
https://www.youtube.com/watch?v=phY8Z9-TXCY
El segundo puede contribuir a la interpretación del gráfico en términos de cálculo.
https://www.youtube.com/watch?v=VYmd5hLykTo
El video que sigue trata sobre la “distribución normal estándar” con esperanza nula y varianza
unitaria (𝜇 = 0 𝑦 𝜎 = 1). No prestaremos atención a la referencia a “integrales”, sino a la
representación del área bajo la curva de la distribución normal.
https://www.youtube.com/watch?v=97EI9mS0WS8
El último trata del problema del cálculo con el recurso de la estandarización y de la tabla para
distribuciones normales cualesquiera utilizando la simetría de la distribución y el complemento.
https://www.youtube.com/watch?v=59I-6L5QMfc
Desde el punto de vista del cálculo, el problema que presenta la distribución normal es que su no
se dispone de una función a la que se pueda asignar valores a la variable y resolverla. Por tal motivo
no es posible hallar valores exactos de probabilidad y en la práctica se recurre a estimaciones
numéricas que se presentan en tablas de la distribución normal. En estas tablas se dispone de
valores numéricos de una única distribución normal conocida como “estándar” con esperanza cero y
33

varianza uno, es decir 𝑁(0; 1). Es usual que se indique (𝑧) como una referencia a la función de
densidad normal estándar, y (𝑧) como una forma sintética de expresar la función de distribución
normal estándar.
Para utilizar estas tablas con distribuciones normales con otros valores de  y de  se
“estandariza” la variable aleatoria original X por medio de la relación

𝑋−
𝑍=

Este procedimiento transforma una variable que responde a una distribución normal genérica,
expresada como 𝑁(𝜇; 𝜎 2 ) en una normal estándar 𝜑(𝑧) = 𝑁(0; 1). A veces se usa la nomenclatura
𝑁(𝜇; 𝜎) para designarla a través de la esperanza y el desvío estándar, pero utilizaremos la esperanza
y la varianza en la forma 𝑁(𝜇; 𝜎 2 ).
Para utilizar la tabla de distribución normal acumulada estándar, que copiamos debajo en
formato comprimido pero se adjunta en otra página y como archivo independiente, tomamos como
referencia la esperanza y la varianza indicadas, y el o los límites dentro de los cuales se quiere
calcular la probabilidad pedida.
Si buscamos 𝑃(𝑋 ≤ 𝑎) = 𝑃(𝑍 ≤ 𝑧𝑎 ) = 𝜙(𝑧𝑎 ), para ello estandarizamos el valor “a” en la
forma
𝑎−
𝑧𝑎 =

Con este valor numérico vamos a la tabla y buscamos el entero y el primer decimal en la
columna derecha, si es negativo, en el lado izquierdo de la tabla y, si es positivo, en el lado derecho.
El segundo decimal lo buscamos como columna en la que corresponda para obtener la probabilidad
buscada en la intersección de la fila y la columna. Si, por ejemplo, el valor estandarizado fuese 𝑧𝑎 =
−1,26, buscamos en la fila “-1,2” hasta la columna “0,06” para hallar 0,1038 como probabilidad
deseada.
En caso que se pida que sea mayor que cierto valor, recurrimos al complemento, así

𝑃(𝑋 > 𝑎) = 1 − 𝑃(𝑋 ≤ 𝑎) = 1 − 𝑃(𝑍 ≤ 𝑧𝑎 ) = 1 − 𝜙(𝑧𝑎 ) = 1 − 0,1038 = 0,8962

Y si se busca una probabilidad entre dos límites

𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑃(𝑋 ≤ 𝑏) − 𝑃(𝑋 ≤ 𝑎)

Estandarizamos ambos límites de modo que

𝑎− 𝑏−
𝑧𝑎 = 𝑦 𝑧𝑏 =
 
Luego

𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑃(𝑋 ≤ 𝑏) − 𝑃(𝑋 ≤ 𝑎) = 𝑃(𝑍 ≤ 𝑧𝑏 ) − 𝑃(𝑍 ≤ 𝑧𝑎 ) = 𝜙(𝑧𝑏 ) − 𝜙(𝑧𝑎 )


34

https://es.calameo.com/read/00500660270f7c1129194

Por ejemplo, si partimos de 𝑋  𝑁(3,4) asumimos que 𝜇 = 3 y que 𝜎 2 = 4, de donde 𝜎 = 2, la


raíz cuadrada de la varianza, y se obtiene 𝑍 = (𝑋 − 3)/2 es la variable estandarizada con
distribución 𝑍𝑁(0,1) y sabemos que (𝑧) = 𝐹(𝑧) está disponible en tablas. Así, si buscamos la
probabilidad 𝑃(𝑋 ≤ 1.5) será
1,5 − 3
𝑃(𝑋 ≤ 1.5) = 𝑃 (𝑍 ≤ ) = 𝑃(𝑍 ≤ −0,75)
2

Este valor que se obtiene en tablas. Iremos a la fila “-0,7” y a la columna “0,05” para hallar la
probabilidad deseada, que da 0,2266.
Por el momento dejamos como ejercicios
1. Supóngase que X tiene una distribución 𝑁(2; 16). Use la tabla de distribución normal para
evaluar las probabilidades siguientes probabilidades:
a) 𝑃(𝑋 ≤ 2,1) b) 𝑃(𝑋 > 0,8) c) 𝑃 (−1,2 < 𝑋 ≤ 4,5).

2. Se sabe que un material se fabrica con una longitud que responde a una distribución normal
con parámetros µ = 20m y ² = 4m2.
a) Calcular la probabilidad de que la longitud sea menor que 17.
b) Calcular la probabilidad de que la longitud sea mayor que 21.
c) Calcular la probabilidad de que la longitud esté entre 17 y 21.
Graficar cada distribución y las regiones correspondientes a las probabilidades deseadas.
35
36

1. Supóngase que X tiene una distribución 𝑁(2; 0,16). Use la tabla de distribución normal para
evaluar las probabilidades siguientes probabilidades:
a) 𝑃(𝑋 ≤ 2,1) b) 𝑃(𝑋 > 1,8) c) 𝑃 (1,8 < 𝑋 ≤ 2,1).
A partir de la información del ejercicio tenemos como datos 𝜇 = 2 y 𝜎 2 = 0,16, por lo tanto
𝜎 = 0,4. A partir de estos datos planteamos

2,1 − 2
𝑃(𝑋 ≤ 2,1) = 𝑃 (𝑧 ≤ ) = 𝑃(𝑧 ≤ 0,25) = 𝜙(0,25) = 0,5987
0,4

El valor de la probabilidad lo obtenemos de buscar en la tabla la intersección de la fila


encabezada a izquierda por “0,2” y la columna “0,05”, correspondiente al segundo decimal.
Para hallar la siguiente probabilidad, recurrimos al complemento

1,8 − 2
𝑃(𝑋 > 1,8) = 1 − 𝑝(𝑋 ≤ 1,8) = 1 − 𝑃 (𝑧 ≤ ) = 1 − 𝑃(𝑧 ≤ −0,50) = 1 − 𝜙(−0,50)
0,4
= 1 − 0,3085 = 0,6915

Para hallar esta probabilidad ubicamos la fila “-0,5” y la primera columna “0,00”.
Para hallar la probabilidad en un intervalo recurrimos a la diferencia entre probabilidades
acumuladas.

2,1 − 2 1,8 − 2
𝑃 (1,8 < 𝑋 ≤ 2,1) = 𝑃 (𝑧 ≤ ) − 𝑃 (𝑧 ≤ ) = 𝜙(0,25) − 𝜙(−0,50)
0,4 0,4
= 0,5987 − 0,3085 = 0,2902

2. Se sabe que un material se fabrica con un parámetro de calidad que responde a una
distribución normal con esperanza µ = 20 y varianza ² = 4.
a) Calcular la probabilidad de que el número de ocurrencias sea menor que 17.
b) Calcular la probabilidad de que el número de ocurrencias sea mayor que 21.
c) Calcular la probabilidad de que el número de ocurrencias esté entre 17 y 21.
A partir de la varianza obtenemos la desviación estándar 𝜎 = 2.

17 − 20
𝑃(𝑋 ≤ 17) = 𝑃 (𝑧 ≤ ) = 𝑃(𝑧 ≤ −1,50) = 𝜙(−1,50) = 0,0668
2
21 − 20
𝑃(𝑋 > 21) = 1 − 𝑃(𝑥 ≤ 21) = 1 − 𝑃 (𝑧 ≤ ) = 1 − 𝑃(𝑧 ≤ 0,50) = 1 − 𝜙(0,50)
2
= 1 − 0,6915 = 0,3085

𝑃(17 < 𝑋 ≤ 21) = 𝑃(𝑋 ≤ 21) − 𝑃(𝑋 ≤ 17) = 𝜙(0,50) − 𝜙(−1,50) = 0,6915 − 0,0668
= 0,6247
37

Logística Apuntes de Estadística


Parte II: Estadística

A grandes rasgos hemos tocado los puntos más relevantes del cálculo de probabilidades. En lo
que sigue abordaremos algunas cuestiones relativas a la estadística. El objetivo de la estadística es
abordar el problema de la incertidumbre desde la información de que se dispone acerca de un
evento. Esa información podría ser útil para evaluar probabilidades de ocurrencias futuras de ese
evento u otro relacionado.
Veremos el origen histórico de la estadística y cómo se ha vinculado con el cálculo de
probabilidades, así como con otros problemas como el de la toma de muestras, la búsqueda de
relaciones y de predicciones, problemas de control y manejo de grandes volúmenes de datos.
Discutiremos los procedimientos para la toma de muestras, el control de información, la
clasificación de información y construcción de histogramas, ojivas y otros modos de presentación
gráfica. Calcularemos parámetros descriptivos y discutiremos aspectos relativos a la inferencia
estadística en un reencuentro con el cálculo de probabilidades.
Introducimos primero la “estadística descriptiva” a través del proceso histórico que llevó en
paralelo el cálculo de probabilidades y la estadística hasta converger en el análisis actual. A este
proceso se incorpora las técnicas de toma de muestras, las aplicaciones industriales al análisis de
procesos, el ajuste empírico de curvas a datos.

Estadística Descriptiva. Introducción histórica

No es fácil establecer un vínculo entre un planteo probabilista y la estadística. Sin dejar de lado
el problema de la toma de muestras y el diseño de métodos numéricos para analizar problemas
multivariados. Se trata de cinco áreas diferentes que responden a problemas distintos pero
vinculados por lo que podríamos llamar variabilidad aleatoria: el problema de los juegos de azar, el
del análisis de datos e inferencia, el problema del error de medición, el del ajuste de modelos de
relación a problemas multivariados y el de la toma representativa de muestras. El desarrollo
histórico permita comprender mejor el estado actual de la relación entre el cálculo de probabilidades
y la estadística.
Puede decirse que la estadística es una disciplina que involucra la colección de datos e infiere
propiedades del experimento que los generó. Si hemos de remontarnos a los orígenes, es posible
que el registro numérico haya precedido al lenguaje escrito. Hace más de cuatro mil años en la
antigua Mesopotamia se llevaba contabilidad en tablillas en un sistema de numeración de base
sesenta, fundamento del actual sistema de medición de ángulos y de tiempo. Si nos remontamos aún
más lejos en el pasado, se ha establecido fechas de huesos, marfil y piedras con marcas hace unos
treinta mil años en Europa Central y Francia, una de ellas es un hueso de lobo con cincuenta y cinco
marcas en grupos de cinco. Hace doce mil años se han encontrado en Oriente Medio muescas en
huesos que es posible representen un calendario lunar. Sin embargo, si hemos de asignar un origen a
la colección sistemática de datos, debemos detenernos hace unos mil años.
En 1085 Guillermo el Conquistador, rey de Inglaterra, encargó a sus asesores que coleccionaran
información con el fin de obtener una descripción del estado actual del reino. Esa información fue
compilada en el hoy conocido como “Domesday Book” (Doomsday Book originalmente en inglés
antiguo, “Libro del Día del Juicio Final”). Esa compilación es una de las fuentes más confiables y
básica para estudios medievalistas. El objetivo era disponer de elementos de juicio posiblemente
con fines impositivos y aportes a la Corona en función con la capacidad de cada poblador. Para ello
constaban las principales mansiones y castillos, sus propietarios, tamaño, superficie arable, bueyes y
una estimación del valor de la propiedad. La información, recabada por comisionados desplegados
por todo el Reino, fue ordenada, sintetizada, compilada en el libro mencionado, y enviada a
Winchester. Guillermo murió en 1087, antes de poder hacer uso de la información recopilada. En la
38

actualidad se estudia estadísticamente el Doomesday Book como fuente de información para la


historia medieval, pero poco análisis se realizó en la época tras su compilación.
La propia palabra “estadística” hace referencia al “estado” como organización de gobierno de
una “población”, término de uso frecuente en el ámbito estadístico, lo cual no es casual. El siglo
XIII fue el de la expansión de las ciudades, la burguesía, el comercio y los estados nacionales con
sus poblaciones.
En el marco del Sacro Imperio Romano Germánico, el conflicto de poder entre el Imperio
Germánico y el Sacro poder Romano era la constante en una alternancia de éxitos, apoyos y
fracasos. Pero en el siglo XIII la balanza se inclinó hacia el Papa en Roma. Nuevamente un poder
con pocas tierras y escasos ejércitos, bastantes recursos y muchos fieles, tuvo que buscar un
permanente equilibrio inestable y múltiple con los reinos y principados locales, comunidades,
ciudades, parlamentos, abadías, sectas, parroquias y gremios.
En relación con la tenencia feudal de tierras, para conservar el poder había que concentrarlo. De
allí que fueron los primogénitos quienes heredaron, y los siguientes hijos debían dedicarse a la
religión o a ser caballeros de segunda categoría, o, en especial los bastardos y segundones, engrosar
las poblaciones urbanas. El pueblo seguía mal cultivando los campos y progresivamente, durante el
siglo XI y XII, fue migrando a las ciudades. Primero pequeñas aldeas, con excepción de antiguos
centros en Italia y algunos puntos costeros. Luego pequeños pueblos y, ya a finales del siglo XII,
comunidades urbanas que comenzaron a reclamar derechos e inmunidades. Conservar el poder ya
no significaba sólo ser el primero entre pares en los dominios campestres y castillos, era necesario
ganar el apoyo de las ciudades y sus pobladores. Se necesitaba recursos monetarios móviles, para
ello impuestos donde era posible cobrarlos. Era necesario el control, la organización y la medida.
Cuestión de necesidades y medios. Las necesidades eran claras, los medios había que crearlos.
Nos dice Genicot (pp. 97-98) que “Era necesario sacar a la administración, en su estructura y en
su personal, de las concepciones y de las formas patrimoniales y feudales. Por una parte,
centralizarla: reforzar el núcleo de sus funcionarios en palacio; generalizar el uso del escrito, que
facilitaba el control de la gestión de los agentes regionales y locales; destacar a veces algunos como
inspectores, inquisidores o comisarios para juzgar sobre el terreno el comportamiento de aquellos –
y también para reprimir las “usurpaciones” de los señores–; crear nuevas escalas jerárquicas, y
aumentar el número de circunscripciones. Por otra parte, reclutar a individuos capaces y seguros,
que supieran leer un texto, hacer cuentas e incluso –en todo caso para los principales– tratar de
cuestiones de derecho; individuos que hicieran carrera, que descubrieran progresivamente los
secretos del oficio, y cuyo origen fuese humilde, nobleza venida a menos, ministerialidad o
burguesía; individuos cuyos servicios pudieran ser retribuidos con un sueldo anual, en lugar de un
feudo hereditario; y cuyo celo fuera mantenido por cambios y promociones previsores de grandes y
pequeñas malversaciones y con objeto de uniformizar el sistema.” Es entre estos individuos donde
debemos buscar los orígenes anónimos de la estadística como uno de los medios para enfrentar las
nuevas necesidades. Más adelante (p. 169-170) agrega que “La observación y la experimentación
tuvieron un lugar bastante modesto…. La especulación no se vio pues muy afectada o frenada por la
experimentación…. Con la primacía de la dialéctica y de la deducción, un segundo rasgo del
pensamiento del siglo XIII debe ser retenido, puesto que, aun siendo menos corriente, tendría
similar alcance para el futuro: la preocupación por poner fin al cisma aristotélico de la física y de las
matemáticas o, si se prefiere, en todas las cosas, a la precisión y a la cifra. Ciudades y campos
empleaban agrimensores, y, poco antes de 1300, el reloj mecánico comenzaba a señalar el tiempo.
Sin que la inexactitud y la aproximación desaparecieran, por lo demás, de las redacciones y los
cálculos de las cuentas públicas….”
En el ámbito del cálculo de probabilidades, los primeros trabajos se remontan a Cardano (1501-
1576) en el marco del cambio de mentalidad renacentista y moderna. El azar surge frente a la
voluntad divina. No podía plantearse el problema de un suceso aleatorio dado que lo impredecible,
inclusive el resultado de un juego de azar, se lo consideraba determinado por la voluntad de Dios.
En el “Liber de Ludo Alaea” (El libro de los juegos de azar), escrito hacia 1560 pero publicado en
39

1663, analiza juegos de azar como los dados y cartas. Entre los posibles resultados de tirar tres
dados concluye que la posibilidad de éxito en obtener al menos una vez un dado número es de 50%,
pero hoy sabemos que este resultado vale 1-(5/6)3=0,4113=41.13%. Se intuye el razonamiento
basado en que, al tirarlo tres veces, hay tres posibilidades de que salga el número deseado entre las
seis caras. Más allá de lo erróneo del planteo se enfatiza el modelo teórico de un dado perfecto, la
ausencia de una voluntad divina en el resultado y nuestro concepto actual de “probabilidad
empírica” como “casos favorables sobre casos posibles”, cálculo que aplicó con éxito a algunos
resultados de juegos de azar. Rescatemos esta cita traducida del Libro de los Juegos de Azar.
“Por esta razón es natural preguntarse por qué aquellos que tiran el dado tímidamente son
derrotados. ¿La mente misma tiene un presentimiento del fracaso? Pero debemos liberar a los
hombres del error; aunque podría pensarse que es verdad, tenemos una razón más manifiesta.
Cuando alguien comienza a sucumbir a una fortuna adversa, está muy frecuentemente
acostumbrado a tirar el dado tímidamente; pero si la fortuna adversa persiste, ésta resultará
necesariamente desfavorable. Entonces, dado que él lo tira tímidamente, la gente piensa que es
desfavorable por esta razón; pero esto no es así. Es porque la fortuna es adversa que el dado cae
desfavorable, y porque el resultado es desfavorable pierde, y porque pierde tira el dado
tímidamente”. (Tabak, pp. 18-19)
Galileo Galilei (1565-1642) escribió un breve trabajo sobre las posibilidades de obtener sumas
en los resultados al tirar tres dados. No planteó la probabilidad como relación entre casos favorables
y posibles sino sólo asignar mayor chance a los números cuya suma se podía obtener bajo mayor
número de combinaciones.
Paralelamente, lo que podría entenderse como el primer trabajo de inferencia estadística fue el
de John Graunt (1620-1674), quien analizó 229250 datos de certificados de defunción emitidos por
parroquias entre 1604 y 1661. Sus conclusiones tuvieron relación con la evaluación de riesgo acerca
de las diversas causas de mortalidad. También recopiló datos sobre nacimientos y halló que había
una mayor frecuencia de varones que de mujeres. Asoció este resultado con el mayor riesgo de
mortalidad de los hombres, por lo que habría un equilibrio entre los sexos en la edad adulta. La
novedad es que esta evaluación fue cuantitativa y no especulativa, cualitativa o discursiva, lo
novedoso fue la introducción del uso de datos y de cálculo para manifestar relaciones entre los
números. Graunt no fue un matemático sino un comerciante, pero debido a su trabajo, en una única
publicación (Natural and Political Observations Mentioned in a following Index, and made upon
the Bills of Mortality) fue admitido en la Royal Society por intercesión del rey Carlos II.
En el ámbito del cálculo de probabilidades, hacia 1650 Blaise Pascal (1623-1662) conoció al
caballero De Méré con quien, dado que era afecto a los juegos de azar, inició discusiones sobre la
solución de estos problemas. Hacia 1654 comenzó a intercambiar correspondencia al respecto con
Pierre de Fermat (1601-1665). Si bien no establecieron una teoría formal, puede decirse que fueron
los primeros ensayos que condujeron a ella en el ámbito limitado a la teoría de juegos en términos
de casos favorables y posibles a través del conteo y el cociente como medida relativa de
probabilidad.
Christian Huygens (1629-1695) en 1657, tras haber escuchado referencias a las comunicaciones
entre Pascal y Fermat, escribió una serie de problemas relativos al cálculo de probabilidades en “De
Ratiociniis in Ludo Aleae” (Sobre el Razonamiento en Juegos de Dados). Sin haber establecido un
fundamento formal, fue sin embargo el primer libro publicado relativo a los juegos de azar.
Jacob Bernoulli (1654-1705) escribió “Ars Conjectandi” (El Arte de Conjeturar), terminado y
publicado por su sobrino Nicolás en 1713. En él extendió las ideas del cálculo de probabilidades a
otras áreas distintas de los juegos de azar, aunque sin elaborar una teoría al respecto. La
contribución más relevante es la “ley de los grandes números” o “teorema de Bernoulli”. En
síntesis, mostró que cuando se incrementa el número de repeticiones de eventos independientes, el
cociente entre los éxitos y las realizaciones se aproxima progresivamente a la probabilidad de éxito.
Esto es verificable para una moneda equilibrada para la que se asume una probabilidad teórica de
40

0,5, pero Bernoulli se planteó el problema inverso, el de inferir la probabilidad desconocida de un


evento a partir del cálculo experimental de la frecuencia relativa, si bien no llegó a resolverlo.
La estadística, independientemente del cálculo de probabilidades, comenzó a ocupar el
pensamiento de científicos como Edmund Halley (1656-1742). Trabajó sobre grandes conjuntos de
datos recopilados por él mismo sobre observaciones astronómicas del hemisferio sur, y datos
meteorológicos y oceanográficos, también fundamentalmente del hemisferio sur, estudio necesario
para la navegación alrededor del mundo que, por aquella época, requería Inglaterra. Sobre esta base
publicó el primer mapa meteorológico y oceanográfico. Sin embargo el trabajo propiamente
estadístico de Halley fue sobre la mortalidad en Breslau (Wroclau) en Polonia occidental. A
diferencia del trabajo extenso y amplio en temática de Graunt, Halley concentró el interés en un
problema específico en relación con la expectativa de vida. Pero más que la esperanza de vida de un
recién nacido, el planteo era, por ejemplo, acerca de la expectativa de que una persona de
determinada edad viva un año más, o cuán esperable era que la mitad de los individuos de cierta
edad muriesen al cabo de cierto tiempo. Esta temática, propia de los actuarios e interés de las
compañías de seguros, fue publicada entonces bajo el título “An Estimate of the Degrees of the
Mortality of Mankind, Drawn from Curious Tables of the Births and Funerals at the City of
Breslaw; with an Attempt to Ascertain the Price of Annuities upon Lives” (Philosophical
Transactions (1683-1775), vol. 17 (1693), pp. 596-610. The Royal Society). El fundamento por el
cual eligió Breslau fue que, de acuerdo con los certificados de Londres, estudiados por Graunt, el
número de muertes era mayor que el de nacimientos. Sólo podía explicarse si la ciudad recibía
aportes de población por migración, muy frecuente en Londres. Para responder a las preguntas
específicas acerca de la expectativa de vida, respuesta que podía estar contenida en los datos, se
requería una población más estable en términos de migraciones, como lo era Breslau. Estudió cinco
años de datos en los que se registraba la edad y fecha de defunción entre 1687 y 1691. Si bien
Halley era un buen matemático, las herramientas de cálculo aplicadas en su trabajo fueron muy
elementales. La novedad fue el modo de analizar los datos para extraer información y responder a
problemas específicos.
El fundamento matemático del cálculo de probabilidades comenzaba a desarrollarse. Abraham
de Moivre (1667-1754) publicó The Doctrine of Chances, or A Method of Calculating the
Probabilities of Events in Play en 1718. Una segunda edición en 1738 incorpora la demostración
del teorema de de Moivre, introduciendo la distribución normal como aproximación de la
distribución binomial para gran número de repeticiones. La estructura del libro no es la de un
desarrollo teórico algebraico, si bien utiliza las mayores herramientas conocidas en su tiempo, sino
una secuencia de problemas progresivamente más complejos relativos a juegos de azar. Si bien no
llegó a tratar el problema de las distribuciones continuas, encontró la aproximación progresiva a la
forma de la “campana” a través del incremento en el número de repeticiones en los juegos de azar.
En 1756 fue publicada una tercer edición de The Doctrine of Chances con un trabajo adicional bajo
el título The Annuities on Lives, sobre la base de una publicación previa de Edmund Halley sobre
los nacimientos y defunciones en Breslau, incorporando conceptos relativos al cálculo de
probabilidades. Quizá fue la primea vinculación entre el cálculo de probabilidades y la aplicación
estadística. En el marco del tratamiento hecho por de Moivre, la noción de “buena o mala suerte”
está ausente y en cambio se presenta plenamente el concepto de “azar” en el cálculo probabilístico.
Thomas Bayes (1702-1761) no realizó ninguna publicación en vida sobre el cálculo de
probabilidades. Sus publicaciones fueron sobre teología y una defensa de las ideas newtonianas
contra las opiniones de Berkeley. Fue Richard Price (1723-1791) quien revisó y publicó su An
Essay towards Solving a Problem in the Doctrine of Chances. Publicado poco después de la muerte
de Bayes, tuvo poco atractivo para los matemáticos de la época. El conocido teorema de Bayes
forma parte de tal publicación. Con la notación actual es un teorema bastante simple de demostrar,
sin embargo en el marco de la época planteó la noción de probabilidad condicional, la inversión del
cálculo de una probabilidad a partir de la comparación entre diferentes posibles hipótesis para
evaluar cuál podría ser la más factible en asociación con cierto resultado y, en ciertos contextos de
41

análisis de posibles factores responsables de un dado evento, en la actualidad se utiliza la


terminología: análisis bayesiano.
Daniel Bernoulli (1700-1782) en 1760 planteó un problema real acerca de los beneficios de un
procedimiento previo a la vacunación contra la viruela en términos del cálculo de probabilidades, lo
que tuvo el mérito evidente, en el marco del análisis probabilístico, de no limitar el ámbito a los
problemas de juegos de azar. Jean d’Alembert (1717-1783) llevó más allá la discusión considerando
la expectativa de vida y el riesgo de vacunación. Sin embargo este trabajo no es estadístico en el
sentido que no se apoya en datos ni registros sino en la especulación probabilística y el cálculo.
Leonard Euler (1707-1783) estudió el problema de los beneficios que podían obtener las casas
de juegos, instaladas por Federico el Grande para recaudar fondos. Para ello utilizó herramientas de
cálculo e ideó una notación similar a la actual para el número combinatorio (𝑛𝑘), estudió la función
“beta” y lo que hoy se conoce como distribución hipergeométrica.
El problema de la precisión en las conclusiones obtenidas a partir de datos numéricos fue tratado
por Adrien-Maire Le Gendre (Legendre) (1752-1833). En 1805 publicó “Nouvelles méthodes pour
la détermination des orbites des Comètes” (París, Didot). El problema estaba en considerar que los
datos astronómicos contenían errores y cada conjunto de mediciones conducía a resultados
diferentes. De modo que la cuestión estaba en hallar los mejores parámetros para determinar las
órbitas a partir de los registros minimizando los errores a partir del conjunto de datos y no de las
mediciones individuales. Lo que propuso fue lo que hoy se conoce como “método de los cuadrados
mínimos”. En 1809 Carl Friedrich Gauss (1777-1855) utilizó el método de los cuadrados mínimos
para determinar órbitas de asteroides pero además reclamó la invención del método aunque no lo
hubo publicado antes que Legendre. Es un planteo más próximo a la estadística si bien se trata de
un refinamiento numérico para establecer una relación funcional entre conjunto de datos.
En 1812 Pierre-Simon Laplace (1749-1827) publica Théorie Analitique des Probabilités, y en
1814 un Essai Philosophique sur les Probabilités. La concepción predominantemente
determinística de Laplace introdujo el recurso al cálculo de probabilidades como herramienta para
el tratamiento de los errores de medición, que aplicó en especial a la astronomía. Trató el problema
del crecimiento de una población en términos probabilísticos, profundizó el análisis de Bayes sobre
la evaluación de hipótesis más probable, retomó el cálculo de π a través de experimentos aleatorios.
Demostró el teorema del límite central como una generalización del teorema de de Moivre.
Destaquemos que el análisis de Laplace, quien llevó al extremo la noción de determinismo, si bien
introduce explícitamente el problema del cálculo de probabilidades, fue sólo instrumental para el
tratamiento de errores de medición.
Siméon-Denis Poisson (1781-1840), en un análisis acerca de la posibilidad de que un acusado
sea hallado culpable y la verosimilitud de que efectivamente lo sea, halló una nueva curva
representativa de una distribución de probabilidad diferente de la normal y, a partir del planteo de
una ecuación diferencial, halló lo que hoy se conoce como “proceso Poisson”.
Robert Brown (1773-1858) fue un naturalista que publicó, en 1828, observaciones de partículas
de polen del orden de unos pocos micrones de diámetro, que se movían de acuerdo a lo que luego se
llamó “movimiento browniano”. Verificó que no se trataba de un movimiento propio del polen, que
en aquel tiempo no se sabía si estaba formado por minúsculos seres vivos y autónomos, sino que
ocurría también en partículas inertes. Observó que se movían tanto en una dirección como en otra,
que el movimiento futuro no estaba influenciado por lo ocurrido en el pasado, y que el movimiento
nunca se detenía. Evitando la evaporación verificó que no era ésta la causa del movimiento y
tampoco podía serlo una atracción entre las partículas de polen. No pudo hallar una causa y por
aquella época, primera mitad del siglo XIX, todavía el pensamiento típico en el ámbito científico
era determinista y orientado a la búsqueda de causas predictivas de los movimientos.
James Clerk Maxwell (1831-1879) intentó explicarlo en 1876 como un movimiento aleatorio. Al
tratar el problema del comportamiento de los gases utilizó una distribución normal para describir las
componentes de velocidad de un gas, lo cual fue un notable éxito y dio origen a la teoría cinética de
42

gases. Si bien se introduce una herramienta probabilística en el desarrollo de la teoría, los


fundamentos son esencialmente determinísticos apoyados en las leyes de la mecánica.
Por entonces el análisis estadístico comenzó a tener un planteo formal y la aleatoriedad un
carácter funcional como modelo explicativo. Uno de los problemas que Karl Pearson (1857-1936)
trató fue la búsqueda de modelos funcionales de curvas que mejor ajustan a pares de datos tomados
de algún experimento sobre variables conjuntas. Por aquella época estaba vigente la discusión
propuesta por Darwin acerca de la selección natural. El proceso de selección sería esencialmente
aleatorio en el sentido que las variaciones entre un individuo y su progenie incorporan alteraciones
al azar, y la supervivencia del más apto daría mayores posibilidades de transmitir esta variante
genética a especies más adaptadas al medio. A diferencia de los procesos determinísticos de los
modelos físicos de la época, este modelo de mutación es por naturaleza esencialmente aleatorio.
Walter Frank Raphael Weldon (1860-1906) fue un catedrático amigo de Pearson, preocupado por el
problema planteado por las ideas darwinianas en términos de cómo considerar las pequeñas
diferencias que no son tenidas en cuenta en la clasificación biológica pero serían el fundamento de
la evolución genética. Weldon no era un matemático y Pearson trató de dar sentido al ajuste de
curvas representadas por gran cantidad de datos discretos. El planteo del problema condujo a
evaluar la probabilidad de que una dada curva ajuste a un conjunto de datos a partir de la generación
aleatoria de curvas que podrían ajustar a ellos. El resultado es lo que hoy se conoce como “prueba
χ2” (prueba chi cuadrado). También colaboró con Francis Galton (1822-1911), primo de Darwin,
quien creó el concepto de eugenesia e introdujo en la estadística las nociones de correlación y de
regresión a la media.
En 1905 Albert Einstein (1879-1955) y en 1906 Marian Smoluchowski (1872-1917) propusieron
explicaciones cuantitativas para el movimiento browniano como consecuencia de los choques
aleatorios de las moléculas con las partículas de polen. A diferencia de la incorporación de
distribuciones en un desarrollo determinístico, el modelo del movimiento browniano es
esencialmente aleatorio.
Andrey Andreyevich Markov (1856-1922) incorporó aportes al teorema del límite central, a la
ley de los grandes números, revisó los trabajos de Bernoulli e introdujo las cadenas de Markov
dándoles su propio nombre. Se trata de una secuencia de eventos aleatorios tales que la probabilidad
de un evento futuro está condicionada por el estado presente pero no por los estados previos al
presente. Este modelo ofrece una aplicación a la interpretación del movimiento browniano, si bien
no fue su objetivo, pero también a problemas de difusión y, en general, a muchos procesos
aleatorios con tales características como teoría de comunicaciones y aplicaciones a la biología.
William Sealy Gosset (1876-1937) fue amigo y recibió el apoyo de Pearson, inclusive en la
publicación, en 1908, de The Probable Error of a Mean (Biometrika, vol. 6, N°1, pp.1-25, 1908)
sobre el error probable en la distribución de la media sobre pequeñas muestras. Fue sin embargo
Fischer quien apreció años después la importancia del desarrollo de Gosset y le dio la forma actual.
Dado que la destilería Guinness, donde trabajaba Gosset, no permitía que ninguno de sus empleados
publicase nada dado que podría violar secretos empresarios, Gosset publicó sus trabajos bajo el
seudónimo de Student en la revista Biometrika, dirigida por Pearson.
George Biddell Airy (1801-1892) fue un astrónomo que en 1861 publicó Theory of Errors of
Observations, en el que hace uso de elementos de juicio de naturaleza estadística. Ronald Aymler
Fischer (1890-1962) estuvo familiarizado con esta publicación de Airy, sin embargo se vinculó al
trabajo de biólogos y botánicos, quienes disponían de una gran cantidad de datos sin un marco
teórico de análisis claramente definido. En este contexto publicó en 1925 Statistical Methods for
Research Workers. Introdujo el problema del tratamiento de pequeñas muestras a través del recurso
a las distribuciones exactas. Planteó el problema de proponer como hipótesis la validez de una
distribución y evaluar el riesgo de cometer un error al rechazarla o aceptarla, es decir evaluar en qué
medida la diferencia entre lo obtenido y lo esperado es significativa para rechazar una cierta
hipótesis de trabajo. Trató el problema del diseño experimental desde el punto de vista de la
hipótesis en evaluación y las opciones de dar una respuesta correcta por azar, y el modo en que
43

otros factores pueden alterar el resultado de un experimento encubriendo el objetivo central de la


prueba. Su propuesta no es la de eliminar o mantener constantes los factores externos que pueden
alterar el resultado y mantener bajo control el objetivo, sino tratar de que los otros factores se
comporten de modo aleatorio para separar su efecto como ruido y destacar la variable que se está
estudiando. Su libro Genetical Theory of Natural Selection es un clásico de la aplicación estadística
a la genética de poblaciones, en el cual sintetizó los fundamentos matemáticos de la teoría de
Charles Darwin (1809-1882) y Gregor Mendel (1822-1884).
Durante las primeras décadas del siglo XX el campo del cálculo de probabilidades se extendió a
diversas ramas de la física, como la mecánica estadística y la interpretación de los resultados de la
mecánica cuántica, introducido por Max Born (1882-1970) en relación con la función de onda, en
torno a 1926, planteada por Schrödinger en 1925 como ecuación fundamental de la mecánica
cuántica no relativista. Sin embargo todavía faltaba un fundamento formal sólido para el cálculo de
probabilidades. Este avance fue desarrollado por matemáticos como Emile Borel (1871-1956),
Henri-Léon Lebesgue (1875-1941), quienes desarrollaron aspectos formales de la teoría de la
medición, y Andrei Nicolayevich Kolmogorov (1903-1987). Sobre la base de las ideas de Borel y
Lebesgue en el ámbito de las mediciones, Kolmogorov desarrolló las nociones de espacio muestral,
eventos y el planteo axiomático (𝑃(𝑆) = 1, 𝑃(𝐴) ≥ 0, 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) 𝑠𝑖 𝐴 ∩ 𝐵 = ∅).
Posteriormente, a través de la noción de variable aleatoria, introdujo las herramientas analíticas de
cálculo diferencial e integral. Profundizó el estudio de las cadenas de Markov y a la teoría de la
información. En éste nuevo área, iniciado por Claude Shannon (1916-2001) después de la Segunda
Guerra Mundial, Kolmogorov introdujo una definición formal de “información” desde el cálculo de
probabilidades. Luego la noción de “medida de complejidad” a través de la mínima cantidad de
información binaria no comprimible para describir el comportamiento de un sistema y separar la
señal del ruido aleatorio.
El problema de la toma de muestras es en cierto modo independiente en sus orígenes del
desarrollo de las técnicas estadísticas. Se relaciona más con la necesidad de mantener un sistema
bajo control que con el análisis estadístico, que se inicia a posteriori de disponer de los datos y no
antes de la toma de la muestra. El problema del control de procesos que involucran grandes
cantidades de datos se plantea conjuntamente con el desarrollo de las líneas de producción industrial
a comienzos del siglo XX (Henry Ford, 1863-1947), pero que pueden rastrearse en el siglo XIX
(Frederick Winslow Taylor, 1856-1915) o inclusive a fines del siglo XVIII con la producción de
artefactos con piezas intercambiables (Eli Whitney, 1765-1825). Se asocia a Walter Shewhart
(1891-1967) el abordaje del problema del control de calidad. En lugar de eliminar la variabilidad en
los factores que afectan el proceso de producción propuso mantener un control sobre la variabilidad.
El planteo es el de separar los factores causales de variabilidad, que eventualmente pueden
corregirse, de variaciones al azar, que están siempre presentes y de las que se sólo se puede
pretender mantener sus efectos bajo control. Se procura reducir al mínimo los efectos de las
variaciones aleatorias sobre fallas en la producción e identificar en qué momento se alcanza el nivel
de eficiencia requerido. Para ello se debe resolver un conflicto entre la demanda en calidad y el
costo de producción. Para ello ideó las “cartas de Shewhart” como una línea que representa el nivel
deseado, dos líneas laterales indicando los límites dentro de los cuales se acepta una variación
aleatoria, y una técnica para la toma de muestras que permitan dibujar puntos sobre la carta para
seguir el proceso bajo control. En un comportamiento aleatorio la secuencia debe mostrar una
distribución al azar pero, si hay una variación sistemática, debe reflejarse como un desplazamiento
o acumulación hacia uno u otro lado de la línea central o inclusive fuera de los límites establecidos,
lo cual es indicador de algo que está fallando y debe corregirse. En cuanto el proceso se mantiene
bajo control con parámetros económicamente aceptables, el siguiente paso es reducir la variabilidad
aleatoria evaluando si es realmente posible. Esto también plantea un problema en términos que un
exceso de control puede conducir a gasto de tiempo y recursos para evitar procesos genuinamente
aleatorios que, por su propia definición, son inevitables; pero escaso control puede permitir que
variaciones sistemáticas no sean detectadas y afectar la calidad con pérdidas de tiempo y recursos a
44

posteriori. Estas cartas de Shewhart son conocidas por su nombre pero en esencia fundó lo que se
conoce como el control estadístico de procesos o control estadístico de calidad.
William Edwards Deming (1900-1993) planteó en especial el problema de obtener muestras
representativas para la evaluación estadística. Particularmente trató el problema del “muestreo” y de
cómo obtener conclusiones generales sobre un conjunto mayor del cual sólo se dispone de una
muestra a través de su análisis. En primer lugar, la muestra debe ser representativa del conjunto
total. Su libro principal acerca de este problema fue Some Theory of Sampling, de 1950. Destaca la
importancia de definir cuidadosamente el “universo” del cual se va a obtener la muestra, lo cual no
siempre es claro ni fácil de lograr. El siguiente problema es obtener una muestra representativa.
Plantea el problema de establecer la precisión deseada, el costo de realización y la evaluación de
resultados. Sus ideas fueron mejor recibidas primero en Japón y, en cierto modo, está vinculado con
el desarrollo de la industria japonesa durante la década de 1970.
Parte del desarrollo teórico expuesto hasta el momento corresponde al marco “bayesiano” del
análisis probabilístico, en el cual se propone elementos de juicio teórico para estimar probabilidades
asociadas a diferentes hipótesis en la evaluación y toma de decisión. La mayor objeción a este
enfoque radica en que en gran medida y en la mayoría de los casos, la aplicación del cálculo de
probabilidades a la práctica se apoya en estimaciones subjetivas de las probabilidades asociadas a
eventos. El enfoque alternativo “frecuentista” fue propuesto por John Venn (1834-1923) a partir de
la noción de límite empírico de una sucesión expresada como un cociente entre la frecuencia de
éxitos en relación con las repeticiones. En el análisis de Venn no había una referencia explícita a la
aleatoriedad. Richard von Mises (1883-1953) introdujo la necesidad de que la secuencia de eventos
sea aleatoria en el sentido que la siguiente realización no debe estar condicionada por los resultados
precedentes. En principio, al apoyarse sobre resultados empíricos, la evaluación de la probabilidad
es más objetiva que en el planteo bayesiano en relación con la aplicación práctica. Sin embargo se
apoya en que la muestra, sobre la cual se obtuvo la frecuencia relativa de éxitos, es representativa
de un “ensemble” teórico al que en cierto contexto nos referimos como “población”. En ese marco,
si una hipótesis es verdadera y conduce a un resultado esperado, la concordancia entre tal resultado
y los datos obtenidos de la muestra, expresados en términos probabilísticos, refuerza la
confiabilidad de la hipótesis. En 1939 Harold Jeffreys (1891-1989) reintrodujo la discusión en
defensa del enfoque bayesiano, debate que continúa en el presente.

-Tabak J (2004) Probability and Statistics: The science of uncertainty. New York, Facts On File,
Inc.
-Bunch B Hellemans A (2004) The History of Science and Technology. Boston, Houghton Mifflin
Company.
-Born M (1999, 2a ed.) Albert Einstein Hedwig y Max Born Correspondencia 1916-1955 México,
Siglo XXI Editores.
-Genicot L. (1976) Europa en el Siglo XIII. Barcelona, Labor.

Muestra y Población. Toma de muestras

William Edwards Deming (1900-1993) planteó en especial el problema de obtener muestras


representativas para la evaluación estadística. Particularmente trató el problema del “muestreo” y de
cómo obtener conclusiones generales sobre un conjunto mayor del cual sólo se dispone de una
muestra a través de su análisis. En primer lugar, la muestra debe ser representativa del conjunto
total de datos que podrían obtenerse y del problema que se plantea. Su libro principal acerca de este
problema fue Some Theory of Sampling, de 1950. Destaca la importancia de definir cuidadosamente
el “universo” del cual se va a obtener la muestra, lo cual no siempre es claro ni fácil de lograr. El
siguiente problema es obtener una muestra representativa. Plantea la cuestión acerca de establecer la
precisión deseada, el costo de realización y la evaluación de resultados. Sus ideas fueron mejor
45

recibidas primero en Japón y, en cierto modo, está vinculado con el desarrollo de la industria
japonesa durante la década de 1970.
Podríamos decir que el planteo de la estadística consiste esencialmente en tratar el problema de
la extracción de información a partir de datos resultantes de muestras como realizaciones concretas
de procesos bajo estudio, la elaboración de conclusiones a partir de esa información, y la estimación
y modelado de las distribuciones de probabilidad asociadas a procesos reales.
Al hablar en forma diferenciada de “dato” y de “información”, lo que estamos planteando es que
un dato es cualquier medida o registro de algo bajo observación. La información refiere a un
problema concreto para cuya solución el dato pueda ser relevante. De modo que la extracción de
información de los datos tiene una etapa previa al análisis estadístico, consistente simplemente en
descartar los datos no relevantes, que por lo tanto se presume que no contienen información, y del
resto hacer un análisis para extraer aún más información contenida en la parte de la muestra
seleccionada, pero no evidente de una inspección inmediata.
Hasta el momento, todo el desarrollo teórico se apoyó en la hipótesis de un conocimiento total y
completo del espacio muestral. Así partimos de un experimento tomado de un juego de azar en el
que las “reglas del juego” establecen claramente lo que puede y lo que no puede ocurrir. Se
descarta, por ejemplo, que un dado pueda romperse al caer, que una moneda ruede y se pierda,
situaciones en definitiva posibles pero que se excluyen como válidas en las reglas del juego.
Se ha planteado situaciones en las que se supone conocida la probabilidad de un evento, se
asume independencia entre repeticiones, se presupone conocida la distribución de probabilidad y la
función de densidad. En el marco de la Estadística no se supone conocida la distribución, pero sí se
admite la posibilidad de conocerla a partir de la información contenida en los datos.
El punto de partida es la descripción clara, precisa y completa de un experimento aleatorio E. El
conjunto de resultados posibles de la realización de tal experimento se lo llama la “población”. La
realización concreta del experimento es lo que se conoce como “muestra”. A partir de la muestra se
pretende caracterizar la población.
Puede verse entonces que el objetivo central de la estadística se traduce en la inferencia de las
características de una población a partir de una muestra que la represente. Es frecuente que los
problemas que se presentan sean más específicos y no se requiera el conocimiento total de la
población, por lo cual la muestra debe ser al menos relevante para dar respuesta al problema
planteado. Supondremos que el objetivo es la descripción de la población en su totalidad. En
términos matemáticos esto se traduce en el conocimiento de la función de distribución, o más
precisamente, en la estimación de tal función a partir de la información extraída de los datos de la
muestra.
Para ello se supondrá, en primera instancia, que la muestra es representativa de la población.
Esto no puede demostrarse porque para ello se debería conocer previamente la población, pero se
asume que una muestra aleatoria, es decir, tomada de repeticiones o realizaciones al azar del
experimento aleatorio, es representativa en la medida que no ha sido seleccionada con el criterio del
observador sino condicionada por las propiedades mismas de la población y el experimento
aleatorio que la define y generó los datos. Se supone que el proceso de toma de muestra no altera la
población, que los resultados son confiables e independientes entre sí. Además suponemos que la
población no cambia con el tiempo, de manera tal que sucesivas realizaciones responden a la misma
distribución de probabilidad. Una muestra tomada en forma totalmente aleatoria sobre toda la
población suele llamarse un “muestreo aleatorio simple”.
Con tales suposiciones, la muestra se analiza en primera instancia evaluando en qué medida los
datos de la muestra pueden contener información relevante en relación con el problema planteado.
Tal problema será la estimación de la distribución poblacional. Desde el punto de vista de la calidad
de la información, se discute la confiabilidad del dato. Eventualmente se separan los datos
confiables de los dudosos o se corrige o inclusive desecha los que se consideran erróneos,
fundamentando las correcciones e identificando los datos corregidos o desechados. Si son dudosos
suele hacerse dos análisis estadísticos, uno considerando tales datos como válidos y otros
46

desechándolos, así como con los datos corregidos, comparando si se llega a las mismas
conclusiones o bien si las conclusiones finales defieren, por lo cual se hace necesario una
evaluación de la calidad de la información más cuidadosa.
Hay poblaciones que son naturalmente finitas, como los estudiantes de una institución, y otras
son potencialmente infinitas, como el número de tiempos de caída de un objeto desde cierta altura,
experimento que puede realizarse infinitas veces. Si la población es finita, la muestra debería ser al
menos un orden de magnitud menor que el tamaño de la población para que tenga sentido la toma
de la muestra y no la realización de un “censo” o recolección de la información total. En principio
es sencillo establecer un muestreo aleatorio, pero es frecuente que la extracción de un elemento de
la población para incorporarlo a la muestre altere las propiedades de la población residual, como en
un experimento de extracción de muestras “sin reposición”, es decir sin reponer la muestra extraída
(sacar una bolilla de un bolillero y no reponerla), de modo que no es tan fácil garantizar la
independencia de las pruebas sucesivas en tales condiciones. Si la población es infinita no hay
problema en relación con el tamaño de la muestra pero sí con respecto a su representatividad en el
sentido que toda muestra es finita pero pretende representar una población infinita. Y el problema
de las muestras secuenciales o de “series temporales” requiere un análisis completamente diferente.

Objetivos

El objetivo del tratamiento estadístico de la información puede limitarse a la descripción de la


muestra. En tal caso la variedad de presentaciones gráficas y la selección de algunos parámetros
representativos pueden ser suficientes. Pero en general la descripción se hace con algún objetivo
específico y es tal objetivo en términos de una respuesta a una pregunta o solución a un problema lo
que debe guiar la presentación.
Si el estudio requiere que se desmenuce la muestra en forma detallada, se aborda una etapa de
análisis. Los datos de la muestra pueden ser clasificados y ordenados de acuerdo con variados
criterios de organización y discriminación. Si se pretende evaluar la posible validez de cierta
hipótesis sobre bases empíricas y dentro de un marco especulativo, también puede recurrirse al
análisis de la muestra estadística.
El fin predictivo de la estadística debe tomarse con extrema prudencia. Hemos planteado que no
es un marco explicativo en el sentido causal y esencialmente es no determinístico, de modo que
establecer una predicción, al igual que una demostración, sobre bases estadísticas, debe expresarse
siempre con un amplio margen de incertidumbre. Sin embargo es claro que es el objetivo más
relevante en relación con el uso de información estadística. Por lo tanto, más que predicción debe
destacarse el aspecto de elemento de juicio para la toma de decisiones. En tal sentido está claro que
la decisión se toma debido al carácter no determinístico y, en consecuencia, sujeto siempre a un
margen de duda y de riesgo de error al tomar una decisión.

Técnicas para la toma de muestras

Los datos relevantes para caracterizar estadísticamente una población se obtienen como
resultado de la realización de un experimento aleatorio. Hemos dicho que la técnica empleada para
seleccionar las condiciones de realización del experimento aleatorio es lo que se llamará el
“muestreo”. Puede consistir en realizar una encuesta, en tirar un dado varias veces o en realizar
varias mediciones de algún parámetro.
Existen varias formas de realizar un muestreo sobre una población. Un muestreo aleatorio simple
consiste en establecer algún mecanismo para la realización al azar del experimento. Por ejemplo
forzar la aleatoriedad al tirar un dado después de haberlo movido violentamente dentro de un
cubilete, de seleccionar aleatoriamente a los individuos sobre los que se realizará una encuesta o
cuidar que una medición se haga siempre bajo las mismas condiciones de modo que cualquier
47

variabilidad sea exclusivamente aleatoria y todos los posibles encuestados tengan la misma
posibilidad de ser considerados para la encuesta.
Cuando se realiza una muestra aleatoria simple, puede usarse un generador de números
aleatorios (una función “random”) de modo que los elementos incorporados en la muestra sean
seleccionados por un criterio numérico al azar. El muestreo aleatorio asegura la independencia entre
los datos que integran la muestra, por lo tanto el número de datos equivale al número de grados de
libertad en la muestra. El objetivo es el de caracterizar las propiedades generales de una población
y, específicamente, el de estimar la función de distribución asociada. Se supone que los datos
obtenidos de una muestra aleatoria simple son representativos de una población.
Una muestra puede ser voluntaria, como podría ser la presentación por voluntad propia para
participar en una encuesta, o llamados telefónicos de los oyentes o televidentes (no a los oyentes o
televidentes desde la emisora sino de los oyentes o televidentes hacia la emisora). Es claro que se
trata de una muestra pero los llamados no fueron al azar sino que tienen suficiente interés para
involucrarse en una llamada, por lo tanto el análisis de tal muestra no dice nada acerca de los que no
tienen ese grado de interés. Tampoco el llamado telefónico desde la emisora hacia el público dado
que, en primer lugar, debe el oyente o televidente tener un teléfono donde ser llamado pero además
puede desistir de aceptar responder la encuesta, más allá de verificar la veracidad de las respuestas.
Una muestra puede estar “sesgada” cuando algunos de los resultados posibles están favorecidos
con respecto a otros. Tal sesgo puede ser intencional cuando se elige las condiciones de toma de
muestra, pero en muchos casos no es intencional. Imaginemos un dato ambiental que depende de la
alimentación eléctrica para su registro. En caso de corte de suministro, el dato no se registraría, y
estos cortes suelen estar asociados con condiciones ambientales específicas como tormentas, con lo
cual tales condiciones no estarían representadas en la misma proporción que las condiciones de
buen tiempo, lo que impone un sesgo en la interpretación de los datos. También puede darse por
seleccionar frutas de un árbol si están al alcance de la mano, con lo cual estarían favorecidas las
frutas ubicadas en un nivel bajo. El sesgo puede ser resultado de una falla o uso de un instrumento,
o bien de la selección de palabras para realizar una encuesta. Puede estar condicionado por el
recuerdo de algún suceso en particular.
Hay formas de muestreo sistemático como encuestar a una de cada cien personas que circulan
por una ruta o inspeccionar uno de cada mil artículos en una línea de producción. Es típico de los
procedimientos de control de calidad, pero pueden encubrir o mal interpretar la muestra cuando hay
variabilidad periódica en el proceso.
El muestreo estratificado presupone que la población ha sido dividida en estratos o grupos
homogéneos sobre la base de algún criterio. Puede ser por la pertenencia a un grupo de edad, a un
género, a una línea de producción o a ciertas condiciones de experimentación.
En el muestreo por conglomerados se asume que la unidad de análisis es un grupo que contiene
representantes de todos los estratos. Por ejemplo seleccionar un curso y encuestar a todo el curso
considerando que es representativo de todos los cursos por estar compuestos por individuos con
características similares.
El muestreo se puede realizar en varias etapas. Por ejemplo, seleccionar aleatoriamente una
escuela y, dentro de la escuela, seleccionar aleatoriamente un curso.

Estadística descriptiva y de inferencia

La estadística “descriptiva” se limita a presentar la muestra de diferentes maneras, más


asequibles a la inspección global en términos de gráficos y números que sinteticen propiedades
globales, pero se limita a describir las propiedades de la muestra sin hacer inferencias sobre
características de la población.
Es claro que no hay un límite rígido dado que, al proponer la realización de gráficos y extraer
ciertos parámetros, e inclusive al tomar la muestra o seleccionar datos que potencialmente puedan
contener información, se tiene en mente el problema que se pretende resolver y, por lo tanto, la
48

población cuyas propiedades estadísticas se pretende inferir. Pero esto no es explícito en el marco
de la estadística descriptiva.

Variables cualitativas y cuantitativas

En la mayor parte del curso trataremos con variables aleatorias “cuantitativas”, es decir, que
pueden representarse naturalmente por un número y en general son resultados de mediciones. Las
variables aleatorias “cualitativas” se definen por medio de clases o categorías. Estas clases son
excluyentes de modo que un resultado particular sólo puede pertenecer a una de ellas. Es claro que
se puede rotular las clases con un número, y hay que hacerlo para trabajar con variables aleatorias,
pero este rótulo numérico en general es arbitrario y sólo facilita la organización de la información.
Algunas de estas variables son naturalmente dicotómicas, es decir, que deben separarse en dos
categorías excluyentes, como podría decir si “llueve” o “no llueve”, si “aprobó” o “no aprobó”. Y
otras pueden separarse en dos categorías como “salió el tres” o “no salió el tres” al tirar un dado,
pero es claro que en tal caso en realidad hay seis categorías y la separación dicotómica obedece a un
criterio externo al experimento.
Algunas variables aleatorias son “ordinales”, lo que quiere decir que son cualitativas pero tienen
un orden interno, que la asignación de un número para definir una variable aleatoria debe respetar.
Por ejemplo decir “chico”, “mediano” y “grande” entraña un ordenamiento propio y natural aunque
no un número asignado, que podría ser “1, 2, 3” o bien “0, 1, 2” o “-1, 0, 1” o cualesquiera que se
desee pero respetando el orden natural de la secuencia.

Presentación de Información y Tipos de Análisis

La información puede presentarse como registro de datos “crudos”, puede procesarse de modo
que se haya revisado, consistido y verificado esa información. Puede presentarse en forma de
registros ordenados o de tablas ordenadas y agrupadas, y en variedades de organización con
diferentes criterios.
Puede recurrirse a presentaciones gráficas, que si bien enmascaran la individualidad de cada
dato, ofrece una perspectiva global de conjunto y precisamente visual. El uso de técnicas de
visualización, inclusive la selección de colores, es importante al momento de destacar ciertas
características o agrupar otras propiedades comunes.
Finalmente se puede recurrir a una formulación matemática en términos de una función que
ajusta a la información disponible.
El análisis puede limitarse a describir aspectos cualitativos en términos de un lenguaje
descriptivo de las propiedades, tales como la simetría, la ubicación de los extremos, los valores de
los extremos, la forma funcional, la modalidad (unimodal, bimodal, multimodal), si es continua, si
tiene singularidades o acotaciones. En general es un recurso de análisis preliminar o
comunicacional.
Por otra parte, el análisis puede ser cuantitativo si recurre a características numéricas para
describir las propiedades de la información. Cada número empleado define una propiedad
idealmente independiente de otras. Se recurre a medidas de centralización, dispersión, forma,
comparaciones con parámetros de distribuciones conocidas e incorporamos parámetros como los
extremos, rango, promedio, cuantiles, desvíos…. Se trata de un nivel intermedio de análisis con
carácter limitado pero suficiente para muchos fines, como puede ser el seguimiento de un proceso,
criterios para toma de decisión o aplicaciones concretas.
La forma más condensada de describir completamente la distribución es por medio de funciones
matemáticas que la ajustan. Esto se realiza en varias etapas. Primero se selecciona la forma
funcional que se va a ajustar. En segundo lugar se estiman los parámetros que requiere esa
distribución para su especificación. Finalmente se pone a prueba el ajuste por medio de lo que se
49

llama “pruebas de hipótesis”, también llamada “bondad de ajuste”. Es el recurso de análisis más
sofisticado y tiene fines científicos o estimaciones cuantitativas.

Diagramas de Caja, Histograma y Ojiva de Frecuencia Acumulada

El aspecto descriptivo de la estadística involucra varias opciones de presentación y cálculo.


Luego veremos algunos procedimientos para confeccionar gráficos de línea o de torta,
clasificaciones y ordenamiento de datos, y diferentes modos en que pueden presentarse, como datos
cualitativos, ordinales, dicotómicos o cuantitativos. Como datos cuantitativos pueden ser continuos
o discretos, como medidas o como conteo de número de eventos. El tratamiento de series
temporales de datos es diferente y, si la población disminuye durante el muestreo por extracción,
también debe ser considerado en el análisis. Nos limitaremos a las presentaciones que tengan alguna
relevancia en el marco teórico propuesto.
Asumiremos que nuestros datos provienen de una población que puede ser descripta por medio
de una variable aleatoria continua, como puede ser cualquier medida usual de longitud, tiempo,
masa o velocidad. Veremos la confección de “diagramas de caja”, también llamados “diagramas de
caja y bigote”, luego los “histogramas” o diagramas de celdas, y finalmente las “ojivas de
frecuencia acumulada”, estos últimos por tener significados precisos en el análisis estadístico.
Un diagrama de caja tiene la estructura mostrada en la figura. La caja está definida por el primer
y tercer cuartil, de modo que contiene el cincuenta por ciento de los datos, y dentro de ella se ubica
el segundo cuartil, coincidente con la mediana. Los “bigotes” están definidos por el mínimo y el
máximo de los datos registrados.

Los diagramas de caja son predominantemente útiles cuando la distribución de datos en la


muestra es claramente asimétrica. La incorporación de una línea que represente el promedio, y arcos
a modo de paréntesis que representen el promedio más y menos un desvío normal, pueden aportar
más información, pero también confusión en la lectura del diagrama.

Histograma y ojiva

Un histograma tiene por objeto agrupar datos continuos en intervalos discretos. Como un criterio
rápido para decidir el número de intervalos apropiado, puede considerarse que éste sea del orden de
la raíz cuadrada del número de datos. Nada obliga a seleccionar este número pero es una guía para
la selección. Luego debe seleccionarse los límites de cada intervalo real. Para ello sólo
consideramos que no debe quedar ningún dato excluido del histograma ni puede dudarse de cuál es
el intervalo que le corresponde. Puede realizarse en forma automática considerando como extremos
el dado por el rango de los datos dividido por el número de intervalos, o bien seleccionar los límites
de forma más amigable y fácil de recordar y procesar luego.
Supongamos que se dispone de 50 datos (n) de estatura con valores entre 152cm y 177cm. Una
estimación del número de intervalos puede estar dada por la raíz cuadrada del número de datos. En
nuestro ejemplo sería del orden de siete intervalos (N).
Seleccionado el límite inferior 𝑙0 , que puede ser el mínimo de los datos o un número conveniente
menor, por ejemplo 𝑙0 = 150𝑐𝑚, el límite superior, que puede ser el máximo o un valor un poco
mayor, como podría ser 𝑙𝑛 =178cm, y el número de intervalos N, que puede ser el recomendado (7)
50

o bien un poco más o menos (6 u 8), la secuencia de límites de cada intervalo que conforme el
histograma será
(𝑙𝑛 − 𝑙0 )
𝑙𝑖 = 𝑙0 + 𝑖
𝑁

de modo que cuando 𝑖 = 𝑁, el límite superior del último intervalo coincida con el rango definido.
Si realizamos los cálculos, los límites serían 𝑙𝑖 = {150; 154; 158; 162; 166; 170; 174; 178}.
Cada intervalo del histograma estará conformado por intervalos reales 𝑙𝑖−1 < 𝑥 ≤ 𝑙𝑖 . Puede
intercambiarse los límites 𝑙𝑖−1 ≤ 𝑥 < 𝑙𝑖 o inclusive 𝑙𝑖−1 ≤ 𝑥 ≤ 𝑙𝑖 en tanto se “reparta” el dato que
corresponda a una igualdad en “medio dato” para cada intervalo. Lo que no puede ocurrir es que
queden datos excluidos, que se contabilice más datos de los que realmente hay por ubicarlos en más
de un intervalo, ni que se dude a qué intervalo corresponde cada dato. Expresados en el primer
modo 𝑙𝑖−1 < 𝑥 ≤ 𝑙𝑖 tienen una forma más comparable al cálculo de probabilidades. Además, si
definimos 𝑓𝑖 como “frecuencia absoluta” o número de datos contenidos en cada uno de los
intervalos 𝑙𝑖−1 < 𝑥 ≤ 𝑙𝑖 , tendremos nuestros datos {𝑥𝑗 } clasificados en N intervalos con {𝑓𝑖 } datos
cada uno. Podemos dibujar, a partir de ellos, un “histograma de frecuencia absoluta”.

https://es.wikipedia.org/wiki/Histograma

Podemos agregar dos intervalos laterales vacíos (con frecuencia cero) para poder “cerrar” el
polígono de frecuencia sobre el eje horizontal.

http://agrega.educacion.es/repositorio/08042014/a1/es_2013121613_9105204/histograma_y_po
lgono_de_frecuencias.html

El histograma es resultado de la clasificación de los datos de acuerdo con los intervalos elegidos,
de lo que resulta una tabla como la siguiente
51

https://cbtestadistica.wordpress.com/descriptiva/

En esa tabla se distribuye 80 datos en intervalos en el rango 50 a 99 de modo tal que no haya
superposición entre límites. La frecuencia absoluta contabiliza el número de datos que se
encuentran en cada intervalo. La frecuencia absoluta acumulada es la suma de la frecuencia
absoluta de la segunda columna. La frecuencia relativa es el cociente entre la frecuencia absoluta y
el número de datos (80) expresado en porcentaje, y la frecuencia relativa acumulada es el cociente
entre la frecuencia absoluta y el número de datos, expresado en porcentaje.
El grafico típico de una ojiva es como el siguiente. Los puntos medios de cada intervalo pueden
unirse mediante una línea, tanto en el histograma como en la ojiva, para formar un “polígono de
frecuencia”. Estos gráficos de línea comienzan a adoptar la forma de la función de densidad, en el
caso del histograma, y de la función de distribución a través de la ojiva.

https://sites.google.com/site/portafolio1yanchapanta/mayo?tmpl=%2Fsystem%2Fapp%2Ftemplat
es%2Fprint%2F&showPrintDialog=1
52

Hay algunos elementos adicionales a tener en cuenta. Uno de ellos refiere a cómo especificar los
límites de clase. Formalmente se expresan con el número de dígitos significativos, enteros o
decimales, en que están especificados los datos, pero los límites de cálculo pueden establecerse con
un decimal más intermedio de modo que no haya ningún dato que pueda coincidir con uno de los
límites. Por ejemplo, si se trata de medidas de temperatura expresadas con un decimal, los límites
formales podrían ser 20,0°C – 20,5°C para un tamaño de intervalo de medio grado centígrado, pero
los límites reales podrían ser 19,95°C-20,45°C de modo que se conserva el tamaño del intervalo
pero un dato de 20,0°C se ubicará en ese intervalo y otro de 20,5°C corresponderá al intervalo
siguiente.
Si dividimos cada frecuencia absoluta por el número total de datos, tendremos un nuevo
conjunto de números {𝑓𝑟𝑖 = 𝑓𝑖 /𝑛} como “histograma de frecuencia relativa”. La frecuencia relativa
de la muestra es una aproximación a la probabilidad poblacional correspondiente al intervalo.
Podemos definir como “frecuencia absoluta acumulada” a la suma de la frecuencia absoluta
progresivamente sumada sobre cada intervalo, es decir

𝐹𝑘 = ∑ 𝑓𝑖
𝑖=1

Es claro que cuando 𝑘 = 𝑁 se habrá sumado todos los datos clasificados en cada intervalo y se
obtendrá 𝐹𝑁 = 𝑛, el número total de datos. A tal forma de clasificación se la llama “ojiva de
frecuencia absoluta acumulada” o simplemente “ojiva”. Si se divide por el número de datos
tendremos
𝑘 𝑘
𝐹𝑘 𝑓𝑖
𝐹𝑟𝑘 = = ∑ = ∑ 𝑓𝑟𝑖
𝑛 𝑛
𝑖=1 𝑖=1

Será 𝐹𝑟𝑁 = 1 la frecuencia relativa acumulada cuando 𝑘 = 𝑁 y el mismo razonamiento sobre


incrementar el número de datos, nos lleva a considerar que la ojiva de frecuencia acumulada se
aproxima a la función de distribución.
Vemos así que, más allá de la representación gráfica del histograma o de la ojiva, que puede
hacerse por medio de líneas, barras, torta, interpolaciones elegantes y todo método que mejore la
presentación y la observación de los datos, lo relevante es la consistencia entre las definiciones
formales de las funciones de densidad y distribución, y las construcciones del histograma y de la
ojiva conjuntamente con las consideraciones de los límites de sucesiones acordes con la
construcción.
Al establecer los intervalos se establece claramente los límites pero también se identifica la
“clase” por medio del punto medio de cada intervalo. De este modo la frecuencia asociada será
referida a tal punto medio. Debemos notar que, de acuerdo a cómo se seleccionen los intervalos en
número y límites, se obtendrá histogramas y ojivas diferentes. Todas se aproximarán a las funciones
de densidad y distribución pero, en las condiciones reales de una muestra finita, conducirán a
interpretaciones distintas relativas a la posible distribución asociada a la población. De modo que la
idea preliminar que pueda obtenerse de la muestra acerca de la población depende no sólo de la
muestra sino de la selección del criterio de clasificación.
Agreguemos que es aceptable y a veces conveniente el uso de intervalos diferentes en longitud,
en especial cuando el rango de la variable en cuestión es muy grande y la distribución muy sesgada.
Inclusive puede dejarse intervalos abiertos en los extremos, aunque no resulta conveniente dado que
conduce a una extensión infinita unilateral de los intervalos extremos. Se debe ser cuidadoso con las
eventuales singularidades, en especial con la aparición del “cero” como dato posible. Si se maneja
53

más de una variable, la confección de histogramas es similar pero con tablas de doble o múltiple
entrada.
Otra observación es notar que al agrupar se pierde parte de la información que tiene cada dato
dado que se lo asocia a la clase de un intervalo. El objetivo es tratar de visualizar la forma de la
función de densidad a partir de los datos más que de estudiar los valores registrados en sí mismos.
Más aún, podría ser conveniente diseñar más de un histograma desplazando los intervalos y
promediando los valores de frecuencia absoluta en sub rangos de los intervalos seleccionados para
obtener una forma más suavizada de la aproximación a la densidad.
Es posible asimismo hacer un histograma en dos variables definiendo intervalos en ambos ejes y
configurar un histograma en tres dimensiones o bien, como tabla de doble entrada, una presentación
numérica con la frecuencia absoluta, relativa o porcentual en cada casillero. Una forma gráfica
puede ser hecha mediante sombreados o colores, o bien trazando curvas de nivel en términos de
frecuencia.
También puede utilizarse intervalos de clase no numéricos como “tipos A, B, C, D”, o bien con
expresiones como “chico – mediano – grande” siempre que la delimitación de las clases sea
claramente especificada en la descripción.

Gráficos barras, de líneas y de torta

Un gráfico de barras es una representación de la información agrupada o clasificada por algún


criterio. A diferencia del histograma, en el que el criterio es una subdivisión del rango de la variable
aleatoria con el objetivo de inferir la distribución de probabilidad de la población, en un gráfico de
barras el criterio puede ser una presentación visualmente amigable para tener una imagen de
conjunto de la información.
En el siguiente gráfico se muestra una representación típica de un gráfico de barras verticales o
de columnas. A diferencia de un histograma, en que el orden del eje horizontal está dado por el
orden propio de la variable aleatoria, en un gráfico de barras el orden de la secuencia horizontal es
totalmente arbitrario.

https://ar.pinterest.com/pin/459437599467623344/

En la siguiente imagen presentamos varios gráficos diferentes.


54

https://exodo398363020.wordpress.com/2018/05/13/tablas-y-graficos-estadisticos/

Arriba y en el centro se presenta otro gráfico de barras verticales o de columnas, y a la derecha


un gráfico de barras horizontales. Un gráfico de líneas, como el de arriba a la izquierda, es
conveniente cuando hay una secuencia de datos puntuales de un proceso continuo. Al unir los
puntos por medio de líneas se sugiere que los registros intermedios, no tomados como datos, existen
y pueden ser “interpolados” por medio de un segmento lineal. Los pictogramas son representaciones
más generales que visualmente son más amigables, bien por la estética o por ir acompañados de
imágenes representativas de lo que quiere mostrarse.
Un gráfico de torta no es otra cosa sino una expresión visualmente diferente de un gráfico de
barras en cualquiera de sus formatos. No hay un motivo por el cual sea más conveniente una forma
u otra. La selección responde más bien a un criterio personal, estético, costumbres, de espacio en la
presentación, o tipificación y comparaciones con otros gráficos similares.

http://jaimetomas1.blogspot.com/2015/10/funciones-de-las-imagenes.html?m=1

Para confeccionar un gráfico de torta, también llamado gráfico de sectores, a partir de una
clasificación, se toma como base que el 100% de la información está representado por la
circunferencia completa de 360°. Para determinar el ángulo que corresponde asignar a cada sector
55

se representa con un ángulo proporcional al porcentaje correspondiente a cada grupo. Siguiendo el


ejemplo, si queremos representar la tabla

Sandwiches 40% 144°


Ensaladas 21% 75,6°
Sopa 15% 54°
Bebidas 9% 32,4°
Postres 15% 54°

utilizamos una regla de tres simple para asignar a cada porcentaje el ángulo del sector que lo
represente.
Por ejemplo, para el sector que contiene el 40% de los casos calculamos

40% ∗ 360°
𝛼40 = = 144°
100%

Podemos verificar que los ángulos consignados en el resto de la tabla corresponden a los
porcentajes de la columna central.
Si se dispone de un número total “𝑛” de datos y en cada grupo un subtotal “𝑛𝑖 ”, utilizamos una
expresión similar de modo que el ángulo correspondiente al dato “i” está dado por

𝑛𝑖 ∗ 360°
𝛼𝑖 =
𝑛

Trataremos de desarrollar un trabajo numérico sobre una tabla de datos a modo de ejemplo. En
lo que sigue presentamos una tabla de valores de estatura de 36 personas. Estos datos fueron
tomados a partir de las mediciones de estatura realizadas en el curso de primer año de 2020.

Secuencia Estatura (cm) Secuencia Estatura (cm)


1 161 19 171
2 176 20 167
3 169 21 162
4 157 22 172
5 185 23 163
6 178 24 154
7 162 25 177
8 154 26 171
9 173 27 169
10 170 28 166
11 181 29 174
12 151 30 170
13 166 31 175
14 177 32 168
15 176 33 164
16 159 34 178
17 168 35 171
18 180 36 175

En primer lugar identificamos el mínimo y el máximo de la muestra y, a partir de la diferencia,


el rango de los datos de la muestra.
56

Mínimo: 151 Máximo: 185 Rango=Máximo-Mínimo=185-151=34


La tabla que le sigue son los mismos datos ordenados de menor a mayor, lo cual facilita el
desarrollo siguiente.

Orden Secuencia Estatura (cm) Orden Secuencia Estatura (cm)


1 12 151 19 30 170
2 8 154 20 19 171
3 24 154 21 26 171
4 4 157 22 35 171
5 16 159 23 22 172
6 1 161 24 9 173
7 7 162 25 29 174
8 21 162 26 31 175
9 23 163 27 36 175
10 33 164 28 15 176
11 13 166 29 2 176
12 28 166 30 14 177
13 20 167 31 25 177
14 17 168 32 34 178
15 32 168 33 6 178
16 3 169 34 18 180
17 27 169 35 11 181
18 10 170 36 5 185

Al dividir la secuencia por la mitad, tenemos una “mediana de la muestra”, y al dividir esa mitad
nuevamente por la mitad, obtenemos los cuartiles de la muestra, consecuentes con las definiciones
de mediana y cuartiles de una distribución de probabilidad.

1° cuartil (dato 9/10 promediado): 163,5cm


Mediana (dato 18/19 promediado): 170,0cm
3° cuartil (dato 27/28 promediado): 175,5cm

Calculamos el número de intervalos del orden de la raíz cuadrada del número de datos.

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 ≅ √36 = 6 ≅ 7

No es obligatorio que utilicemos exactamente seis intervalos (raíz cuadrada de 36) sino que siete
intervalos resultan más cómodos al dividir el rango, de casi 35cm, por siete dando un tamaño de
intervalo de 5cm.
A partir del rango de cada intervalo contabilizamos el número de datos en cada uno como
frecuencia absoluta. La siguiente tabla presenta la frecuencia absoluta, la frecuencia relativa
(dividiendo por el número de datos), expresada también en porcentaje, y la frecuencia relativa
acumulada (sumando las frecuencias relativas previas) y porcentual acumulada. La tabla de
frecuencia relativa nos ofrece una aproximación a la función de densidad, y la de frecuencia
acumulada es una aproximación a la función de distribución.
En la primera fila hicimos explícito el cálculo y en ambas columnas lo expresamos en
proporción y en porcentaje.
A partir de estas columnas construiremos el gráfico del histograma de frecuencia relativa y la
ojiva de frecuencia acumulada, tareas que se dejan para realizar en forma personal.
57

Rango Frecuencia Absoluta Frecuencia Relativa Frecuencia Relativa Acumulada


150-155 3 3/36=0,083=8,3%=30,0° 0,083=8,3%
156-160 2 0,055=5,5%=19,8° 0,139=13,9%
161-165 5 0,139=13,9%=50,0° 0,278=27,8%
166-170 9 0,250=25%=90,0° 0,528=52,8%
171-175 8 0,222=22,2%=79,9° 0,750=75,0%
176-180 7 0,194=19,4%=69,8° 0,945=94,5%
181-185 2 0,055=5,5%=19,8° 1,000=100,0%

Al graficar el histograma es posible unir los puntos medios de cada intervalo de frecuencia por
medio de un segmento de línea. El resultado que se obtiene es el “polígono de frecuencia”.

Cálculo de promedio

La importancia del promedio como medida de localización es la de estimar estadísticamente el


valor de la esperanza de la población. Es un punto de acumulación que representa la posición de la
totalidad de la muestra en el rango posible de la variable aleatoria. A modo de ejemplo, que la
temperatura media de Río de Janeiro valga unos 25°C, la de Buenos Aires unos 20°C, la de
Comodoro Rivadavia unos 15°C y la de Ushuaia alrededor de 10°C nos ubica térmicamente en un
valor promedio en torno al cual varían los datos de temperatura de la región. Decir que el promedio
de estaturas de los hombres vale 170cm y de las mujeres 165cm también nos ubica centralmente en
la distribución de estaturas.
La forma de calcular un promedio simple es sumar todos los datos y dividir el resultado de la
suma por el número de datos.
𝑛
1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 + ⋯ + 𝑥𝑛
𝑥̅ = ∑ 𝑥𝑖 =
𝑛 𝑛
𝑖=1

Si bien el procedimiento es particularmente simple, interpretarlo requiere una leve modificación


y su validez demanda la aleatoriedad y la misma representatividad de cada dato de la muestra sobre
la población. Escribamos
𝑛 𝑛
1 1 𝑥1 𝑥2 𝑥𝑖 𝑥𝑛
𝑥̅ = ∑ 𝑥𝑖 = ∑ 𝑥𝑖 = + + ⋯ + + ⋯ +
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1

1
El haber introducido el factor 𝑛 dentro de la suma nos permite ver que el promedio se construye
tomando un enésimo de cada dato para obtener un solo número representativo del conjunto. Esto es
válido cuando cada uno de los datos es igualmente representativo del conjunto total o población. De
allí la importancia de efectuar una muestra en forma aleatoria para que cada dato, tomado al azar del
total de datos posibles, tenga la misma representatividad sobre la población.
Si se realiza una muestra por conglomerados, o jerarquizada por niveles, o cualquier otro
procedimiento dirigido, cada uno de los grupos debe ser promediado internamente. Si luego se
quiere comparar con un promedio general, es conveniente que todos los grupos contengan
aproximadamente el mismo número de datos. A modo de ejemplo, no se puede promediar datos de
estatura de veinte hombres y diez mujeres, y decir que es representativo de la población total. Aun
si se los analiza por separado, no serían totalmente comparables dado que el número de datos en
cada muestra es muy diferente.
58

Cuando los datos no tienen la misma relevancia, la misma confiabilidad o la misma


representatividad sobre la población, no es apropiado tomar un enésimo de cada dato para construir
un promedio sino la proporción que corresponda a su representatividad. Lo que se calcula es un
“promedio ponderado” con algún criterio apropiado a la muestra y su relación con la población. La
notación sería
𝑛

𝑥̅𝑃 = ∑ 𝑓𝑃 ∗ 𝑥𝑖 = 𝑓𝑃1 ∗ 𝑥1 + 𝑓𝑃2 ∗ 𝑥2 + ⋯ + 𝑓𝑃𝑖 ∗ 𝑥𝑖 + ⋯ + 𝑓𝑃𝑛 ∗ 𝑥𝑛


𝑖=1

Es difícil establecer un criterio acorde a la relación entre la muestra y la población. A veces


puede usarse una medida de error o de confiabilidad en el dato, otras veces el número de datos
cuando cada muestra se repite varias veces y luego se promedia el total de muestras. Bien se puede
tener en cuenta la calidad instrumental y de medición, pero siempre debe realizarse con cuidado y
fundamentando el criterio de ponderación. De allí que se procure tomar una muestra aleatoria en la
cual cada dato sea igualmente representativo para poder aplicar un promedio simple que no requiera
más que el cálculo elemental del promedio.
Desde el punto de vista de la relación entre la estadística y el cálculo de probabilidades, el
promedio es un “estimador puntual” de la esperanza de la población. Es uno de los estimadores más
confiables y representativos de fácil determinación a partir de los datos, de allí que se utilice con
mucha frecuencia.

Medidas de variabilidad

Nos ocuparemos de una medida de variabilidad, que hemos visto como “varianza”, pero aplicada
a la muestra.
Tomemos como ejemplo que nos informan la temperatura media o promedio anual de
temperatura de una zona seca y desértica como de 25°C y que es la misma que la temperatura media
de otro sitio en una isla pequeña en medio del océano. En principio los dos sitios tienen la misma
temperatura media pero pronto veremos que durante la noche las temperaturas en el desierto pueden
bajar mucho en tanto que el calor a plena tarde es muy intenso, más aún si se tiene en cuenta las
estaciones. Pero en la isla casi todo el día y a lo largo del año las variaciones de temperatura serán
muy pequeñas porque la temperatura estará condicionada por el océano que la rodea.
Por poner números, en el desierto puede haber variaciones entre varios grados bajo cero y casi
50°C en verano a la sombra. Por otra parte en la isla difícilmente descienda de 20°C y supere los
30°C. De modo que, desde el punto de vista de la temperatura media, los dos sitios tienen la misma
temperatura, pero las condiciones térmicas son claramente diferentes y se diferencian en la
variabilidad.
Para medir la variabilidad utilizamos la varianza aproximada por la “desviación cuadrática
media con respecto al promedio”. Primero definiremos este parámetro y luego lo analizaremos con
algún ejemplo. Definimos
𝑛
1 (𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2
𝑆𝑛2 = ∑(𝑥𝑖 − 𝑥̅ )2 =
𝑛 𝑛
𝑖=1

como desviación cuadrática media con respecto al promedio. Las desviaciones con respecto al
promedio son cada uno de los términos (𝑥𝑖 − 𝑥̅ ). Se dice “cuadrática” porque se los eleva al
cuadrado para que no se cancelen por diferencias de signo cuando el dato es menor o supera al
promedio. Al dividir por el número de datos se calcula un promedio de desvíos cuadráticos.
A modo de ejemplo, si tenemos sólo tres datos con valores 𝑥1 = 19, 𝑥2 = 20 y 𝑥3 = 21, el
promedio da por resultado 𝑥̅ = 20 y la desviación cuadrática media
59

3
1 (𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + (𝑥3 − 𝑥̅ )2
𝑆32 = ∑(𝑥𝑖 − 𝑥̅ )2 =
3 3
𝑖=1
(19 − 20)2 + (20 − 20)2 + (21 − 20)2 (−1)2 + (0)2 + (1)2 1 + 0 + 1
= = =
3 3 3
= 0,6666

Si nuestros datos fuesen 𝑥1 = 10, 𝑥2 = 20 y 𝑥3 = 30 tendríamos el mismo promedio pero


3
1 (𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + (𝑥3 − 𝑥̅ )2
𝑆32 = ∑(𝑥𝑖 − 𝑥̅ )2 =
3 3
𝑖=1
(10 − 20)2 + (20 − 20)2 + (30 − 20)2 (−10)2 + (0)2 + (10)2
= =
3 3
100 + 0 + 100
= = 66,66
3

Es claro que, ante el mismo promedio, es la varianza la que informa acerca de la diferencia de
variabilidad en la distribución de ambas muestras.
Definiremos como “desviación estándar de la muestra” a la raíz cuadrada de la varianza de la
muestra.
𝑆𝑛 = √𝑆𝑛2

En los ejemplos previos tenemos 𝑆3 = 0,81 y 𝑆3 = 8,1 respectivamente. En términos generales,


si calculamos los límites del intervalo

(𝑋̅ − 𝑆3 ; 𝑋̅ + 𝑆3 )

dentro de ese intervalo se encuentra aproximadamente el 60% a 70% de los datos.

Estimadores de punto o estimación puntual

Hemos dicho que los cálculos de promedio y desviación cuadrática media sobre la muestra son
aproximaciones o, más propiamente, estimaciones de los parámetros poblacionales “esperanza” y
“varianza respectivamente”.
En términos muy generales, la estimación estadística se refiere a un conjunto de métodos que
permiten estimar el comportamiento de una población a partir de una muestra. Nos limitamos a
algunos aspectos de la interpretación del lenguaje propio del área. Se llama “estimador” a un
procedimiento de cálculo para obtener un valor numérico al que se lo llama “estimación” o “valor
estimado” de la característica de la población a través de los datos de la muestra.
La “estimación puntual” refiere a obtener un solo valor numérico. Por ejemplo el menor valor en
la muestra es un estimador del mínimo de la población aunque un criterio para obtener un mejor
valor estimado es restar al mínimo de la muestra la mitad del rango del intervalo con el cual se
configuró el histograma. Lo mismo hacemos con el máximo de la muestra como estimador del
máximo de la población sumando medio intervalo. Un estimador de la mediana se obtiene de dividir
la muestra por la mitad después de ordenarla de menor a mayor.
Sin entrar en detalles sobre las características deseables para un buen estimador, digamos que el
promedio es un muy buen estimador de la esperanza poblacional, pero la desviación cuadrática
media (𝑆𝑛2 ) es un estimador “sesgado”. Este término quiere decir que da valores que
60

sistemáticamente difieren del verdadero valor poblacional. En el caso de 𝑆𝑛2 , da estimaciones que
son sistemáticamente menores que las reales. El motivo es que, si recordamos la definición de
“varianza”, es una medida de desviaciones cuadráticas con respecto a la esperanza y, en el cálculo
propuesto más arriba, estas desviaciones fueron calculadas con respecto al promedio, que es un
estimador de la esperanza pero no la “esperanza” propiamente dicha. El efecto es el de condicionar
un dato y perder un “grado de libertad” en la muestra por utilizar el promedio en reemplazo de la
esperanza. La forma correcta de estimar sin sesgo a la varianza es dividir la suma de desvíos
cuadráticos con respecto al promedio por 𝑛 − 1, lo que dice que el número de datos independientes
en la muestra o número de grados de libertad es el número de datos menos uno. Luego
𝑛
2
1 2
(𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2
𝑆𝑛−1 = )
∑(𝑥𝑖 − 𝑥̅ =
𝑛−1 𝑛−1
𝑖=1

es lo que se llama la “desviación normal” y es el estimador poblacional, conservando la desviación


cuadrática media como medida apropiada para la muestra, pero no como estimador. En calculadoras
científicas se presenta los dos parámetros como opciones en cálculos estadísticos.
No entraremos en más detalles acerca del problema de la estimación estadística, sólo
mencionaremos algunos aspectos generales. El objetivo de la estadística es abordar problemas en
los que hay incertidumbre a partir de datos resultantes de muestras aleatorias. El problema de la
estimación apunta específicamente a estimar el verdadero valor de parámetros poblacionales a partir
de datos. Si bien nos limitamos a estimar la esperanza a través del promedio y la varianza a través
del cuadrado de la desviación normal, el problema involucra todos los parámetros e inclusive la
distribución misma.
El dato que divide la muestra, ordenada de menor a mayor, en dos partes iguales es un estimador
de la mediana; los que la dividen en cuatro partes iguales son estimadores de los cuartiles; los datos
menor y mayor son estimadores del mínimo y el máximo, y su diferencia, del rango. Si clasificamos
los datos en celdas, el que tiene mayor cantidad de datos es un estimador de la moda. Hay métodos
para estimar la asimetría y otros para hacer estimaciones comparativas con la distribución normal.
El histograma es un estimador de la función de densidad y la ojiva lo es de la función de
distribución.
Aquí notemos que un histograma no es un simple gráfico de barras sino precisamente un
estimador. Si se clasifican los datos y se los muestra en cualquier orden, sin referencia al tamaño y
secuencia de intervalos, se trata de un simple gráfico de barras, que puede presentarse de diversas
formas o como gráfico de torta. Pero establecer intervalos, ordenarlos de menor a mayor en el rango
de la variable aleatoria, unir los puntos medios de los intervalos para construir un polígono de
frecuencia, construir dos intervalos nulos a los lados para cerrar el histograma y además estimar los
extremos, son todos métodos para estimar la función de densidad y analizar sus propiedades.

Estimación por intervalo o intervalo de confianza

Si bien lo mencionamos sólo a título informativo, un resultado matemático, conocido como


“teorema del límite central”, nos dice que los promedios de las muestras tienden a distribuirse como
una campana de Gauss. Es uno de los teoremas más útiles en toda la teoría de la estimación
estadística dado que nos informa acerca del comportamiento del promedio sin requerir
conocimiento del comportamiento de la población.
El diseño de métodos de cálculo, como el del promedio y la desviación normal, conduce a lo que
se llama la “estimación puntual” de parámetros. Cuando se los combina con el teorema del límite
central, lleva a la “estimación por intervalo” o “intervalos de confianza”. Nos limitaremos a
interpretar la notación y la nomenclatura.
61

Lo que se determina a través de un intervalo de confianza es la probabilidad de que un parámetro


poblacional buscado se encuentre dentro de ciertos límites.

𝑃(𝐿í𝑚𝑖𝑡𝑒𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 < 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 < 𝐿í𝑚𝑖𝑡𝑒𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 ) = 1 − 𝑎𝑙𝑓𝑎

A título informativo, en el ejemplo del promedio y la esperanza, uno de los métodos de cálculo
para muestras de al menos unos treinta datos es

𝑆𝑛−1 𝑆𝑛−1
𝑃 (𝑥̅ − 1,96 ∗ ≤ 𝜇 < 𝑥̅ + 1,96 ∗ ) ≅ 1 − 0,05 = 0,95 = 95%
√𝑛 √𝑛

Supongamos que tenemos un tiempo promedio de 20min, una desviación normal de 2min y se
utilizaron 𝑛 = 36 datos, tendríamos

2𝑚𝑖𝑛 2𝑚𝑖𝑛
𝑃 (20𝑚𝑖𝑛 − 1,96 ∗ ≤ 𝜇 < 20𝑚𝑖𝑛 + 1,96 ∗ ) = 𝑃(19,35𝑚𝑖𝑛 ≤ 𝜇 < 20,65𝑚𝑖𝑛) ≅ 95%
√36 √36

Este resultado quiere decir que hay un 95% de probabilidad de que la verdadera esperanza de la
población se encuentre entre los dos límites indicados. Si se asume que este resultado es correcto y
que efectivamente está entre esos límites, hay un 5% de riesgo de que en realidad esté fuera de esos
límites y, por lo tanto, cometer un error.

Mediciones

En principio podemos decir que medir es asignar un valor a través de un número a algo que
admite tal tipo de respuesta a la pregunta “cuánto”. Aunque en realidad debemos ser más precisos
en una definición compleja.
Parece una perogrullada, pero si se mide algo es porque no se sabe a priori cuánto mide. Esto nos
dice que una medición es un caso particular de un experimento aleatorio, objeto central del estudio
del cálculo de probabilidades y la estadística. El resultado del experimento medir no se conoce hasta
que se ha medido.
Es la medición lo que define por un lado la magnitud como conjunto de posibles resultados que
pueden obtenerse del proceso de medición (define la variable aleatoria en un lenguaje
probabilístico, la población en lenguaje estadístico), y por otro lado, la realización concreta del
proceso de medición determina el valor de la medida (el evento en lenguaje probabilístico, la
muestra en lenguaje estadístico). Un experimento aleatorio debe ser descripto con total precisión
para que sea repetible en las mismas condiciones.
Un proceso de medición pone en interacción varios elementos: un objeto a medir, un patrón de
medida, un instrumento, un proceso de calibración, una unidad de medida, un observador o sujeto
que mide y sus ideas; y luego sigue la etapa de registro y procesamiento de la medición en el marco
de los procedimientos de la estadística descriptiva y de inferencia.
El objeto a medir no refiere a un objeto material, en el sentido usual del término, sino a una
propiedad. Por ejemplo, el objeto-material “papel” tiene un objeto-propiedad “longitud”, la longitud
de la hoja de papel, también el ancho de la hoja de papel, el espesor, el peso, la densidad, la
rugosidad, y podríamos seguir describiendo propiedades en tanto objetos de medida. Tomemos sólo
uno: la longitud. El patrón de medida será una longitud unidad tomada como referencia. En la
actualidad, el metro-patrón se define a partir de la velocidad de la luz, considerada como una de las
pocas constantes universales. Hoy es sencillo buscar la historia y la definición internacional del
metro, actividad que se sugiere al lector. Pero baste abrir los brazos en un abrazo fraterno para tener
una noción concreta de la medida de un metro. El segundo-patrón, como unidad internacional de
tiempo, también tiene su historia y su definición a partir de la velocidad de la luz, tarea de búsqueda
62

que se sugiere al lector. Pero baste tomar un latido del corazón en estado de reposo. Ya Galileo lo
usó como forma sencilla de medir el tiempo y, en su honor, podemos hacerlo para tener una noción
concreta de la medida de un segundo. Notemos que las dos unidades han sido definidas a escala
humana.
Un instrumento es un artefacto diseñado para realizar una medición. Previamente debe ser
calibrado con el patrón de referencia. El patrón define la unidad de medida y la calibración ajusta la
escala del instrumento en tal unidad. Cada unidad tiene un nombre y un símbolo. Así la letra “m”
refiere a la unidad “metro” y la letra “s” a la unidad “segundo”. Las unidades no son abreviaturas,
van ligadas al número, se escriben con minúsculas latinas, a menos que refieran a nombres propios.
Los múltiplos se han referenciado por medio de prefijos que no deben combinarse. Así, a partir
del metro (m), tenemos el decámetro (dam=10m) y la secuencia que se presenta en la Tabla 1.I para
múltiplos y submúltiplos.
Están en uso sólo siete unidades de base: el metro (m) para la distancia, el segundo (s) para el
tiempo, el kilogramo (kg) para la masa, el kelvin (K) para la temperatura termodinámica, el mol
(mol) para la cantidad de moléculas, la candela decimal (cd) para la intensidad de luz y el ampere
(A) para la intensidad de corriente. Casi todas las unidades en uso corriente son derivadas de las de
base. Algunas son agregadas en sistemas nacionales, como el minuto (min), la hora (h), el día, la
semana, el mes, el año, la legua, la cuadra…
No debe combinarse múltiplos o submúltiplos dentro de una misma expresión (por ejemplo, no
se debe decir “centimicrón”). Para el cambio de unidad, basta reemplazar el valor de la unidad que
se estaba usando en términos de la nueva, por ejemplo: 25km=25•1000m.

Múltiplos
Unidad Equivalencia Prefijo Ejemplo en longitud Ejemplo en tiempo
metro 1 - Abrazo fraterno: 1m Latido del corazón: 1s
decámetro 10 da Ancho de una calle: 1dam Un minuto: 6das
hectómetro 100 H Longitud de una cuadra: 1hm Una hora: 36hs
kilómetro 1000 K Altura del Everest: 8,848km Un día: 84,6ks
megametro 106 M Radio terrestre: 6,371Mm Un año: 31,5576Ms
gigametro 109 G Tierra-Luna0,3844Gm Un siglo: 3,15576Gs
12
terametro 10 T Dist. Tierra-Sol: 0,1496Tm Historia escrita: 0,16Ts
petametro 1015 P Dist. Alfa Centaro: 41,3Pm Primer homínido: 0,13Ps
exametro 1018 E Radio Galaxia: 1420Em Formación Tierra: 0,14Es
zettametro 1021 Z Dist. Andrómeda: 24Zm Universo: 0,000433Zs
yottametro 1024 Y Radio del Universo: 137Ym -
Submúltiplos
Unidad Equivalencia Prefijo Ejemplo en distancia Ejemplo en tiempo
Metro 1 - Distancia de lectura: 0,3m Corchea en andante: 0,5s
Decímetro 0.1 D Mano estirada: 2dm Impulso nervioso: 2ds
Centímetro 0.01 C Diam. pelota tenis: 6,67cm Parpadeo: 5cs
milímetro 0.001 M Diámetro del tímpano: 9mm Período La440: 2,27ms
micrómetro 10-6 µ Tamaño de bacteria: 1µm Período 1MHz: 1µs
-9
nanómetro 10 N Molécula de agua: 10nm Transición electrón: 2ns
picometro 10-12 P Radio átomo H: 52.9pm Rotación molecular: 1ps
femtometro 10-15 F Radio de núcleos: 5fm Vibración atómica: 1fs
attometro 10-18 A Radio de protón: 842am Luz atraviesa átomo: 1as
zeptometro 10-21 Z - Vibración nuclear: 1zs
yoctometro 10-24 Y - Vida media mesón π: 10ys
Tabla 1.I. Múltiplos y submúltiplos de unidades
63

Finalmente, debe describirse el proceso de medición de modo claro, completo, preciso, de


manera tal que sea repetible y la medición sea objetiva.
En todo este desarrollo se ha considerado que el observador, como sujeto que mide y que
además interpreta la medición, no influye sobre ésta. También, en el ámbito de la física clásica, se
ha supuesto que el procedimiento de medición, los instrumentos, la calibración pueden llegar a
perfeccionarse de modo que la interacción entre el instrumento y el patrón, y entre el instrumento y
el objeto, no influyan sobre el resultado de la medición. De esta manera, se asume que el resultado
es representativo de la propiedad del objeto en sí, sin verse afectada por el instrumento ni el
observador. La interacción con el instrumento es inevitable en algunas áreas, como en el dominio
atómico, dado que instrumento y objeto son comparables, o en muchas disciplinas sociales, en las
que la interacción entre el sujeto o grupo humano (objeto de medida) y el sujeto observador es
inevitable.
El resultado de la medición toma el nombre de medida. El número medida expresa cuántas veces
la unidad, a la que refiere el patrón, está contenida en el objeto. Lo representaremos con x de un
modo general. La unidad, que refiere al patrón, se notará usando corchetes, así [x] refiere a las
unidades de x. La unidad de una longitud x es el metro y lo notaremos [x]=m.
La suma de medidas también debe definirse por medio del proceso de medición. Algunas
magnitudes son sumables y otras presentan problemas que deben tratarse con detenimiento. Por
ejemplo, la suma de longitudes se define físicamente como el resultado de colocar una barra rígida
de longitud 𝐿1 y a continuación otra barra rígida de longitud 𝐿2 . Si el resultado de la longitud de las
barras dispuestas de este modo vale 𝐿 = 𝐿1 + 𝐿2 , la longitud es sumable. El tiempo será sumable si
la duración de un evento vale 𝑇1 e inmediatamente se realiza otro proceso de duración 𝑇2 , tras lo
cual se mide el tiempo total obteniendo 𝑇 = 𝑇1 + 𝑇2 . Esto será válido también para masas y fuerzas,
y muchas magnitudes derivadas. Otras magnitudes, como la temperatura, no son sumables.
Pero ninguna medida es perfecta. En este contexto, la palabra “error” de medición no refiere a
una equivocación al medir sino a un valor asociado a la incertidumbre o medida de confiabilidad, o
de tolerancia de la medición. Lo notaremos al error como Δx. El error absoluto será el valor de
incertidumbre expresado en las mismas unidades que la medida. Así 3,26m±0,02m expresa que se
ha medido una longitud obteniendo, como medida más confiable, el valor de tres metros y veintiséis
centímetros, con un “error” de dos centímetros. Por lo tanto, es esperable que el verdadero valor se
encuentre entre 3,24m y 3,28m. En el marco de la teoría estadística de errores, esta medida expresa
una probabilidad de 68% de que el verdadero valor se encuentre en ese rango. En este contexto, el
intervalo de confiabilidad del 68% esencialmente establece un límite de resolución para la
diferenciación de dos medidas, como veremos luego.
El rango también se usa para expresar la máxima medida que permite un instrumento o un
procedimiento de medición. La sensibilidad refiere a la mínima medida posible mientras que la
sensitividad hace referencia a la mínima respuesta del instrumento o procedimiento, aunque no sea
cuantificable.
El término resolución tiene gran importancia, al igual que la sensibilidad. Refiere a la mínima
diferencia que puede determinarse entre dos medidas. El error de una medición es a su vez una
medida de resolución entre dos medidas muy próximas. Así, una longitud de 3,26m y otra de 3,27m
no serían resolubles con un error de 0,02m porque sus intervalos (3,24m; 3,28m) y (3,25m; 3,29m)
se superponen.
Comentemos, además, que se distingue el error aleatorio, cuando no se conocen las fuentes de
variabilidad en la medición y las variaciones entre diferentes medidas de un mismo objeto son
azarosas, del error sistemático, cuando hay fuentes de error que afectan a la medida del mismo
modo (con un sesgo positivo en exceso o sesgo negativo en defecto).
También distingamos el error absoluto, arriba mencionado, del error relativo, expresado como
un cociente entre el error absoluto y el valor de la medida
64

𝛥𝑥
𝑥

El error relativo, al ser adimensional, permite comparar la calidad de mediciones de magnitudes


de naturaleza diferente. Si se lo multiplica por 100 se expresa como “error porcentual”.
El último término a introducir será el de magnitud (medida de cuán grande es). Refiere al
conjunto de resultados posibles de un proceso de medición. Así, la longitud es una magnitud con un
amplio rango de resultados posibles mientras que la medida concreta obtenida de una medición en
particular es el resultado específico que se ha obtenido, entre todos los posibles, asociado a un
objeto concreto en especial. La longitud es una magnitud mientras que la medida concreta de la
longitud de una mesa en especial es uno de los tantos resultados posibles.
En general se trabaja con magnitudes, en cuanto son expresiones de las propiedades de las
entidades y procesos. Las relaciones entre magnitudes se expresan como leyes en un formato
matemático.

Error estándar

En el marco de los métodos experimentales y la teoría estadística de mediciones suele escribirse


el resultado de una medición como
𝑥 ± ∆𝑥

donde el término ∆𝑥 suele llamarse “error” de medición, término poco adecuado porque puede dar
lugar a malas interpretaciones, y que quizá debería llamarse medida de confiabilidad o, más
apropiadamente, medida de resolución.
La resolución experimental refiere a la diferencia mínima detectable numéricamente entre dos
medidas consecutivas. Así, si tenemos una regla graduada en milímetros, no tendría sentido
informar una medida de 23,784cm porque asume dos cifras significativas por debajo de la
resolución del instrumento. Si redondeamos esta medida a 23,8cm, se asume que la resolución
asociada es la que corresponde a un decimal y, en la notación de arriba, se escribiría

𝑥 = (23,8 ± 0,1)𝑐𝑚

Cuando se realizan varias medidas, en términos muy generales es válido afirmar que el promedio
es una mejor estimación representativa del conjunto de mediciones y del parámetro a medir, así
como se debe establecer un intervalo de confianza asociado a la medición.
Supongamos entonces que a partir de un conjunto de al menos una treinta medidas, se obtiene un
cierto promedio (𝑥̅ ) y una desviación normal, estimador insesgado de la desviación poblacional
(𝑠𝑛−1 ). Se define como “error estándar” estadístico de la medición a
𝑠𝑛−1
𝐸=
√𝑛

Es frecuente que se asigne esta determinación del error estándar al error de medición, y así
𝑠𝑛−1
𝑥 ± ∆𝑥 = 𝑥̅ ±
√𝑛

En la expresión de un intervalo de confianza, tal como lo hemos establecido para la media


poblacional
65

𝜎 𝜎 𝑠𝑛−1 𝑠𝑛−1
𝑃 (𝑥̅ − 𝑧𝛼 ≤ 𝜇 < 𝑥̅ + 𝑧𝛼 ) ≅ 1 − 𝛼 ≈ 𝑃 (𝑥̅ − 1 ≤ 𝜇 < 𝑥̅ + 1 )
2 √𝑛 2 √𝑛 √𝑛 √𝑛

Al escribir que 1 − 𝛼 es aproximadamente igual (≅) a la probabilidad de que la verdadera


medida se ubique en el intervalo indicado a la izquierda, pero sólo aproximadamente (≈)
corresponde a los límites indicados en la expresión de la derecha y siempre que 𝑧𝛼 = 1 tiene dos
2
implicaciones. Al usar la desviación normal en lugar de la desviación estándar poblacional,
expresamos que la validez de la igualdad se limita a una aproximación válida en tanto la desviación
normal es una buena aproximación a la desviación estándar poblacional. Por otra parte, si
recurrimos a la tabla de distribución normal, vemos que este valor de 𝑧𝛼 = 1 corresponde a una
2
probabilidad acumulada de 0,8159 y, dejando fuera dos colas, de 0,6828 o aproximadamente 68%.
Desde el punto de vista del intervalo de confianza, hay un 68% de probabilidad de que la verdadera
medida se encuentre dentro del intervalo indicado y un 32% de probabilidad de que esté fuera del
intervalo, tomado esto como medida de riesgo de asignar un intervalo a la verdadera medida y que
en realidad estemos cometiendo un error porque está fuera de ese intervalo. Insistimos mucho en
esto porque significa que, en una de cada tres determinaciones estadísticas de la verdadera medida a
partir del promedio, es esperable que nos estemos equivocando dado que hay una alta probabilidad,
de casi el 33%, de que esté fuera del intervalo.
Es un riesgo de error demasiado alto para establecerlo como intervalo de confianza. Sin
embargo, es lo que se define como error estándar y adopta como medida de error de medición.
Hemos dicho más arriba “medida de resolución” más que “medida de confiabilidad”. El motivo es
que, si se asume que se realiza dos medidas de una magnitud que son diferentes, por ejemplo, dos
varillas de distinta longitud, las distribuciones de probabilidad asociadas a cada medida deben
diferir en la media poblacional, pero tener la misma varianza dado que es la varianza lo que
caracteriza la dispersión de resultados asociada al procedimiento experimental de medición.
Para facilitar la interpretación, supongamos que tenemos dos distribuciones normales
correspondientes a cada una de las medidas, en el ejemplo, a las mediciones de cada una de las
longitudes de las varillas 𝑋1 ~𝑁(𝜇1 ; 𝜎) y 𝑋2 ~𝑁(𝜇2 ; 𝜎), si las esperanzas difieren en más de dos
desvíos estándar entre sí, la distribución de la suma de las dos variables aleatorias será bimodal y,
por lo tanto, las dos medidas serán distinguibles por medio de ese procedimiento de medición; dicho
de otro modo si 𝑋1 < 𝑋2 , son resolubles si 𝜇1 + 𝜎 < 𝜇2 − 𝜎. En tal caso los intervalos de error
(𝜇1 − 𝜎; 𝜇1 + 𝜎) y (𝜇2 − 𝜎; 𝜇2 + 𝜎) no se superponen. Pero si siendo igualmente 𝑋1 < 𝑋2 y en
cambio 𝜇1 + 𝜎 ≥ 𝜇2 − 𝜎, resulta que los intervalos establecidos por la esperanza y la desviación
(𝜇1 − 𝜎; 𝜇1 + 𝜎) y (𝜇2 − 𝜎; 𝜇2 + 𝜎) se superponen, la suma de las variables aleatorias será
unimodal, y las dos medidas no serán resolubles por ese procedimiento de medición.
Lo planteado en el párrafo anterior corresponde a distribuciones poblacionales, pero en la
práctica sólo disponemos de medidas experimentales, promedios y desviaciones normales, de modo
que si se aplica el mismo procedimiento de medición a dos medidas que no se sabe si son
diferentes, si es posible que la medida 1 sea menor que la medida 2, para que sean resolubles o
distinguibles experimentalmente deberá ser
𝑠𝑛−1 𝑠𝑛−1
𝑥̅1 + < 𝑥̅2 −
√𝑛 √𝑛

Vemos entonces que el error estándar no se ofrece como intervalo de confianza para la esperanza
sino como criterio de resolución entre dos medidas experimentales consecutivas cuando se han
tratado los datos en forma estadística.
Conviene aclarar aquí que, si el número de datos es muy grande, el error estándar es muy
pequeño, de modo que este número podría ser inferior a la resolución experimental. A modo de
ejemplo, si nuestro instrumento para medir longitudes está graduado en milímetros y el desvío
66

normal da por resultado 5mm, cien mediciones nos darían un error estándar de medio milímetro,
menor que la resolución experimental pero razonable aún. En cambio, si realizamos 10000
mediciones, el error estándar sería de 0,05mm, dos órdenes de magnitud menor que la resolución
experimental. Esto es formalmente cierto, pero poco razonable en términos prácticos, tanto
instrumentales como poco razonable es tomar diez mil veces la misma medida.
En el siguiente gráfico se muestra dos distribuciones normales que se superponen parcialmente.
Si las sumamos gráficamente, podemos ver que la suma de los dos segmentos que corresponden al
punto en el que se intersecan es menor que el máximo o moda de cada una de las distribuciones
individuales. En tal caso diríamos que las dos distribuciones son resolubles. Si estuvieran más
alejadas, esta diferencia sería mayor aun y serían más resolubles todavía, pero si estuviesen más
próximas, al sumarlas, el valor máximo de las distribuciones llegaría a coincidir con la suma de los
segmentos. Esto ocurre cuando se intersecan en los puntos 𝜇𝐴 + 𝜎𝐴 = 𝜇𝐵 − 𝜎𝐵 . Si la distancia que
las separa es menor que 𝜎𝐴 + 𝜎𝐵 , las dos distribuciones no son estadísticamente resolubles.

https://desktop.arcgis.com/es/arcmap/10.3/tools/spatial-analyst-toolbox/performing-the-
classification.htm

En el dibujo se representa dos distribuciones estadísticamente resolubles, pero aun así puede
haber situaciones en que un dato pueda pertenecer tanto a una como a otra. Plantearemos este
problema más adelante en el marco de la evaluación de hipótesis.

Evaluación estadística de hipótesis

Para cerrar el año trataremos dos temas a modo informativo pero que contribuye a interpretar
cierta terminología de uso bastante frecuente. Una de ellas se relaciona con lo que se llama
evaluación estadística de hipótesis. A veces se lo menciona como “test” de hipótesis utilizando un
término que no es castellano, y otras veces como “prueba” de hipótesis, lo que puede dar lugar a
una mala interpretación porque no se pone a prueba ni mucho menos se prueba una hipótesis. Lo
que se realiza es una medida de riesgo de cometer un error al tomar una decisión sobre la base de
alguna hipótesis.
Primero discutiremos qué es una hipótesis. Si ante un problema se propone una posible solución
que no está totalmente comprobada, tal posible respuesta es una hipótesis, que se considera válida a
menos que algún otro elemento de juicio obligue a descartarla, o bien porque conduce a
consecuencias que no son válidas.
Casi cada acción que se realiza se apoya en una hipótesis e involucra una decisión. El simple
hecho de cruzar una calle es una decisión que se apoya en la hipótesis que podremos llegar a la otra
vereda sin inconvenientes. Elegir una carrera, rendir un examen, realizar un viaje, aceptar un trabajo
son decisiones que se apoyan en suponer que se obtendrá un beneficio de alguna manera y que no
habrá inconvenientes. Tales suposiciones son hipótesis que, si algo muestra que no son válidas,
67

deben rechazarse y la decisión se verá afectada, pero si nada las invalida, la decisión será tomada
suponiendo que son válidas y las consecuencias de la decisión tomada se verán a posteriori.
Por lo tanto una hipótesis es una posible respuesta a un problema, pero por ser posible quiere
decir que puede haber otras respuestas alternativas o hipótesis alternativas. En principio
asumiremos que hay una hipótesis que por algún motivo consideraremos conveniente, y otra
hipótesis alternativa que, a menos que se imponga, será descartada con respecto a la hipótesis nula.
El ejemplo más clásico es la hipótesis de inocencia: toda persona acusada de un delito se
presume inocente a menos que se pruebe lo contrario. La hipótesis de inocencia será la de partida y,
para ser descartada, se deberá reunir todas las pruebas que pongan de manifiesto que no es válida; si
tales pruebas no son firmes, la hipótesis de inocencia será la aceptada como válida.
En general se llama “hipótesis nula” y simboliza como 𝐻0 a la hipótesis conveniente, deseable o
la que por algún motivo debe aceptarse a menos que las pruebas obliguen a que sea rechazada y
deba aceptarse la hipótesis alternativa. Notaremos ésta como 𝐻1 aunque a veces se la nota con 𝐻𝐴 o
𝐻 ′ . En el ejemplo sería la inocencia la hipótesis nula y la culpabilidad, la alternativa.
Rechazar la hipótesis nula significa declarar a una persona culpable y es posible que se cometa
un error si en realidad es inocente. También es posible cometer un error si se declara inocente a
alguien que en realidad es culpable. De modo que ante dos hipótesis hay dos errores que pueden
cometerse. Entre los dos errores que pueden cometerse el que más se desea no cometer es declarar
culpable a un inocente, esto es, rechazar la hipótesis nula (inocencia) siendo verdadera. A tal error
se lo llama “error de tipo I” y suele expresarse ETI. El otro error que puede cometerse es declarar
inocente a un culpable, esto es rechazar la hipótesis alternativa (culpabilidad) siendo verdadera o, lo
que es lo mismo, aceptar la hipótesis nula (inocencia) siendo falsa. Al segundo tipo de error se lo
llama “error de tipo II” o ETII.
En síntesis, ante un problema supondremos que hay dos hipótesis: una hipótesis deseable o
hipótesis nula (H0), y una hipótesis alternativa (H1) que deberá aceptarse sólo si hay pruebas
suficientemente convincentes a su favor. El error de tipo I (ETI) consiste en rechazar la hipótesis
nula siendo verdadera y el error de tipo II (ETII) resulta de aceptar la hipótesis nula siendo falsa.
Podrá notarse que hasta el momento no se ha mencionado la estadística ni el cálculo de
probabilidades. El motivo es que no es necesario, y es una discusión relativa a la toma de decisión
que puede hacerse desde cualquier área y con diferentes marcos. Lo que aporta la estadística y el
cálculo de probabilidades es el recurso al uso sistemático de la información y el marco teórico para
el cálculo de riesgos en términos de probabilidades de cometer errores al tomar una decisión.
Suele llamarse 𝛼 (letra griega “alfa”) a la probabilidad de cometer un error de tipo I y 𝛽 (letra
griega “beta”) a la probabilidad de cometer un error de tipo II.
Había quedado pendiente una breve discusión sobre las medidas de riesgo de error de tipo I y
tipo II, representadas usualmente por 𝛼 y 𝛽. La determinación de estos niveles de riesgo requiere el
conocimiento de la distribución de probabilidad hipotética sobre la que se está trabajando. Si se
realiza primero un experimento y, en función del resultado, luego se calcula el riesgo de error frente
a la toma de decisión, suele llamarse al parámetro 𝛼 el “valor P” o “valor de probabilidad”. En
general se refiere a 𝛼 como el “nivel de significancia”.
Tomemos un ejemplo. Si se tira una moneda una vez y sale “cara” nadie se sorprendería.
Tampoco si se la tira dos veces y sale dos veces “cara”. Quizá tampoco si a la tercera tirada vuelve
a salir “cara”. La probabilidad de que salga “cara” la primera vez vale 0,5 o 50%. De que salga dos
veces seguidas “cara” vale 0,25 o 25%. De que salga “cara” tres veces seguidas vale 0,125 o 12,5%.
Si al tirarla por cuarta vez vuelve a salir “cara” quizá resulte extraño dado que, aunque no es
imposible, la probabilidad de que esto ocurra por azar es de sólo 0,0625 o 6,25%. Pero si vuelve a
salir cara por quinta vez comenzaríamos a dudar de que la moneda sea “genuina” y quizá diríamos
que está “arreglada” para que siempre caiga cara. La probabilidad de que salga cinco veces seguidas
“cara” es sólo de 0,03125 o 3,125%. No es imposible pero comenzaríamos a considerarlo “raro”. Si
por sexta vez sale “cara” afianzaríamos nuestra desconfianza en la moneda y quizá la rechazaríamos
como “genuina” aunque la probabilidad de que esto ocurra por azar vale 0,015625 o 1,5625%. Si
68

hacemos esto, corremos el riesgo de rechazar una moneda “genuina” con una medida de error de
tipo I de 𝛼 = 1,5625%.
Esto quiere decir que, si se toma la decisión de tirar la moneda porque seis caras seguidas se
considera un resultado demasiado “raro”, asumimos el riesgo de tirar una moneda “genuina” de
poco más de 1,5% dado que la moneda puede ser buena y equilibrada, y tal resultado podría haberse
obtenido sólo por azar con esa probabilidad. Si aun así decidimos tirar la moneda, el “riesgo
calculado” de 1,5% habrá sido considerado “aceptable” frente al otro riesgo de conservar una
moneda “falsa” o al menos desequilibrada.
Este cálculo se apoyó en la hipótesis de equilibrio de una moneda “genuina”, de allí que la
evaluación de hipótesis más bien es una evaluación de riesgo de rechazar una hipótesis correcta. El
cálculo de probabilidad de estos niveles de riesgo requiere el conocimiento de la distribución de
probabilidad. En el caso de la moneda es sencillo porque se asume que la moneda equilibrada tiene
probabilidad 50% de “cara” o “ceca” en cada tirada, y que 0,56 es la probabilidad de que siempre
salga cara en seis tiradas. En general este cálculo es más complejo y requiere un fuerte apoyo
teórico, pero nos limitamos a la terminología empleada para la evaluación de los niveles de riesgo.

Evaluación estadística de hipótesis e intervalos de confianza

Antes de continuar discutiremos el estrecho vínculo entre los intervalos de confianza y los
límites para la aceptación o rechazo de hipótesis. En primer lugar, recordemos que habíamos escrito

𝑃(𝜃 ∈ [𝑙𝑖 ; 𝑙𝑠 ]) = 1 − 𝛼

En su momento pareció quizá algo extraña la notación de la probabilidad. Observemos que esta
notación general establece que el nivel de confianza (1 − 𝛼) corresponde a la probabilidad de que el
verdadero valor del parámetro buscado se encuentre dentro del intervalo, pero existe una
probabilidad (𝛼) complementaria de que el intervalo [𝑙𝑖 ; 𝑙𝑠 ] no contenga al parámetro poblacional.
Por lo tanto, si se toma una decisión asumiendo que el parámetro 𝜃 se encuentra dentro del intervalo
obtenido experimentalmente, se asume un riesgo (𝛼) de que esté fuera y la decisión sea incorrecta.
Si nos remitimos a intervalos de confianza para la esperanza y a evaluación de hipótesis sobre la
media poblacional, notamos que el intervalo de confianza se centra en el promedio mientras que una
evaluación de hipótesis a dos colas se centra en la hipótesis nula. En el siguiente esquema
mostramos el promedio (Xm) y la esperanza correspondiente a la hipótesis nula (µ). El intervalo de
confianza centrado en el promedio (< >) contiene a la hipótesis nula. Por otra parte los límites de
aceptación y rechazo ( | | ) en torno a la esperanza de la hipótesis nula contienen al promedio.

Si se hubiese hecho una evaluación de hipótesis de diferencia con respecto a una media
poblacional hipotética, el esquema hubiera conducido a no rechazar la hipótesis nula; si el promedio
estuviera fuera de los límites, se habría rechazado la hipótesis nula. Planteado a partir del intervalo
de confianza, la conclusión equivalente debió ser obtenida observando si la hipótesis nula está
contenida en el intervalo de confianza en torno al promedio.
El valor P se habría obtenido como la probabilidad de que el promedio exceda la distancia
empíricamente obtenida del valor de la esperanza hipotética. De la misma manera se puede calcular
la probabilidad de que la esperanza, parámetro que define la hipótesis nula, exceda la distancia
experimental con respecto al promedio. Lo antedicho es válido para evaluación de hipótesis
unilaterales al igual que para intervalos de confianza a un solo lado.
69

En síntesis, vemos que, si un intervalo de confianza contiene a la hipótesis nula, ésta no debería
ser rechazada al complemento del nivel de confianza (𝛼), coincidente con el nivel de significancia
de la hipótesis correspondiente. Concluimos que una reinterpretación de los intervalos de confianza
permite aplicarlos a la evaluación estadística de hipótesis.

Construcción de estadísticos de prueba

Hemos planteado la evaluación de hipótesis sobre la comparación entre un resultado


experimental, hasta el momento un promedio, y los límites que se establecen a partir de una
hipótesis nula. Vemos también que puede hacerse sobre la base de ver si un intervalo de confianza
contiene al parámetro correspondiente a la hipótesis nula. Pero siempre hemos trabajado sobre los
parámetros poblacionales y los correspondientes de la muestra.
Podemos construir nuevos parámetros, generalmente estandarizados y adimensionales, de modo
que la comparación pueda hacerse sobre poblaciones de diferente naturaleza, o al menos para
establecer estándares de comparación y decisión. Estos parámetros suelen llamarse “estadísticos de
prueba” cuando el objetivo específico es la evaluación de hipótesis.
A modo de ejemplo, si en un cálculo de límites de confianza obtenemos

𝜎 0,5𝑔
𝐿𝑖 = 𝜇0 − 𝑧𝛼 = 7𝑔 − 1,96 ∗ = 6,804𝑔
2 √𝑛 √25

𝜎 0,5𝑔
𝐿𝑠 = 𝜇0 + 𝑧𝛼 = 7𝑔 + 1,96 ∗ = 7,196𝑔
2 √𝑛 √25

Observamos que el valor de 7,2g para el promedio excede levemente el límite superior, con lo
cual podemos rechazar la hipótesis nula con el 5% de significancia. Equivalentemente podríamos
haber estandarizado el promedio para construir un “estadístico de prueba”, expresado como 𝑧0 dado
que se establece a partir de la hipótesis nula, en la forma

𝑥̅ − 𝜇0 7,2𝑔 − 7,0𝑔
𝑧0 = = = 2,0
𝜎 0,5𝑔/√25
Es tan cierto que
7,2𝑔 ∉ [6,804; 7,196]
como que
2,0 ∉ [−1,96; 1,96]

De modo que desarrollar la evaluación de hipótesis sobre los límites en torno a la esperanza
correspondiente a la hipótesis nula o bien en relación con los valores de la distribución normal
estándar es equivalente.
En adelante utilizaremos en forma equivalente límites de aceptación y rechazo absolutos o bien
expresados como un estadístico de prueba.

Prueba de ajuste chi-cuadrado

Uno de los problemas pendientes de resolución es el de decidir si una distribución tiene


determinada forma a partir de la observación de un histograma. A modo de ejemplo, si un
histograma tiene un aspecto aproximadamente normal, pero con un leve sesgo, o un pequeño
achatamiento en la moda, es válido preguntarse si esa variación es suficiente para descartar un
comportamiento normal o no es tan marcada para desechar la normalidad.
70

La hipótesis nula será entonces que una distribución tiene determinada forma, o bien como
alternativa, evaluar si se aparta sensiblemente de la forma propuesta. Para ello se recurre a un
procedimiento de prueba que se apoya en la llamada “distribución chi-cuadrado” aplicada a la
diferencia entre un “histograma esperado” y el efectivamente obtenido.
A partir de una variable aleatoria con distribución desconocida obtenemos una muestra con un
histograma asociado. Si a partir de la función de densidad propuesta como hipótesis nula obtenemos
un cierto número esperado de resultados correspondientes al intervalo 𝑘 entre los límites 𝑙𝑘−1 y 𝑙𝑘 ,
llamamos “𝐸𝑠𝑝𝑘 ” al número de datos esperados en función de la hipótesis en el intervalo 𝑘. Por otra
parte, habrá un cierto número de observaciones “𝑂𝑏𝑠𝑘 ” en el mencionado intervalo. Si se dispone
de N intervalos, el estadístico de prueba
𝑁
(𝑂𝑏𝑠𝑘 − 𝐸𝑠𝑝𝑘 )2
𝜒02 =∑
𝐸𝑠𝑝𝑘
𝑘=1

2
tiene una distribución aproximadamente 𝜒𝑁−𝑃−1 , donde “P” es el número de parámetros requeridos
para la estimación de la forma funcional de la distribución propuestas, los que se estiman a partir de
la muestra con pérdida de grados de libertad.
A modo de ejemplo, si se dispone de 50 datos, con lo cual se estima conveniente establecer un
número de N=7 intervalos, y se supone como hipótesis nula que la distribución es normal, por lo
cual se requiere la estimación de dos parámetros (la esperanza a partir del promedio y la varianza a
partir del cuadrado de la desviación normal). En consecuencia, el estadístico de prueba responde a
2 2
una distribución chi-cuadrado de la forma 𝜒𝑁−𝑃−1 = 𝜒7−2−1 = 𝜒42 .
Adjuntamos una “tabla chi-cuadrado” en la que se indica el número de grados de libertad en la
primera columna y el nivel de significancia en primera fila. En nuestro ejemplo, si tomamos cuatro
grados de libertad con un nivel de significancia de 5% (0,050), tendremos 𝜒42 = 9,49.
La aplicación de esta evaluación no requiere que los intervalos sean iguales en tamaño, pero sí
que haya un número mínimo de al menos unos tres datos en cada intervalo para que el resultado sea
confiable. Si, con todas estas consideraciones, 𝜒02 > 𝜒𝛼,𝑁−𝑃−1
2
para cierto nivel de significancia 𝛼,
se rechaza la hipótesis nula relativa a la distribución propuesta.
Si trabajamos con una distribución discreta, como podría ser tirar un dado sesenta veces y
esperar diez resultados para cada cara, bastaría escribir 𝐸𝑠𝑝𝑘 = 10 para todo 𝑘, y contabilizar los
resultados concretos 𝑂𝑏𝑠𝑘 para evaluar si hay uniformidad en la probabilidad de cada resultado al
tirar un dado.
Si la distribución es continua y la asociamos a una densidad 𝑓0 (𝑥), después de obtener los
límites para cada intervalo, si n es el número de datos habrá que calcular

𝐸𝑠𝑝𝑘 = 𝑛𝑝(𝑙𝑘−1 < 𝑥 ≤ 𝑙𝑘 )

donde 𝑝(𝑙𝑘−1 < 𝑥 ≤ 𝑙𝑘 ) es la probabilidad teórica asociada al intervalo.

Tablas de contingencias

Un planteo más general conduce a la configuración de tablas de doble entrada para aplicar esta
evaluación a distribuciones en dos variables. La “tabla de contingencias” se propone evaluar la
independencia entre dos variables discretas o continuas.
En la tabla siguiente presentamos observaciones de una variable clasificadas sobre la base de dos
criterios. Por ejemplo, puede ser una encuesta con varias opciones ubicadas en filas (r opciones)
tomada en varias ciudades ubicadas en columnas (s ciudades), o bien en r localizaciones en s
tiempos o cualquier planteo similar en presentación.
71

1 2 … j … s
1 Obs11 Obs12 Obs1j Obs1s
2 Obs21 Obs22 Obs2j Obs2s

i Obsi1 Obsi2 Obsij Obsis

r Obsr1 Obsr2 Obsrj Obsrs

Supongamos que hay 𝑛𝑗 ciudades con similares características en las cuales se ha obtenido 𝑛𝑖
selecciones de la categoría i. El número Obsij representa el número de observaciones de la categoría
i realizadas en ciudades con características j (podrían ser clasificadas por número de habitantes, por
ejemplo).
Si llamamos 𝑂𝑏𝑠̂𝑖 al estimador de la probabilidad, a través de la frecuencia relativa del
histograma, de las observaciones de la categoría i considerando a todas las ciudades como
equivalentes sin distinción, si n es la totalidad de datos en la muestra
𝑠
1
̂𝑖 =
𝑂𝑏𝑠 ∑ 𝑂𝑏𝑠𝑖𝑗
𝑛
𝑗=1
De la misma manera llamamos
𝑟
1
̂𝑗 =
𝑂𝑏𝑠 ∑ 𝑂𝑏𝑠𝑖𝑗
𝑛
𝑖=1

al estimador de la probabilidad de las observaciones realizadas en ciudades del tipo j a través de la


frecuencia relativa del histograma realizado sobre las columnas. Notemos que estas frecuencias
relativas representan las distribuciones marginales estimadas a través de los histogramas
respectivos.
Si se asume independencia entre las observaciones, la probabilidad conjunta será equivalente al
producto de las probabilidades marginales, luego

̂𝑖 ∗ 𝑂𝑏𝑠
𝑝𝑖𝑗 = 𝑂𝑏𝑠 ̂𝑗

Por lo tanto, el número de casos esperados para la característica i observada en la ciudad j vale

𝑠 𝑟
1
̂𝑖 ∗ 𝑂𝑏𝑠
𝐸𝑠𝑝𝑖𝑗 = 𝑛 ∗ 𝑂𝑏𝑠 ̂𝑗 = (∑ 𝑂𝑏𝑠𝑖𝑗 ) (∑ 𝑂𝑏𝑠𝑖𝑗 )
𝑛
𝑗=1 𝑖=1
Si construimos el estadístico de prueba
𝑟 𝑠 2
(𝑂𝑏𝑠𝑖𝑗 − 𝐸𝑠𝑝𝑖𝑗 )
𝜒02 = ∑∑
𝐸𝑠𝑝𝑖𝑗
𝑖=1 𝑗=1

se supone que, para un número de observaciones suficientemente grande, de modo que al menos
haya unos tres casos en cada uno de los casilleros, este parámetro responde a una distribución de
2
tipo 𝜒(𝑟−1)(𝑠−1) , es decir con (r-1)*(s-1) grados de libertad.
72

2
Si 𝜒02 > 𝜒𝛼,(𝑟−1)(𝑠−1) , se rechaza la hipótesis nula de independencia al nivel 𝛼% de significancia y
se asume que es posible que exista alguna relación entre las respuestas y las ciudades clasificadas
por número de habitantes, para cerrar el ejemplo.
Un planteo similar puede hacerse si se conoce la distribución de probabilidad asociada a una de
las variables o a ambas, en cuyo caso los valores esperados se calculan a través de las distribuciones
y no por medio de estimaciones a partir de los histogramas.
Un caso particular se aplica en la evaluación de respuesta a un medicamento. En tal caso la tabla
se reduce a dos filas y dos columnas con sus marginales.

Placebo Medicamento n
Recupera ObsRP ObsRM R
No recupera ObsNP ObsNM NR
n P M N

En esta tabla, ObsRP es el número de observaciones de enfermos que se recupera, aunque se les
suministra un placebo, ObsRM es el número de enfermos que se recuperan y reciben el medicamento,
ObsNP y ObsNM son los que no se recuperan recibiendo el placebo ni el medicamento
respectivamente. “R” es el total de los que se recuperan y NR los que no se recuperan, siendo n el
número total de datos.
Los valores esperados serían

Placebo Medicamento n
Recupera R*P/n R*M/n R
No recupera N*P/n N*M/n NR
n P M n

El estadístico de prueba es

𝑅𝑃 2 𝑅𝑀 2 𝑁𝑃 2 𝑁𝑀 2
(𝑂𝑏𝑠𝑅𝑃 − ) (𝑂𝑏𝑠𝑅𝑀 − ) (𝑂𝑏𝑠𝑁𝑃 − ) (𝑂𝑏𝑠𝑁𝑀 − )
𝜒02 = 𝑛 + 𝑛 + 𝑛 + 𝑛
𝑅𝑃 𝑅𝑀 𝑁𝑃 𝑁𝑀
𝑛 𝑛 𝑛 𝑛
2
El resultado es comparado con 𝜒𝛼,1 con un grado de libertad. Con un 5% de nivel de
significancia, el valor de chi-cuadrado a comparar sería 3,84. Si el valor obtenido de 𝜒02 fuese
mayor que este número, se diría que se rechaza la hipótesis de independencia con el 5% de nivel de
significancia.
Dado el pequeño tamaño de la tabla, hay otros criterios menos cuantitativos en términos de nivel
de riesgo y más empíricos, que comparan directamente relaciones entre los resultados de la tabla de
observaciones.

Análisis Estadístico de Regresión

Modelo de regresión lineal simple

Otro gran problema a resolver en las distribuciones multivariadas es la posibilidad de que existan
relaciones internas entre las variables que intervienen en la distribución. En tal caso se debe estudiar
la naturaleza y evaluar la intensidad de la relación. Pero el objetivo, al trabajar sobre distribuciones
multivariadas, puede ser no sólo establecer la relación entre las variables sino agruparlas,
tipificarlas, separarlas, establecer criterios de separación, ordenarlas, jerarquizarlas; o bien trabajar
73

sobre la agrupación, tipificación, separación y ordenamiento de individuos a los que se asocian las
variables. Estos problemas son en general complejos y se deben abordar desde la perspectiva más
simple para avanzar en complejidad y criterios de modelado.
Como primera aproximación, nos limitaremos a buscar relaciones entre las variables y, con el
criterio de complejidad progresiva, adoptaremos la hipótesis más simple, es decir, de linealidad en
la relación entre dos variables. La técnica de “regresión lineal simple por cuadrados mínimos” se
origina, por una parte, en la noción de “regresión a la media”, introducido por Francis Galton en
1886 (Galton, F. (1886). “Regression towards mediocrity in hereditary stature”. En The Journal of
the Anthropological Institute of Great Britain and Ireland 15: 246-263), y por otra en el uso de
ajuste por “cuadrados mínimos”, desarrollado por Legendre y más formalmente por Gauss a
principios del siglo XIX con fines de cálculos astronómicos. La noción de regresión a la media
refiere a que, en la variabilidad biológica de la evolución, los descendientes tienden a regresar al
comportamiento medio de la población (destaquemos que Galton era primo de Darwin), en
particular se hace referencia que, en términos generales, los hijos de padres altos tienden a ser más
bajos que los padres y, recíprocamente, los descendientes de padres de baja estatura, tienden a ser
más altos que sus padres. La técnica de cuadrados mínimos es un procedimiento de ajuste de un
modelo a datos numéricos.
Si proponemos un análisis de “relación” entre dos variables, debemos considerar que X e Y son
dos variables aleatorias, que pueden estar relacionadas por medio de una relación lineal, e
incorporar un componente aleatorio independiente de ambas 𝜀(0; 𝜎 2 ), que analizaremos en detalle
luego. Se dice que es un modelo de regresión lineal simple por la forma de la ecuación y por
involucrar sólo una variable aleatoria independiente. Por el momento sólo diremos que la esperanza
del componente aleatorio es nula (es insesgado) y su varianza vale 𝜎 2 . En tal caso propondríamos
un modelo de “relación”

𝑌 = 𝛼𝑋 + 𝛽 + 𝜀(0; 𝜎 2 )

En primer lugar, apliquemos el operador “esperanza”, con lo que obtenemos

𝐸(𝑌) = 𝛼𝐸(𝑋) + 𝛽

y por otra parte la varianza. Si consideramos que tanto X como Y son variables aleatorias, debemos
concluir que
𝑉(𝑌) = 𝛼 2 𝑉(𝑋) + 𝜎 2

En el marco de un análisis de regresión lineal, se debe plantear desde la perspectiva de la


probabilidad condicional, esto es, dadas dos variables aleatorias X e Y, de las cuales una se asume
determinada por un “dato preexistente”, sea 𝑋 = 𝑥𝑖 , se plantea proponer una relación lineal a través
de un modelo determinístico y adicionar una componente aleatoria. El primer modelo lineal
determinístico con componente aleatoria pura tiene la forma

𝑦𝑖 = 𝛼𝑥𝑖 + 𝛽 + 𝜀𝑖

donde 𝜀𝑖 ~𝜀(0; 𝜎 2 ) es un resultado del componente aleatorio. En términos probabilistas

𝑃(𝑌 = 𝑦𝑖 /𝑋 = 𝑥𝑖 ) = 𝛼𝑥𝑖 + 𝛽 + 𝑃(𝜀 = 𝜀𝑖 )

En esta expresión, los parámetros de la relación lineal dan cuenta de la componente


determinística del modelo y se supone una parte aleatoria pura aditiva independiente e invariante
con esperanza nula y una varianza expresada como 𝜎 2 . El problema se plantea en términos de
74

determinar los parámetros lineal e independiente del modelo, y la varianza residual de la


componente aleatoria.
En el planteo propuesto, la variable aleatoria X se asume como un dato conocido y condicionante
sobre el resultado de la variable aleatoria Y. En este sentido se puede plantear que el modelo lineal
da cuenta de la relación entre las esperanzas de la variable aleatoria independiente, el “dato”, y la
variable aleatoria dependiente, el “resultado”. Más apropiadamente lo escribimos como una
esperanza condicional
𝜇𝑌/𝑋 = 𝐸(𝑌/𝑋 = 𝑥) = 𝛼𝑥 + 𝛽

En términos de una relación condicional, en la cual el valor de X no es aleatorio sino un “dato”


externo, preexistente a la determinación de Y, carece de sentido la “varianza del valor fijo” X=x, de
modo que 𝑉(𝑌) = 𝜎 2 , la varianza del componente aleatorio.

Resolución del ajuste lineal óptimo por cuadrados mínimos

No estudiaremos, en primer lugar, la teoría formal probabilista sino el enfoque de los cuadrados
mínimos, es decir el aspecto particular de disponer de un conjunto de datos numéricos entre los
cuales se busca una relación lineal “óptima” que los vincule. El término “óptimo” puede tener
muchos significados, por lo que debe ser precisado. Si se suman los valores de 𝜀𝑖 habría una
cancelación con esperanza nula. Se pueden sumar los valores absolutos, y de hecho se utiliza en
algunas ocasiones, pero presenta problemas de cálculo. Por otra parte, el recurso a los cuadrados es
consistente con la definición de varianza y, en especial, de varianza residual mínima. En el sentido
de los “cuadrados mínimos”, conduce a un planteo formal del problema de ajuste del modelo lineal.
Usamos letras latinas o griegas con un significado formal. Las letras griegas se utilizan en el marco
de un planteo probabilista teórico y las letras latinas equivalentes como aproximación estadística
sobre la base de datos.
A partir de cada par de datos (𝑥𝑖 ; 𝑦𝑖 ) ajustamos una relación lineal por medio de la
incorporación de un “error de ajuste” 𝜀𝑖 en la forma

𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏 + 𝜀𝑖
escribimos
𝜀𝑖 = 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏 = 𝑦𝑖 − 𝑦𝑖𝑒

donde 𝑦𝑖𝑒 = 𝑎𝑥𝑖 + 𝑏 es el valor de la variable dependiente estimado por el modelo lineal. El
término de ajuste, de error o “residuo” 𝜀𝑖 es lo que debe ser minimizado. La suma de residuos
produciría una eventual cancelación de valores positivos y negativos. Para evitar esta cancelación,
elevamos al cuadrado los residuos y los sumamos sobre todos los datos disponibles. Sea
𝑛 𝑛 𝑛

𝜖(𝛼,𝛽) = ∑ 𝜀𝑖2 = ∑(𝑦𝑖 − 𝑦𝑖𝑒 )2 = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)2


𝑖=1 𝑖=1 𝑖=1

Hemos escrito 𝜖(𝑎,𝑏) para sintetizar la suma de desvíos cuadráticos en un parámetro y denotar
que éste es función de los valores de a y b.
Minimizar la suma de los desvíos cuadráticos conduce a la solución. Si llamamos
𝑛 𝑛 𝑛 𝑛 𝑛
1 1 1 1 1
∑ 𝑥𝑖 𝑦𝑖 = 𝑥𝑦
̅̅̅ ∑ 𝑥𝑖2 = ̅̅̅
𝑥2 ∑ 𝑥𝑖 = 𝑥̅ ∑ 𝑦𝑖 = 𝑦̅ ∑1 = 1
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1

queda
75

un sistema de ecuaciones
̅̅̅2 − 𝑏𝑥̅ = 0
̅̅̅ − 𝑎𝑥
𝑥𝑦
y
𝑦̅ − 𝑎𝑥̅ − 𝑏 = 0
del que obtenemos como solución
𝑥𝑦 − 𝑥̅ 𝑦̅
̅̅̅
𝑎=
̅̅̅
𝑥 2 − 𝑥̅ 2

𝑏 = 𝑦̅ − 𝑎𝑥̅

Nótese que estos “mejores” valores de a y b se calcularon sobre la base de una hipótesis de
relación lineal, de predefinir a X como la variable independiente y a Y como la dependiente, y
finalmente de utilizar el criterio de la minimización de la suma de diferencias cuadráticas. El
planteo de “relación” en lugar de “regresión”, la hipótesis de no linealidad, el intercambiar las
variables dependiente e independiente, o utilizar otro criterio diferente a la minimización de desvíos
cuadráticos, hubiese conducido a resultados distintos en los parámetros a y b.
En los gráficos que siguen se presenta una regresión positiva, negativa e indefinida
respectivamente. Luego dos aspectos de gráficos de dispersión en los cuales se observa una relación
intensa a la izquierda y una variación conjunta más débil a la derecha.

https://steemit.com/spanish/@adiazrojas13/las-7-herramientas-de-calidad-2-diagrama-de-dispersion

https://datavizcatalogue.com/ES/metodos/diagrama_de_dispersion.html

El signo del coeficiente de regresión determina el signo de la pendiente. Pero en los dos gráficos
de abajo ambas pendientes son positivas, aunque la relación entre variables es claramente diferente.
En el gráfico superior derecho es imposible decidir visualmente si la pendiente es positiva o
negativa, y aunque un cálculo de un resultado óptimo, es dudoso que pueda tener algún sentido.
76

Covarianza y correlación empíricas

Supongamos que, si graficamos los pares ordenados como puntos y, en el mismo gráfico, la recta
de regresión, los valores correctores de 𝜀 están representados por segmentos que ajustan el valor
“explicado” por una recta teórica 𝑦𝑖𝑒 = 𝛼𝑥𝑖 + 𝛽 con un término aditivo 𝜀𝑖 . Si consideramos que 𝑥𝑖
es un dato previo y condicionante de 𝑦𝑖 , resulta que la variable aleatoria Y está condicionada por
otra variable aleatoria X, pero no determinada. Por lo tanto, queda un término residual asociado a
otra variable aleatoria 𝜀 que debe tener asociada su propia distribución de probabilidad.

https://slideplayer.es/slide/5033312/

A través de la técnica de cuadrados mínimos hemos obtenido los parámetros de la función lineal
de regresión, pero aún falta determinar la varianza residual 𝜎𝜀2 . Si recordamos que, en términos de
una relación lineal teórica entre variables aleatorias, habíamos planteado

𝑌 = 𝛼𝑋 + 𝛽 + 𝜀

asumimos que en esta expresión 𝜀 es normal 𝑁(0; 𝜎 2 ). Esto significa que suponemos que los
ajustes son totalmente aleatorios e independientes de ambas variables aleatorias que se están
relacionando. Vemos así que, si estas suposiciones son correctas, la variable aleatoria Y queda
determinada por X con excepción de un componente aleatorio asociado a una distribución normal
(aleatoriedad pura en todo el eje real) con esperanza nula y varianza desconocida pero expresada
como 𝜎𝜀2 .
Veremos que para evaluar la “intensidad” o calidad del ajuste lineal se definen la covarianza y,
en particular, el coeficiente de correlación. La covarianza empírica se calcula
𝑛
1
𝐶(𝑋; 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = 𝑥𝑦
̅̅̅ − 𝑥̅ 𝑦̅
𝑛
𝑖=1
77

En esta relación 𝑥𝑖 e 𝑦𝑖 representan datos y 𝑥̅ y 𝑦̅ los promedios (recordamos que aún no


desarrollamos en este punto aspectos formales de la teoría). Puede notarse que, si hay una relación
lineal directa, la covarianza es grande en módulo y positiva, mientras que, si la relación lineal es
inversa, la covarianza es grande en módulo, pero negativa. Si la relación lineal no existe, la
covarianza es pequeña e idealmente nula.
Se calcula el coeficiente de correlación r dividiendo la covarianza por el producto de las
desviaciones estándar de ambas variables, con lo cual – 1 ≤ 𝑟 ≤ 1.

𝐶(𝑋, 𝑌)
𝑟=
𝑠𝑛𝑥 𝑠𝑛𝑦
En esta expresión
𝑛 𝑛
1 1
𝑠𝑛𝑥 = √ ∑(𝑥𝑖 − 𝑥̅ )2 𝑠𝑛𝑦 = √ ∑(𝑦𝑖 − 𝑦̅)2
𝑛 𝑛
𝑖=1 𝑖=1

Definiremos formalmente estos parámetros más adelante.


Cuanto más próximo a “uno” en módulo sea r, mayor es la intensidad de la relación lineal. Si r
es cercano a cero, no existe relación entre X y Y, y, si existe, no es lineal. Si r es negativo, la
relación lineal es inversa y, si es positivo, es directa.
Este coeficiente tiene una interpretación muy particular, si bien el análisis probabilístico formal
2
se deja para más adelante. Si 𝑠𝑛𝑦 es el promedio de desvíos cuadráticos totales con respecto al
promedio
𝑛
2
𝑛𝑠𝑛𝑦 = ∑(𝑦𝑖 − 𝑦̅)2
𝑖=1

Por otra parte, definimos la suma de desvíos cuadráticos residuales con respecto a los valores
2
estimados por el modelo de regresión como 𝑛𝑠𝑛𝑦𝑟

𝑛 𝑛
2
𝑛𝑠𝑛𝑦𝑟 = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏) = ∑(𝑦𝑖 − 𝑦𝑒𝑖 )2
2

𝑖=1 𝑖=1

Además, si recordamos que la pendiente obtenida por cuadrados mínimos es

𝑥𝑦 − 𝑥̅ 𝑦̅
̅̅̅
𝑎=
̅̅̅
𝑥 2 − 𝑥̅ 2
y la covarianza
𝐶(𝑋; 𝑌) = 𝑥𝑦
̅̅̅ − 𝑥̅ 𝑦̅
como
2
𝑠𝑛𝑥 = ̅̅̅
𝑥 2 − 𝑥̅ 2
luego
𝐶(𝑋; 𝑌) 𝑠𝑛𝑦
𝑎= 2 = 𝑟
𝑠𝑛𝑥 𝑠𝑛𝑥
Si calculamos
2 2
𝑠𝑛𝑦 − 𝑠𝑛𝑦𝑟

Obtendremos que, si esta diferencia es nula, la suma de los cuadrados de los residuos es igual
que la suma de los cuadrados originales, por lo tanto, el modelo de regresión no habrá aportado
78

ninguna información para reducir la variabilidad, pero si la suma de los cuadrados de los residuos es
nula, quiere decir que no ha quedado variabilidad sin explicar por el modelo de regresión, y el
ajuste del modelo a los datos es perfecto. Haciendo los cálculos llegamos a
2 2
𝑠𝑛𝑦 − 𝑠𝑛𝑦𝑟 = 2𝑟 2 𝑠𝑛𝑦
2
− 𝑟 2 𝑠𝑛𝑦
2
= 𝑟 2 𝑠𝑛𝑦
2

O
2
𝑠𝑛𝑦𝑟
𝑟2 = 1 − 2
𝑠𝑛𝑦

De acuerdo con este resultado, el coeficiente 𝑟 2 suele definirse como “varianza explicada”. Si
𝑟 2 = 0 nos indica que la varianza de los valores de Y residuales con respecto a los estimados por el
modelo contienen la misma varianza que los originales, por lo tanto, el modelo de regresión no ha
aportado nada en la reducción de la variabilidad por medio de una estimación determinista. Por otra
parte, si 𝑟 2 = 1 quiere decir que la variabilidad de los valores residuales con respecto a los
estimados por el modelo es nula, por lo cual es totalmente determinista y el modelo de regresión
explica en forma completa el comportamiento de la variable aleatoria. Este coeficiente 𝑟 2 empírico
puede ser una medida de la varianza residual 𝜎𝜀2 que proponíamos encontrar.

También podría gustarte