Está en la página 1de 68

Apuntes de Estadı́stica Aplicada

Martı́n Ruben Cerfoglio


2023

1
Contents
1 Introducción 4
1.1 Estadı́stica descriptiva y estadı́stica inferencial . . . . . . . . . 4
1.2 Definiciones básicas . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Experimento y unidad experimental . . . . . . . . . . . 6
1.2.2 Medición y dato estadı́stico . . . . . . . . . . . . . . . 7
1.2.3 Información . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.4 Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.5 Población . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.6 Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.7 Variable . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Cantidades absolutas y relativas . . . . . . . . . . . . . . . . . 10
1.3.1 Cantidad absolutas . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Cantidad relativas . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Proporciones . . . . . . . . . . . . . . . . . . . . . . . 10

2 Estadı́stica descriptiva 12
2.1 Distribuciones de frecuencia . . . . . . . . . . . . . . . . . . . 12
2.1.1 Distribución de frecuencias para variables cualitativas . 13
2.1.2 Distribución de frecuencias para variables cuantitativas
discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.3 Distribución de frecuencias para variables cuantitativas
continuas . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Medidas de concentración . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Medidas de posición o de tendencia central . . . . . . . . . . . 25
2.3.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Modo o moda . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.4 Media ponderada . . . . . . . . . . . . . . . . . . . . . 33
2.3.5 La mejor medida de tendencia central . . . . . . . . . . 34
2.4 Medidas de variabilidad . . . . . . . . . . . . . . . . . . . . . 34
2.4.1 Desviación o desvı́o . . . . . . . . . . . . . . . . . . . . 35
2.4.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.3 Desvı́o estándar . . . . . . . . . . . . . . . . . . . . . . 36
2.4.4 Coeficiente de variación . . . . . . . . . . . . . . . . . 39

3 Probabilidad 41
3.1 Teorı́a de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.1 Propiedad de las operaciones . . . . . . . . . . . . . . . 45

2
3.2 Definición de probabilidad . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Definición clásica . . . . . . . . . . . . . . . . . . . . . 46
3.2.2 Definición frecuentista . . . . . . . . . . . . . . . . . . 48
3.2.3 Denifición subjetiva . . . . . . . . . . . . . . . . . . . . 49
3.2.4 Axiomática . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.5 Probabilidad marginal y conjunta . . . . . . . . . . . . 52
3.2.6 Probabilidad condicional e independencia . . . . . . . . 53
3.3 Reglas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.1 Variaciones y permutaciones . . . . . . . . . . . . . . . 58
3.3.2 Combinatorias . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 Teorema de la probabilidad total . . . . . . . . . . . . . . . . 65
3.5 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Estadı́stica Descriptiva . . . . . . . . . . . . . . . . . . . . . . 67

3
1 Introducción
1.1 Estadı́stica descriptiva y estadı́stica inferencial
Para mucha gente, estadı́stica significa descripciones numéricas. Esto
puede verificarse fácilmente al escuchar, un domingo cualquiera, a un
comentarista de televisión narrar un juego de fútbol. Sin embargo, en
términos más precisos, la estadı́stica es el estudio de los fenómenos
aleatorios. En este sentido la ciencia de la estadı́stica tiene, virtualmente,
un alcance ilimitado de aplicaciones en un espectro tan amplio de
disciplinas que van desde las ciencias y la ingenierı́a hasta las leyes y la
medicina. El aspecto más importante de la estadı́stica es la obtención de
conclusiones basadas en los datos experimentales. Este proceso se conoce
como inferencia estadı́stica. Si una conclusión dada pertenece a un
indicador económico importante o a una posible concentración peligrosa de
cierto contaminante, o bien, si se pretende establecer una relación entre la
incidencia de cáncer pulmonar y el fumar, es muy común que la conclusión
esté basada en la inferencia estadı́stica.

Para comprender la naturaleza de la inferencia estadı́stica, es necesario


entender las nociones de población y muestra. La población es la colección
de toda la posible información que caracteriza a un fenómeno. En
estadı́stica, población es un concepto mucho más general del que tiene la
acepción común de esta palabra. En este sentido, una población es
cualquier colección ya sea de un número finito de mediciones o una
colección grande, virtualmente infinita, de datos acerca de algo de interés.
Por otro lado, la muestra es un subconjunto representativo seleccionado de
una población. La palabra representativo es la clave de esta idea. Una
buena muestra es aquella que refleja las caracterı́sticas esenciales de la
población de la cual se obtuvo.

En estadı́stica, el objetivo de las técnicas de muestreo es asegurar que


cada observación en la población tiene una oportunidad igual e
independiente de ser incluida en la muestra. Tales procesos de muestreo
conducen a una muestra aleatoria. Las observaciones de la muestra
aleatoria se usan para calcular ciertas caracterı́sticas de la muestra
denominadas estadı́sticas. Las estadı́sticas se usan como base para hacer
inferencias acerca de ciertas caracterı́sticas de la población, que reciben el
nombre de parámetros. Ası́, muchas veces se analiza la información que
contiene una muestra aleatoria con el propósito principal de hacer
inferencias sobre la naturaleza de la población de la cual se obtuvo la

4
muestra.

En estadı́stica la inferencia es inductiva porque se proyecta de lo


especı́fico (muestra) hacia lo general (población). En un procedimiento de
esta naturaleza siempre existe la posibilidad de error. Nunca podrá tenerse
el 100% de seguridad sobre una proposición que se base en la inferencia
estadı́stica. Sin embargo, lo que hace que la estadı́stica sea una ciencia
(separándola del arte de adivinar la fortuna) es que, unida a cualquier
proposición, existe una medida de la confiabilidad de ésta. En estadı́stica la
confiabilidad se mide en términos de probabilidad. En otras palabras, para
cada inferencia estadı́stica se identifica la probabilidad de que la inferencia
sea correcta.Los problemas estadı́sticos se caracterizan por los siguientes
cuatro elementos:

1. La población de interés y el procedimiento cientı́fico que se empleó para


muestrear la población.

2. La muestra y el análisis matemático de su información.

3. Las inferencias estadı́sticas que resulten del análisis de la muestra.

4. La probabilidad de que las inferencias sean correctas.

El enfoque precedente para la inferencia estadı́stica descansa


únicamente en la evidencia muestral. Éste es denominado teorı́a del
muestreo o enfoque clásico de la inferencia estadı́stica y para la mayor parte
de ésta, será el que se tome en este libro. Sin embargo, también se tratará
de incorporar ocasionalmente otro punto de vista conocido como inferencia
bayesiana. Esta forma de abordar la inferencia estadı́stica utiliza la
combinación de la evidencia muestral con otra información, generalmente
proporcionada por el investigador del problema. Tal información descansa
de manera fundamental en la convicción o grado de creencia del
investigador con respecto a las incertidumbres del problema, antes de que se
encuentre disponible la evidencia muestral. Este grado de creencia puede
basarse en consideraciones como los resultados conocidos, que son producto
de investigeciones previas. Es importante que el lector comprenda que el
objetivo de los procedimientos clásico y bayesiano descansa en la evaluación
de las incertidumbres basadas en la probabilidad.

Para comprender la esencia del muestreo aleatorio y de la inferencia


estadı́stica, es necesario entender como primer punto, la naturaleza de una

5
población en el contexto de la probabilidad y de los modelos probabilı́sticos.

Este capı́tulo tratará brevemente las estadı́sticas descriptivas. A pesar


de que éstas son sencillas desde el punto de vista matemático, son valiosas
en casos donde se encuentra disponible la población completa y no existe
incertidumbre, o cuando se tienen a la mano grandes conjuntos de datos
que pueden o no considerarse como muestras aleatorias. Si un conjunto
grande se considera como muestra aleatoria de una población, la estadı́stica
descriptiva puede ir tan lejos como la distribución general de valores, al dar
una evidencia empı́rica y otras caracterı́sticas de la población. Esta
evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones
que deben formularse en la aplicación de la inferencia estadı́stica.

1.2 Definiciones básicas


A continuación se exponen las definiciones básicas más importantes con
las que alumno deberá contar para poder comenzar el estudio de la
estadı́stica.

1.2.1 Experimento y unidad experimental


Se llama experimento o encuesta a la observación planeada de
un fenómeno de cualquier ı́ndole con el objetivo de conocer su
comportamiento, poder describirlo y tomar una decisión

Algunos autores establecen una diferencia entre el concepto de


ENCUESTA y el de EXPERIMENTO, utilizando el primero para referirse
a aquellas, observaciones donde no se ejerce un control directo sobre las
personas y las cosas que son objeto de los trabajos, y el segundo cuando si
se controlan uno o más de los factores que influyen en una caracterı́stica
especifica. En este trabajo no se hará tal distinción, y se utilizará
preferentemente el término EXPERIMENTO.

Se llama Unidad experimental son cada uno de los entes que son
observados en el experimento.

Se determina cuando se fijan los objetivos del trabajo

6
1.2.2 Medición y dato estadı́stico
Se llama medición a la asignación. conforme a reglas
preestablecidas - de valores (sı́mbolos, numerales o números, a cada
una de las caracterı́sticas que poseen las Unidades Experimentales.

Se llama escala de medición a una regla preestablecida o


instrumento de medición, que consiste en un conjunto de valores que
se asignarán a una caracterı́stica especifica que poseen las Unidades
Experimentales

Se llama datos estadı́stico al valor asignado a una de las


caracterı́sticas de una Unidad Experimental, conforme a la Escala
de Medición empleada.

En otras palabras, un DATO ESTADÍSTICO es el valor que resulta de


una MEDICIÓN. De acuerdo al posible uso que se les de, los DATOS
ESTADÍSTICOS se pueden clasificar en DATOS ESTADÍSTICOS
CUALITATIVOS o DATOS ESTADÍSTICOS CUANTITATIVOS:

1. Los DATOS ESTADÍSTICOS CUALITATIVOS son aquellos valores


correspondientes a los atributos o propiedades categóricas que sólo se
pueden usar para identificar y describir a una Unidad Experimental.

2. LOS DATOS ESTADÍSTICOS CUANTITATIVOS son aquellos


valores que, además de identificar y describir a una Unidad
Experimental, establecen las diferencias posibles entre los valores en
cantidad y grado.

1.2.3 Información
Se llama información al resultado de la evaluación de los Dalos
Estadı́sticos cuando se los compara con una adecuada referencia.

Es importante destacar que contrariamente a lo que significa para los


legos, una INFORMACIÓN no es el resultado de una medición, no es el Dato
Estadı́stico, sino lo que surge de comparar el valor del dato con una referencia
o modelo. La INFORMACIÓN siempre tendrá asociada una decisión o una
conclusión. O sea que para decidir realizar una determinada acción o para
afirmar un hecho o conclusión, hay que contar con una INFORMACIÓN.

7
1.2.4 Estadı́stica
En aquellos casos donde los eventos son únicos e irrepetibles o, cuando
si se los repite bajo las mismas condiciones el resultado es necesariamente el
mismo; entonces, con un solo dato se puede tener información suficiente
para tomar una decisión o arribar a una conclusión.

Sirviendo como ejemplo, la edad de una persona constituye un solo dato


que permite tener la información para decidir acerca del acceso o no de la
misma al cine para ver una pelicula apta para mayores de 16 años.

Pero, si cuando al experimento se lo realiza en las mismas condiciones,


el resultado de la medición puede ser distinto, por la existencia de causas
fortuitas que pueda alterarlo, entonces, es necesario repetir dicho
Experimento todas las veces que sean posibles, ası́ como también, recopilar
y analizar los Datos Estadı́sticos que se obtengan a los efectos de lograr la
información buscada.

Se lama estadı́stica a la disciplina cientı́fica que crea, desarrolla


y aplica las adecuados métodos de recopilación de datos, y su
evaluación, para transformarlos en informaciones con las cuales
se describan objetivamente las distintas situaciones investigadas,
se analice el comportamiento de determinadas caracterı́sticas que
poseen las UNIDADES EXPERIMENTALES y se tomen decisiones
en condición de incertidumbre o se pueda arribar a conclusiones
respecto de las UNIDADES EXPERIMENTALES.

Entonces, para que un evento sea objeto de análisis Estadı́stico, debe ser
susceptible de presentar distintos resultados, aún cuando se lo repita bajo
condiciones similares. Esto significa que la tarea Estadı́stica esta presente
cuando se necesita estudiar aquellas situaciones que requieran ser medidas en
similares condiciones y los resultados de éstas puedan presentan variabilidad.

1.2.5 Población
Se llama población al conjunto de Unidades Experimentales
que poseen caracterizaras comunes, observables, paso obtener
información sobre un hecho particular

Según la cantidad de unidades experimentales que lo integran, las


poblaciones pueden ser Finitas o Infinitas. Una población quede

8
determinado cuando se establece cual es el objetivo del trabajo a realizar.
Esta definición complementa a las nociones volcadas en la introducción de
la presente unidad.

1.2.6 Muestra
Se llama muestra a aquella parte de la Población que se ha
seleccionado para ser analizada con el fin de obtener conclusiones
respecto de la totalidad de los elementos de la misma.

1.2.7 Variable
Se llama variable a cualquier caracterı́stica observable que tienen
las unidades experimentales.

Se llama recorrido de una variable al conjunto de los posibles


valores que ella puede asumir.

De acuerdo al tipo de datos que origina la VARIABLE, éstas se clasifican


en Variables Cualitativas o Variables Cuantitativas

ˆ Una variable es cualitativa, cuando los valores que puede asumir no


constituyen un Espacio Métrico.

ˆ Una variable es cuantitativa, cuando los valores que puede asumir si


constituyen un Espacio Métrico.

– Una variable es cuantitativa discreta, cuando Los valores que


puede asumir la variable pertenecen a un conjunto finito o infinito,
pero numerable.
– Una variable es cuantitativa continua, cuando puede asumir
infinitos valores dentro de un intervalo.

El importante hacer notar que los datos que presentan verdadero interés
para la tarea estadı́stica son aquellos cuantitativos, que al poseer valores
numéricos permitirán llevar a cabo incontables operaciones como se verá a
lo largo de la materia.

9
1.3 Cantidades absolutas y relativas
Los Datos Cuantitativos que se obtienen mediante la recopilación de los
datos para realizar un determinado trabajo, según el tipo de información que
se quiera proporcionar, se pueden expresar de dos maneras, a saber:

ˆ En forma absoluta, si solamente se quiere mostrar la cuantia de la


magnitud.

ˆ En forma relativa, si a la cuantia de la magnitud medida, se la quiere


relacionar con otro valor de la misma magnitud.

Esto da origen a los dos tipos de cantidades que se describen en los


próximos parágrafos.

1.3.1 Cantidad absolutas


Se llaman cantidades absolutas a aquellos Datos Cuantitativos
que, cuando son presentados y/o analizados, están expresados en
las unidades de medida correspondientes a la magnitud que se está
midiendo.

1.3.2 Cantidad relativas


Se llaman cantidades relativas a aquellos datos cuantitativos
que surgen del cociente entre dos Cantidades Absolutas
correspondientes a la misma magnitud y unidad de medida.

Las cantidades relativas no representan magnitudes, son números puros,


porque se obtienen a través de un cociente entre valores que representan la
misma magnitud. Cuando se trata de medir la importancia que tiene una
cantidad absoluta en el contexto en que fue obtenido, es necesario establecer
una relación entre esta cantidad y otra, que correspondiendo a la misma
magnitud, pueda ser utilizada como referencia. Dicha importancia se mide
con una cantidad relativa.

1.3.3 Proporciones
Se llama proporción estadı́stica a la cantidad relativa que se
obtiene haciendo el cociente entre una parte y su correspondiente
total.

10
Cabe notar que los números obtenidos como resultado de estos cocientes
se encontrarán siempre entre 0 y 1, ya que una parte no puede ser mayor al
total al que pertenece. Por otro lado, la proporción al ser multiplicada por
100 obtendremos un valor expresado en porcentaje.

11
2 Estadı́stica descriptiva
La Estadı́stica Descriptiva se utiliza para describir un conjunto de datos
referidos a un fenómeno.

En este capı́tulo se realizará una descripción de los datos a través de


ciertas medidas que resumen las principales caracterı́sticas del conjunto de
datos bajo estudio.

Si bien en este capı́tulo no se tratará la inferencia, el cálculo de las


medidas numéricas que describen un conjunto de datos será fundamental
cuando, en base a una muestra, deseemos inferir ciertas caracterı́sticas de
una población.

La descripción numérica de un conjunto de datos brinda gran


información relacionada con la distribución de sus valores. Existen medidas
que proporcionan una idea de como se concentran las variables en el
recorrido que pueden tomar, estas son las Medidas de Concentración

Otras, nos indican en torno a qué valor se encuentran distribuidos los


datos. Estas medidas se conocen con el nombre de Medidas de Posición.

Por otro lado, están las Medidas de Dispersión, las cuales brindan
información respecto a qué tan diseminados se encuentran los datos en
relación con su ubicación central.

2.1 Distribuciones de frecuencia


Al inicio de cualquier investigación, ya sea para establecer nuevos
métodos de trabajo, controlar gestiones, describir y verificar relaciones y
comportamientos de las distintas variables en la disciplina que sea, hay que
proceder a la recopilación de los datos.

Los resultados de las mediciones, los valores de las distintas variables,


como son recopilados a medida que los hechos ocurren o se presentan,
también quedan registrados desordenadamente, y de esta manera, se
dificulta el análisis estadı́stico.

Al conjunto de datos dispuestos tal como se presentan, se lo denomina


Datos no Agrupados.

12
En los casos de contar con una gran cantidad de datos o valores de cada
una de las variables, el primer paso a realizar es ordenarlos agrupándolos en
clases de equivalencia, para que puedan ser estudiados convenientemente
para obtener información que pueda resultar de interés acerca de las
caracterı́sticas en estudio.

Es por ello que se debe proceder a organizarlos y resumirlos por medio


de la construcción de una tabla que liste los distintos valores posibles de los
datos (ya sea de forma individual o por grupos), junto con las frecuencias
correspondientes.

Se llama Distribución de frecuencias a una lista valores de datos


(ya sea de manera individual o por grupos de intervalos), junto con
sus frecuencias (o conteos) correspondientes.

Ası́, encontraremos que existen dos tipos de frecuencias:

Se llama frecuencia absoluta a la cantidad de datos, o valores


observados de una variable, que pertenecen a una misma clase de
equivalencia.

Se llama frecuencia relativa al cociente entre la frecuencia


absoluta y la cantidad total de observaciones

Para poder agrupar los datos en principio se deberá definir las clases de
equivalencia en la cual se considerará cada uno de los datos obtenidos.
Poniéndolo en palabras simples, las filas que va a poseer la tabla de
distribución de frecuencias. Veremos que ésto va a estar supeditado
principalmente al tipo de variable con la que este trabajando y el recorrido
de la misma.

2.1.1 Distribución de frecuencias para variables cualitativas


Las variables cualitativas, también llamadas variables categóricas, como
ya se ha explicado en la definición, tienen la particularidad de que sus
valores son categorı́as no cuantitativas. Cuando se utiliza este tipo de
variables para hacer una clasificación, cada categorı́a representa una
clase de equivalencia.

Un ejemplo nos va a permitir observar como funciona:

13
Fueron encuestados 800 alumnos que terminaron el ciclo secundario y se
les consultó acerca de la Facultad donde se inscribirán para realizar su
carrera universitaria.
De acuerdo a dicha encuesta se 230 alumnos manifestaron que se inscribirán
en Ciencias Médicas; 193 alumnos se inscribirán en Ciencias Económicas;
105 se inscribirán en Ciencias Jurı́dicas; 87 en Ciencias Sociales; 50 en la
facultad de Psicologı́a y el resto de los alumnos encuestados se inscribirán
en otras Facultades.

A continuación vamos a organizar los resultados en una distribución de


frecuencia y hacer una presentación tabular.

La variable en estudio es: C: Facultad donde se inscribirán los alumnos


egresados del secundario.

Cada una de las facultades conforma una categorı́a diferente.

En la siguiente tabla se presentan las frecuencias absolutas, relativas y


porcentajes para cada una de las categorı́as de la variable cualitativa.

Facultad fi Frecuencia absoluta pi Frecuencia relativa ki %


C1 : F. Cs. Jurı́dicas 105 0,13 13%
C2 : F. Cs. Económicas 193 0,24 24%
C3 : F. Cs. Médicas 230 0,29 29%
C4 : F. Cs. Sociales 87 0,11 11%
C5 : F. Psicologı́a 50 0,06 6%
C6 : Otras Facultades 135 0,17 17%
TOTALES 800 1,00 100%

Se puede observar que para este tipo de datos no hay decisiones que tomar
respecto a como construir las clases de equivalencias. A cada facultad le
corresponde una clase propia (representada una por fila). Por otra parte, este
clasificación no nos permitirá realizar muchas mas operaciones con los datos
más que obtener las frecuencias relativas (realizando la sencilla operación
que se puede encontrar en la sección de cantidad relativas) y su consecuente
transformación en porcentaje.

14
2.1.2 Distribución de frecuencias para variables cuantitativas
discretas
Cuando hay que clasificar las unidades experimentales de acuerdo a una
Variables Cuantitativa Discreta, generalmente, cada valor individual de la
variable representa una clase de equivalencia. Excepcionalmente, se pueden
formar clases de equivalencia con dos o más valores consecutivos, pero estos
casos no serán analizados en este trabajo.

Este tipo de variables nos aporta una caracterı́stica que con las del tipo
cualitativas no tenı́amos: nos aporta un orden dado por la magnitud de
cada valor que puede tomar. Pongamos como ejemplo las notas de los
exámenes de un grupo de alumnos en una escala del 1 al 10. Veremos
fácilmente que quien obtuvo un 10, tuvo una nota mayor que quien tuvo 9 y
ası́ sucesivamente. Al momento de armar la tabla de distribución de
frecuencias este orden lógico e intuitivo nos permitirá también obtener mas
información de los datos con que se cuentan.

Esta nueva información será la que se obtenga de la acumulación de las


cantidades unidades experimentales hasta cada una de las clases de
equivalencia.

Aclaración: para variables discretas se llamó a cada clase Ci


donde C indica que se trata de una clase e i un número entero
que se le otorgó para individualizarlas. En el caso de variables
cuantitativas, como cada clase esta representada por un valor de
variable se emplea genéricamente la expresión xi para llamar a los
valores que corresponden a las clases. La letra x nos indica que
estamos hablando de un valor de variable. La i es un número
entero y en este caso implica un orden. Sabemos que el valor x1
precederá al valor x2 y ası́ sucesivamente. Esta información
resultará de utilidad para poder interpretar muchas de
definiciones y cuadros que se vayan presentando.

La Frecuencia absoluta , fi , correspondiente a un valor xi de


la variable estudiada, es la cantidad de observaciones del mismo
dentro del total de datos.

15
La frecuencia relativa, f ri , de cada valor xi , se obtiene
dividiendo la correspondiente frecuencia absoluta, fi , por el número
total de observaciones, n , e indica la proporción de observaciones
correspondientes a dicho valor.

En el siguiente ejemplo, ilustramos los conceptos definidos


precedentemente.

Ejemplo

Consideremos las notas de los exámenes finales de la materia Estadı́stica


de un curso hipotético.

Datos de notas
1 4 5 6 8
2 4 5 6 8
2 4 5 7 8
3 4 5 7 8
3 4 5 7 8
3 5 5 7 8
4 5 6 7 9
4 5 6 7 9
4 5 6 8 9
4 5 6 8 10

Los valores que puede tomar la variable son los números enteros del 1 al
10, con lo cual se trata de una variable cuantitativa discreta.

La frecuencia absoluta (o simplemente frecuencia) es la cantidad de


veces que se repite cada valor y la frecuencia relativa será la cantidad de
veces que se repite cada valor dividido por el número total de datos, que en
este caso es 50.

Con la información de los “Datos de Notas” podemos armar la


Distribución de Frecuencias

16
Valor xi Frecuencia ni Frecuencia relativa f ri
1 1 2,0%
2 2 4,0%
3 3 6,0%
4 9 18,0%
5 11 22,0%
6 6 12,0%
7 6 12.0%
8 8 16,0%
9 3 6,0%
10 1 2,0%

De acuerdo con las definiciones expuestas anteriormente, la suma de


todas las frecuencias absolutas es igual al número total de datos, mientras
que la suma de todas las frecuencias relativas es igual al 100% (o la
unidad).

En sı́mbolos:

PM PM
i=1 fi = n i=1 f ri = 1

Donde M indica la cantidad de valores distintos observados y n la


cantidad total de datos contando las repeticiones.

Ejemplo

Considerando el ejemplo anterior, vemos que M = 10 pues hay diez


notas distintas observadas, mientras que n = 50 es el total de alumnos
evaluados. Si sumamos las frecuencias absolutas obtenemos el número total
de alumnos calificados:
P10
i=1 fi = 1 + 2 + 3 + 9 + 11 + 6 + 6 + 8 + 3 + 1 = 50

A su vez, si sumamos las frecuencias relativas, obtenemos el 100%:


P10
i=1 f ri = 0, 02 + 0, 04 + 0, 06 + 0, 18 + 0, 22 + 0, 12 + 0, 12 + 0, 16 + 0, 06 + 0, 02 = 1

Continuando con el análisis de la distribución de frecuencias de un


conjunto de datos, además de la frecuencia correspondiente a cada valor, es
útil la información relacionada con la frecuencia de valores menores o

17
iguales a una determinada observación, es decir, la frecuencia acumulada
para un valor dado.

La Frecuencia Acumulada correspondiente al valor xi es la


suma de las frecuencias de todos los valores menores o iguales a xi :
Pi
Fi = k=1 fk

La Frecuencia Relativa Acumulada correspondiente al valor xi


es la suma de las frecuencias relativas de todos los valores menores
o igual a xi :
Pi
Fr i = k=1 f ri

Alternativamente, esta última se puede calcular como la frecuencia


absoluta acumulada, Fi , dividida entre el total de observaciones n.

Fi
Fr i = n

Ilustremos las definiciones con los datos de las notas de los exámenes
finales del Ejemplo de más arriba.

Ejemplo

En base a las frecuencias calculadas para cada una de las notas,


podemos obtener las frecuencias acumuladas simplemente sumando todas
las frecuencias anteriores. Veamos algunos ejemplos de los valores con los
cuales se construye la tabla de frecuencias acumuladas.

La frecuencia acumulada absoluta de 2, es la suma de las frecuencias de


1 y 2. La frecuencia relativa acumulada se obtienen dividiendo el valor
calculado entre el número total de alumnos evaluados, es decir, 50.

F 2 = f1 + f2 = 1 + 2 = 3

F2 3
Fr 2 = 50
= 50
= 0, 06

La frecuencia acumulada de 4 es la suma de las frecuencias de 1, 2, 3 y


4. La frecuencia relativa acumulada se obtiene dividiendo el valor calculado

18
entre 50.

F4 = f1 + f2 + f3 + f4 = 1 + 2 + 3 + 9 = 15

F4 15
Fr 4 = 50
= 50
= 0, 30

La Tabla de Frecuencia Simples y Acumuladas es:

Frecuencia Frecuencia Frec. Relativa Frec. Relativa


Valor x(i)
n(i) acumulada f(i) Acumulada
1 1 1 2,0% 2,0%
2 2 3 4,0% 6,0%
3 3 6 6,0% 12,0%
4 9 15 18,0% 30,0%
5 11 26 22,0% 52,0%
6 6 32 12,0% 64,0%
7 6 38 12,0% 76,0%
8 8 46 16,0% 92,0%
9 3 49 6,0% 98,0%
10 1 50 2,0% 100,0%

El cuadro anterior nos permite ver directamente la cantidad de alumnos


que resultaron desaprobados en el examen, la cual está representada por la
frecuencia acumulada del valor x = 3. Es decir que 6 alumnos resultaron
insuficientes en el examen. A su vez, observando en la columna
correspondiente a la frecuencia relativa acumulada, podemos ver qué
porcentaje obtuvo una nota inferior o igual a 3: 12%.

Como es lógico, siempre el mayor valor observado, xM , tiene una


frecuencia absoluta acumulada igual al número total de datos y una
frecuencia relativa acumulada igual a la unidad.

F (xM ) = n

Fr i(xM ) = 1

Además, podemos observar que la frecuencia acumulada de un valor


puede obtenerse sumando la frecuencia acumulada hasta el valor anterior y
la frecuencia correspondiente al valor en cuestión:

19
Fi = Fi−1 + fi

Además, directamente de la fórmula anterior, vemos que la frecuencia de


un valor determinado se puede obtener mediante la resta de la frecuencia
acumulada hasta el mismo y la frecuencia acumulada hasta el anterior:

fi = Fi − Fi−1

Ejemplo

Consideremos el ejemplo anterior para ilustrar las fórmulas. La


frecuencia del valor 5 puede obtenerse mediante la resta de la frecuencia
acumulada correspondiente a dicho valor y aquélla correspondiente al valor
4:

f5 = F5 − F4 = 26 − 15 = 11

La frecuencia acumulada de 9 puede obtenerse sumando la frecuencia


acumulada hasta 8 y la frecuencia correspondiente a 9:

F9 = F8 − f9 = 46 − 3 = 49

2.1.3 Distribución de frecuencias para variables cuantitativas


continuas
Si deseamos analizar la estatura de los alumnos del curso de Estadı́stica,
en primer lugar mediremos a cada uno de los alumnos. Luego, cuando
calculemos las frecuencias absolutas de cada valor, veremos que la mayorı́a
de las observaciones son únicas y su cálculo no nos brinda ninguna idea
respecto de la distribución de las estaturas. En este caso, resulta
conveniente agrupar los datos en intervalos, y asignar una frecuencia
(absoluta y relativa, simple o acumulada) a cada intervalo en lugar de a
cada valor observado.

20
Los intervalos en los cuales se agrupan los datos se denominan
intervalos de clase.

Cada intervalo tiene un lı́mite superior y un lı́mite inferior,


asignándose al mismo todas las observaciones mayores o iguales al
lı́mite inferior e inferiores al lı́mite superior.

Se denomina marca de clase al punto medio de cada intervalo


de clase, es decir, al promedio simple entre el lı́mite superior y el
lı́mite inferior.

Cada uno de los intervalos tendrá su frecuencia de clase,


absoluta y relativa.

Finalmente, se denomina amplitud de un intervalo de clase a la


diferencia entre el lı́mite superior y el lı́mite inferior. Es decir:

amplitud = wi = Lsup − Linf

Ejemplo

Considere los siguientes datos de las estaturas, en metros, de los


alumnos.

Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859

Si consideramos intervalos de 5 cm. de amplitud cada uno, podemos


construir el siguiente cuadro de datos agrupados

21
Clase Frecuencia Frecuencia Frec. Relativa Frec. Relativa
Marca
LI LS n(j) Acumulada f(i) Acumulada
1,55 1,60 1,575 2 2 4,0% 4,0%
1,60 1,65 1,625 10 12 20,0% 24,0%
1,65 1,70 1,675 12 24 24,0% 48,0%
1,70 1,75 1,725 13 37 26,0% 74,0%
1,75 1,80 1,775 9 46 18,0% 92,0%
1,80 1,85 1,825 3 49 6,0% 98%
1,85 1,90 1,875 1 50 2,0% 100,0%

En ocasiones, de acuerdo a la variable que se estudie, hay intervalos que


poseen una gran cantidad de observaciones, mientras que otros quedarı́an
vacı́os distorsionando la distribución de frecuencias, en esos casos es
conveniente utilizar intervalos de amplitudes diferenciales.

2.2 Medidas de concentración


Se llaman medidas de concentración a aquellas medidas con
las cuales se puede establecer el porcentaje de datos que está
concentrado dentro de un determinado intervalo; o un intervalo
que contenga una determinada concentración porcentual de datos.

Hay dos tipos de medidas de concentración . Con la primera se mide


la concentración, en porcentaje, a partir de un valor conocido de la variable.
Con la segunda, a partir de un porcentaje conocido de concentración, se
determina el valor de la variable hasta donde se acumula ese porcentaje.

El cálculo de las medidas de concentración tiene sentido cuando los


datos están agrupados en una distribución de frecuencias.

2.2.1 Percentiles
Cuando tenemos un conjunto de observaciones ordenadas de una
variable cuantitativa, podemos calcular fácilmente el porcentaje de
observaciones que se encuentran por debajo de un valor determinado,
simplemente observando la frecuencia relativa acumulada hasta el mismo.
En base a esta idea, se definen los percentiles, deciles y cuartiles de la
distribución de frecuencias.

22
Los percentiles dividen la distribución de frecuencias en cien
n
partes iguales. El primero, P1 , acumula 100 (1%), el segundo,
P2 , 100 (2%), y ası́ hasta el último, P99 , que acumula 99×n
2×n
100
(99%).

Ejemplo
Los datos de estatura ordenados se observan en la tabla, ordenados de
menor a mayor.

Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859
10×n
Siendo n = 50, el percentil 10 es el valor que acumula 100
= 5
observaciones. Es decir, P10 = 1, 622.

El percentil 75 acumula 75×n


100
= 37, 5 observaciones. Para ello,
calculamos el promedio simple entre la observación 37 y 38, obteniendo
como resultado:
1,740+1,752
P75 = 2
= 1, 746

Cuando solamente disponemos de los datos agrupados, el


percentil estará dentro del primer intervalo que acumule una
frecuencia mayor o igual a n×k
100
. El cálculo de la misma es:
n×k
−Fj−1
Pk = Li + 100
fj
× wj

Donde Li es el lı́mite inferior del intervalo que contiene al percentil,


n es la cantidad total de observaciones, Fj−1 es la frecuencia
acumulada hasta el intervalo anterior, fj es la frecuencia del
intervalo, y wj es la amplitud del intervalo.

23
Ejemplo
Los datos agrupados de las estaturas de los alumnos, con sus respectivas
frecuencias simples y acumuladas, se observan en la tabla.

Clase Frecuencia Frecuencia


Marca
j LI LS n(j) acumulada
1 1,55 1,60 1,575 2 2
2 1,60 1,65 1,625 10 12
3 1,65 1,70 1,675 12 24
4 1,70 1,75 1,725 13 37
5 1,75 1,80 1,775 9 46
6 1,80 1,85 1,825 3 49
7 1,85 1,90 1,875 1 50

Calculo de la altura que supera al 60% de los alumnos, P60 ]:

n×k 50×60
El cuarto intervalo es el primero que acumula 100
= 100
= 30 o más.

El percentil 60 es:
n×k 50×60
−Fj−1 −24
Pk = L i + 100
fj
× wj = 1, 70 + 100
13
× 0, 05 = 1, 702

Los cuartiles, dividen la distribución de frecuencias en cuatro


partes iguales. El primer cuartil, tiene una frecuencia acumulada
de n4 , 25%, el segundo 2×n
4
, 50%, y el tercero, 3×n
4
, 75%.

Los deciles dividen la distribución en diez partes iguales, el primero


n
acumula 10 (10%) observaciones, el segundo 2×n 10
(20%), y ası́
sucesivamente, hasta que el noveno y último decil acumula 9×n 10
(90%).

De las definiciones anteriores, podemos ver que los cuartiles son los
percentiles 25, 50 y 75, mientas que los deciles son los percentiles 10, 20,. . . ,
90. De lo que se deduce que los últimos son un caso particular de los
primeros.

24
2.3 Medidas de posición o de tendencia central
Ya se ha insistido que para realizar un análisis estadı́stico es necesario
contar con datos obtenidos de la repetición de los experimentos bajo
condiciones similares. Por lo tanto, para una variable particular se cuenta
con varios valores observados. Éstos, generalmente, tienden a agruparse o
reunirse en torno algunos puntos importantes o centrales que permiten fijar
o ”medir” una posición en el plano o en el espacio.

Se llaman medidas de posición o de tendencia central de


una variable, a aquellos valores destacados con los cuales es posible
representar a la totalidad de los valores observados de la variable

Las medidas de posición o de tendencia central, no


necesariamente son valores de la variable, pero sı́ están expresadas en la
misma magnitud, por lo tanto, pueden ser localizadas en el mismo eje de
coordenadas donde esté representada la variable.

En las siguientes secciones vamos a enumerarlas y definirlas:

2.3.1 Media
La media (aritmética) generalmente es la más importante de todas las
medidas numéricas utilizadas para describir datos; constituye lo que la
mayorı́a de la gente denomina promedio.

Promedio o media aritmética de una variable X, es el número


que resulta de sumar todos los valores observados de la variable y
dividir esta suma por la cantidad de unidades experimentales que
se tienen.
Pn
xi
X̄ = i=1
n

La ni=1 xi es el total observado de la magnitud que representa la


P

variable. Por ejemplo, si la variable representa la cantidad de personas que


hay en cada aula, la suma es el total de las personas que hay considerando
todas las aulas; si la variable representa el peso de cada bolsa de naranjas y
está expresada en kilogramos, la suma es el total de los kilogramos que hay
considerando todas las bolsas; si la variable representa la superficie de cada
departamento y está expresada en metros cuadrados, la suma es el total de

25
metros cuadrados considerando todos los departamentos.

La media aritmética, entonces, es el cociente entre el total observado


de la magnitud en estudio y la cantidad de elementos con los cuales está
formado dicho total.

El valor numérico de la media aritmética debe interpretarse como


”cuanto le corresponderı́a a cada uno, si todos fuesen iguales”.

El método de cálculo de la media aritmética cambia ligeramente,


según se trate de:
- Valores de una variable sin agrupar
- Valores de una variable agrupados.

Ejemplo

Consideremos los datos referidos a las notas de los exámenes finales, las
cuales se reproducen en la tabla. Si sumamos todos los valores y, luego,
dividimos dicha suma por la cantidad total de observaciones, n = 50,
obtendremos el cálculo de la media aritmética sin utilizar las frecuencias:

Datos de notas
1 4 5 6 8
2 4 5 6 8
2 4 5 7 8
3 4 5 7 8
3 4 5 7 8
3 5 5 7 8
4 5 6 7 9
4 5 6 7 9
4 5 6 8 9
4 5 6 8 10

1 P50 1+2+2+3+3+3+...+9+9+9+10 284


X̄ = 50 i=1 xi = 50
= 50
= 5, 68

Sin embargo, utilizando las frecuencias la fórmula se reduce mucho (¡no


hacen falta puntos suspensivos!), ya que en lugar de sumar varias veces un
mismo número, simplemente los multiplicamos por la cantidad de veces que
se repite, es decir, por su frecuencia. Utilizando esta técnica, el cálculo

26
serı́a:

1
P10 1×1+2×2+3×3+4×9+5×11+6×6+7×6+8×8+9×3+10×1 284
X̄ = 50 i=1 xi ∗ fi = 50 = 50 = 5, 68

Veamos ahora un ejemplo con datos agrupados.

Ejemplo

Consideremos los datos de estatura y el cálculo de las frecuencias


realizado.

Si consideramos los datos sin agrupar de la primera tabla, al haber muy


pocas observaciones repetidas, la utilización de las frecuencias en el cálculo
no brinda ningún atajo. Por ello, simplemente sumamos todos los valores y
dividimos por la cantidad de observaciones.

Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859

1 P50 1,594+1,594+1,612...+1,817+1,818+1,859 85,179


X̄ = 50 i=1 xi = 50
= 50
= 1, 704

Consideremos ahora los datos agrupados. Tenemos 7 clases distintas, es


decir que M = 7. Si calculamos el producto de cada marca de clase por su
frecuencia, obtenemos los valores de la última columna de la siguiente
tabla. Luego, sumando dichos productos obtenemos el total ilustrado al
final de la última columna.

27
Clase Marca Frecuencia
y(j)*n(j)
LI LS y(j) n(j)
1,55 1,60 1,575 2 3,150
1,60 1,65 1,625 10 16,250
1,65 1,70 1,675 12 20,100
1,70 1,75 1,725 13 22,425
1,75 1,80 1,775 9 15,975
1,80 1,85 1,825 3 5,475
1,85 1,90 1,875 1 1,875
Suma = 85,250

P7
i=1 yi ∗ fi = 1, 575 × 2 + 1, 625 × 10...1, 875 × 1 = 3, 150 + 16, 250...1, 875 + 85, 250

Finalmente, la suma calculada es divida por la cantidad total de datos,


n = 50, para obtener la media aritmética aproximada:

1 P7 85,250
ȳ = 50 i+1 y i ∗ fi = 50
= 1, 705

En el ejemplo se puede observar que la media calculada con datos


agrupados no coincide exactamente con el promedio simple (calculado con
los datos sin agrupar). Esto se debe a que al agrupar los datos, algo de
información estamos perdiendo. Sin embargo, los cálculos son más sencillos
cuando se trabaja con los datos agrupados. De esta manera, hay un
intercambio entre sencillez y exactitud.

En la medida que la agrupación se realice de manera tal de reflejar la


distribución de los datos, los cálculos realizados con datos agrupados
estarán próximos a los valores verdaderos provenientes de todas las
observaciones.

2.3.2 Mediana
La media aritmética es la medida más ampliamente utilizada para
indicar el centro de una distribución. Sin embargo, el cálculo de la misma
es muy sensible a los valores extremos, entendiendo por éstos a aquéllos
muy pequeños o muy grandes.

Consideremos, por ejemplo, la observación de las siguientes estaturas


(en metros) de cuatro personas: 1.70, 1.72, 1.73 y 2.10. El promedio de

28
estas observaciones es 1.81, pero seguramente esperarı́amos un valor central
cercano a 1.72 ó 1.73. La distorsión se debe a la observación de la estatura
2.10, la cual es muy grande en comparación con las demás.

Para superar este inconveniente, la mediana es una medida que utiliza


los valores centrales de los datos ordenados para indicar el centro de la
distribución.

La mediana de un conjunto de datos, Xm e , es el valor central


cuando los datos están ordenados de manera creciente o decreciente.

Si la cantidad de datos es impar, simplemente ordenamos los datos


y nos fijamos cuál queda en el medio.

Si la cantidad de datos es par, no hay un único valor central, por


lo cual la mediana será el promedio simple entre los dos valores
centrales.

En la definición anterior vemos que la mediana es el valor de los datos


que deja a la misma cantidad de datos por encima y por debajo. Es decir,
que tiene una frecuencia acumulada de n2 y una frecuencia relativa
acumulada del 50%.

Ejemplo

Supongamos que contamos con 5 datos referidos a la estatura de los


jugadores de un equipo de básquet. La mediana será simplemente el valor
“del medio” cuando los datos estén ordenados. Si las estaturas observadas
(ordenadas) son:

1,869 1,908 1,912 1,978 2,072

Entonces, la mediana es la tercera observación, es decir que


Xme = 1, 912.

En caso de que la cantidad de observaciones sea par, deberemos calcular


el promedio entre los valores centrales. Si incluimos a los suplentes del
equipo, las observaciones son:

29
1,869 1,901 1,912 1,978 2,072
1,889 1,908 1,921 1,994 2,075

Luego, la mediana será el promedio entre los dos valores centrales, es


decir, entre la observación 5 y 6 en el conjunto de datos ordenados:
1,912+1,921
Xme = 2
= 1, 9165

De manera más formal, podemos volver a definir la mediana en términos


matemáticos.

Si contamos con n observaciones ordenadas, entonces, si n es


impar, la mediana es:

Xme = X n+1
2

O bien, cuando n es par:


 
1
Xme = 2
x n2 + x n2 +1

Ejemplo

Tomemos en cuenta el ejemplo anterior. En primer lugar, pueden


considerarse sólo los titulares del equipo siendo m + 5, y al ser impar
debemos calcular n+1 2
= 3. Luego, la mediana es igual a la tercera
observación:

Xme = x3 = 1, 912

Luego, cuando se consideraron los suplentes y los titulares, n = 10.


Siendo el total de observaciones par, hay dos valores centrales dados por las
posiciones n2 = 5 y n2 + 1 = 6 de los datos ordenados. De esta manera, la
mediana es el promedio entre la quinta y la sexta observación:

x5 +x6 1,912+1,921
Xme = 2
= 2
= 1, 9165

Consideremos un ejemplo con una mayor cantidad de datos, como los


“Datos de Estatura” utilizados en la sección anterior.

30
Ejemplo

Los datos ordenados se observan en la tabla. Luego, al ser n = 50 un


número par, la mediana será el promedio entre las ubicaciones n2 = 25 y
n
2
+ 1 = 26, las cuales están resaltadas en la tabla. Es decir:

x25 +x26 1,702+1,704


Xme = 2
= 2
= 1, 703

Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859

Cuando solamente disponemos de los datos agrupados, la mediana


estará dentro del primer intervalo que acumule una frecuencia
mayor o igual a n2 . El cálculo de la misma es:
n
−Fj−1
Xme = Li + 2
fj
× wj

Donde Li es el lı́mite inferior del intervalo que contiene la mediana,


n es la cantidad total de observaciones, Fj−1 es la frecuencia
acumulada hasta el intervalo anterior, fj es la frecuencia del
intervalo, y wj es la amplitud del intervalo.

2.3.3 Modo o moda


Tanto la media como la mediana se utilizan exclusivamente con datos
cuantitativos, ya que no nos basta con conocer la categorı́a en la cual se
encuentra una observación, sino que tenemos que conocer el valor de cada
observación para realizar el cálculo. La moda tiene la principal ventaja de
poder calcularse con datos cualitativos y en distribuciones que son
relativamente simétricas, indicará la posición central de las observaciones.

31
La moda o el modo de un conjunto de datos, Xmo , es el valor más
frecuente. Es decir, es aquel valor que tiene mayor frecuencia (tanto
absoluta como relativa). Puede presentarse el caso en que dos (o
más) valores tienen la máxima frecuencia. En este caso decimos
que la distribución es bimodal (o multimodal).

Ejemplo

Los datos de las notas de los alumnos, con sus respectivas frecuencias
simples, son los expuestos en la tabla.

Valor xi Frecuencia ni
1 1
2 2
3 3
4 9
5 11
6 6
7 6
8 8
9 3
10 1

La moda, es simplemente el valor más observado (el que tiene frecuencia


máxima), es decir que Xmo = 5.

Cuando contamos con datos agrupados, existe una clase modal,


la cual es la que posee mayor frecuencia. La moda se calcula de la
siguiente manera:

d1
Xmo = Li + d1 +d2
× wi

Donde Li es el lı́mite inferior de la clase modal, d1 es la diferencia


entre la frecuencia del intervalo modal y la frecuencia del intervalo
anterior y d2 la diferencia entre la frecuencia del intervalo modal y
la frecuencia del intervalo posterior.

32
Ejemplo

Los datos agrupados de estatura, con sus respectivas frecuencias


simples, se observan en la tabla. La clase modal (aquélla con mayor
frecuencia) es la cuarta. Por lo cual la moda es:

Clase
Marca Frecuencia
LI LS
1,55 1,60 1,575 2
1,60 1,65 1,625 10
1,65 1,70 1,675 12
1,70 1,75 1,725 13
1,75 1,80 1,775 9
1,80 1,85 1,825 3
1,85 1,90 1,875 1

d1 (13−12)
Xmo = Li4 + d1 +d2
× wi = 1, 70 + (13−12)+(13−9)
× 0, 05 = 1, 71

2.3.4 Media ponderada


En algunos casos los valores varı́an su grado de importancia, de modo
que es posible que queramos acomodarlos de acuerdo con ello. Después,
será posible proceder al cálculo de una media ponderada, que es una media
que se obtiene asignando distintos pesos a los valores, tal como se muestra
en la siguiente fórmula.
P
(w×x)
X̄ = P
w

Por ejemplo, supongamos que necesitamos una media de tres


calificaciones de una prueba (85, 90, 75), donde la primera prueba cuenta el
20%, la segunda el 30% y la tercera el 50% de la calificación final. Podemos
asignar pesos de 20, 30 y 50 a las calificaciones de la prueba y luego
calcular la media aplicando, como sigue:
(20×85)+(30×90)+(50×75) 8150
X̄ = 20+30+50
= 100
= 81, 5

Otro ejemplo son los promedios universitarios (que utilizan letras), que
pueden calcularse si asignamos a cada calificación con letras el número
adecuado de puntos (A = 4, B = 3, etcétera), y después asignamos a cada

33
puntaje un peso igual al número de horas crédito. Nuevamente, se utiliza la
fórmula anterior para calcular el promedio de calificaciones

2.3.5 La mejor medida de tendencia central


Hasta ahora hemos considerado la media, mediana y moda como
medidas de tendencia central. ¿Cuál de ellas es la mejor?
Desafortunadamente, no existe una respuesta única a esa pregunta, porque
no hay criterios objetivos para determinar la medida más representativa
para todos los conjuntos de datos. Las diferentes medidas de tendencia
central ofrecen diversas ventajas y desventajas, algunas de las cuales se
resumen en la siguiente tabla:

¿Toma en ¿Afectado
¿Qué tan
Medida Definición Existencia cuanta por valor Ventajas y desventajas
común es?
cada valor? extremos?
”Promedio” más Se usa mucho y funciona bien
Media Siempre existe Si Si
conocido con muchos métodos estadı́sticos
Valor en el Suele ser buena opción si hay
Mediana De uso común Siempre existe No No
medio valores extremos.
Valor mas Se usa en Podrı́a no existir o Apropiada para datos de
Moda No No
frecuente ocasiones haber mas de una nivel nominal.

2.4 Medidas de variabilidad


De acuerdo a lo estudiado en el sección anterior, las medidas de posición
o tendencia central se pueden considerar como ”representantes” de la
totalidad de los valores observados de una variable. Estas medidas serán
”buenas representantes” si los valores observados son homogéneos; esto
quiere decir que si no hay ”demasiada” diferencia o desviación entre cada
uno de ellos y alguna medida en particular, entonces la medida en cuestión
es representativa.

A los efectos de poner de manifiesto la magnitud de las desviaciones, en


su conjunto, es necesario contar con medidas adecuadas para ello.

Las medidas de variabilidad son aquellas que permiten estudiar,


cómo se desvı́an, en su conjunto, los valores observados de una
variable, con respecto a alguna Medida de Tendencia Central.

34
A la izquierda tenemos los tornillos fabricados por la empresa A, y a la
derecha los de la empresa B

En estos apuntes unicamente nos dedicaremos al estudio de la


variabilidad respecto a la MEDIA.

Se presenta un ejemplo visual de variación, el cual incluye muestras de


tornillos de dos compañı́as diferentes. Puesto que dichos tornillos se utilizan
para unir las alas al fuselaje, su calidad es muy importante. Si sólo
tomamos en consideración la media, no reconocerı́amos cualquier diferencia
entre dos muestras, ya que ambas tienen una media x̄ de 2,000 pulgadas.

Sin embargo, debe ser evidente que las muestras difieren mucho con
respecto a las variaciones de las longitudes de los tornillos. Los tornillos
fabricados por la fabrica A parecen tener longitudes muy similares, mientras
que las longitudes de los tornillos de la fabrica B varı́an mucho. En muchos
procesos de fabricación, este mismo aspecto tiene una gran importancia. Se
logra una mejor calidad a través de una variación menor. La idea es poder
desarrollar la habilidad para medir y comprender la variación.

2.4.1 Desviación o desvı́o


El primer concepto que veremos para poder avanzar es el siguiente:

35
Se llama desviación con respecto a la media aritmética, a
la diferencia entre un valor individual de la variable y su media
aritmética.

Por si solo el concepto no tiene gran utilidad, pero debemos tenerlo bien
presente por que es la base de todo que veamos sobre variabilidad.

2.4.2 Varianza
La varianza es una medida de variabilidad que es, en esencia,
el promedio al cuadrado de las distancias entre cada observación y
la media del conjunto de observaciones. Su fórmula es:
P
(xi −X̄)2
V (x) = n−1

La varianza es una medida razonablemente buena de la variabilidad


debido a que si muchas de las diferencias son grandes (o pequeñas) entonces
el valor de la varianza será grande (o pequeño). El valor de la varianza
puede sufrir un cambio muy desproporcionado, aún más que la media, por
la existencia de algunos valores extremos en el conjunto.

Quizás se pregunten por qué elevar al cuadrado las desviaciones en lugar


de promediarlas directamente. La respuesta es que, si se promedian
directamente las desviaciones respecto de la media, aquéllas positivas se
compensarán con las negativas y el resultado final será cero, no aportando
ninguna noción respecto de la dispersión de los datos.

Un pequeño inconveniente que presenta la varianza es que su valor está


expresado en unidades al cuadrado. Por ejemplo, si la variable que se mide
son metros, la varianza indicará metros cuadrados. Por ello, en lugar de
utilizar la varianza como medida de dispersión se suele utilizar el desvı́o
estándar.

2.4.3 Desvı́o estándar


La desviación estándar es, por lo general, la medida de variación más
importante y útil. Definimos ahora la desviación estándar (también
llamado desvı́o estándar):

36
El desvı́o estándar de una variable es la raı́z cuadrada positiva
de la varianza.Su fórmula es:
rP
(xi −X̄)2
S(x) = n−1

En definitiva, es una medida de variación de los valores con respecto a la


media. Es un tipo de desviación promedio de los valores, con respecto a la
media.

Destaquemos algunos puntos importantes sobre el desvı́o estándar:

ˆ El desvı́o estándar es una medida de variación de todos los valores con


respecto a la media.

ˆ El valor del desvı́o estándar suele ser positivo. Sólo es igual a cero
cuando todos los valores de los datos son el mismo número. Además,
valores grandes de S(x) indican mayores cantidades de variación.

ˆ El valor del desvı́o estándar se puede incrementar de manera drástica


con la inclusión de uno o más datos distantes (valores de datos que se
encuentran muy lejos de los demás).

ˆ Las unidades del desvı́o estándar (como minutos, metros, kilos,


etcétera) son las mismas de los datos originales

Pasos para calcular el desvı́o estándar

ˆ Paso 1: Calcule la media x̄.

ˆ Paso 2: Reste la media de cada valor individual para tener una lista de
desviaciones de la forma (x − x̄).

ˆ Paso 3: Eleve al cuadrado cada una de las diferencias obtenidas en el


paso 2. Esto produce números de la forma (x − x̄)2 .

ˆ Paso 4: Sume todos los cuadrados obtenidos en el paso 3. Éste es el


valor de (x − x̄)2
P

ˆ Paso 5: Divida el total del paso 4 entre el número (n − 1), es decir, 1


menos que el total de valores presentes.

ˆ Paso 6: Calcule la raı́z cuadrada del resultado del paso 5.

37
Aclaración: Dividir la varianza muestral por n-1 en lugar de n
se hace para tener en cuenta la incertidumbre en la estimación de
la varianza poblacional. Cuando se toma una muestra de una
población, es posible que los datos de la muestra no sean una
representación perfecta de la población completa. Al dividir la
varianza muestral por n-1, se le quita un grado de libertad a la
muestra, lo que significa que se asume que la muestra es menos
precisa en la estimación de la varianza poblacional. De esta
manera, la estimación resultante es más robusta y menos
influenciada por valores atı́picos o extremos en la muestra. Se
desprende de lo anterior que para el caso en que se desee calcular
la varianza de una población, se deberá dividir por n

Ejemplo

Consideremos por ejemplo la observación de la estatura dos grupos de


tres personas cada uno. Las observaciones del primer grupo son 1,70m.,
1,71m. y 1,72m., mientras que las del segundo son 1,55m., 1,71m. y 1,87m.
Los dos grupos tienen la misma media y mediana, la cual es de 1,71m.

Ahora calculemos la varianza para cada uno de ellos. En el primer caso,


será:

1
V (x) = 2
× [(1, 70 − 1, 71)2 + (1, 71 − 1, 71)2 + (1, 72 − 1, 71)2 ]
0,0002
= 2
= 0, 0001

Mientras que para el segundo caso:

1
V (x) = 2
× [(1, 55 − 1, 71)2 + (1, 71 − 1, 71)2 + (1, 87 − 1, 71)2 ]
0,0512
= 2
= 0, 0256

Como era de esperar, la varianza del segundo grupo es mayor que la del
primero. Debe notarse que los los valores resultantes tiene magnitud de
centı́metros al cuadrado, que si bien tiene sentido intrı́nseco (es decir,
representa una forma de medir áreas), no sirve para realizar comparaciones
en lo que se está midiendo. Una forma sencilla de ilustrar el problema es
pensar una varianza de temperaturas que estará expresada en grados
centı́grados al cuadrado. Si bien la varianza está correctamente expresada,
grados centı́grados al cuadrado no es algo que tenga un significado per se.

38
Nos queda el último paso para obtener el desvı́o estándar, obtener la raı́z
cuadrada de las varianzas calculadas. Confiamos en que el alumno pueda
realizar tan sencilla operación por su cuenta.

2.4.4 Coeficiente de variación


Para poder establecer si la variabilidad alrededor de la Media
Aritmética que presenta una variable es baja o no, es necesario que el valor
numérico del Desvı́o Estándar (la medida de variabilidad absoluta con la
que habitualmente se mide la dispersión) sea comparado o relacionado con
ella (la media aritmética).

El coeficiente de variación de una variable es el cociente entre


el desvı́o estándar y la media aritmética de dicha variable:
S(x)
CV (x) = x̄

El coeficiente de variación es un número puro, desprovisto de


magnitud. Es una medida de variabilidad relativa. Relaciona el desvı́o
estándar con la media aritmética. Su valor numérico permite establecer
criterios generales acerca de la homogeneidad de los datos, de la
representatividad de la media aritmética y la comparación con la
variabilidad de otras variables aunque las unidades de medida o las
magnitudes sean distintas.

Un criterio generalmente aaceptado es que si el CV(x) es menor a 0,10,


se puede considerar que la variable en estudio es homogénea, y
consecuentemente, la media aritmética es representativa.

Ejemplo

Utilizemos los siguientes datos muestrales dados de estatura y peso de


40 hombres:

Desvı́o
Media
estándar
Estatura 173,58 cm 7,67 cm
Peso 77,82 kg 11,87

39
Los dos coeficientes de variación se obtienen de la siguiente manera:
S(x) 7,67cm
Estaturas: CV (x) = x̄
= 173,58cm
= 0, 0442
S(x) 11,87kg
Pesos: CV (x) = x̄
= 77,82kg
= 0, 1526

Aun cuando la diferencia en unidades imposibilita la comparación de la


desviación estándar de 7,67cm, con la desviación estándar de 11,87kg, es
posible comparar los coeficientes de variación, que carecen de unidades.

Se observa que las estaturas (con CV = 4,42%) tienen una variación


considerablemente menor que los pesos (con CV = 15,26%). Lo anterior
tiene sentido, ya que, por lo general, vemos que los pesos de los hombres
varı́an mucho más que sus estaturas. Por ejemplo, es muy raro encontrar
un adulto que mida el doble que otro, pero es mucho más común ver a uno
que pese el doble que otro.

Aclaración: en esta sección de medidas de variabilidad se


trataron ejemplos de datos sin agrupar. Se debe considerar que
para datos agrupados existen formas de cálculo especiales que
permite aproximar los valores de estas medidas. Sin embargo, por
poder calcularse todas las medidas de forma automática con
cualquiera de las múltiples aplicaciones informáticas que existen,
sin necesidad de agrupar los datos, es que se omite en esta última
parte el trabajo con tablas de distribución de frecuencias

40
3 Probabilidad
En los capı́tulos anteriores se han estudiado los distintos métodos de
recopilación de datos y cómo se pueden utilizar para describir los hechos,
mediante el análisis del comportamiento de las variables observadas, y el
cálculo de las medidas que resumen la información que contienen.

Lo que se ha estudiado, entonces, es el tratamiento de acontecimientos


que ya ocurrieron. En este capı́tulo, y en los próximos, el estudio recaerá
sobre los posibles resultados de aquellas acciones o experimentos que se
llevarán a cabo en un proceso de investigación. O sea, el tratamiento de
eventos que ocurrirán.

El estudio de fenómenos observables hace necesario la formulación de


modelos que describan el comportamiento y/o el resultado futuro de los
experimentos correspondientes. En algunos casos estos resultados pueden
predecirse con exactitud, pero en otros, por cuestiones de casualidad, azar,
o cualquier otra circunstancia, los futuros resultados se ignoran totalmente,
o hay cierto grado de ignorancia acerca de cuáles pueden ser. En este
último caso es en que nos vamos a centrar. El objetivo del estudio de la
probabilidad es poder medir la incertidumbre respecto a la ocurrencia o
no de algún suceso, siendo la base sobre la que se construyen los métodos
importantes de la estadı́stica inferencial.

Esos fenómenos respecto de los cuales no podemos determinar su


resultado basándonos en las condiciones previas se denominan fenómenos
o experimentos aleatorios y son estudiados por la teorı́a de la
probabilidad y, mediante ciertos axiomas que veremos más adelante, se
define lo que llamaremos medida de probabilidad. A su vez, a partir de
dichos axiomas se desprenden una serie de propiedades de la probabilidad
muy útiles para su aplicación al análisis de fenómenos concretos.

Ası́, mediante ciertos estudios probabilı́sticos se podrán realizar


afirmaciones respecto de la probabilidad de que determinado artı́culo de
una lı́nea de producción sea defectuoso, la probabilidad de ganar cierto
juego de azar o la probabilidad de que al extraer un individuo al azar del
curso de estadı́stica, el mismo sea un hombre y, además, sea fumador.

En el presente capı́tulo se presentarán los conceptos básicos relacionados


con la Teorı́a de la Probabilidad, la cual constituye una piedra angular de
la Estadı́stica. Pero antes de entrar de lleno en el tema que nos compete,

41
expondremos un breve repaso de la Teorı́a de Conjuntos, la cual será una
herramienta fundamental para los desarrollos posteriores.

3.1 Teorı́a de conjuntos


La Teorı́a de Conjuntos, o al menos los conceptos básicos de ésta, es
desarrollada en los estudios de nivel medio. Sin embargo, aquı́ se realiza
una breve introducción a modo de repaso y con el fin de establecer la
notación a usar a lo largo del capı́tulo.

De acuerdo con lo visto anteriormente, lo que nos interesa estudiar es el


comportamiento de los fenómenos aleatorios. Dicho comportamiento puede
relacionarse con el resultado de un determinado experimento. Por ejemplo,
el experimento puede consistir en medir la hora en que pasa el ómnibus, u
observar el punto de caı́da de una piedra o bien anotar el resultado de un
partido de fútbol. Teniendo en mente esta relación, pasemos a desarrollar la
teorı́a desde esta óptica, considerando al comportamiento aleatorio de
ciertos fenómenos como resultados de un experimento determinado.

Definimos, a continuación, ciertos elementos comunes de cualquier


experimento:

ˆ Espacio muestral ( Ω ): conjunto de todos los posibles


resultados que se pueden dar al realizar un experimento.

ˆ Suceso Simple: cada uno de los posibles resultados,


considerados individualmente. Es decir, cada uno de los
elementos del espacio muestral.

ˆ Suceso compuesto: conjunto de eventos simples.

Aclaración: evento y suceso sirven de sinónimos en el estudio


de probabilidad y serán utilizados indistintamente en este apunte

En general, salvo aclaración en contrario, la letra griega omega ( Ω )


representará el espacio muestral, mientras que las letras mayúsculas del
alfabeto latino (A, B,...) denotarán sucesos, tanto simples como
compuestos. Unos ejemplos clarificarán las definiciones enunciadas.

42
Ejemplo
Considere el lanzamiento de un dado. El espacio muestral está dado por
Ω = {1, 2, 3, 4, 5, 6}, un evento simple es A = ”el resultado es 2” y un
evento compuesto es B = ” el resultado es un número par”. Los eventos
pueden escribirse también como A = {2} y B = {2, 4, 6}.

Ejemplo Si se considera un experimento dado por el lanzamiento de


una moneda, el espacio muestral está dado por Ω = {Cara, Ceca}, y y en
este caso sólo es posible considerar los eventos simples: A = {Cara} y
B = {Ceca}.

Ejemplo
Considere el lanzamiento de dos monedas, una por vez. El espacio muestral
está dado por:
Ω = {CaraCara, CaraCeca, CecaCara, CecaCeca}.
Un suceso simple es A = {CaraCeca}, o de manera extensiva A = ”el
primer lanzamiento es cara y el segundo ceca”. Un evento compuesto es
B = {CaraCara, CecaCeca}, o de manera extensiva B = ”los dos
lanzamientos arrojan el mismo resultado”.

A continuación, definimos algunas operaciones básicas relacionadas con


conjuntos:

ˆ Unión de dos conjuntos (A ∪ B): está dada por el conjunto de todos


los resultados que pertenecen al evento A o al evento B o a ambos.
Si se considera el lanzamiento de un dado y se definen los eventos
A = {1, 2, 3} y B = {2, 4, 6}, entonces (A ∪ B) = {1, 2, 3, 4, 6}

ˆ Intersección de dos conjuntos (A ∩ B): está dada por el conjunto


de los resultados que pertenecen tanto a A como a B , es decir a A y a
B simultáneamente.
Considerando el ejemplo anterior, (A ∩ B) = {2}

ˆ Complemento de un conjunto ( AC ): es el conjunto de todos los


elementos del espacio muestral que no pertenecen al evento A.
Continuando los ejemplos anteriores: AC = {4, 5, 6} y B C = {1, 3, 5}

Por otro lado, podemos realizar algunas definiciones que están


relacionadas con las caracterı́sticas de los conjuntos:

43
ˆ Cuando todos los elementos de un conjunto A pertenecen también a
otro conjunto B , se dice que A está incluido en B , y se denota A ⊂ B.

ˆ Un conjunto que no posee ningún elemento se denomina conjunto vacı́o


y se denota por Ø= {}.

ˆ Dos eventos A y B son mutuamente excluyentes si la ocurrencia de


uno implica la no ocurrencia del otro, es decir, la intersección de los
conjuntos que representan a dos eventos mutuamente excluyentes es el
conjunto vacı́o: A ∩ B = Ø.

ˆ Dos eventos A y B son colectivamente exhaustivos si la unión de los


conjuntos que los representan conforman el espacio muestral: A ∩ B =
Ω. Es decir, que con certeza ocurrirá al menos uno de ellos.

De acuerdo con las definiciones enunciadas hasta aquı́, se pueden extraer


las siguientes conclusiones:

ˆ A ⊂ Ω: Todo evento está incluido en el espacio muestral.

ˆ A∩AC = Øy A∪AC = Ω: Un evento y su complemento son mutuamente


excluyentes y colectivamente exhaustivos.

Ejemplo
Consideremos el lanzamiento de un dado. El espacio muestral, como ya
hemos visto, es Ω = {1, 2, 3, 4, 5, 6}. Además, definimos los eventos A = ”el
resultado es mayor a 3”, B = ”el resultado es impar”, y C = ”el resultado
es 1”. O bien, A = {4, 5, 6}, B = {1, 3, 5} y C = {1}.

De acuerdo con las definiciones arriba enunciadas, podemos obtener los


siguientes resultados: A ∩ C = Ø.(A y C son mutuamente excluyentes) y
C ⊂ B (C está incluido en B).

Ejemplo
Supongamos que, con los datos del ejemplo anterior, deseamos hallar las
operaciones compuestas AC ∩ B y (A ∩ C C ) ∪ B. Siempre es recomendable
operar paso a paso.

Para hallar AC ∩ B primero obtenemos AC = {1, 2, 3} luego, realizamos


la intersección de este último con B. Finalmente AC ∩ B = {1, 3}.

Para la segunda operación deseada, calculamos primero


C C = {2, 3, 4, 5, 6}, luego realizamos la intersección con A, dando por

44
resultado A ∩ C C = {4, 5, 6}, y finalmente, al realizar la unión con B , el
resultado es (A ∩ C C ) ∪ B = {1, 3, 4, 5, 6}.

3.1.1 Propiedad de las operaciones


Las operaciones entre conjuntos definidas en la sección anterior
presentan algunas propiedades que vale la pena tener presentes. A modo de
ejercicio, el lector puede comprobar las propiedades que siguen realizando,
en cada una de ellas, el diagrama de Venn del miembro izquierdo y del
miembro derecho por separado, y luego, compararlos para verificar la
igualdad.

ˆ Asociatividad de la unión: la unión de un conjunto A con la unión


de otros dos conjuntos B y C, es igual a la unión de la unión de los dos
primeros con el tercero. Es decir:

A ∪ (B ∪ C) = (A ∪ B) ∪ C

ˆ Asociatividad de la intersección: la intersección de un conjunto A


con la intersección de otros dos conjuntos B y C, es igual a la
intersección de la intersección los dos primeros con el tercero. Es
decir:

A ∩ (B ∩ C) = (A ∩ B) ∩ C

ˆ Distributividad de la intersección respecto de la unión: La


intersección de un evento A con la unión de otros dos eventos B y C,
es la unión de las intersecciones de A con cada uno de ellos. Es decir:

A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)

ˆ Distributividad de la unión respecto de la intersección: La


unión de un evento A con la intersección de otros dos eventos B y C,
es la intersección de las uniones de A con cada uno de ellos. Es decir:

A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

ˆ Complemento de la unión: el complemento de la unión de los


conjuntos A y B es la intersección de los complementos de cada uno
de ellos. Es decir:

45
(A ∪ B)C = AC ∩ B C )

ˆ Complemento de la intersección: el complemento de la intersección


de los conjuntos A y B es la unión de los complementos de cada uno
de ellos. Es decir:

(A ∩ B)C = AC ∪ B C

3.2 Definición de probabilidad


En esta sección veremos que existen varias maneras de definir a la
probabilidad, las cuales surgirán de acuerdo con el tipo de fenómeno que
estemos analizando. A su vez, se observará que estas definiciones están
estrechamente ligadas a las nociones intuitivas que se pueden llegar a tener
respecto de la probabilidad.

3.2.1 Definición clásica


Si preguntamos a cualquier persona que nos diga cuál es la probabilidad
de obtener ceca al lanzar una moneda al aire, casi con seguridad nos
contestará “un 50%”. Asimismo, si consultamos cuál es la probabilidad de
obtener el número 6 al lanzar un dado, es muy posible que la respuesta sea
“un sexto”; mientras que si preguntamos cuál es la probabilidad de obtener
un número par, la respuesta será “un 50%”. Estas respuestas intuitivas
están ligadas a la definición clásica de probabilidad:

Sea Ω un espacio muestral finito que contiene N eventos simples, y


sea A un evento que puede darse de n maneras distintas; es decir,
que al realizar un experimento hay N resultados posibles de los
cuales n son favorables al evento A . La probabilidad de que ocurra
el evento A está dada por:
resultadosf avorables n
P (A) = resultadosposibles
= N

Si relacionamos la definición precedente con el repaso de la Teorı́a de


Conjuntos, podemos afirmar que la probabilidad de que se dé el evento A
está dada por el cociente entre la cantidad de elementos del conjunto
favorables al evento A y el número de elementos del conjunto Ω, siendo
estos últimos igualmente probables.

46
Cabe aclarar que el evento A puede ser simple o compuesto, y en este
segundo caso, puede resultar complicado determinar la cantidad de maneras
en que puede darse el evento. A su vez, hay ocasiones en que resulta
complicado determinar la cantidad de elementos que posee el espacio
muestral Ω. Para ambos casos, resultan útiles las reglas de conteo
(combinatoria, variaciones, etc.) que serán vistas en la sección 6 de este
capı́tulo.

Ejemplo
Un individuo está por jugar a un juego en el que se lanzan dos dados
equilibrados; gana $1 si el resultado de la suma de los números obtenidos en
ambos dados es siete.

La cantidad de resultados posibles cuando se lanzan dos dados es 36


(estos resultados son igualmente probables): si el resultado del primer dado
es 1, el segundo puede arrojar cualquiera de los números del 1 al 6, con lo
cual ya tenemos seis resultados posibles; si el primer dado es 2, el segundo
nuevamente podrá arrojar cualquier valor del 1 al 6, con lo cual ya
sumamos doce resultados; y ası́ sucesivamente hasta completar 62 = 36
resultados posibles.

Luego, deberı́amos determinar la cantidad de resultados favorables al


evento ”la suma de los dados es 7”: éste puede darse de seis maneras
distintas (1 y 6, 2 y 5, 3 y 4, 4 y 3, 5 y 2, 6 y 1). En la siguiente tabla, se
resumen todos los resultados posibles, y aparecen sombreados los resultados
favorables al evento:

Ası́, la probabilidad de que el apostador gane, está dada por el cociente


entre el número de resultados favorables al suceso y el número de resultados

47
posibles:

6 1
P (A) = 36
= 6
= 0, 1667

3.2.2 Definición frecuentista


La Definición Frecuentista de probabilidad surge debido a la existencia
de fenómenos aleatorios en los cuales no se puede determinar con precisión
la probabilidad clásica de cada evento simple, es decir, que no podemos
precisar cuántos resultados favorables a un evento existen y/o cuántos
resultados posibles hay.

Consideremos algunos ejemplos en los cuales no se puede determinar


con precisión los casos favorables y los casos posibles: un jefe de control de
calidad desea determinar la probabilidad de que un artı́culo sea defectuoso,
un fanático está interesado en la probabilidad de que su equipo de fútbol
gane o un profesor que quiere saber la probabilidad de que sus alumnos
aprueben.

Para estimar la probabilidad de cada uno de esos eventos, se recurre a la


segunda manera de definir a la probabilidad, utilizando la frecuencia
relativa de ocurrencia de los mismos.

Sea K el número de veces que se observa un fenómeno determinado,


y sea k el número de veces en que ocurre un resultado favorable
al evento A. La probabilidad de ocurrencia del evento A es
la frecuencia relativa observada cuando el número total de
observaciones crece indefinidamente:

k
P (A) = limK→∞ K

La gran mayorı́a de los fenómenos aleatorios con que nos enfrentaremos


en la práctica son de este tipo, por lo cual esta definición de probabilidad
será muy utilizada.

Ejemplo
Consideremos un control de calidad de una empresa, en el cual se desea
saber la probabilidad de que un determinado artefacto tenga una vida útil
superior a las 1200 hs. Para ello, el departamento de control de calidad
separa 500 unidades de la producción y mide la vida útil de cada unidad.

48
Los resultados se observan en la siguiente tabla:

Ası́, de acuerdo a la Definición Frecuentista (y considerando que 500 es


un número suficientemente grande), la probabilidad de que la vida útil sea
mayor o igual a 1200 hs. es:

115+84+41
P (A) = 500
= 0, 23 + 0, 17 + 0, 08 = 0, 38

Esta definición de probabilidad da lugar a las pruebas de hipótesis, que


serán tratadas en el más adelante. Consideremos el lanzamiento de un dado
y supongamos que queremos detectar si el mismo está cargado. Para ello,
podrı́amos lanzar el dado un gran número de veces y observar la frecuencia
relativa de ocurrencia de cada resultado; por ejemplo, si lanzamos el dado
600 veces, deberı́amos esperar que 100 veces se dé cada uno de los
resultados posibles. Sin embargo, difı́cilmente esto ocurra, y supongamos
que el resultado 2 se dio 140 veces.

Lo que se pretende al realizar un test de hipótesis, es probar si la


evidencia empı́rica es suficiente como para afirmar que el dado está
efectivamente cargado a favor del número 2, o si la observación de una
cantidad elevada de dicho resultado se debió simplemente al azar propio del
experimento. Continuaremos con este tema en el capı́tulo correspondiente.

3.2.3 Denifición subjetiva


La Definición Subjetiva de probabilidad está relacionada con el grado de
creencia que tiene quien lleva a cabo un experimento respecto de la

49
probabilidad de ocurrencia del mismo.

Ası́, por ejemplo, al lanzar un nuevo producto al mercado, un gerente de


ventas puede creer que el mismo tendrá un 70% de aceptación en el público,
es decir, que la probabilidad (subjetiva) de que un individuo acepte el
producto es de 0,7. Esta probabilidad suele llamarse también probabilidad
a priori, ya que refleja el grado de creencia antes de que se realice cualquier
prueba empı́rica. Las probabilidades a priori suelen modificarse luego
mediante algún tipo de experimento como, por ejemplo, una encuesta para
ver la aceptación que podrı́a tener el producto. Una vez que el experimento
se realiza, se modifican las probabilidades a priori para obtener las
probabilidades a posteriori, las cuales serán utilizadas para tomar
decisiones.

Este tipo de análisis de problemas es lo que se conoce como Análisis


Bayesiano, mediante el cual se modifican las probabilidades subjetivas (a
priori) utilizando el Teorema de Bayes, el cual será expuesto más adelante.
La tarea consiste en analizar la información suministrada por los resultados
de algún tipo de experimento (por ejemplo, como dijimos anteriormente,
una encuesta), para obtener probabilidades condicionadas a dicha
información. Este tipo de análisis está ı́ntimamente relacionado con la
dependencia estadı́stica de ciertos fenómenos, el cálculo de probabilidades
condicionales y el Teorema de Bayes, temas desarrollados más adelante en
el presente Capı́tulo. Cabe destacar que el Análisis Bayesiano tiene una
amplitud mucho mayor que la mencionada. Sin embargo en esta obra no se
tratarán con profundidad problemas de este tipo.

Antes de iniciar el estudio de probabilidades condicionales y de


fenómenos estadı́sticamente independientes, desarrollaremos los axiomas
principales que debe cumplir cualquier medida de probabilidad.

3.2.4 Axiomática
Todas las definiciones anteriores están ı́ntimamente ligadas a la parte
experimental de la Estadı́stica. Sin embargo, en los últimos años, la Teorı́a
de la Probabilidad ha evolucionado de manera sorprendente y las
definiciones se han hecho más rigurosas desde un punto de vista
matemático.

En este contexto, el ruso Andrei Kolmogorov (1933) definió la medida o

50
función de probabilidad mediante una serie de axiomas. Éstos, si bien son
válidos para cualquiera de las definiciones de probabilidad expuestas
anteriormente, amplı́an la definición incluyendo a cualquier medida que los
verifique.

Dado un espacio muestral Ω, llamamos medida de probabilidad a


una función p que va del espacio muestral al conjunto de los números
reales si satisface los siguientes axiomas:

ˆ Si A es un suceso cualquiera, entonces P (A) ≥ 0.

ˆ P (Ω) = 1

ˆ Si Ai (i = 1, 2...) son eventos mutuamente excluyentes:


P (A1 ∪ A2 ∪ ...) = P (A1 ) + P (A2 ) + ...

Es decir, que la probabilidad “P” asigna a cada elemento del espacio


muestral un número que verifica los axiomas expuestos.

A partir de estos tres axiomas, se desprenden las siguientes conclusiones:

ˆ Conocida la probabilidad de un evento A , se puede conocer la de su


complemento AC mediante la siguiente relación:

P (AC ) = 1 − P (A)

ˆ La función de probabilidad está incluida en el intervalo real [0, 1], es


decir:

0 ≤ P (A) ≤ 1

ˆ La probabilidad del evento vacı́o es nula, es decir:

P (Ø) = 0

51
ˆ Si A y B son dos eventos cualesquiera, entonces la probabilidad de su
unión es:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

Esto se conoce como regla de la suma.

ˆ Si A , B y C son tres eventos cualesquiera, entonces la probabilidad


de su unión es:

P (A∪B∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B∩C)+P (A∩B∩C)

ˆ Si A está incluido en B , entonces la probabilidad de A es menor o


igual a la probabilidad de B:

A ⊆ B ⇒ P (A) ≤ P (B)

ˆ Si A está incluido en B , entonces la probabilidad de la intersección de


los dos conjuntos coincide con la probabilidad de A :

A ⊆ B ⇒ P (A ∩ B) = P (A)

3.2.5 Probabilidad marginal y conjunta


En la presente sección, expondremos conceptos relacionados con la
probabilidad de eventos que ocurren simultáneamente y la probabilidad de
eventos simples. Ambos conceptos ya han sido estudiados y ejemplificados
en apartados anteriores, pero no han sido definidos de manera precisa.

Probabilidad marginal

Se llama probabilidad marginal de un suceso A a la probabilidad


de que se presente un suceso aleatorio A incluido en el Espacio
Muestral Ω asociado a un Experimento Aleatorio E.

P(A) : probabilidad marginal del suceso A

52
La Probabilidad Marginal es simplemente la probabilidad de ocurrencia
de un evento A, sin pensar en la existencia de otro evento B que suceda de
modo simultáneo con A.

Probabilidad conjunta

Se llama probabilidad conjunta de dos sucesos A y B. a


la probabilidad de que se presenten en el mismo Experimento
Aleatorio dos sucesos aleatorios A y B incluidos en el Espacio
Muestra Ω, asociado a dicho Experimento E.

P (A.B) o P (A ∩ B) : probabilidad marginal del suceso A y B.

La probabilidad conjunta implica la presentación del suceso


intersección de dos o más sucesos aleatorios.

3.2.6 Probabilidad condicional e independencia


En la presente sección analizaremos la influencia que tiene sobre un
evento determinado la información que se posee sobre otro evento
relacionado con el mismo, si es que existe tal influencia.

Probabilidad condicional

Cuando se trabaja con fenómenos aleatorios, muchas veces podemos


contar con cierta información que modificarı́a nuestra estimación de la
probabilidad del mismo. En estos casos, se dice que la probabilidad del
evento en cuestión está condicionada a la ocurrencia de otro evento.

Se llama probabilidad condicional del suceso A tal que se haya


presentado el suceso B, a la probabilidad de que se presente el
suceso A con la condición de que previamente se presente el suceso
B.

P (A/B) : probabilidad condicional de A dado B.

La probabilidad condicional implica la probabilidad de que se


presente un suceso A tomando como espacio muestral al suceso B en vez del
espacio muestral original Ω. El espacio muestral formado por B es un
espacio muestral reducido, ya que se consideran como total de resultados
posibles sólo los que pertenecen a dicho suceso B.

53
La probabilidad condicional del suceso A tal que se haya
presentado el suceso B, es el cociente entre la probabilidad
conjunta entre los dos sucesos A y B y la probabilidad marginal
del suceso condicionante B.
P (A∩B)
P (A/B) = P (B)
, conP (B) ̸= Ø

Ejemplo
Consideremos el lanzamiento de dos dados. El resultado del primero de
ellos se denotará por d1 y el resultado del segundo por d2 . La probabilidad
de que la suma sea 3 está dada por:

2 1
P (d1 + d2 = 3) = 36
= 18

Sin embargo, si sabemos que el resultado del primer dado es 2, la única


manera de que la suma sea 3 es que el resultado del segundo sea 1, por lo
tanto, la probabilidad será:

1
P (d1 + d2 = 3 sabiendo que d2 = 2) = 6

En la siguiente Tabla se ilustra el razonamiento seguido en el ejemplo:

↓ Dado 1 = 2

Esta aproximación implica la utilización de la definición clásica de


probabilidad. Usemos ahora la definición de probabilidad condicional para

54
hacer el cálculo.
1
P (d1 +d2 =3∩d1 =2) 1
P (d1 + d2 = 3/d1 = 2) = P (d1 =2)
= 36
1 = 6
6

Puede observarse que el condicionamiento es equivalente a “recortar” el


espacio muestral: se eliminan del espacio muestral aquellos eventos que
resultan imposibles de acuerdo a la información con la que contamos.

Eventos estadı́sticamente independientes

Lógicamente, puede suceder que tengamos información sobre la


ocurrencia de un evento determinado B , y sin embargo la probabilidad
marginal de ocurrencia del evento A no se vea alterada. Esto quiere decir,
que la ocurrencia de B no tiene ninguna influencia sobre el evento A , es
decir, que los eventos son estadı́sticamente independientes.

Dos eventos A y B son estadı́sticamente independientes, si la


ocurrencia de uno no afecta la probabilidad de ocurrencia del otro,
es decir que:

P (A/B) = P (A)

De las definiciones de probabilidad condicional y eventos


independientes, se desprende la regla del producto de probabilidades de
eventos independientes.

Si A y B son dos eventos estadı́sticamente independientes, entonces


la probabilidad conjunta es igual el producto de las probabilidades
marginales:

P (A ∩ B) = P (A) × P (B)

Se destaca que la independencia es una relación simétrica entre eventos,


esto quiere decir que si A es independiente de B, entonces B es
independiente de A.

55
Ejemplo
Consideremos el lanzamiento de dos dados y los siguientes eventos: A1 =
”el resultado del primer dado es dos y A2 = “el resultado del segundo es
tres”. La probabilidad marginal de cada uno de ellos es:

1 1
P (A1 ) = P (d1 = 2) = 6
P (A2 ) = P (d2 = 3) = 6

La probabilidad conjunta es:

1
P (A1 ∩ A2 ) = 36

Como puede observarse, la probabilidad conjunta es el producto de las


probabilidades marginales.

A1 A2 A1 ∩ A2
Ejemplo
Consideremos el lanzamiento de dos dados y los siguientes eventos: B1 =
”el resultado del primer dado es dos” y B2 = ”la suma de los resultados de
los dos dados es cinco”. La probabilidad marginal de cada uno de ellos es:

1 4 1
P (B1 ) = P (d1 = 2) = 6
P (B2 ) = P (d1 + d2 = 5) = 36
= 9

La probabilidad conjunta es:

1
P (B1 ∩ B2 ) = 36

ya que existe una única manera de que simultáneamente, el resultado del


primer dado sea 2 y la suma sea 5 (el primero resultado debe ser 2 y el
segundo 3).

En este caso, los eventos son dependientes, ya que el producto de las


probabilidades marginales no iguala a la probabilidad conjunta.

56
B1 B2 B1 ∩ B2

3.3 Reglas de conteo


En muchos fenómenos se puede identificar claramente cuántos
resultados son posibles al realizar un experimento y cuántos son favorables
a cierto evento A , y con dichos valores calcular la probabilidad del evento
utilizando la definición clásica. Sin embargo, la tarea al realizar el conteo de
casos favorables y casos posibles puede resultar sumamente ardua.

Por ejemplo, consideremos la probabilidad de que al sacar tres cartas de


una baraja francesa, dos de ellas sean negras. Para ello, deberı́amos contar
cuántas combinaciones posibles hay al sacar tres cartas de una baraja
francesa, y luego contar cuántas de ellas son favorables al evento “dos son
negras”. Esta tarea serı́a muy engorrosa si no se utilizan las reglas de
conteo que se exponen en esta sección.

Al momento de trabajar con reglas de conteo, un factor importante a


considerar es la relevancia del orden en el cual suceden las observaciones.
De esta manera, dependiendo de si el orden altera o no el resultado del
experimento se estará trabajando con reglas distintas. Básicamente, las
reglas de conteo son las variaciones, permutaciones y combinaciones. Antes
de abordar el detalle de cada una de ellas, debe tenerse en cuenta las
diferencias principales entre las mismas: en las combinaciones el orden es
irrelevante y el resultado depende de los elementos que conformen la
observación; en las variaciones, por el contrario, dos observaciones
representan resultados distintos a pesar de tener los mismos elementos si el
orden en el cual los mismos se presentan varı́a. Finalmente, al trabajar con
permutaciones se evalúan las distintas alternativas para ordenar un grupo

57
de elementos.

3.3.1 Variaciones y permutaciones


Consideremos dos lanzamientos consecutivos de una moneda. Los
resultados posibles, considerando el orden en que ocurren, son cuatro:

Ω = {CaraCara, CaraCeca, CecaCara, CecaCeca}

Consideremos ahora tres lanzamientos consecutivos, entonces hay ocho


resultados posibles:

Ω = {CaraCaraCara, CaraCaraCeca, CaraCecaCara, CecaCaraCara,


CaraCecaCeca, CecaCaraCeca, CecaCecaCara, CecaCecaCeca}

Consideremos 5 lanzamientos, o 10 lanzamientos, o, más aún, 20


lanzamientos. La tarea de contar uno por uno todos los posibles resultados
serı́a muy complicada ¿no? Para contar la cantidad de resultados posibles
en estos casos se utilizan las variaciones.

Cuando un fenómeno puede ocurrir de n maneras distintas (hay n


resultados posibles), y el mismo se repite r veces, la cantidad total
de resultados distintos que se pueden obtener (considerando el
orden en que ocurre el resultado de cada ensayo) es una variación
de n elementos tomados de r en r :

V(n,r) = nr

Ejemplo
Si lanzamos una moneda al aire hay dos resultados posibles (n = 2), cara o
ceca. Si lanzamos 2 veces consecutivas una moneda (n = 2), los resultados
posibles son V(2;2) = 22 = 4

Si se lanzan 3 veces, entonces hay V(2;3) = 23 = 8 resultados posibles.

Si se realizan 20 lanzamientos, habrá V(2;20) = 22 0 = 1.048576 posibles


resultados (teniendo en cuenta el orden en que ocurren las caras y las cecas
obtenidas).

58
Ejemplo
En los ejemplos anteriores hemos visto que si lanzamos 2 veces un dado,
hay 36 resultados posibles si se tienen en cuenta el orden en que ocurren los
números (es decir, un 6 y un 1 no es lo mismo que un 1 y un 6). Esta
cantidad no es ni más ni menos que las variaciones de 6 tomados de 2 en 2:

V(6;2) = 62 = 36

Por otra parte, hay ocasiones en que se combinan distintos fenómenos.


Por ejemplo, lanzamos un dado y una moneda y queremos analizar cuántos
posibles resultados se obtienen. Estas circunstancias generan la segunda
regla de conteo.

Si hay r fenómenos donde el primero posee n1 resultados posibles,


el segundo n2 resultados posibles,. . . , y el r-ésimo nr resultados
posibles, entonces el número total de resultados distintos que se
pueden obtener al combinar los r fenómenos es:

n1 × n2 × ... × nr

Ejemplo
Si se lanza una moneda (n1 = 2) y un dado (n2 = 6), la cantidad de
resultados posibles es:

2 × 6 = 12

Este resultado es bastante intuitivo, considerando que puede ocurrir


“cara” con cada uno de los seis resultados del dado y “ceca” con cada uno
de los mismos.

Ejemplo
Si se lanza una moneda (n1 = 2), dos dados (n2 = n3 = 6) y se extrae
una carta de una baraja española (n4 = 40), la cantidad de resultados
posibles es:

2 × 6 × 6 × 40 = 2.880

Un caso particular de la segunda regla de conteo mencionada es lo que


se denomina Variación sin repetición. En ese caso, lo que se considera es
que el fenómeno sujeto a experimentación es siempre el mismo pero los

59
eventos, una vez que suceden, no vuelven a ocurrir. Es decir que, con cada
repetición del experimento, el número de eventos posibles disminuye en uno
respecto de los posibles casos del experimento anterior. Por lo tanto:

n1 = n; n2 = n − 1; n3 = n − 2;...nr = n − (r − 1)

Cuando un fenómeno puede ocurrir de n maneras distintas (hay


n resultados posibles), el mismo se repite r veces y, además, una
vez obtenido un resultado determinado el mismo no puede volver
a darse, la cantidad total de resultados distintos (considerando
el orden en que ocurre el resultado de cada ensayo) genera las
variaciones sin repetición de n elementos tomados de a r :

n!
V Rn,r = n × (n − 1) × (n − 2) × ... × (n − (r − 1)) = (n−r)!

Ejemplo
Si se toma un mazo de barajas españolas (40 cartas) y quiere saberse la
cantidad de maneras posibles que existe de tomar dos cartas diferentes
(considerando importante el orden en el cual sean seleccionamos las
mismas). Debe tenerse en cuenta que, una vez tomada una carta del mazo
original, la misma ya no formará parte de él. El cálculo intuitivo de la
cantidad de posibilidades en este caso no es sencillo. Sin embargo, podemos
realizar el cálculo deseado utilizando la fórmula de variaciones sin
repetición con n = 40 y r = 2 , obteniendo un total de ¡1560 combinaciones
posibles!:

40! 40!
V R40,2 = (40−2)!
= 38!
= 1560

Es muy importante tener en cuenta que en las reglas analizadas hasta


aquı́ es importante el orden en que ocurren los eventos. Es decir que, por
ejemplo, al lanzar dos veces una moneda, no es lo mismo CaCe que CeCa ,
o al lanzar dos dados, no es lo mismo un dos y un tres que un tres y un dos.

La segunda regla de conteo que analizaremos, y que también considera


el orden de los resultados es la permutación. Ésta considera las distintas
maneras de ordenar un grupo de elementos. Uno de los casos más sencillos
es el caso de la permutación simple. Lo que se refleja en este caso es la
cantidad de maneras en las que puede ordenarse un grupo de n elementos:

60
Si se poseen n elementos, la cantidad de maneras de ordenarlos es:

n! = n × (n − 1) × (n − 2) × ... × 2 × 1

Puede verse que esta alternativa de cálculo es equivalente al de una


variación sin repetición en donde el número de experimentos, r , es igual al
número de resultados posibles para el primero de ellos. Es decir:

n!
V Rn;n = (n−n)!=n!

Esta equivalencia es lógica dado que las distintas formas de ordenar el


grupo constituyen los distintos eventos para la variación.

Ejemplo
Puede considerarse, a modo de ejemplo, el caso en el cual cinco
deportistas deban realizar una prueba. El orden en el cual cada uno de ellos
la efectúe depende de un sorteo el cual consiste en retirar de una urna el
nombre de cada uno de ellos. La cantidad de maneras de ordenar a estos
deportistas es entonces 120 y está dado por: 5! = 5 × 4 × 3 × 2 × 1 = 120

Una alternativa a la permutación simple es la de considerar la cantidad


de muestras ordenadas distintas que pueden obtenerse de un grupo. Este
concepto es similar al de la variación sin repetición, y la fórmula de cálculo
es la misma:

Si se extraen r elementos de un conjunto de n , la cantidad


de muestras ordenadas distintas que pueden obtenerse es la
permutación de n tomados de a r :

n!
Pn;r = V R(n;r) = (n−r)!

Ejemplo
Continuando con el ejemplo anterior, podrı́a darse el caso en que el
primer dı́a realicen la prueba sólo tres de los cinco deportistas. ¿Cuántas
alternativas distintas de deportistas seleccionados y orden en el que se
realizarán las pruebas existen? Este cálculo equivale a determinar la
permutación de 5 elementos (los deportistas) tomados de a 3 (tres):

61
5!
P(5;3) = (5−3)!
= 60

En ocasiones se presentan casos en los cuales el orden pierde


importancia, por ejemplo si queremos saber solamente la suma de los
dados, o la cantidad de cecas que salen. En estos casos las reglas de conteo
cambian, de acuerdo a lo que se verá en el siguiente apartado.

3.3.2 Combinatorias
Según hemos hecho referencia en el párrafo anterior, hay casos en los
cuales no resulta relevante el orden en el cual se dan los resultados, sino
cuáles son esos resultados en sı́. Por ejemplo, en el caso en que lancemos un
dado dos veces de manera tal que avancemos en un juego tantos casilleros
como indica la suma de ellos, el orden de los resultados no resultará
relevante: si obtenemos un 5 y luego un 2 significará lo mismo que obtener
un 2 y luego un 5; en ambos casos avanzaremos 7 casilleros. Cuando
trabajamos con variaciones o permutaciones, el orden resulta relevante: por
ejemplo, en el caso en que en el juego en cuestión deban cumplirse las
”prendas” relativas al casillero al cual nos lleve el primer dado.

Cuando se trabaja con combinatorias lo que se busca calcular es la


cantidad de grupos distintos de r elementos que pueden formarse con los n
elementos que conforman un conjunto.

Si se extraen r elementos de un conjunto de n , la cantidad de


muestras distintas que pueden obtenerse (sin importar el orden) es
la combinatoria de n elementos tomados de a r :

n!
Cn;r = (n−r)!r!

La combinatoria de n tomados de a r suele escribirse como:


 
n n!
r
= (n−r)!r!

Ejemplo
Si se considera el ejemplo anterior, con la combinatoria puede calcularse
cuántos grupos de deportistas distintos realizarı́an la prueba el primer dı́a
de la competición. En esta situación no resulta relevante el orden en el que

62
participarán los tres deportistas seleccionados sino cuáles son los mismos.
La cantidad de grupos distintos que deberán realizar la prueba el primer dı́a
es la combinatoria de cinco elementos tomados de a 3:

5!
C(5;3) = (5−3)!3!
= 10

Es decir, que hay diez grupos distintos de tres deportistas que debieran
realizar la prueba el primer dı́a.

Ejemplo
Dado un grupo de cien lamparitas, quince de ellas resultan ser
defectuosas. ¿Cuál es la probabilidad de que, tomando dos lamparitas al
azar, las dos resulten ser defectuosas? Lo primero que debemos calcular, de
acuerdo a la definición clásica, es la cantidad de eventos posibles: es decir,
cuántos conjuntos de dos lamparitas pueden formarse. En este caso,
tomamos dos lamparitas ( r = 2) de entre cien (n = 100):

100!
Casosposibles = C(100;2) = 98!2!
= 4950

Los casos favorables son la cantidad de grupos de dos lamparitas que


pueden formarse sólo considerando aquellas defectuosas:

15!
Casosf avorables = C(15;2) = 13!2!
= 105

La probabilidad entonces de tomar dos lamparitas defectuosas es:

105
4950
= 0, 021

Puede también considerarse la combinación de distintos elementos


existiendo la posibilidad de reposición. Por ejemplo, para el caso de la suma
que se obtiene al lanzar dos veces un mismo dado, el hecho de que en el
primer lanzamiento haya salido un dos no invalida que el segundo resultado
sea también un dos.

63
Si se consideran r elementos de un conjunto de n , la cantidad de
muestras distintas que pueden obtenerse (sin importar el orden) en
caso de que la obtención de un resultado no invalide nuevamente
su ocurrencia es:
(n+r−1)!
CRn;r = (n−1)!r!

Ejemplo
Si se considera la cantidad de combinaciones posibles que surgen de dos
lanzamientos de un dado, independientemente del orden, los resultados que
serán distintos son los sombreados con gris en el cuadro siguiente, es decir,
21 combinaciones diferentes.

Prescindiendo de la representación gráfica, podrı́a haberse utilizado la


fórmula anterior con n = 6 (resultados posibles en un lanzamiento) y r = 2
(cantidad de lanzamientos):
(6+2−1)!
CR6;2 = (6−1)!2!
= 21

64
Evento A a partir de su intersección con una partición del espacio
muestral.

3.4 Teorema de la probabilidad total


Utilizando el esquema de probabilidades condicionales, si no se conoce
directamente la probabilidad de ocurrencia de un evento A, la misma puede
obtenerse utilizando la ley de la probabilidad total, la cual determina la
probabilidad de un evento por medio de las probabilidades conjuntas del
mismo con otros eventos mutuamente excluyentes y colectivamente
exhaustivos.

Sea A un evento de un espacio muestral Ω y sea Dj (j = 1, 2, ..., n)


una partición del espacio muestral (es decir, que los Dj son
mutuamente excluyentes y colectivamente exhaustivos), entonces
la probabilidad total del evento A está dada por:
Pn Pn
P (A) = j=1 P (A ∩ Dj ) = j=1 P (A/Dj ) × P (Dj )

Esta fórmula puede comprobarse simplemente inspeccionando la


siguiente figura, donde el espacio muestral se divide en ocho partes.

Ejemplo
Consideremos una bolsa con cubitos y bolitas de madera de dos colores (rojo
y verde). Se sabe que el 20% de las piezas rojas son bolitas, es
decir,P (b/r) = 0, 2 y el 40% de las verdes son bolitas, es decir,

65
P (b/v) = 0, 4 . Además, se conoce que el 70% de las piezas son rojas
(P (r) = 0, 7 ).

La probabilidad de extraer una bolita puede calcularse mediante el


empleo de la fórmula de cálculo de probabilidad total, teniendo en cuenta
que el porcentaje de piezas verdes será el complemento del porcentaje de
piezas rojas:P (v) = 0, 3 . Finalmente, la probabilidad deseada es:

P (b) = P (r ∩ b) + P (v ∩ b)

P (b) = P (r) × P (b/r) + P (v) × P (b/v)

P (b) = 0, 7 × 0, 2 + 0, 3 × 0, 4

P (b) = 0, 26

Ejemplo
Consideremos el ejemplo anterior. Si en total hay 250 piezas en la bolsa,
tendremos que 175 (70% de 250) son rojas y 75 (30% de 250) son verdes.
De las piezas rojas, 35 son bolitas (20% de 175); mientras que de las
verdes, 30 son bolitas (40% de 75). Esto nos da un total de 65 bolitas sobre
las 250 piezas, es decir que:

65
P (b) = 250
= 0, 26

En la siguiente Tabla, se resumen todas las cantidades de piezas y


colores de acuerdo con los datos del ejemplo:

3.5 Teorema de Bayes


Basado en las probabilidades condicionales y la ley de la probabilidad
total, el reverendo Thomas Bayes expuso el siguiente Teorema17:

66
Dado un evento A y n eventos mutuamente excluyentes y
colectivamente exhaustivos B1 , B2 , ...., Bn entonces la probabilidad
de cualquiera de los eventos Bj condicionado al evento A puede
calcularse como:

P (Bj /A) = PnP (A/B j )×P (Bj )


P (A/Bj )×P (Bi )
i=1

Ejemplo
En un centro médico especializado en problemas respiratorios, el 80% de los
fumadores que se fueron a atender resultó tener cáncer, mientras que de los
no fumadores atendidos sólo el 10% tenı́a cáncer. Se sabe, además, que el
60% de los pacientes no son fumadores. ¿Cuál es la probabilidad de que un
paciente con cáncer sea fumador?

Definimos los eventos:

B1 = ”el paciente es no fumador”, B2 = ”el paciente es fumador”, y A


= ”el paciente tiene cáncer”.

De acuerdo con la información que contamos, conocemos las siguientes


probabilidades:

P (B1 ) = 0, 60; P (B2 ) = 0, 40; P (A/B1 ) = 0, 10; P (A/B2 ) = 0, 80

Sobre la base de éstas, podemos hallar la probabilidad deseada, es decir


P (B2 /A) . Utilizando el Teorema de Bayes tenemos que:
P (A/B2 )×P (B2 )
P (B2 /A) = P (A/B1 )×P (B1 )+P (A/B2 )×P (B2 )

Reemplazando con los datos de la clı́nica:


0,80×0,40
P (B2 /A) = 0,10×0,60+0,80×0,40
= 0, 8421

3.6 Estadı́stica Descriptiva


ˆ n: Cantidad de unidades experimentales observadas o medidas.

67
ˆ h: Cantidad de categorı́as de la variable.

ˆ ci : Nombre de la i-ésima categorı́a de la variable.

ˆ fi : Frecuencia absoluta. Cantidad de unidades experimentales que


pertenecen a la i-ésima categorı́a.

ˆ pi : Frecuencia relativa. Proporción de unidades experimentales que


pertenecen a la i-ésima categorı́a.

ˆ
P
denota la sumatoria de un conjunto de valores.

ˆ x es la variable que suele utilizarse para representar los valores de datos


individuales.

ˆ n representa el número de valores de una muestra.

ˆ N representa el número de valores de una población.


P
x
ˆ x̄ = n
es la media de un conjunto de valores muestrales.
P
x
ˆ µ= N
es la media de todos los valores de una población.

68

También podría gustarte