Documentos de Académico
Documentos de Profesional
Documentos de Cultura
I
NOCIONES PRELIMINARES DE ESTADISTICA
1.1. Nomenclatura
Hoy puede decirse que la recopilación y la interpretación de los datos obtenidos en un estudio es
tarea de la estadística, considerada como una rama de la matemática. Las estadísticas (el
resultado de la aplicación de un algoritmo estadístico a un grupo de datos) permiten la toma de
decisiones dentro del ámbito gubernamental, pero también en el mundo de los negocios y el
comercio.
Definimos la estadística, como “La ciencia aplicada que nos proporciona un conjunto de métodos,
técnicas o procedimientos para: recopilar, organizar (clasificar, agrupar), presentar, y analizar
datos con el fin de describirlos o de realizar generalizaciones válidas”.
Se denomina también inferencia estadística al conjunto de métodos con los que se hacen la
generalización o la inferencia sobre una población utilizando una muestra. La inferencia puede
contener conclusiones que pueden no ser ciertas en forma absoluta, por lo que es necesario que
éstas sean dadas con una medida de confiabilidad que es la probabilidad.
La estadística inferencial simplemente es el procedimiento por medio del cual se llega a las
inferencias acerca de una población base en los resultados obtenidos de una muestra extraída de la
población, es decir, la Estadística Inferencial investiga o analiza una población partiendo de una
toma de muestra.
Estas dos partes de la estadística no son mutuamente excluyentes, ya que para utilizar los métodos
de la inferencia estadística, se requiere conocer los métodos de la estadística descriptiva
Todos estos métodos tienen en común la asignación de una probabilidad como medida de
credibilidad de las hipótesis. En este contexto, la inferencia se entiende como un proceso de
actualización de las medidas de credibilidad al conocerse nuevas evidencias. Mediante la
aplicación del Teorema de Bayes se busca obtener las probabilidades de las hipótesis
condicionadas a las evidencias que se conocen. La diferencia entre los distintos métodos
bayesianos, modelos causales y redes bayesianas, se basa en las hipótesis de independencia
condicional entre hipótesis y evidencias. Dichas relaciones se expresan comúnmente mediante un
grafo acíclico dirigido.
Ing. Ma. Ivonne Rocha Página 2
ESTADÍSTICA PRÁCTICA
i) Construcción axiomática
ii) Una sola regla de decisión
iii) La única que ofrece solución para ciertos problemas
Axiomas de coherencia
i) Comparación
ii) Transitividad
iii) Dominancia-Sustitución
iv) Referencia
Ejemplos de inferencia
Durante miles de millones de años, el sol ha salido después de haberse puesto. El sol se ha
puesto esta noche. Hay una probabilidad muy alta de (o 'Yo creo firmemente' o 'es verdad')
que el sol va a volver a salir mañana. Existe una probabilidad muy baja de (o 'yo no creo de
ningún modo' o 'es falso') que el sol no salga mañana.
La inferencia bayesiana usa un estimador numérico del grado de creencia en una hipótesis aún
antes de observar la evidencia y calcula un estimador numérico del grado de creencia en la
hipótesis después de haber observado la evidencia. La inferencia bayesiana generalmente se basa
en grados de creencia, o probabilidades subjetivas, en el proceso de inducción y no necesariamente
declara proveer un método objetivo de inducción.
Así, La magnitud y el impacto que los Bayesianos han tenido no sólo en el desarrollo de la teoría
estadística, sino también en el pensamiento de varios autores, surge el hecho de poder deducir
ventajas y desventajas. No es que la estadística bayesiana sea buena o mala por definición, sino
que depende de la manera en que ésta se use. Los métodos no pueden juzgarse por sí mismos, sino
por la manera según la que éstos se aplican.
Un estudio experimental implica tomar mediciones del sistema bajo estudio, manipular el sistema
y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la
manipulación ha modificado los valores de las mediciones.
acerca del área de interés y luego produce un análisis estadístico. En este caso, los investigadores
recogerían observaciones de fumadores y no fumadores y luego mirarían los casos de cáncer de
pulmón en ambos grupos.
PLANIFICACIÓN
* Planteamiento del problema
* Formulación Objetivos
* Fundamentos e importancia de la
investigación
* Determinación de la unidad de análisis y
variables
Identificación de la fuente de informacion
RESULTADOS Y CONCLUSIONES
RECOLECCION DE DATOS
ORGANIZACIÓN
Tabulación, Consistencia, Procesamiento y
Presentación de Datos
I. Planificación.
La planificación no se realizará adecuadamente si antes no se ha definido claramente la naturaleza
y objetivos de la investigación así como la evaluación de los conocimientos que se tienen sobre el
problema y de las hipótesis que se han formulado para explicarlo.
1º Paso: Planteamiento del problema.
Para realizar el estudio de un problema es necesario delimitarlo y formularlo
adecuadamente, definiéndolo de manera clara y precisa. ¿Qué necesidades o inconvenientes
hay?
2º Paso: Determinar los objetivos de la investigación.
¿Qué se va realizar en el estudio?
3º Paso: Formulación de Hipótesis.
Las hipótesis son afirmaciones que se verificaran o rechazaran en el transcurso del
desarrollo de la investigación.
Su formulación debe ser clara puesto que el diseño, planificación y desarrollo de la
Después de la recopilación de los datos de una tarea o investigación estadística, estos son pasados
a una hoja de datos. Cada columna de la hoja de datos es una variable estadística.
Para el análisis estadístico de los valores de una variable, es necesario organizarlos y presentarlos
en forma tal, que facilite su comprensión y su posterior utilización. Los datos son organizados o
agrupados en un cuadro numérico y presentados en gráficas estadísticas.
V. Resultados y Conclusiones.
Interpretación y decisión. Consiste en la fase final del estudio la cual determinará si una solución
es adecuada o no, dependiendo de los resultados obtenidos.
Introducción a la estadística descriptiva
Proceso estadístico
Recolección, clasificación, tabulación e interpretación de la información
1.5. Introducción a Elementos de Software estadístico
El uso de ordenadores y calculadoras facilita el que los alumnos comprendan mejor temas
complejos de matemáticas. Es evidente que en muchos casos la tecnología agiliza y supera, la
capacidad de cálculo de la mente humana, con ayuda de la tecnología, los alumnos tienen más
tiempo para concentrarse en enriquecer su aprendizaje matemático.
Las nuevas tecnologías han venido a cambiar por completo el panorama tradicional de como se
hacían, se veían y se enseñaban las matemáticas. Introducirse en este nuevo panorama implica
realizar profundos cambios en nuestros programas educativos.
Excel/Calc
La hoja de cálculo Excel o Calc (OpenOffice) es un software considerado como estándar en todos
los entornos (educativo, profesional, familiar, etc), que posee la virtud de presentar una interfaz
agradable, una facilidad de uso digna de elogio y permite realizar análisis estadísticos simples o
más complejos y avanzados
La Hoja de Cálculo Excel/Calc puede convertirse en una poderosa herramienta para crear entornos
de aprendizaje que enriquezcan la representación (modelado), comprensión y solución de problemas,
en el área de la estadística y probabilidad. Excel ofrece funcionalidades que van más allá de la
tabulación, cálculo de fórmulas y graficación de datos:
En estadística descriptiva representa todos los tipos de gráficos y calcula la media, moda,
mediana, recorrido, varianza y desviación típica.
La instalación del programa es muy sencilla, además Microsoft Excel incluye un comando para el
análisis de datos, dentro de las "herramientas para el análisis", su uso es poco común, ya que no
se tiene cuidado de instalar todas las funciones dentro de las "herramientas", perdiendo la
oportunidad de utilizar un medio poderoso para el estudio dentro de la estadística.
SPSS
Es la herramienta estadística más utilizada a nivel mundial en el entorno académico, con sus
últimas versiones. Puede trabajar con bases de datos de gran tamaño. Además, de permitir la re
codificación de las variables y registros según las necesidades del usuario. El programa consiste en
un módulo base y módulos anexos que se han ido actualizando constantemente en español con
nuevos procedimientos estadísticos.
Minitab es otro de los programas más usados en el mundo para análisis estadístico. Permite
calcular la mayoría de metodologías estadísticas habituales, entre las que se cuentan: análisis
exploratorio de datos, gráficos estadísticos, control de calidad, estadística no paramétrica,
regresión y sus variantes, análisis multivariado de datos, etc.
Statistica es otro de los programas más usados a nivel mundial para el análisis estadístico. Entre
todas las bondades y pruebas estadísticas que incluye, destaca la variedad de gráficos y la facilidad
en el manejo de bases de datos.
El paquete estadístico MCEST es también una herramienta de trabajo muy útil, entre otros
paquetes, para construir distribuciones de frecuencias.
II
INTRODUCCIÓN A LA ESTADÍSTICA
Población en estadística se denomina a un conjunto de elementos: personas, objetos, etc. en los que
se pueden observar o medir una o más características de naturaleza cualitativa o cuantitativa.
Por ejemplo, los empleados de una empresa en un día laborable, constituyen una población en la
que cada empleado (unidad estadística), tiene muchas características a ser observadas como:
género, estado civil, lugar de procedencia, grado de instrucción, etc. (características cualitativas) o
número de hijos, ingresos mensuales, etc.(características cuantitativas).
El resultado de observar o medir una característica en una unidad estadística, se denomina dato
estadístico, valor observado o simplemente observación.
a) Tipos de población
b) Muestra
Al definir investigación estadística a realizar, se debe decidir entre investigar toda la población o
sólo una parte de ella. El primer procedimiento es denominado censo y el segundo es llamado
muestreo.
Se denomina muestra a una parte de la población seleccionada de acuerdo con un plan o una
regla con el fin de obtener información acerca de la población de la cual proviene.
La muestra debe ser seleccionada de manera que sea representativa de la población. Un método de
selección de muestras representativas es al azar, esto es, cada elemento de la población tiene la
misma posibilidad de ser incluida en la muestra.
La característica que se observa o mide en las unidades estadísticas de una población tiene
diversos valores de naturaleza cualitativa o cuantitativa. Por ejemplo, la característica “género"
tiene dos "valores" (modalidades): hombre y mujer. La característica "peso en kilogramos" tiene
infinitos valores.
Por tanto se denomina variable estadística a una característica definida en una población y
que asume por lo menos dos valores. Estos valores pueden ser de calidad o de cantidad.
Por ejemplo en la población constituida por los empleados de la universidad, algunas variables
estadísticas definidas en esta población son:
Y= "Estado civil", cuyos valores pueden ser: Soltero, casado, viudo, divorciado
Si una variable estadística es denotada por X, entonces, sus valores observados en una muestra de
n unidades estadísticas escogidas de una población se denotarán por x1,x2,…,xn, conforme al
orden en que se han obtenido. Si sus valores son observados en toda una población finita de n
unidades estadísticas, se denotarán por x1, x2,...,xn
Las variables de las escalas nominal y ordinal se denominan también categóricas, por otra parte las
variables de escala de intervalo o de razón se denominan variables numéricas. Con los valores de las
variables categóricas no tiene sentido o no se puede efectuar operaciones aritméticas. Con las
variables numéricas sí.
La escala nominal sólo permite asignar un nombre al elemento medido. Esto la convierte en la
menos informativa de las escalas de medición.
Nacionalidad.
Uso de anteojos.
Número de camiseta en un equipo de fútbol.
Número de Cédula Nacional de Identidad.
A pesar de que algunos valores son formalmente numéricos, sólo están siendo usados para identificar
a los individuos medidos.
La escala ordinal, además de las propiedades de la escala nominal, permite establecer un orden entre
los elementos medidos.
La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga sentido
calcular diferencias entre las mediciones.
Esta es una escala en la cual los números no solo se encuentran ordenados por rangos, sino que
también están divididos en determinados intervalos. La particularidad que diferencia esta escala de la
de relaciones que se describirá posteriormente, consiste en que el cero de la escala se selecciona de
manera arbitraria.
Finalmente, la escala de razón permite, además de lo de las otras escalas, comparar mediciones
mediante un cociente.
Las variables de razón poseen las mismas características de las variables de intervalo, con la
diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de
medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y
División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten el nivel más alto
de medición, además que determinan la distancia exacta entre los intervalos de una categoría Las
variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida.
Debido a la similitud existente entre las escalas de intervalo y de razón, el Stadistic Program Social
System (SPSS) las ha reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina
Escala. Las variables de escala son para SPSS todas aquellas variables cuyos valores representan
magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta discutiremos
a continuación los diferentes procedimientos estadísticos que se pueden utilizar de acuerdo al tipo de
medida de cada variable.
Altura de personas.
Cantidad de litros de agua consumido por una persona en un día.
Velocidad de un auto en la carretera.
Número de goles marcados por un jugador de básquetbol en un partido.
La escala de intervalo tiene un cero que se establece por convención y puede tener variaciones. Es
arbitrario. Por otra parte, la escala de razón tiene un cero real, fijo, no sujeto a variaciones; es propio
de la medición hecha.
Una variable cuantitativa discreta es aquella que toma valores aislados, es decir no admite
valores intermedios entre dos valores específicos.
Ejemplo 2. Número de hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá
ser 3.45)
Una variable cuantitativa continua es aquella que puede tomar valores comprendidos entre
dos números. Pueden tomar cualquier valor real dentro de un intervalo.
En la práctica medimos la altura con dos decimales, pero también se podría dar con tres
decimales.
Ejemplo 2. La velocidad de un vehículo puede ser 80.3 km/h, 94.57 km/h...etc.
Un parámetro estadístico es un número que se obtiene a partir de los datos de una distribución
estadística.
Los parámetros estadísticos sirven para sintetizar la información dada por una tabla o por una
gráfica.
Hay tres tipos parámetros estadísticos:
Medidas de Centralización.
Medidas de Posición
Medidas de Dispersión.
Medidas de Centralización
Nos indican en torno a qué valor (centro) se distribuyen los datos.
Las medidas de centralización son:
Media aritmética, la media es el valor promedio de la distribución.
Mediana, la mediana es la puntación de la escala que separa la mitad superior de la
distribución y la inferior, es decir divide la serie de datos en dos partes iguales.
Moda, la moda es el valor que más se repite en una distribución.
Medidas de Posición
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de
individuos.
Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a
mayor.
Las medidas de posición son:
Cuartíles, dividen la serie de datos en cuatro partes iguales.
Decíles, dividen la serie de datos en diez partes iguales.
Percentiles, dividen la serie de datos en cien partes iguales.
Medidas de Dispersión
Las medidas de dispersión nos informan sobre cuanto se alejan del centro los valores de la
distribución.
Las medidas de dispersión son:
Rango o recorrido, es la diferencia entre el mayor y el menor de los datos de una
distribución estadística.
Desviación media, es la media aritmética de los valores absolutos de las desviaciones
respecto a la media.
Varianza, es la media aritmética del cuadrado de las desviaciones respecto a la media.
Desviación típica, es la raíz cuadrada de la varianza.
En los siguientes capítulos estudiaremos cada una de estas medidas o parámetros estadísticos.
Ejercicios
1. Comida Favorita.
2. Profesión que te gusta.
3. Número de goles marcados por tu equipo favorito en la última temporada.
4. Número de alumnos de tu Instituto.
5. El color de los ojos de tus compañeros de clase.
6. Coeficiente intelectual de tus compañeros de clase.
Ejercicio 2. De las siguientes variables indica cuáles son discretas y cuales continuas.
III
ESTADISTICA DESCRIPTIVA.
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos),
procederemos al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o el
estado, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente
el porcentaje que representan del total, y expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se
ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:
El término estadística se emplea en una gran variedad de formas. En plural se emplea como
sinónimo de dato.
El uso de los métodos estadísticos es muy variado y se aplican generalmente a distintos campos
como son los negocios, economía, educación, medicina, ingeniería, etc. Para lo cual el proceso
Existe una gran variedad de técnicas para realizar la investigación, que se deberán seleccionar de
acuerdo a las necesidades del problema, así como a diferentes factores como son el tiempo, costo,
tipo de actividades a realizar, recursos humanos, etc.
Investigación de campo
Consiste en obtener información directa mediante diferentes actividades por contacto directo con
el hecho que se quiere investigar así como las personas relacionadas y se puede realizar:
a) Por observación directa
b) Por interrogación
a) Observación Directa.
Es el procedimiento empírico básico, el cual consiste en realizar la percepción intencionada de una
actividad determinada mediante la experimentación la cual consiste en la obtención de datos
cuantitativos por medio de la medición del fenómeno que se esté observando. Para realizar la
observación se utilizan diversos instrumentos auxiliares los cuales son:
La ficha de campo, Sirven para recolectar información sobre la población a investigar
anotando los hechos significativos. Debe ir lo siguiente:
* Tema de investigación
* Nombre del investigador
* Institución
* Lugar, Fecha, Hora
* Datos de la fuente (edad, sexo, ocupación)
Estudio de Actividades, realizadas con anterioridad, biografías, etc
Ing. Ma. Ivonne Rocha Página 16
ESTADÍSTICA PRÁCTICA
b) Por Interrogación
La Entrevista, Es una de las técnicas más comunes y es considerada como la relación
directa entre el investigador y el objeto de estudio a través de individuos o grupos con el fin
de obtener testimonios reales.
a) Entrevistas formales
b) Entrevistas informales
La Encuesta Consiste en recopilar información sobre una parte de la población, en donde
la información recopilada puede emplearse para un análisis cuantitativo con el fin de
identificar las magnitudes del problema.
a) Un cuestionario, Es un eficaz auxiliar en la observación científica que contiene
aspectos del fenómeno esenciales, las cuales son preguntas formuladas por escrito y
no es necesaria la presencia del investigador.
- Cuestionarios por correo
- Cuestionario administrado por el entrevistado
- Cuestionario administrado por el entrevistador
b) Una cedula de entrevista, Tiene carácter de anónimo, donde el encuestador es
quien llena la cedula de entrevista, además es posible aclarar la información sobre
las preguntas y es utilizada cuando una persona tiene un bajo nivel cultural.
El proceso de tabulación consiste en el recuento de los datos que están contenidos en los
cuestionarios. En este proceso incluimos todas aquellas operaciones encaminadas a la obtención de
resultados numéricos relativos a los temas de estudio que se tratan en los cuestionarios. Se requiere
una previa codificación de las respuestas obtenidas en los cuestionarios. Realizamos tabulación,
codificación y diseño de gráficos con datos biográficos, de consumo o de opinión. Los resultados
serán presentados en tablas y/o mapas gráficos que expliquen las relaciones existentes entre las
diversas variables analizadas. Esta presentación se adecuará a la petición de nuestros clientes
mediante análisis estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes,
análisis multivariantes, tests de contraste de hipótesis
Tras la recogida de información en una investigación, nos encontraremos con una serie de datos
sobre diferentes variables de los individuos de una muestra. El primer paso para comenzar a analizar
los datos es el de organizarlos de manera que podamos ver las características de los diferentes
valores que han tomado las observaciones. El tipo de organización de los datos depende del tipo de
variable, puede ser: Cualitativa, cuantitativa, cronológica y geográfica. La información clasificada
toma la forma de un cuadro o tabla de manera que los procesos de clasificación y tabulación están
bastante ligados y tiene como fin ordenar los datos de forma que facilite su análisis e interpretación.
IV
DISTRIBUCIÓN DE FRECUENCIAS
Después de la recopilación de los datos de una tarea o investigación estadística, estos son pasados
a una hoja de datos. Cada columna de la hoja de datos es una variable estadística.
Para el análisis estadístico de los valores de una variable, es necesario organizarlos y presentarlos
en forma tal, que facilite su comprensión y su posterior utilización. Los datos son organizados o
agrupados en un cuadro numérico y presentados en gráficas estadísticas.
Si la variable es cuantitativa y el interés es sólo obtener algunas medidas descriptivas de ellas, puede
ser que no sea necesario agruparlos.
Existen muchos paquetes de cómputo estadísticos para organizar o agrupar datos.
Todo cuadro numérico básicamente debe contener:
* Un título adecuado para evitar confusiones y para expresar brevemente su contenido.
* El cuerpo o agrupación de datos
* La fuente de los datos, si no son datos propios.
El cuadro numérico de una sola variable estadística se denominan distribución de frecuencias. Las
distribuciones de frecuencias desarrolladas en este capítulo son de variable cualitativa, de
variable cuantitativa discreta y por intervalos.
En el procedimiento de la construcción de distribuciones de frecuencias, nos referiremos a datos de
muestras.
La frecuencia absoluta fi, es el número de datos que resulta del conteo en la categoría respectiva
Ci, donde i = l, 2, ...,k. La suma de todas las frecuencias absolutas es igual a n, el total de datos
observados.
Existe una gran variedad de gráficas para la distribución de frecuencias de variable cualitativa, las
más comunes son la de barras separadas y la de sectores circulares.
En una gráfica de barras, los datos de cada una de las cualidades Ci se representan por una barra
rectangular vertical (u horizontal), cuya altura (o largo) es proporcional a su frecuencia (de
cualquiera de los tres tipos). Las barras se dibujan dejando un espacio entre ellas.
Si la escala es nominal las cualidades pueden ser colocadas en cualquier orden. Pero, si el nivel de
la escala es ordinal las cualidades deben ir ordenadas.
En una gráfica circular, los datos de cada categoría Ci se representan por un sector circular cuyo
ángulo en el centro es igual a h i x 360°. Si la gráfica por sectores circulares es tridimensional ésta
se denomina gráfica de pastel.
Ejemplo 1.
En una encuesta de opinión acerca de las preferencias de bebidas gaseosas por su color: Negro(N),
Blanco (B), Rojo(R), una muestra de 20 consumidores marcó las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N
B, N, N, R, B, N, B, R, B, N
Describa la variable estadística y obtenga la distribución de frecuencias. Luego presente los datos
agrupados en las gráficas de barras y circular.
Finalmente desarrolle un breve cometario de los resultados del sondeo.
Solución.
La variable estadística es X= "Color de la bebida gaseosa". Es una variable cualitativa cuyos
Ing. Ma. Ivonne Rocha Página 19
ESTADÍSTICA PRÁCTICA
La figura 1.1 es la representación gráfica por medio de barras de la distribución de personas por el
color de su bebida gaseosa preferida.
La figura 1.2 es la representación mediante gráfica de sectores circulares del cuadro 1.2. La
frecuencia 45% es equivalente a 0.45x360° = 162°, la frecuencia 40% es equivalente a 0.40x360° =
144° y la frecuencia 15% es equivalente a 0.15x360° = 54°.
40%
15%
Negro
Blanco
Rojo
45%
La bebida que más prefiere la muestra es la de color negro, 9 de 20 o 45%. Sólo un 15% de la
muestra (3 de 20) prefieren el color rojo.
Una distribución de frecuencias de variable discreta tiene la estructura básica del cuadro 1.1,
donde, en la primera columna se introducen los valores distintos de la variable discreta.
Ing. Ma. Ivonne Rocha Página 20
ESTADÍSTICA PRÁCTICA
Si n valores de una variable discreta X observados en una muestra de una población, tienen k
(k≤,n) valores distintos, xl,x2,...,xk, que se repiten respectivamente f1, ,f2,….,fk veces,
entonces, la organización o agrupación de estos n datos origina la distribución de frecuencias del
cuadro 1.3.
Los segmentos de recta pueden tener cualquier grosor, pero, cuidando de no confundir la
presentación gráfica de bastón con la de barras separadas de la distribución de frecuencias de
variable cualitativa.
Ejemplo 1.
Ante la pregunta del número de hijos por familia, una muestra de 20 hogares marcó las siguientes
respuestas:
2, 1, 2. 4, 1, 3, 2, 3, 2, 0
3, 2, 1, 3, 2, 3, 3, 1, 2, 4
Solución
La variable estadística es X = "Número de hijos por familia". Esta variable es cuantitativa discreta
cuyos valores están en el nivel de escala de razón.
Ing. Ma. Ivonne Rocha Página 21
ESTADÍSTICA PRÁCTICA
Los valores observados de la variable originan cinco valores distintos 0, 1, 2, 3, 4, los que se
repiten respectivamente: 1, 4, 7, 6, 2 veces. La distribución de frecuencias de los datos observados
es desarrollada en el cuadro 1.4.
Ejemplo 2.
Las puntuaciones obtenidas por un grupo de estudiantes en una prueba han sido:
15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13.
Solución
xi Conteo fi Fi hi Hi pi
13 III 3 3 0.15 0.15 15%
14 I 1 4 0.05 0.20 5%
15 IIIII 5 9 0.25 0.45 25%
16 IIII 4 13 0.20 0.65 20%
18 III 3 16 0.15 0.80 15%
19 I 1 17 0.05 0.85 5%
20 II 2 19 0.10 0.95 10%
22 I 1 20 0.05 1 5%
N= 20 1.00 100%
Esta distribución, que tiene la estructura básica del cuadro 1.1, donde, en la primera columna se
insertan los valores de la variable en intervalos de números.
Para construir la distribución de frecuencias por intervalos hay varios procedimientos. En este texto
se conviene y recomienda:
Los intervalos pueden ser de longitudes iguales o diferentes, en ambos casos se consiguen
los mismos objetivos. En este texto elegimos todos los intervalos de igual amplitud A.
Convenimos, además, que si todos los datos son números enteros, entonces, A debe ser
entero. Si al menos un dato tiene un decimal, entonces, A debe tener un decimal. Si al menos
un dato tiene dos decimales, entonces, A debe tener dos decimales, etc.
R2. El número de intervalos elegido, debe originar una distribución de frecuencias mono-
modal. Es decir, una distribución cuyas frecuencias van aumentando progresivamente hasta
una frecuencia máxima y luego van disminuyendo también progresivamente.
Dados n valores de alguna variable cuantitativa X continua (o discreta con más de 20 valores
distintos) el método que convenimos a seguir en la construcción de la distribución de frecuencias
es:
R= Xmax – Xmin
Un valor aproximado del número de intervalos, k, nos proporciona la regla de Sturges, donde
K= 1 + 3.3*log(n), n ≥ 10
Por ejemplo, si n = 45 datos sin decimales, entonces, k=1+ 3.3 1og (45) = 6.4556.
Luego, k podrá elegirse como 6, 7, 8, o cualquier otro número entero cercano al valor de k,
teniendo en cuenta las recomendaciones Rl y R2.
Por ejemplo, si los datos no tiene decimales y si R/k = 5, entonces, A=5. Si los datos tienen dos
decimales y si R / k = 5.3416, se elige A = 5.35.
L1=[Xmin+ Xmin+ A [
……………………………
Ik=[Xmin+(k-1)A, Xmin + kA ]
Observe que se cierra por la derecha el último intervalo, Esto se debe a que si la división R / k es
exacta (considerando el número de decimales de los datos), entonces,
Xmax = Xmin + KA
Ejemplo 1.
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución
R 56
8
k 7
Dado que los datos no tienen decimales y dado que la división es exacta en los números enteros,
elegimos A = 8
La marca de clase o marca del intervalo Ii =[Li ,Ui[ es el número mi que se define como el punto
medio del intervalo. Esto es,
Por ejemplo, las marcas de clase de los intervalos del cuadro 1.6 son respectivamente: 30, 38,46,
54,62, 70 y 78.
Los datos organizados en distribución de frecuencias por intervalos, pierden su valor original. Se
asume que los datos en un intervalo dado se "distribuyen uniformemente", por lo tanto, la marca de
clase es el valor representativo de todos los datos contenidos en el intervalo. Por ejemplo, el
intervalo [58, 66[, contiene 16 datos. Se asume que cada uno de estos datos es representado por 62,
la marca del intervalo. Se asume también que los 16 datos están distribuidos uniformemente en el
intervalo. En este sentido hay 8 casos entre 58 y 62, y 8 casos entre 62 y 66.
Es evidente, que al representar los datos tabulados en un intervalo por su correspondiente marca
de clase, se dejan sin efecto los valores originales, por lo que se pierde alguna información. Por lo
tanto, el cálculo de las medidas descriptivas a partir de la distribución de frecuencias, producirán
valores aproximados de los valores exactos de las medidas.
Observe, además, que cuando los intervalos son reemplazados por su marca de clase, la
distribución de frecuencias resultante es similar a una distribución de frecuencias de variable
discreta. Por lo tanto, los cálculos de las medidas descriptivas se desarrollarán con métodos
similares.
Histograma
Es una gráfica básica o primaria que consiste de barras rectangulares no separadas, dibujadas con
orientación vertical u horizontal. El ancho de cada barra es proporcional a la amplitud del intervalo
y el largo es proporcional a su frecuencia (absoluta, relativa, o en porcentaje).
Los números representativos de la escala de los intervalos de la variable son generalmente las
marcas de clase de cada intervalo. Aunque también, pueden colocarse los límites de los intervalos.
En la escala de las frecuencias, se colocan los valores de cualquiera de los tres tipos de
frecuencias, sin que esto cambie la forma de la gráfica,
Ing. Ma. Ivonne Rocha Página 27
ESTADÍSTICA PRÁCTICA
Al trazar las escalas del eje de la variable, se debe tener en cuenta si la variable tiene un cero real o
un cero arbitrario.
Polígono de Frecuencias
Es una gráfica secundaria más avanzada que el histograma. Se obtiene uniendo con segmentos
de recta, los puntos que tienen proporcionalmente como abscisa a la marca de clase y como
ordenada a la frecuencia respectiva (de cualquiera de los tres tipos). Se encierran ambos extremos
de la gráfica, en los puntos donde las marcas de clase extendidas no tienen frecuencia o tienen
frecuencias cero.
Curva de frecuencias
Por ejemplo, la figura 1.6 es la curva de frecuencias absolutas de la distribución de frecuencias del
cuadro 1.6.
La importancia de una curva de frecuencias es que se describe como una aproximación del
modelo de distribución de la variable o del tipo de población de la que se han obtenido los datos
de la muestra. La curva de frecuencias se aplica como un método gráfico para describir
aproximadamente las características de la distribución de la población como: Su forma:
Simétrica o asimétrica (positiva o negativa), Su tipo: Uniforme, exponencial, normal, etc.
Las curvas de frecuencias pueden pues, tener una gran variedad de formas. Algunas de ellas son las
siguientes:
Una curva de frecuencias es bimodal si tiene dos frecuencias máximas, como la figura 1.9(a). Es
trimodal si tiene tres frecuencias máximas, como la figura 1.9 (b), etc.
Del mismo modo la frecuencia acumulada relativa H) hasta el valor xi es la suma de las
frecuencias relativas hx de todos los valores menores o iguales a xi.
∑ ó , i=1, 2, ……..,k
El valor F3 = 12 significa que: hay 12 familias de las 20, que tienen 2 hijos o menos, o que el 60%
de las familias del grupo tienen 2 hijos o menos.
0 1 0.05 5 1 0.05 5
1 4 0.20 20 5 0.25 25
2 7 0.35 35 12 0.60 60
3 6 0.30 30 18 0.90 90
Salarios
Esta ojiva, se obtiene uniendo con segmentos de recta, los puntos cuya abscisa es proporcional
al límite superior Ui de cada intervalo y cuya ordenada es proporcional a la frecuencia acumulada
respectiva (absoluta, relativa o porcentaje), comenzando con el intervalo (extendido al lado
izquierdo) cuya frecuencia acumulada es cero.
El diagrama de tallo y hoja permite representar datos cuantitativos en un formato gráfico, similar a un
histograma, es una herramienta que permite obtener una representación visual informativa de un conjunto
de datos, para su elaboración es necesario separar para cada uno de los datos el último dígito de la derecha
(hoja) del bloque de cifras restantes (tallo).
Paso # 0: Paso opcional, ordenar de forma ascendente (de menor a mayor) los datos. Este paso permite
obtener una representación ordenada del diagrama de tallo y hoja.
Paso # 1: Seleccionar el último dígito de la derecha para el valor de la hoja, siendo los dígitos iniciales los
valores del tallo. Para números mayores de cuatro dígitos es posible utilizar valores de hojas de más de un
dígito.
Paso # 2: Hacer una lista de los valores de los tallos en una columna, ordenados de forma ascendente (de
menor a mayor).
Paso # 3: Registrar las hojas por cada observación junto al valor correspondiente del tallo.
También es posible agregar una columna de datos adicionales con información complementaria como lo
son la frecuencia relativa, la frecuencia acumulada, un indicador del tallo que incluya la mediana...
El número de tallos puede variar de un diagrama a otro, sin embargo es recomendable que este número
oscile entre 5 y 20 tallos ya que esto nos facilitará y permitirá:
Paso # 0: Se ordenan los datos de forma ascendente, lo cual facilitará el manejo de la información,
recordando que este paso permitirá tener una representación ordenada del diagrama de tallo y hoja (paso
opcional).
Paso # 1: Se separa el último dígito de cada celda para identificar los tallos y las hojas.
7 6 12 3 14 5 15 4 16 3 17 2 18 1 20 0
8 7 13 1 14 6 15 6 16 3 17 4 18 3 20 1
9 7 13 3 14 8 15 7 16 5 17 4 18 4 20 7
10 1 13 3 14 9 15 8 16 7 17 5 18 6 20 8
10 5 13 4 14 9 15 8 16 7 17 6 19 0 21 8
11 0 13 5 15 0 15 8 16 8 17 6 19 3 22 1
11 5 13 5 15 0 15 8 16 9 17 8 19 4 22 8
11 8 14 1 15 1 16 0 17 0 18 0 19 6 22 9
12 0 14 2 15 3 16 0 17 1 18 0 19 9 23 7
12 1 14 3 15 4 16 0 17 1 18 1 19 9 24 5
Paso # 2 y Paso # 3: Hacer una lista de los valores de tallos en una columna y registrar las hojas por cada
observación junto al valor correspondiente del tallo. Si se desea puede agregar una columna adicional que
indique la frecuencia.
Ejercicios de Aplicación
Ejercicio 1.
V
MEDIDAS DE TENDENCIA CENTRAL
El comportamiento de las variables estadísticas se puede estudiar, como se ha visto, a través de las
tablas de frecuencia.
Las medidas de tendencia central son varias: en este acápite se estudiara la media aritmética, la
mediana y la moda.
Las medidas de tendencia central son valores promedio que reflejan la tendencia de los datos a
concentrarse en torno a un valor central o de posición, representativas del conjunto de datos
ordenados.
La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el
número total de datos.
Ejemplo 1
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
Ejemplo 2
El profesor de la materia de estadística desea conocer el promedio de puntos ganados en una clase
de 10 alumnos. Las notas de los alumnos son:
SOLUCIÓN
Cabe anotar que en el ejemplo estamos hablando de una población correspondiente a todos los
alumnos de la clase (10 alumnos en total). El promedio de las notas es de 3,47.
En este caso la media pasa de 3,47 a 3,15. Esta variación notoria se debió a que la media aritmética
es sensible a los valores extremos cuando tratamos con pocos datos. El 0,0 es una nota atípica
comparada con las demás, que están ubicadas entre 3,0 y 4,2.
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:
Ejemplo
En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la
tabla. Calcular la puntuación media.
Ii xi fi xi · f i
[10, 20) 15 1 15
[30,40) 35 10 350
[50, 60 55 8 440
[60,70) 65 4 260
42 1 820
A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para
determinado estudio. En esos casos se puede utilizar una media ponderada. Si es
un conjunto de datos o media muestral y son números reales positivos, llamados
"pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como:
Se obtiene multiplicando cada uno de los datos por su ponderación o peso y luego sumarlos, para
obtener una suma ponderada. A continuación se divide la suma ponderada entre la suma de los
pesos, dando como resultado la media ponderada.
Ejemplo
Calcular la media aritmética ponderada de las edades de los alumnos de cuarto de secundaria
Si sabemos que existen 42 alumnos y 1 alumno tienen 16 años, 4 alumnos tienen 17 años, 35
alumnos tienen 18 años y dos alumnos tienen 19 años.
Por cierto, la media no es la suma de 16+17+18+19 dividida entre 4; seria así si hubiera 1 alumno
de cada edad. En este caso, primero debemos calcular la suma total de años, para lo que es
necesario ponderar cada edad por el número de alumnos que la tienen.
En seguida la suma total de años se divide por el total de alumnos que la tienen.
También se puede simplificar las operaciones elaborando una tabla de frecuencias con una nueva
columna con los productos (xj -fi), de cada valor de la variable por su frecuencia, como se observa
en la tabla.
Edad alumnos:
Variable xi fi Xi.fi
16 1 16
17 4 68
18 35 630
19 2 38
Suma 42 752
X= = 17.9
La media geométrica de una cantidad arbitraria de números (por decir n números) es la raíz n-
ésima del producto de todos los números, es recomendada para datos de progresión geométrica,
para promediar razones, interés compuesto y números índices.
√ =√ =3
Valor que divide una serie de datos en dos partes iguales. La cantidad de datos que queda por
debajo y por arriba de la mediana son iguales.
La definición geométrica se refiere al punto que divide en dos partes a un segmento. Por ejemplo,
la mediana del segmento es el punto C.
A C B
→ →
41234221553
Solución
11222334455
PASO 2: Localizar el valor que divide en dos parte iguales el número de datos.
11222334455
4123422155
Solución
El punto medio se encuentra entre dos valores: 2 y 3, por tanto, el valor de la mediana
Me = (2+3)/2 = 2,5
Luego la mediana ocupa el 28 lugar, por lo tanto debe encontrarse en la cuarta clase, puesto que en
esta clase se encuentran los elementos que ocupan los lugares 16 al 30, por tanto:
Me = 66.5
Ni Li Ls f F p P Mc
1 21,20 29,21 5 5 12,50% 12,50% 25,21
2 29,21 37,21 2 7 5,00% 17,50% 33,21
3 37,21 45,21 10 17 25,00% 42,50% 41,21
4 45,21 53,21 7 24 17,50% 60,00% 49,21
5 53,21 61,21 12 36 30,00% 90,00% 57,21
6 61,21 69,21 3 39 7,50% 97,50% 65,21
7 69,21 77,20 1 40 2,50% 100,00% 73,21
Total 40 100,00%
SOLUCIÓN
Se determina la clase donde se encuentra la clase mediana, para esto se efectúa una
división:
Luego la mediana ocupa el 20 lugar, por lo tanto debe encontrarse en la cuarta clase,
puesto que en esta clase se encuentran los elementos que ocupan los lugares 17 al 24, por
tanto:
Para aplicar la fórmula: 45,21 es el límite inferior de la clase donde está la mediana
7 es la frecuencia de la clase mediana
16 es la frecuencia de la clase anterior a la clase
mediana
Sustituyendo en la fórmula tenemos:
5.5. Moda
2, 3, 3, 4, 4, 4, 5, 5 M o= 4
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia
es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9
Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.
2, 2, 3, 3, 6, 6, 9, 9 Mo = No hay moda
0, 1, 3, 3, 5, 5, 7, 8 Mo = 4
Para calcular la moda de n datos organizados por intervalos, se sigue los siguientes pasos:
Dónde:
d1 = fi - fi-1
d2= fi + fi+1
Ejemplo
Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:
Ii fi
[60 - 63) 5
[63 - 66) 18
[66 - 69) 42
[69 - 72) 27
[72 - 75) 8
100
El intervalo [66 – 69) se denomina clase modal
d1 = 42 - 18 = 24
d2= 42 + 27= 69
Ejemplo de una aplicación que permita hallar la. Media, la Mediana y la Moda
Ii [10, 15) [15, 20) [20, 25) [25, 30) [30, 35)
fi 3 5 7 4 2
Marca de
Ii fi Fi x i · fi
Clase (xi)
21 457.5
Moda
Mediana
Media aritmética
Ejercicios Resueltos
x i fi Fi x i · f i
2 2 2 4
3 2 4 6
4 5 9 20
5 6 15 30
6 2 17 12
8 3 20 24
20 96
Moda Mo = 5
Mediana 20/2 = 10 Me = 5
Media
Ejercicio 2. Calcular la mediana de una distribución estadística que viene dada por la
siguiente tabla:
Ii fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
100
Ii xi fi xi · f i
[10, 20) 15 1 15
[30,40) 35 10 350
[50, 60 55 8 440
[60,70) 65 4 260
42 1 820
Ejercicio 4. Sea una distribución estadística que viene dada por la siguiente tabla:
xi 61 64 67 70 73
fi 5 18 42 27 8
Moda
Mo = 67
Mediana
102/2 = 50 Me = 67
Media
Ejercicio 5.
Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 niños de su consulta
en el momento de andar por primera vez:
Meses Niños
9 1
10 4
11 9
12 16
13 11
14 8
15 1
Moda Mo = 12
Mediana 50/2 = 25 Me = 12
Media aritmética
Ejercicio 6.
Ii xi fi xi · fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1 820
VI
MEDIDAS DE DISPERSIÓN
6.1. Introducción.
Las medias de tendencia central o posición nos indican donde se sitúa un dato dentro de
una distribución de datos. Las medidas de dispersión, variabilidad o variación nos indican
si esos datos están próximos entre sí o sí están dispersos, es decir, nos indican cuán
esparcidos se encuentran los datos. Estas medidas de dispersión nos permiten apreciar la
distancia que existe entre los datos a un cierto valor central e identificar la concentración
de los mismos en un cierto sector de la distribución, es decir, permiten estimar cuán
dispersas están dos o más distribuciones de datos.
Estas medidas permiten evaluar la confiabilidad del valor del dato central de un conjunto
de datos, siendo la media aritmética el dato central más utilizado. Cuando existe una
dispersión pequeña se dice que los datos están dispersos o acumulados cercanamente
respecto a un valor central, en este caso el dato central es un valor muy representativo. En
el caso que la dispersión sea grande el valor central no es muy confiable. Cuando una
distribución de datos tiene poca dispersión toma el nombre de distribución homogénea y
si su dispersión es alta se llama heterogénea.
Ejemplo 1
Para una serie de datos de carácter cuantitativo como es la estatura de una persona en
centímetros:
x(1) = 155, x(2) = 165, x(3) = 170, x(4) = 182, x(5) = 185
Donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos.
De este modo, el rango sería la diferencia entre el valor máximo x(5) y el mínimo x(1); ó
lo que es lo mismo:
R = x(5) − x(1) , con cinco valores, nos da que el Rango = 185-155 = 30.
Ejemplo 2
Para una muestra (0, 45, 50, 55, 100), el dato menor es 0 y el dato mayor es 100 (Valor
unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se
encuentran en un rango de:
Ejemplo
Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de
mayor valor Max= 8. El medio rango resolviéndolo mediante la correspondiente fórmula
sería:
Propiedades
Guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es
relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente: Desde el
punto de vista geométrico, la distancia que induce la desviación media en el espacio de
observaciones no es la natural (no permite definir ángulos entre dos conjuntos de
observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora de hacer
inferencia a la población.
Cuando mayor sea el valor de la desviación media, mayor es la dispersión de los datos.
Sin embargo, no proporciona una relación matemática precisa entre su magnitud y la
posición de un dato dentro de una distribución.
La desviación media al tomar los valores absolutos mide una observación sin mostrar si la
misma está por encima o por debajo de la media aritmética.
Se emplea la ecuación:
Ejemplo:
Solución:
Se emplea la ecuación:
Cantidad de
Calificación
asignaturas
6 4
7 2
8 3
9 2
10 1
Total 12
Solución:
Se emplea la ecuación:
Cantidad de
Calificación
estudiantes
2-4 6
4-6 8
6-8 16
8-10 10
Total 40
Solución:
Intervalo f xm f·xm
2-4 6 3 18
4-6 8 5 40
6-8 16 7 112
8-10 10 9 90
Total 40 260
6.5. Varianza
Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que
son equivalentes a las anteriores.
Propiedades de la varianza
2. En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.
3. La varianza no viene expresada en las mismas unidades que los datos, ya que las
desviaciones están elevadas al cuadrado.
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de
tendencia central, sino que necesitamos conocer también la desviación que representan
los datos en su distribución, con objeto de tener una visión de los mismos más acorde con
la realidad a la hora de describirlos e interpretarlos para la toma de decisiones.
Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos
respecto a su punto central o media. La desviación estándar nos da como resultado un
valor numérico que representa el promedio de diferencia que hay entre los datos y la
media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la
varianza, por lo tanto su ecuación sería:
Ejemplo
La varianza es:
Ejercicios Resueltos
9, 3, 8, 8, 9, 8, 9, 18
Ejercicio 2:
x i fi x i · f i x i2 · f i
[10, 20) 15 1 15 225
[20, 30) 25 8 200 5 000
[30,40) 35 10 350 12 250
[40, 50) 45 9 405 18 225
[50, 60 55 8 440 24 200
[60,70) 65 4 260 16 900
[70, 80) 75 2 150 11 250
42 1 820 88 050
Ejercicios Resueltos
a) 2, 3, 6, 8, 11.
c) 2, 3, 6, 8, 11.
Resolución: a) 2, 3, 6, 8, 11.
Ejercicio 4: Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 niños de
su consulta en el momento de andar por primera vez:
MESES NIÑOS
9 1
10 4
11 9
12 16
13 11
14 8
15 1
Resolución:
Ejercicio 5: El gerente de una empresa de alimentos desea saber que tanto varían los
pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por
seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen los
siguientes pesos (490, 500, 510, 515 y 520) gramos respectivamente.
Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con
una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta
información le permite al gerente determinar cuánto es el promedio de perdidas causado
por el exceso de peso en los empaques y le da las bases para tomar los correctivos
necesarios en el proceso de empacado.
Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan
entre sí.
Ejemplo:
Una distribución tiene x = 140 y σ = 28.28 y otra x = 150 y σ = 24. ¿Cuál de las dos
presenta mayor dispersión?
Así por ejemplo, si se forma una distribución de datos con k =3 desviaciones estándar por
debajo de la media hasta 3 desviaciones estándar por encima de la media, entonces por lo
menos
Notas:
1) Para el cálculo de la varianza de una muestra se divide por n-1 en lugar de N, debido a
que se tiene n-1 grados de libertad en la muestra. Otra razón por la que se divide por n-1
es debido a que una muestra generalmente está un poco menos dispersa que la población
de la cual se tomó. Al dividir para n-1 en lugar de N se cumple con la tendencia y sentido
lógico de que la varianza y desviación estándar de la muestra deben tener un valor más
pequeño que la varianza y desviación estándar de la población.
Considere que los siguientes datos corresponden al sueldo de una población: $350, $400,
$500, $700 y $1000
Solución:
Por lo tanto se tiene un intervalo desde $ 590 - $474,97 = $ 115,03 hasta $ 590 + $474,97
= $ 1064,97
Interpretación: Se puede afirmar que por lo menos el 75% los sueldos están entre
$115,03 y $ 1064,97
A B
350,14 350,09
350,18 350,12
349,98 350,20
349,99 349,88
350,12 349,95
Solución:
Interpretación:
Resolución
VII
PROBABILIDAD
7.1. Introducción
Ejemplos: Lanzamos una moneda al aire: el resultado puede ser cara o cruz, pero no
sabemos de antemano cuál de ellos va a salir.
Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas
de la probabilidad.
Ejemplo:
En lugar de tirar la moneda al aire, directamente seleccionamos la cara. Aquí no podemos
hablar de probabilidades, sino que ha sido un resultado determinado por uno mismo.
Antes de calcular las probabilidades de un experimento aleatorio hay que definir una serie
de conceptos:
Suceso elemental: Hace referencia a cada una de las posibles soluciones que se pueden
presentar.
Ejemplo:
Al lanzar una moneda al aire, los sucesos elementales son la cara y la cruz. Al lanzar un
dado, los sucesos elementales son el 1, el 2, .., hasta el 6.
Ejemplo:
Lanzamos un dado y queremos que salga un número par. El suceso "numero par" es un
suceso compuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6
O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es
un suceso compuesto formado por 18 sucesos elementales (todos los números que van del
1 al 18).
Ejemplo:
Si tiramos una moneda al aíre una sola vez, el espacio muestral será cara o cruz.
Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio
muestral estaría formado por (cara-cara),
a) Un suceso puede estar contenido en otro: Las posibles soluciones del primer suceso
también lo son del segundo, pero este segundo suceso tiene además otras soluciones
suyas propias.
Ejemplo:
Lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un
número par. Vemos que el suceso a) está contenido en el suceso b).
b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de
ellos se cumple obligatoriamente el otro y viceversa.
Ejemplo:
Lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que
salga múltiplo de 2. Vemos que las soluciones coinciden en ambos casos.
c) Unión de dos o más sucesos: la unión será otro suceso formado por todos los
elementos de los sucesos que se unen.
Ejemplo: Lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par y
b) que el resultado sea mayor que 3. El suceso unión estaría formado por los siguientes
resultados: el 2, el 4, el 5 y el 6
Ejemplo:
Lanzamos un dado al aire, y analizamos dos sucesos: a) que salga número par, y b) que
sea mayor que 4. La intersección de estos dos sucesos tiene un sólo elemento, el número
6 (es el único resultado común a ambos sucesos: es mayor que 4 y es número par).
e) Sucesos incompatibles: Son aquellos que no se pueden dar al mismo tiempo ya que no
tienen elementos comunes (su intersección es el conjunto vacio).
Ejemplo:
Lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3,
y b) que salga el número 6. Es evidente que ambos no se pueden dar al mismo tiempo.
Ejemplo:
Lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número par, y b) que
salga un número impar. Vemos que si no se da el primero se tiene que dar el segundo (y
viceversa).
El resto de sucesos tendrá probabilidades entre cero y uno: Que será tanto mayor
cuanto más probable sea que dicho suceso tenga lugar.
b) Probabilidad de que al lanzar un dado salga un número par: en este caso los casos
favorables son tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles
siguen siendo seis. Por lo tanto:
c) Probabilidad de que al lanzar un dado salga un número menor que 5: en este caso
tenemos cuatro casos favorables (que salga el uno, el dos, el tres o el cuatro), frente a los
seis casos posibles. Por lo tanto:
d) Probabilidad de que nos toque el "Gordo" de Navidad: tan sólo un caso favorable,
el número que jugamos (¡qué triste...¡), frente a 100.000 casos posibles. Por lo tanto:
Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos
requisitos:
a) El número de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos
resultados, al aplicar la regla "casos favorables / casos posibles" el cociente siempre sería
cero.
b) Todos los sucesos tienen que tener la misma probabilidad. Si al lanzar un dado,
algunas caras tuvieran mayor probabilidad de salir que otras, no podríamos aplicar esta
regla.
Ejemplo:
Si lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara" ha
aparecido el 100% de las veces y el suceso "cruz" el 0%.
Si lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el
suceso "cruz" las 3 restantes. En este caso, la probabilidad del suceso "cara" ya no sería
del 100%, sino que se habría reducido al 70%.
En este modelo ya no será necesario que el número de soluciones sea finito, ni que todos
los sucesos tengan la misma probabilidad.
Ejemplo:
Si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (o estuviera trucada),
es posible que al repetir dicho experimento un número elevado de veces, la "cara" saliera
con una frecuencia, por ejemplo, del 65% y la "cruz" del 35%. Estos valores serían las
probabilidades de estos dos sucesos según el modelo frecuentista.
Al definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos
sucesos entre sí, así como de las posibles relaciones que se pueden establecer entre los
mismos. Vamos a ver ahora cómo se refleja esto en el cálculo de probabilidades.
a) Un suceso puede estar contenido en otro: entonces, la probabilidad del primer suceso
será menor que la del suceso que lo contiene.
Ejemplo:
Lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un
número par. Dijimos que el suceso a) está contenido en el suceso b).
P(B) = 3 / 6 = 0,50
Por lo tanto, podemos ver que la probabilidad del suceso contenido, suceso a), es menor
que la probabilidad del suceso que lo contiene, suceso b).
b) Dos sucesos pueden ser iguales: En este caso, las probabilidades de ambos sucesos
son las mismas.
Ejemplo:
Lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que
salga múltiplo de 2. Las soluciones coinciden en ambos casos.
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
c) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de los
dos o más sucesos que se interceptan. La probabilidad será igual a la probabilidad de los
elementos comunes.
Ejemplo:
Lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que
sea mayor que 3. La intersección de estos dos sucesos tiene dos elementos: el 4 y el 6.
P(A B) = 2 / 6 = 0,33
Ejemplo:
Lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que el
resultado sea mayor que 3. El suceso unión estaría formado por los siguientes resultados:
el 2, el 4, el 5 y el 6.
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
P (A B) = 2 / 6 = 0,33
Por lo tanto,
Ejemplo:
P(A) = 2 / 6 = 0,333
P(B) = 1 / 6 = 0,166
Por lo tanto,
Ejemplo:
Lanzamos un dado al aire. el suceso (A) es que salga un número par, luego su
complementario, suceso (B), es que salga un número impar.
La probabilidad del suceso (A) es igual a :
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
Ejemplo:
Seguimos con el ejemplo anterior: a) que salga un número par, y b) que salga un número
impar. La probabilidad del suceso unión de estos dos sucesos será igual a:
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
Por lo tanto,
El cálculo de los sucesos favorables o sin repetición que no plantea ningún problema por
ser de un número reducido, se pueden calcular con facilidad aplicando la Regla de
Laplace
Ejemplo 1:
Probabilidad de que al lanzar un dado salga el número 2. Tan sólo hay un caso favorable,
mientras que los casos posibles son seis.
Sin embargo, a veces calcular el número de casos favorables y casos posibles es complejo
y hay que aplicar reglas matemáticas:
Ejemplo 2:
Las reglas matemáticas que nos pueden ayudar son el cálculo de combinaciones, el
cálculo de variaciones y el cálculo de permutaciones.
a) Combinaciones:
Ejemplo, calcular las posibles combinaciones de 2 elementos que se pueden formar con
los números 1, 2 y 3.
b) Variaciones:
Ejemplo, calcular las posibles variaciones de 2 elementos que se pueden establecer con
los números 1, 2 y 3.
Ahora tendríamos 6 posibles parejas: (1,2), (1,3), (2,1), (2,3), (3,1) y (3,3). En este caso
los subgrupos (1,2) y (2,1) se consideran distintos.
c) Permutaciones:
Calcular las posibles agrupaciones que se pueden establecer con todos los elementos de
un grupo, por lo tanto, lo que diferencia a cada subgrupo del resto es el orden de los
elementos.
Ejemplo, Calcular las posibles formas en que se pueden ordenar los números 1, 2 y 3.
Hay 6 posibles agrupaciones: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) y (3, 2, 1)
a) Combinaciones:
Ejemplo: 4 ! = 4 * 3 * 2 * 1 = 24
b) Variaciones:
c) Permutaciones:
La expresión "Pm" representa las permutaciones de "m" elementos, tomando todos los
elementos. Los subgrupos se diferenciaran únicamente por el orden de los elementos.
Vamos a analizar ahora que ocurriría con el cálculo de las combinaciones, de las
variaciones o de las permutaciones en el supuesto de que al formar los subgrupos los
elementos pudieran repetirse.
Por ejemplo: tenemos bolas de 6 colores diferentes y queremos formar subgrupos en los
que pudiera darse el caso de que 2, 3, 4 o todas las bolas del subgrupo tuvieran el mismo
color. En este caso no podríamos utilizar las fórmulas que vimos en la lección anterior.
Son permutaciones de "m" elementos, en los que uno de ellos se repite " x 1 " veces, otro "
x2 " veces y así ... hasta uno que se repite " x k " veces.
Ejemplo: Calcular las permutaciones de 10 elementos, en los que uno de ellos se repite en 2 ocasiones y
otro se repite en 3 ocasiones:
Ejercicios
Ejercicio 1
Solución:
repetición de 3 elementos (1, X y 2), tomados de 14 en 14 (los signos que hay que
rellenar).
Ejercicio 2
Solución:
Por lo tanto, tenemos más probabilidades de acertar 12 resultados que 14 (¿será por eso
por lo que pagan menos?).
Ejercicio 3
Calcular la probabilidad de, en una carrera de 12 caballos, acertar los 3 que quedan
primeros (sin importar cuál de ellos queda primero, cual segundo y cual tercero).
Solución:
Se aplica la Regla de Laplace. El caso favorable es tan sólo uno: los 3 caballos que
entran en primer lugar. Los casos posibles se calculan como combinaciones de 12
elementos tomados de 3 en 3 (es decir, determinamos todas las posibles alternativas de 3
caballos que pueden entrar en las 3 primeras posiciones). Como el orden de estos 3
primeros caballos no importa, utilizamos combinaciones en lugar de variaciones.
Ejercicio 4
Y si hubiera que acertar, no sólo los 3 caballos que ganan, sino el orden de su entrada en
meta.
Solución:
El caso favorable sigue siendo uno: los 3 caballos que entran en primer lugar, colocados
en su orden correspondiente.
Los casos posibles se calculan ahora como variaciones (ya que el orden influye) de 12
elementos tomados de 3 en 3 (calculamos todas las posibles maneras en que los 12
caballos podrían ocupar las 3 primeras posiciones.
Menor que en el ejemplo 3º. Ya no vale acertar que 3 caballos entran en primer lugar,
sino que tenemos que acertar el orden de su entrada.
Dónde:
Por lo tanto:
P (B A) = 1/6
P (A) = 1/2
Ejemplo 2:
Calcular la probabilidad de que una persona sufra problemas coronarios si está obesa
(probabilidad condicionada P(B/A)).
P (B A) = 0,05
P (A) = 0,25
Por ejemplo: probabilidad de que al tirar un dado salga el número 2, condicionada a que
haya salido un número impar.
De los varones mayores de 40 años y casados, un 30% tienen más de 2 hijos (suceso B
condicionado al suceso A).
Calcular la probabilidad de que un varón mayor de 40 años esté casado y tenga más
de 2 hijos (suceso intersección de A y B).
Por lo tanto:
P (A) = 0,35
P (B/A) = 0,30
Es decir, un 10,5% de los varones mayores de 40 años están casados y tienen más de 2
hijos.
De los alumnos que hablan inglés, un 20% hablan también alemán (suceso B
condicionado al suceso A).
Por lo tanto:
P (A) = 0,50
P (B/A) = 0,20
Es decir, la probabilidad de que ocurra el suceso B (en nuestro ejemplo, que ocurra un
accidente) es igual a la suma de multiplicar cada una de las probabilidades
condicionadas de este suceso con los diferentes sucesos A (probabilidad de un accidente
cuando llueve y cuando hace buen tiempo) por la probabilidad de cada suceso A.
Para que este teorema se pueda aplicar hace falta cumplir un requisito:
Los sucesos A tienen que formar un sistema completo, es decir, que contemplen todas
las posibilidades (la suma de sus probabilidades debe ser el 100%).
Ejemplo 1: al tirar una moneda, el suceso "salir cara" y el suceso "salir cruz" forman un
sistema completo, no hay más alternativas: la suma de sus probabilidades es el 100%
Ejercicios Resueltos
Ejercicio 1: En un saquito hay papeletas de tres colores, con las siguientes probabilidades
de ser elegidas:
b) Verde: participas en otro sorteo con una probabilidad de ganar del 60%
c) Roja: participas en un tercer sorteo con una probabilidad de ganar del 80%.
1.- Las tres papeletas forman un sistema completo: sus probabilidades suman 100%
Luego,
Por tanto, la probabilidad de que te suban el sueldo es del 15%. Lo llevas claro amigo...
Tratar de explicar estar fórmula con palabras es un galimatías, así que vamos a intentar
explicarla con un ejemplo. De todos modos, antes de entrar en el ejercicio, recordar que
este teorema también exige que el suceso A forme un sistema completo.
Ejercicios
Independencia de Sucesos
Ejemplo 1: el suceso estatura de los alumnos de una clase y el color del pelo son
independientes: el que un alumno sea más o menos alto no va a influir en el color de su
cabello, ni viceversa.
Para que dos sucesos sean independientes tienen que verificar al menos una de las
siguientes condiciones:
Ejemplo 2: la probabilidad de que al tirar una moneda salga cara (suceso B),
condicionada a que haga buen tiempo (suceso A), es igual a la propia probabilidad del
suceso B.
Ejemplo 3: la probabilidad de que haga buen tiempo (suceso A), condicionada a que al
tirar una moneda salga cara (suceso B), es igual a la propia probabilidad del suceso A.
Ejemplo 4: La probabilidad de que haga buen tiempo (suceso A) y salga cara al tirar una
moneda (suceso B), es igual a la probabilidad del suceso A multiplicada por la
probabilidad del suceso B.
Suceso intersección: la probabilidad de que haga buen tiempo y tener un accidente es del
0,08
Por lo tanto, no se cumple ninguna de las tres condiciones señaladas por lo que estos dos
sucesos no son independientes, sino que existe algún grado de dependencia entre ellos.
Suceso intersección: la probabilidad de que haga buen tiempo y que salga cara es 0,2
Las distribuciones discretas son aquellas en las que la variable puede pude tomar un
número determinado de valores:
Ejemplo: si se lanza una moneda al aire puede salir cara o cruz; si se tira un dado puede
salir un número de 1 al 6; en una ruleta el número puede tomar un valor del 1 al 32.
Las distribuciones continuas son aquellas que presentan un número infinito de posibles
soluciones:
Ejemplo: El peso medio de los alumnos de una clase puede tomar infinitos valores dentro
de cierto intervalo (42,37 kg, 42,3764 kg, 42, 376541kg, etc); la esperanza media de vida
de una población (72,5 años, 7,513 años, 72, 51234 años).
Es aquel modelo que sigue un experimento que se realiza una sola vez y que puede tener
dos soluciones: acierto o fracaso:
Ejemplo: Probabilidad de salir cara al lanzar una moneda al aire (sale cara o no sale);
probabilidad de ser admitido en una universidad (o te admiten o no te admiten);
probabilidad de acertar una quiniela (o aciertas o no aciertas)
Verificándose que:
p+q=1
p + q = 0,5 + 0,5 = 1
p + q = 0,25 + 0,75 = 1
p + q = 0,00001 + 0,99999 = 1
Ejemplo: se tira una moneda 10 veces: ¿cuantas caras salen? Si no ha salido ninguna la
variable toma el valor 0; si han salido dos caras la variable toma el valor 2; si todas han
sido cara la variable toma el valor 10
" k " es el número de aciertos. En este ejemplo " k " igual a 6 (en cada acierto decíamos
que la variable toma el valor 1: como son 6 aciertos, entonces k = 6)
" p " es la probabilidad de éxito, es decir, que salga "cara" al lanzar la moneda. Por lo
tanto p = 0,5
La fórmula quedaría:
Luego,
P (x = 6) = 0,205
Es decir, se tiene una probabilidad del 20,5% de obtener 6 caras al lanzar 10 veces una
moneda.
La fórmula queda:
Luego,
P (x = 4) = 0,026
Es decir, se tiene una probabilidad del 2,6% de obtener cuatro veces el números 3 al tirar
un dado 8 veces.
Vamos a explicarla:
" " = n * p (es decir, el número de veces " n " que se realiza el experimento
multiplicado por la probabilidad " p " de éxito en cada ensayo)
Veamos un ejemplo:
Como la probabilidad " p " es menor que 0,1, y el producto " n * p " es menor que 10,
entonces aplicamos el modelo de distribución de Poisson.
Luego,
P (x = 3) = 0,0892
Por lo tanto, la probabilidad de tener 3 accidentes de tráfico en 300 viajes es del 8,9%
Otro ejemplo:
Luego,
P (x = 5) = 4,602
Por lo tanto, la probabilidad de que haya 5 pelirrojos entre 800 recien nacidos es del
4,6%.
En una urna hay bolas de dos colores (blancas y negras), ¿cuál es la probabilidad de que
al sacar 2 bolas las dos sean blancas?
Son experimentos donde, al igual que en la distribución binomial, en cada ensayo hay tan
sólo dos posibles resultados: o sale blanca o no sale. Pero se diferencia de la distribución
binomial en que los distintos ensayos son dependientes entre sí:
Si en una urna con 5 bolas blancas y 3 negras en un primer ensayo saco una bola blanca,
en el segundo ensayo hay una bola blanca menos por lo que las probabilidades son
diferentes (hay dependencia entre los distintos ensayos).
Dónde:
Vamos a explicarlo:
Veamos un ejemplo: en una urna hay 7 bolas blancas y 5 negras. Se sacan 4 bolas ¿Cuál
es la probabilidad de que 3 sean blancas?
Entonces:
N = 12; N1 = 7; N2 = 5; k = 3; n = 4
Si aplicamos el modelo:
Pero este modelo no sólo se utiliza con experimentos con bolas, sino que también se
aplica con experimentos similares:
Donde:
X1 = x1: indica que el suceso X 1 aparezca x1 veces (en el ejemplo, que el partido POPO lo
hayan votado 3 personas)
Veamos el ejemplo:
Luego:
P = 0,0256
Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta manera
es tan sólo del 2,56%
En una fiesta, el 20% de los asistentes son españoles, el 30% franceses, el 40% italiano y
el 10% portugueses. En un pequeño grupo se han reunido 4 invitados: ¿cual es la
probabilidad de que 2 sean españoles y 2 italianos?
Aplicamos el modelo:
Luego
P = 0,0384
Por lo tanto, la probabilidad de que el grupo esté formado por personas de estos países es
tan sólo del 3,84%.
Donde:
X1 = x1: indica que el suceso X 1 aparezca x1 veces (en el ejemplo, que una de las bolas
sea blanca)
N1: indica el número de bolas blancas que hay en la urna (en el ejemplo, 7 bolas)
Veamos el ejemplo:
Luego:
P = 0,2307
Es decir, que la probabilidad de sacar una bola de cada color es del 23,07%.
En una caja de lápices hay 10 de color amarillo, 3 de color azul y 4 de color rojo. Se
extraen 7 lápices, ¿cual es la probabilidad de que 5 sean amarillos y 2 rojos?
Aplicamos el modelo:
Luego
P = 0,0777
Por lo tanto, la probabilidad de que los 5 lápices sean de los colores indicados es del
7,77%.
Ejemplo: el precio medio del litro de gasolina durante el próximo año se estima que
puede oscilar entre 140 y 160 ptas. Podría ser, por tanto, de 143 ptas., o de 143,4 ptas., o
Ing. Ma. Ivonne Rocha Página 100
ESTADÍSTICA PRÁCTICA
de 143,45 ptas., o de 143,455 ptas, etc. Hay infinitas posibilidades, todas ellas con la
misma probabilidad.
Su función de densidad, aquella que nos permite conocer la probabilidad que tiene cada
punto del intervalo, viene definida por:
Dónde:
Es decir, que el valor final esté entre 140 ptas. y 141 ptas. tiene un 5% de probabilidad,
que esté entre 141 y 142, otro 5%, etc.
En el ejemplo:
Por lo tanto, el precio medio esperado de la gasolina para el próximo año es de 150 ptas.
Es decir, que el volumen de precipitaciones esté entre 400 y 401 litros tiene un 1% de
probabilidades; que esté entre 401 y 402 litros, otro 1%, etc.
Es decir, la precipitación media estimada en Sevilla para el próximo año es de 450 litros.
Esta distribución de caracteriza porque los valores se distribuyen formando una campana
de Gauss, en torno a un valor central que coincide con el valor medio de la distribución:
Un 50% de los valores están a la dercha de este valor central y otro 50% a la izquierda
X: N ( 2)
2: es la varianza. Indica si los valores están más o menos alejados del valor central: si la
varianza es baja los valores están próximos a la media; si es alta, entonces los valores
están muy dispersos.
Ejemplo: una variable aleatoria sigue el modelo de una distribución normal con media 10
y varianza 4. Transformarla en una normal tipificada.
X: N (10, 4)
Para transformarla en una normal tipificada se crea una nueva variable (Y) que será
igual a la anterior (X) menos su media y dividida por su desviación típica (que es la
raíz cuadrada de la varianza)
Esta nueva variable se distribuye como una normal tipificada, permitiéndonos, por tanto,
conocer la probabilidad acumulada en cada valor.
Y: N (0, 1)
La distribución normal tipificada tiene la ventaja, como ya hemos indicado, de que las
probabilidades para cada valor de la curva se encuentran recogidas en una tabla.
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
Ejemplo: Imaginemos que una variable continua puede tomar valores entre 0 y 5. La
probabilidad de que tome exactamente el valor 2 es despreciable, ya que podría tomar
infinitos valores: por ejemplo: 1,99, 1,994, 1,9967, 1,9998, 1999791, etc.
Veamos ahora, como podemos utilizar esta tabla con una distribución normal:
Ejemplo: el salario medio de los empleados de una empresa se distribuye según una
distribución normal, con media 5 millones de ptas. y desviación típica 1 millón de ptas.
Calcular el porcentaje de empleados con un sueldo inferior a 7 millones de ptas.
Lo primero que haremos es transformar esa distribución en una normal tipificada, para
ello se crea una nueva variable (Y) que será igual a la anterior (X) menos su media y
dividida por la desviación típica
Esta nueva variable se distribuye como una normal tipificada. La variable Y que
corresponde a una variable X de valor 7 es:
c) Ingresos mínimo y máximo que engloba al 60% de la población con renta media.
Ahora tenemos que ver cuál es la probabilidad acumulada hasta ese valor. Tenemos un
problema: la tabla de probabilidades (ver lección 35) sólo abarca valores positivos, no
obstante, este problema tiene fácil solución, ya que la distribución normal es simétrica
respecto al valor medio.
Por lo tanto:
Por otra parte, la probabilidad que hay a partir de un valor es igual a 1 (100%) menos la
probabilidad acumulada hasta dicho valor:
b) Nivel de ingresos a partir del cual se sitúa el 10% de la población con renta más
elevada.
Despejando X, su valor es 5,57. Por lo tanto, aquellas personas con ingresos superiores a
5,57 millones de ptas. constituyen el 10% de la población con renta más elevada.
c) Nivel de ingresos mínimo y máximo que engloba al 60% de la población con renta
media
Por otra parte, al ser la distribución normal simétrica, entre -Y y la media hay otro 30%
de probabilidad. En definitiva, el segmento (-Y, Y) engloba al 60% de población con
renta media.
Los valores de X son 2,97 y 5,03. Por lo tanto, las personas con ingresos superiores a 2,97
millones de ptas. e inferiores a 5,03 millones de ptas. constituyen el 60% de la población
con un nivel medio de renta.
Ejercicio 2º: La vida media de los habitantes de un país es de 68 años, con una varianza
de 25. Se hace un estudio en una pequeña ciudad de 10.000 habitantes:
Por lo tanto
Por lo tanto
a) Si usted presume de buen bebedor, ¿cuántos litros de cerveza tendría que beber al año
para pertenecer al 5% de la población que más bebe?.
b) Si usted bebe 45 litros de cerveza al año y su mujer le califica de borracho ¿qué podría
argumentar en su defensa?
Despejando X, su valor es 67,87. Por lo tanto, tendría usted que beber más de 67,87 litros
al año para pertenecer a ese "selecto" club de grandes bebedores de cerveza.
Vamos a ver en qué nivel de la población se situaría usted en función de los litros de
cerveza consumidos.
Por lo tanto
Luego, tan sólo un 1,39% de la población bebe menos que usted. Parece un argumento de
suficiente peso para que dejen de catalogarle de "enamorado de la bebida"
a) Tan sólo hay 100 plazas. Usted ha obtenido un 7,7. ¿Sería oportuno ir organizando una
fiesta para celebrar su éxito?
b) Va a haber una 2ª oportunidad para el 20% de notas más altas que no se hayan
clasificados. ¿A partir de que nota se podrá participar en esta "repesca"?
Vamos a ver con ese 7,7 en qué nivel porcentual se ha situado usted, para ello vamos a
comenzar por calcular el valor de la normal tipificada equivalente.
Si se han presentado 2.000 aspirante, ese 1,786% equivale a unos 36 aspirantes. Por lo
que si hay 100 plazas disponibles, tiene usted suficientes probabilidades como para ir
organizando la "mejor de las fiestas".
El Teorema del Límite Central dice que si tenemos un grupo numeroso de variables
independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste
sea), la suma de ellas se distribuye según una distribución normal.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Veamos un ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el
valor 0. Cada lanzamiento es una variable independiente que se distribuye según el
modelo de Bernouilli, con media 0,5 y varianza 0,25.
La variable suma de estas 100 variables independientes se distribuye, por tanto, según una
distribución normal.
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal
tipificada equivalente:
Por lo tanto:
Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras es tan
sólo del 2,28%.
Referencias bibliográficas