Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MAN
UAL
DE
ESTA
DÍST
MSc. César A Araujo O
Maturín – Venezuela
2020
ICA
Índice General
LISTA DE ILUSTRACIONES--------------------------------------------------------------------------------------ix
INTRODUCCIÓN--------------------------------------------------------------------------------------------------- 1
ESTADÍSTICA------------------------------------------------------------------------------------------------------- 2
RAMAS DE LA ESTADÍSTICA------------------------------------------------------------------------------------4
ii
1.- (Jauregui, 2016)------------------------------------------------------------------------------------- 21
iii
Ejemplo Nº5 – (Intervalo – un decimal)------------------------------------------------------------35
Gráficos estadísticos---------------------------------------------------------------------------------------36
3.- Histograma------------------------------------------------------------------------------------------- 40
5.- Ojiva---------------------------------------------------------------------------------------------------- 42
2.- Mediana----------------------------------------------------------------------------------------------- 49
3.- Moda------------------------------------------------------------------------------------------------------ 54
iv
3.1.- Ejemplos – datos no agrupados. (Araujo Oropeza, 2020)-------------------------------55
3.1.1.- Unidimodal-------------------------------------------------------------------------------------- 55
3.1.2.- Bimodal------------------------------------------------------------------------------------------- 56
3.1.3.- Multimodal-------------------------------------------------------------------------------------- 56
3.2.1.- Volvamos al problema de las notas. Usamos la última tabla problema para la
mediana--------------------------------------------------------------------------------------------------- 56
3.2.4.- Dada una tabla de frecuencia para datos agrupado. Calcular la moda de esa
distribución----------------------------------------------------------------------------------------------- 60
4.- Ejercicios completos para hallar la media, mediana y moda – solo aplicable a datos
cuantitativos------------------------------------------------------------------------------------------------- 61
2.- Déciles.------------------------------------------------------------------------------------------------ 65
3.- Cuartiles----------------------------------------------------------------------------------------------- 66
1.- Rango-------------------------------------------------------------------------------------------------- 68
3.- Varianza----------------------------------------------------------------------------------------------- 69
v
4.- Desviación típica o estándar----------------------------------------------------------------------70
vi
1.1.- Teorema de Bayes--------------------------------------------------------------------------------92
D.1.7.- Ejercicio-----------------------------------------------------------------------------------------118
vii
F.2.3.- Ejemplo de distribución binomial---------------------------------------------------------129
BIBLIOGRAFÍA-------------------------------------------------------------------------------------------------- 138
viii
LISTA DE ILUSTRACIONES
Ilustración Nº 1: Ramas de la estadística según Manuel Alvarado..........................................4
Ilustración Nº 2: Estadística descriptiva según Definición XYZ.................................................9
Ilustración Nº 3: Estadística descriptiva según Universoformulas.com..................................11
Ilustración Nº 4: Estadística descriptiva según Ecured...........................................................12
Ilustración Nº 5: Escalas de medida según Mauricio Anderson..............................................15
Ilustración Nº 6: Principales Características y Propiedades de las Escalas de Medición.........20
Ilustración Nº 7: Variables categóricas y numéricas en las escalas de medición....................21
Ilustración Nº 8: Datos estadísticos: tipos y técnicas de obtención según Macarena Jauregui
...............................................................................................................................................21
Ilustración Nº 9: Importancia de los datos estadísticos..........................................................25
Ilustración Nº 10: Importancia de los datos estadísticos por Néstor Chávez y Díaz Jorge......27
Ilustración Nº 11: Los Datos Estadísticos................................................................................27
Ilustración Nº 12: Tabla de distribución de frecuencia simple para una variable categórica
nominal..................................................................................................................................31
Ilustración Nº 13: Significado de cada columna.....................................................................32
Ilustración Nº 14: Tabla de distribución de frecuencia simple para una variable categórica
ordinal....................................................................................................................................32
Ilustración Nº 15: Tabla de distribución de frecuencia simple para una variable numérica...33
Ilustración Nº 16: Tabla de distribución de frecuencia para datos agrupados (números
enteros)..................................................................................................................................35
Ilustración Nº 17: Peso en kilogramos de los atletas..............................................................35
Ilustración Nº 18: Tabla de distribución de frecuencia para datos agrupados (un decimal). .36
Ilustración Nº 19: Ejemplo gráfico de barras vertical “Producción Agrícola en España 2019”
...............................................................................................................................................37
Ilustración Nº 20: Ejemplo gráfico de barras horizontal “vocales en un refrán”....................38
Ilustración Nº 21: Ejemplo gráfico de sectores “Producción Agrícola en España 2019”.........39
Ilustración Nº 22: Gráfico de sectores – vocales en un refrán (variable categórica)..............40
Ilustración Nº 23: El histograma............................................................................................41
Ilustración Nº 24: Histograma y polígono de frecuencia........................................................42
Ilustración Nº 25: La ojiva......................................................................................................42
Ilustración Nº 26: Tabla de distribución de frecuencia para datos agrupados (números
enteros)..................................................................................................................................43
Ilustración Nº 27: Histograma del resultado de las notas obtenidas por los 35 alumnos.......43
Ilustración Nº 28: Polígono de frecuencia del resultado de las notas obtenidas por los 35
alumnos.................................................................................................................................44
Ilustración Nº 29: Ojiva del resultado de las notas obtenidas por los 35 alumnos.................44
Ilustración Nº 30: Notas finales de los alumnos.....................................................................46
Ilustración Nº 31: Estatura de los niños encuestados.............................................................46
Ilustración Nº 32: Resultados del examen de Matemática.....................................................47
Ilustración Nº 33: Tabla de distribución de frecuencia para datos agrupados de las notas...47
Ilustración Nº 34: Resultados de la dieta...............................................................................48
Ilustración Nº 35: Tabla de distribución de frecuencia para datos agrupados de los kilos
rebajados...............................................................................................................................48
Ilustración Nº 36: Resultados impares de un experimento y queremos calcular la mediana. 50
Ilustración Nº 37: Resultados pares de un experimento y queremos calcular la mediana.....50
Ilustración Nº 38: Tabla para calcular la mediana en el ejemplo del resultado en Matemática
...............................................................................................................................................52
Ilustración Nº 39: Tabla para calcular la mediana en el ejemplo de la dieta de la mujeres. . .53
Ilustración Nº 40: Tabla para el cálculo de la moda datos agrupados notas de un examen de
Matemática............................................................................................................................56
Ilustración Nº 41: Tabla para el cálculo de la moda datos agrupados de un experimento.....58
Ilustración Nº 42: Tabla para el cálculo de la moda datos agrupados de un experimento.....59
Ilustración Nº 43: Tabla de datos 20 alumnos de un determinado centro educativo sobre sus
pesos......................................................................................................................................61
Ilustración Nº 44: Tabla de datos agrupados para calcular la media, la mediana y la moda.63
Ilustración Nº 45: Medidas de tendencia no central..............................................................64
Ilustración Nº 46: Cuadro de representación de los déciles....................................................65
Ilustración Nº 47: Cuadro de representación de los cuartiles.................................................66
Ilustración Nº 48: Tabla de datos agrupados para calcular percentiles, deciles y cuartiles....66
Ilustración Nº 49: Medidas de dispersión...............................................................................68
Ilustración Nº 50: Modelo de desviación estándar.................................................................71
Ilustración Nº 51: ¿Qué es la probabilidad?...........................................................................79
Ilustración Nº 52: Ejemplos de probabilidad - En meteorología, la probabilidad se calcula
considerando múltiples condicionantes.................................................................................81
Ilustración Nº 53: Ejemplo del aparcamiento de probabilidad...............................................84
Ilustración Nº 54: Ejemplo de pares y nones de probabilidad................................................85
Ilustración Nº 55: ¿Qué es la probabilidad? – Datos conciencia.com.....................................85
Ilustración Nº 56: Gráficamente la solución del ejercicio.......................................................91
Ilustración Nº 57: Diagrama de árbol ejercicio propuesto sobre deportes.............................95
Ilustración Nº 58: Diagrama de árbol ejercicio propuesto sobre latas defectuosas...............97
Ilustración Nº 59: Diagrama de árbol ejercicio propuesto sobre elecciones...........................99
Ilustración Nº 60: La distribución normal suele conocerse como la «campana de Gauss»...106
Ilustración Nº 61: Gráfica de distribución binomial..............................................................109
Ilustración Nº 62: Distribución normal.................................................................................112
Ilustración Nº 63: Diagrama de árbol motores defectuosos en 12 meses............................119
Ilustración Nº 64: Tipificación de una variable.....................................................................121
Ilustración Nº 65: Resumen de las diferentes situaciones al tipificar una variable usando la
tabla Z..................................................................................................................................124
Ilustración Nº 66: Protomisil V2 de los que se lanzaban sobre Londres desde Calais ( Francia )
.............................................................................................................................................132
INTRODUCCIÓN
(Sánchez, 2014). Solemos pensar que la Estadística es sólo una mera
representación de datos, números apilados y gráficas bonitas debido a que
es lo que cotidianamente vemos en nuestro entorno. Pero la Estadística es
mucho que eso, es una ciencia casi tan antigua como la escritura, es auxiliar
de todas las demás ciencias: los mercados, la medicina, la ingeniería, las
ciencias sociales, la investigación, los gobiernos, etc. la utilizan con el
objetivo de sacar conclusiones sobre poblaciones, procesos,
comportamientos, etc.
La Estadística trata de la recolección, presentación, análisis y uso de
los datos para tomar decisiones, solucionar problemas y diseñar productos y
procesos, es por esto que resulta vital para el ingeniero tener conocimientos
en Estadística. La Estadística es una parte esencial para conseguir el
incremento de la calidad en los productos: está comprobado que la baja
calidad del producto tiene una gran influencia sobre la rentabilidad global de
la empresa, por lo que mejorarla conlleva el éxito de ésta.
Los Métodos Estadísticos nos ayudan a controlar y mejorar los
procesos productivos a través de una característica llamada variabilidad.
Todos los procesos tienen variabilidad debido a que existen muchos factores
que nos rodean que no son controlables o incluso desconocidos lo que hace
que el producto que se fabrique conste de características que consideramos
variables aleatorias.
Así pues, se necesitan profesionales de la Estadística que estén
preparados para resolver los problemas derivados del cúmulo de información
existente, que puedan analizarla y procesarla y sean capaces de descubrir
los hechos importantes ocultos en los datos.
(Rincón, 2006). La teoría de la probabilidad es la parte de las
matemáticas que se encarga del estudio de los fenómenos o experimentos
aleatorios. Por experimento aleatorio entenderemos todo aquel experimento
1
que cuando se le repite bajo las mismas condiciones iniciales, el resultado
que se obtiene no siempre es el mismo. El ejemplo más sencillo y cotidiano
de un experimento aleatorio es el de lanzar una moneda o un dado, y aunque
estos experimentos pueden parecer muy sencillos, algunas personas los
utilizan para tomar decisiones en sus vidas. En principio no sabemos cuál
será el resultado del experimento aleatorio, así que por lo menos conviene
agrupar en un conjunto a todos los resultados posibles. El espacio muestral
(o espacio muestra) de un experimento aleatorio es el conjunto de todos los
posibles resultados del experimento, y se le denota generalmente por la letra
griega Ω (omega). En algunos textos se usa también la letra S para denotar
al espacio muestral. Esta letra proviene del termino sampling space de la
lengua inglesa equivalente a espacio muestral. Llamaremos evento a
cualquier subconjunto del espacio muestral y denotaremos a los eventos por
las primeras letras del alfabeto en mayúsculas: A, B, C, etc.
Ejemplo. Si un experimento aleatorio consiste en lanzar un dado y
observar el número que aparece en la cara superior, entonces claramente el
espacio muestral es el conjunto Ω = {1, 2, 3, 4, 5, 6}. Como ejemplo de un
evento para este experimento podemos definir el conjunto A = {2, 4, 6}, que
corresponde al suceso de obtener como resultado un número par.
Si al lanzar un dado una vez obtenemos el número “4”, decimos
entonces que se observó la ocurrencia del evento A = {2, 4, 6}, y si se
obtiene por ejemplo el resultado “1” decimos que no se observó la ocurrencia
del evento A.
En el presente manual se exponen ambas situaciones “estadística y
probabilidad”, con ejemplos y ejercicios resueltos según la concepción de
diferentes autores esperando les sea de gran utilidad.
2
ESTADÍSTICA
(Roldán, 2019). La estadística es una disciplina científica que se
ocupa de la obtención, orden y análisis de un conjunto de datos con el fin de
obtener explicaciones y predicciones sobre fenómenos observados.
La estadística consiste en métodos, procedimientos y fórmulas que
permiten recolectar información para luego analizarla y extraer de ella
conclusiones relevantes. Se puede decir que es la Ciencia de los Datos y
que su principal objetivo es mejorar la comprensión de los hechos a partir de
la información disponible.
Conviene saber que la estadística NO es una rama de las
matemáticas. Utiliza herramientas de las matemáticas del mismo modo que
lo hace la física, la ingeniería o la economía, pero eso no las hace ser parte
de las matemáticas. Es cierto que tienen una relación estrecha, pero la
estadística y las matemáticas son disciplinas diferentes.
(Est.uc3m.es, 2020). La Estadística se ocupa de la recolección,
agrupación, presentación, análisis e interpretación de datos.
A menudo se llaman estadísticas a las listas de estos datos, cosa que
crea una cierta ambigüedad, que no debería originarnos confusiones.
La Estadística no son sólo los resultados de encuestas, ni el cálculo
de unos porcentajes, la Estadística es un método científico que pretende
sacar conclusiones a partir de unas observaciones hechas.
(GestioPolis.com, 2020).La estadística es la ciencia que se encarga de
recopilar, organizar, procesar, analizar e interpretar datos con el fin de
deducir las características de un grupo o población objetivo, pero esta sería
solo una visión estrecha de lo que comprende esta rama del saber. A
continuación se hace una muy breve introducción teórica al amplio concepto
de la estadística. De acuerdo a diferentes autores recopilados por
GestioPolis.com:
3
La estadística es la ciencia que estudia cómo debe emplearse la
información y cómo dar una guía de acción en situaciones prácticas
que entrañan incertidumbre. (Gutiérrez, p. 23)1
La estadística es la ciencia de los datos, la cual implica su recolección,
clasificación, síntesis, organización, análisis e interpretación, para la
toma de decisiones frente a la incertidumbre (Ángel, p. 28)2
La estadística es la rama del conocimiento humano que tiene como
objeto el estudio de ciertos métodos inductivos aplicables a
fenómenos susceptibles de expresión cuantitativa. (López, p. 1)3
Es el arte de aprender a partir de los datos. Está relacionada con la
recopilación de datos, su descripción subsiguiente y su análisis, lo que
nos lleva a extraer conclusiones. (Ross, p. 3)4
Es una ciencia exacta cuyo objetivo fundamental es el estudio de
diversas formas de comportamiento de la sociedad, para lo cual se
fundamenta en el uso de diversos métodos y procedimientos
matemáticamente demostrables de manera formal y
rigurosa. (Cóndor, p. 10)5
Es una ciencia que facilita la toma de decisiones mediante la
presentación ordenada de los datos observados en tablas y gráficos
estadísticos, reduciendo los datos observados a un pequeño número
de medidas estadísticas que permitirán la comparación entre
diferentes series de datos y estimando la probabilidad de éxito que
tiene cada una de las decisiones posibles. (Fernández et.al, p. 18)6
1
Ángel Gutiérrez, Julio César. Estadística general aplicada. Universidad Eafit, 1998.
2
Gutiérrez Cabria, Segundo. Filosofía de la estadística, Universidad de Valencia,
1994.
3
López Cazuzo, Rafael. Cálculo de probabilidades e inferencia estadística,
Universidad Católica Andrés Bello, 2006.
4
Ross, Sheldon M. Introducción a la estadística, Editorial Reverté, 2007.
5
Cóndor E., Elmer. Teoría de la probabilidad y aplicaciones estadísticas.
6
Fernández, Santiago; Cordero Sánchez, José María; Córdoba Largo, Alejandro; Cordero,
José María. Estadística descriptiva, ESIC Editorial, 2002.
4
RAMAS DE LA ESTADÍSTICA
5
Una práctica común para realizar un estudio estadístico aplicado a un
problema, es el de iniciar determinando una población, la cual puede ser de
diversos temas.
Un ejemplo común de población es la población total de un país, por
ello, cuando realizan un censo nacional de población, se está realizando un
estudio estadístico.
Algunas disciplinas especializadas de la estadística son: Ciencias
actuariales, bioestadística, demografía, estadística industrial, física
estadística, encuestas, estadísticas en las ciencias sociales, econometrías,
etc.
En la psicología, la disciplina de la psicometría, la cual se especializa
en y cuantificar variables psicológicas propias de la mente humana,
utilizando procedimientos estadísticos.
1.1.- Ramas principales de la estadística
La estadística se divide en dos grandes áreas: estadística descriptiva
y estadística inferencial, las cuales comprenden la estadística aplicada.
Además de estas dos áreas, existe la estadística matemática, la cual
comprende las bases teóricas de la estadística.
1.2.- Estadística descriptiva
La estadística descriptiva es la rama de la estadística que describe o
resume de forma cuantitativa (medible) características de una colección de
una recolección de información.
Es decir, la estadística descriptiva se encarga de resumir una muestra
estadística (conjunto de datos obtenidos de una población) en lugar de
aprender sobre la población que representa la muestra.
Algunas de las medidas comúnmente utilizadas en la estadística
descriptiva para describir un conjunto de datos son las medidas de tendencia
central y las medidas de variabilidad o dispersión.
6
En cuanto a las medidas de tendencia central, se utilizan medidas
como la media, la mediana y la moda. Mientras que en las medidas de
variabilidad se utilizan la varianza, la curtosis, etc.
La estadística descriptiva suele ser la primera parte a realizar en un
análisis estadístico. Los resultados de estos estudios suelen ser
acompañados de gráficos, y representan la base de casi cualquier análisis
cuantitativo (medible) de datos.
Un ejemplo de estadística descriptiva podría ser considerar un número
para resumir que tan bien se está desempeñando un bateador de béisbol.
Así, el número se obtiene por el número de hits que ha dado un
bateador dividido entre el número de veces que ha estado al bate. Sin
embargo, este estudio no dará información más específica, como cuáles de
esos bateos han sido Home Runs.
Otros ejemplos de estudios de estadística descriptiva pueden ser: La
media de edad de los ciudadanos que viven en una cierta área geográfica, la
longitud media de todos los libros referentes a un tema específico, la
variación respecto al tiempo que los visitantes pasan navegando en una
página de internet.
1.3.- Estadística inferencial
La estadística inferencial se diferencia de la estadística descriptiva
principalmente por el uso de la inferencia y la inducción.
Es decir, esta rama de la estadística busca deducir propiedades de
una población estudiada, es decir, no solo recolecta y resume los datos, sino
que busca explicar ciertas propiedades o características a partir de los datos
obtenidos.
En este sentido, la estadística inferencial implica obtener las
conclusiones correctas de un análisis estadístico realizado mediante
estadística descriptiva.
7
Por ello, muchos de los experimentos en ciencias sociales involucran
un grupo de población reducido, así mediante inferencias y generalizaciones
se puede determinar cómo la población en general se comporta.
Las conclusiones obtenidas mediante la estadística inferencial están
sujetas a la aleatoriedad (ausencia de patrones o regularidades) pero
mediante la aplicación de los métodos adecuados se logra la obtención de
resultados relevantes.
Así, tanto la estadística descriptiva como la estadística inferencial van
de la mano.
La estadística inferencial se divide en:
Estadística paramétrica
Comprende los procedimientos estadísticos basados en la distribución
de los datos reales, los cuales se determinan mediante un número
finito de parámetros (número que resume la cantidad de datos
derivados de una variable estadística).
Para aplicar procedimientos paramétricos, en su mayoría, se requiere
conocer previamente la forma de distribución para las formas
resultantes de la población estudiada.
Por ello, si se desconoce en su totalidad la distribución que siguen los
datos obtenidos, se debe utilizar un procedimiento no paramétrico.
Estadística no paramétrica
Esta rama de la estadística inferencial comprende los procedimientos
aplicados en pruebas y modelos estadísticos en los cuales su
distribución no se ajusta a los llamados criterios paramétricos. Al ser
los datos estudiados los que definen su destribución, está no puede
ser definida previamente.
La estadística no paramétrica es el procedimiento que debe ser
elegido al desconocer si los datos se ajustan a una distribución
conocida, de manera que pueda ser un paso previo al procedimiento
paramétrico.
8
Así mismo, en un prueba no paramétrica, las posibilidades de error se
disminuyen mediante el uso de tamaños muestrales adecuados.
1.4.- Estadística matemática
Se ha mencionado de igual forma la existencia de la Estadística
Matemática, como disciplina de la estadística.
Esta consiste en una escala previa en el estudio de la estadística, en
la cual usan la teoría de la probabilidad (rama de las matemáticas que
estudia los fenómenos aleatorios) y otras ramas de las matemáticas.
La estadística matemática consiste en la obtención de información a
partir de los datos y utiliza técnicas matemáticas tales como: análisis
matemático, álgebra lineal, análisis estocástico, ecuaciones diferenciales,
etc. Así, la estadística matemática ha sido influenciada por la estadística
aplicada.
2.- (Alcaste.com, 2016).
Dos ramas de la estadística
• La estadística descriptiva: Trata de “describir” y analizar algunos
caracteres de los individuos de un grupo dado, sin extraer conclusiones para
un grupo mayor. Para este estudio, se siguen estos pasos: - Selección de
caracteres que interese estudiar. - Análisis de cada carácter: diseño de la
encuesta o del experimento y recogida de datos. - Clasificación y
organización de los resultados en tablas de frecuencias. - Elaboración de
gráficos, si conviene, para divulgarlos a un público amplio (no experto). -
Obtención de parámetros: valores numéricos que resumen la información
obtenida.
• La estadística inferencial: Trabaja con muestras y pretende, a partir
de ellas, “inferir” características de toda la población. Es decir, se pretende
tomar como generales propiedades que solo se han verificado para casos
particulares. En ese proceso hay que operar con mucha cautela: ¿Cómo se
elige la muestra?, ¿Qué grado de confianza se puede tener en el resultado
obtenido?
9
UNIDAD Nº1: ESTADÍSTICA DESCRIPTIVA
10
en Egipto por Moisés según consta la Biblia y el encabezamiento que fue
realizado por los romanos en Judea.
Con respecto a lo antes planteado, se dice que en México, en el año
1116 durante la segunda migración de las tribus chichimecas el rey Xólotl
decretó que fueran registrados todos sus súbditos. Para contarlos, cada uno
tiró una piedra en un montón al que se llamó Nepohualco; el proceso contó
un total de 3.200.000 personas. A partir del siglo XIX, entre otros, con la
contribución de Adolphe Quetelet (1796-1874), se establecieron otros
procesos de cálculo de probabilidades para fijar y analizar el tipo de datos
que sistematizan algunos fenómenos.
2.- (UniversoFormulas.com, 2019)
La estadística descriptiva es la rama de la estadística que recolecta,
analiza y caracteriza un conjunto de datos (peso de la población, beneficios
diarios de una empresa, temperatura mensual,…) con el objetivo de describir
las características y comportamientos de este conjunto mediante medidas de
resumen, tablas o gráficos.
11
de los métodos de organizar datos numéricos para que se haga fácil su
interpretación ejemplo: tablas, gráficos, diagramas, etc.
La estadística descriptiva implica la abstracción de varias propiedades
de los conjuntos de observaciones, mediante el empleo de métodos gráficos,
tabulares o numéricos. Entre estas propiedades están la frecuencia con que
se dan varios valores en la observación, la noción de un valor típico o usual,
la cantidad de variabilidad en un conjunto de datos observados y la medida
de relaciones entre 2 o más variables.
El campo de la estadística descriptiva no tiene que ver con las
implicaciones o conclusiones que se puedan deducir del conjunto de datos.
La estadística descriptiva sirve como método para organizar datos y poner de
manifiesto sus características esenciales con el propósito de llegar a
conclusiones.
La presentación de la información estadística se puede realizar de las
formas siguientes:
Textual (en forma de texto).
Cuadros.
Gráficos.
12
Conceptos básicos en estadística descriptiva
1.- (Sálas, Remuzgo, Jordá, & Sarabia, 2019)
Para estos autores estos son:
Población: Conjunto de individuos o elementos que tienen la
propiedad o característica que se desea estudiar.
Muestra: Subconjunto representativo de la población.
Individuo: Cualquier elemento que posea la propiedad o característica
que se desea estudiar.
Variable estadística: Característica que se desea estudiar. Las
distintas observaciones de la variable constituyen los datos de la
investigación.
Tipos de variables estadísticas
1.- (Formulas, 2018)
Las variables estadísticas se pueden clasificar por diferentes criterios.
Según su medición existen dos tipos de variables:
Cualitativa (o categórica): son las variables que pueden tomar
como valores cualidades o categorías.
Ejemplos:
Sexo (hombre, mujer)
Salud (buena, regular, mala)
Cuantitativas (o numérica): variables que toman valores
numéricos.
Ejemplos:
Número de casas (1, 2,…). Discreta.
Edad (12,5; 24,3; 35;…). Continua.
Las variables se pueden clasificar también según si son
independientes o dependientes:
13
Variable independiente: Es una variable que su valor no
depende de otra variable. La variable independiente suele
representarse en las gráficas en el eje de abscisas (x).
En un diseño experimental a la variable independiente se le
suele denominar también variable de entrada, o variable
manipulada.
Variable dependiente: Es una variable cuyos valores dependen
de los valores que tome otra variable. Se representa en el eje
de ordenadas (y).
2.- (Fidias, 2006)
Hace la siguiente clasificación:
Variables Cualitativas: También llamadas categóricas, son
características o atributos que se expresan de forma no numérica,
éstas pueden ser:
Dicotómicas: se expresan en solo dos clases o categorías ejm.
sexo: masculino o femenino, tipos de universidades: públicas o
privadas.
Policotómicas: Se manifiesta en más de dos categorías. Ejm.
Marcas de computadoras, clases sociales, tipos de empresas.
Variables cuantitativas: Son aquellas que se expresan en valores o
datos numéricos. Ejm. Cantidad de habitantes de una región, número
de alumnos de un aula. Y se clasifican en:
Continuas: Son aquellas que pueden adoptar entre dos
números puntos de referencias intermedio. Las calificaciones
académicas (10.5, 14.6, 18.7, etc.). Es decir, adoptan números
decimales.
Discretas: Son aquellas que no admiten posiciones intermedias
entre dos números. Ej., en Barinas la división de territorial la
constituyen 11 municipios por no (10.5 u 11.5 municipios). Es
decir, asumen cifras enteras.
14
Por otra parte, las variables, según su función, se clasifican en:
Variable Independiente: es aquella característica o propiedad que se
supone ser la causa del fenómeno estudiado. En investigación
experimental se llama así, a la variable que el investigador manipula.
Por ej. La dieta a la que es sometida un grupo de pacientes obesos.
Variable Dependiente: son aquellas que se modifican por acción de la
variable independiente. Constituyen los efectos o consecuencias que
se miden y que dan origen a los resultados de la investigación. Ej. El
peso corporal de los integrantes de un grupo o muestra
Variable Interviniente: son las que se interponen entre la variable
independiente y la dependiente, pudiendo influir en la modificación de
esta última. En un diseño experimental este tipo de variable debe ser
controlada con el fin de comprobar que el efecto es debido a la
variable independiente y no a otros factores. Ejm. El ejercicio físico
practicado por el grupo. Ante esta situación, es probable que el
investigador controle dicha variable mediante la prohibición del
ejercicio, durante el período de la administración de la dieta, para
tener así la certeza de que la modificación del peso se debe a la dieta
y no al ejercicio.
Escalas de medición en estadística
1.- (Anderson, 2016)
Como hemos dicho, para que los datos tengan sentido es necesario
compararlos. Y para poder compararlos debemos utilizar escalas de
medición. Dichas escalas tendrán diferentes propiedades en función de las
características de los datos que se compararán. En estadística existen cuatro
escalas de medición: nominal, ordinal, de intervalo y de razón.
15
Escala nominal
Cuando un dato identifica una etiqueta (o el nombre de un atributo) de
un elemento, se considera que la escala de medición es una escala
nominal. En esta carecen de sentido el orden de las etiquetas, así
como la comparación y las operaciones aritméticas. La única finalidad
de este tipo de datos es clasificar a las observaciones. Ejemplo:
Una variable que indica si el visitante de este post es «hombre» o
«mujer».
En esta variable se tienen dos etiquetas para clasificar a los visitantes.
El orden carece de sentido, así como la comparación u operaciones
aritméticas.
Escala ordinal
Cuando los datos muestran las propiedades de los datos nominales,
pero además tiene sentido el orden (o jerarquía) de estos, se utiliza
una escala ordinal. Ejemplo:
Una variable que mide la calidad de un post. La variable puede tomar
valores enteros del 1 al 5, donde el valor 1 es el peor y el 5 el mejor.
En esta variable sigue sin tener sentido las operaciones aritméticas,
pero ahora sí tiene sentido el orden. Si un post tiene valor 4 y otro
tiene valor 2, el primero se entiende que es mejor que es segundo.
Escala de intervalo
En una escala de intervalo, los datos tienen las propiedades de los
datos ordinales, pero a su vez la separación entre las variables tiene
sentido. Este tipo de datos siempre es numérico, y el valor cero no
indica la ausencia de la propiedad. Veamos un ejemplo:
La temperatura (en grados centígrados) media de una ciudad.
En esta escala, los número mayores corresponden a temperaturas
mayores. Es decir, el orden importa, pero a la vez la diferencias entre
las temperaturas importa.
16
Escala de razón
En una escala de razón, los datos tienen todas las propiedades de los
datos de intervalo, y la proporción entre ellos tiene sentido. Para esto
se requiere que el valor cero de la escala indique la ausencia de la
propiedad a medir. Ejemplos de este tipo de variables son:
El peso de una persona al tiempo utilizado para una tarea.
Una variable que mide el salario de una persona.
En esta variable, si una persona gana 100, y otra 10, la primera
gana más que la segunda (comparación). También tiene
sentido decir que la primera gana 90 más que la segunda
(diferencia), o que gana 10 veces más (proporción).
2.- (Giampaolo Orlandon, 2010)
La medición puede definirse como la asignación de números a objetos
y eventos de acuerdo con ciertas reglas; la manera como se asignan esos
números determina el tipo de escala de medición (Stevens, 1946; Cohen y
Cohen, 1975; Saris y Stronkhorst, 1984). Esto conduce a la existencia de
diferentes tipos de escalas, por lo que el problema se transforma en explicitar
a) las reglas para asignar números,
b) las propiedades matemáticas de las escalas resultantes, y
c) las operaciones estadísticas aplicables a las medidas hechas
con cada tipo de escala.
La clasificación de las escalas de medición tiene una historia
interesante. La Asociación Británica para el Avance de la Ciencia (British
Association for the Advancement of Science), en 1932 designó un comité
para resolver el problema de la medición de sensaciones humanas. Este
comité, en representación de la sección A (ciencias matemáticas y físicas) y
la sección J (psicología) de la asociación, fue instruido para considerar la
posibilidad de estimar cuantitativamente los eventos sensoriales (¿es posible
medir la sensaciones humanas?). Aún en 1938 no se había producido un
resultado definitivo. El reporte final del comité seleccionó un ejemplo
17
concreto de escala sensorial. Tomó la escala de ruido Sone (S.S. Stevens y
H. Davis, 1938), que propone medir la magnitud subjetiva de una sensación
auditiva basándose en otra escala básica usada para medir longitud y peso.
Hubo desacuerdo en el comité de 19 miembros. Uno de ellos declaró
que cualquier norma que trate de expresar una relación cuantitativa entre
intensidad de una sensación y la intensidad del estímulo que la produce no
tiene significado hasta que pueda darse algún sentido al concepto de adición
aplicada a la sensación. Stevens, sin embargo, plantea que puede llegarse a
un acuerdo si se reconoce que la medición existe en varias formas y que las
escalas de medición pueden ser clasificadas en clases, según las
operaciones empíricas que deben hacerse en el proceso de medición y las
propiedades matemáticas de la escala.
Siguiendo a Stevens (1946, 1957), las escalas de medición se
clasifican en cuatro grupos: escala nominal, ordinal, intervalo y escala de
razón. Desde el punto de vista de las propiedades matemáticas y
estadísticas, la escala de medición más rudimentaria es la nominal, siendo la
más completa la escala de razón.
Para entender y usar apropiadamente las diferentes técnicas del
análisis estadístico, es necesario identificar previamente la escala de
medición correspondiente, ya que cada escala tiene sus propiedades
matemáticas, que determinan el análisis estadístico apropiado en cada caso;
esto, a su vez, requiere conocer las propiedades del sistema numérico.
Las propiedades matemáticas de los números que se van a analizar
determinan la clase de operación matemática permitida, indicando, a su vez,
el tipo de análisis estadístico que puede usarse. Las propiedades del sistema
numérico asociadas con las escalas de medición son la identidad, magnitud,
igual intervalo y cero absoluto (Stevens, 1957):
1. Identidad: cada número tiene un significado particular.
2. Magnitud: los números tienen un orden inherente ascendente o
descendente.
18
3. Intervalos iguales: las diferencias entre números en cualquier
punto de la escala son las mismas (la diferencia entre 10 y 20
es la misma que entre 100 y 110).
4. Cero absoluto: el punto cero en la escala de medición
representa la ausencia de la propiedad que se estudia.
A continuación se presenta un resumen de las características,
propiedades y aplicaciones de cada una de las escalas mencionadas
(Stevens, 1957; Cohen y Cohen, 1975; Saris, 1984)
Escala nominal. En esta escala las unidades observacionales (UO) se
agrupan en clases excluyentes según determinada propiedad, con lo
que se define una partición sobre el conjunto de tales unidades. Los
números se usan como identificadores o nombres. Cuando se estudia
el desempleo de un país y se incluye la variable sexo, se codifica
masculino como 1 y femenino como 2, por ejemplo; los números1y2
representan categorías de datos: son simples identificadores y son
completamente arbitrarios. La operación matemática permitida es el
conteo.
Escala ordinal: Surge a partir de la operación de ordenamiento; en
esta escala se habla de primero, segundo, tercero. No se sabe si
quien obtiene el primer puesto está cerca o lejos del segundo puesto.
Los valores de la escala representan categorías o grupos de
pertenencia, con cierto orden asociado, pero no una cantidad
mensurable. La escala ordinal tiene las propiedades de identidad y
magnitud. Los números representan una cualidad que se está
midiendo, y expresan si una observación tiene más de la cualidad
medida que otra UO. La distancia entre puntos de la escala no es
constante: no se puede determinar la distancia entre las categorías,
sólo es interpretable el orden entre sus valores. Ejemplos: situación
socioeconómica, nivel educativo.
19
Escala de intervalos. Esta escala representa magnitudes, con la
propiedad de igualdad de la distancia entre puntos de escala de la
misma amplitud. Aquí puede establecerse orden entre sus valores,
hacerse comparaciones de igualdad, y medir la distancia existente
entre cada valor de la escala. El valor cero de la escala no es
absoluto, sino un cero arbitrario: no refleja ausencia de la magnitud
medida, por lo que las operaciones aritméticas de multiplicación y
división no son apropiadas. Cumple con las propiedades de identidad,
magnitud e igual distancia. La igual distancia entre puntos de la escala
significa que puede saberse cuántas unidades de más tiene una UO
comparada con otra, con relación a cierta característica analizada. Por
ejemplo, en la escala de temperatura centígrada puede decirse que la
distancia entre 25° y 30°C es la misma que la existente entre 20° y 25°
C, pero no puede afirmarse que una temperatura de 40° C equivale al
doble de 20° C en cuanto a intensidad de calor se refiere, debido a la
ausencia de cero absoluto. Así, los valores numéricos en la escala de
temperatura centígrada se pueden expresar en valores de la escala
Fahrenheit mediante la ecuación C=a+bF (a= -17.778; b=5/9).
Escala de razón. Corresponde al nivel de medición más completo.
Tiene las mismas propiedades que la escala intervalos, y además
posee el cero absoluto. Aquí el valor cero no es arbitrario, pues
representa la ausencia total de la magnitud que se está midiendo. Con
esta escala se puede realizar cualquier operación lógica
(ordenamiento, comparación) y aritmética. A iguales diferencias entre
los números asignados corresponden iguales diferencias en el grado
de atributo presente en el objeto de estudio. Ejemplos: longitud, peso,
distancia, ingresos, precios.
A manera de conclusión es importante tener siempre presente la
escala de medición que se está usando, pues no todos los procedimientos
estadísticos son apropiados para cualquier análisis. En general, las variables
20
estadísticas se clasifican en variables continuas o cuantitativas y variables
discretas o cualitativas, según el nivel de escala en que estén medidas. Las
variables continuas se refieren a magnitudes medidas en escala de intervalos
o de razón, mientras que las variables discretas comprenden magnitudes
medidas en escalas de nivel nominal y ordinal. En la Ilustración Nº6 se
resumen las principales características y propiedades de las escalas.
Nivel educativo
Ordinal Magnitud Ordenar Mediana Dureza de los
rango minerales
21
Ilustración Nº 7: Variables categóricas y numéricas en las escalas de medición
22
estropeados por sesgos, ambigüedades u otro tipo de error, es improbable
que incluso las metodologías más finas y sofisticadas sean suficientes para
compensar tales deficiencias.
1.1.- Obtención de datos
Existen muchos métodos mediante los cuales podemos obtener los
datos necesarios. Podemos:
Buscar datos a publicados por fuentes gubernamentales industriales o
individuales
Diseñar un experimento para obtener los datos necesarios
Concluir un estudio
Hacer observaciones de comportamiento
1.1.1.- Utilización de fuentes de datos publicados
Sin importar la fuente utilizada, se hace una distinción entre el
recolector original de los datos, la organización o individuos que compilan
estos en tablas y diagramas. El recolector de datos es la fuente primaria,
mientras que el compilador de los datos es la fuente secundaria.
1.1.2.- Diseño de un experimento
Un segundo método para obtener los datos necesarios es la
experimentación. En un experimento se ejerce un control estricto sobre el
tratamiento dado a los participantes. Por ejemplo, en un estudio para probar
la eficacia de una pasta de dientes, el investigador determinaría qué
participantes del estudio usarían la nueva marca y cuáles no, en lugar de
dejarle la elección a los sujetos. Encuestas
1.1.3.- Conducción de una encuesta
Un tercer método para obtener datos es aplicar una encuesta.
Simplemente se formulan preguntas respecto a sus opiniones actitudes
comportamiento y otras características. Después, sus respuestas se editan,
codifican y tabulan para su análisis.
23
1.1.4.- Realización de un estudio observacional
En un estudio observacional, el investigador observa el
comportamiento de interés directamente, por lo común en su entorno natural.
Hay una amplia variedad de formatos, los cuales pretenden recolectar
información en un grupo establecido para ayudar en el proceso de toma de
decisiones.
1.2.- Tipos de datos
Existen básicamente dos tipos de variables que producen dos tipos de
datos: categóricas y numéricas. Las variables aleatorias categóricas
producen respuestas categóricas, mientras que las variables aleatorias
numéricas producen respuestas numéricas. La variable aleatoria numérica
puede considerarse como discreta, mientras que la otra puede pensarse
como continúa.
Los datos discretos son respuestas numéricas que surgen de un
proceso de conteo, mientras que los datos continuos son respuestas
numéricas que surgen de un proceso de medición.
1.3.- Niveles de medición y tipos de escala de medición
De lo analizado anteriormente, observamos que nuestros datos
resultantes también pueden describirse de acuerdo con el nivel de medición
obtenido. Los cuatro niveles de medición ampliamente reconocidos son, del
nivel de medición más débil al más fuerte, las escalas nominal, ordinal, de
intervalo y de cociente.
1.3.1.- Escala nominal y ordinal.
Se dice que los datos obtenidos de una variable categórica han sido
medidos en una escala nominal o en una escala ordinal. Si los datos
observados simplemente se clasifican en las diversas categorías distintas en
las que no se implica ningún orden, se obtiene un nivel de medición nominal.
Por otra parte, si los datos observados se clasifican en las distintas
categorías en las que se implica algún orden, se obtiene un nivel de medición
ordinal.
24
1.3.2.- Escalas de intervalo y de cociente.
Una escala de intervalo es una escala ordenada en la que la diferencia
entre las mediciones es una cantidad significativa.
Si, además de que las diferencias son significativas e iguales en todos
los puntos de la escala, existe un punto cero verdadero que pueda ser
tomado en cuenta con los cocientes de mediciones, entonces la escala es
una escala de cociente.
Como resumen podemos decir que la necesidad de recolectar datos
reside en cuatro razones (recordemos: proporcionar, medir, ayudar y
satisfacer) y que además los mismos se pueden obtener de diversas formas:
datos publicados, diseñar un experimento, realizar una encuesta o llevar a
cabo un estudio observacional. De allí podemos obtener dos tipos diferentes
de datos, categóricos o numéricos, que se pueden medir a través de una
escala nominal y ordinal o una escala de intervalo y de cociente
25
humana. Es por ello que la forma de recopilación de dichos datos es
fundamental, buscando en todo momento que sean representativos de un
universo más grande. Algunas de las aplicaciones de este procedimiento
estadístico en función de datos recopilados pueden referir al ámbito de la
política, de las finanzas, del mercadeo, etc.
La evaluación de los datos en estadística se fundamenta en un
proceso inductivo. Esto significa que a partir de un número pequeño de datos
particulares, se intenta sacar una conclusión general. Desde el punto de vista
lógico, existen muchas objeciones a dicho proceso; en efecto, el hecho de
que un número determinado de casos manifieste una regularidad no significa
que puede traspasarse la misma de forma categórica a un número mayor de
casos. Es por ello que este tipo de evaluaciones siempre están supeditadas
a error. No obstante, es sorprendente observar el grado de eficacia que se
ha llegado a alcanzar en este tipo de consideraciones. Dista de ser
casualidad que se empleen para hacer estudios de las más diversas
materias.
Un ejemplo del uso de los datos estadísticos puede ofrecerlo el ámbito
de la política. Por ejemplo, cuando se requiere hacer un sondeo de la
intención de voto a un determinado candidato se suelen tomar encuestas en
distintos estratos sociales y en distintas regiones del país. Este hecho hace
que la muestra carezca de alguna desviación y que sea aleatoria. Cuando se
tienen los datos, se establece que tipo de porcentaje votaría a dicho
candidato en función del total de la gente entrevistada; ese porcentaje sería
trasladable al conjunto de la población del país en cuestión. Así, si el diez por
ciento de una muestra de cien mil casos tomaría una determinada acción, se
tiende a concluir que ese mismo porcentaje la tomaría considerando un
millón de casos.
Como vemos, el proceso tiene ciertas objeciones ciertas. Son
conocidas y aceptadas, evaluando por lo tanto un margen de error en las
conclusiones establecidas. No obstante, este tipo de valoraciones de los
26
datos estadísticos permite generar un panorama lo suficientemente claro de
una circunstancia futura, hecho que como sabemos es algo útil de concretar.
2.- (Díaz Peña & Chávez Prieto, 2012)
Los datos estadísticos son importantes gracias a que nos permiten
tener números certeros en gran cantidad de investigaciones u otras cosas,
logrando un número en común certero de informaciones que son acumuladas
con un propósito en común, como en el caso de los datos estadísticos de
una población necesario para darse cuenta de la cantidad de habitantes o de
la tendencia de etnias en esa población en particular, además los datos
estadísticos son tan exactos que permiten hacer el mismo proceso a lugares
de gran extensión como por ejemplo Colombia, logrando descifrar con
información exacta gran variedad de datos en particular.
Ilustración Nº 10: Importancia de los datos estadísticos por Néstor Chávez y Díaz Jorge
27
Para concluir los datos estadísticos son una herramienta informática
de la actualidad que permite recopilar y medir una gran cantidad de
información nosotros opinamos que los datos estadísticos son un
herramienta que han logrado revolucionar al mundo entero, logrando un
mayor conocimiento en aspectos que circundan con frecuencia en la
sociedad actual en todos sus campos y diversidades logrando mantener a la
población al tanto del medio que los rodea permanentemente.
Organización de datos estadísticos
1.- (Aray & Maican, 2017)
La estadística con frecuencia se realiza con la intención de llegar a
establecer conclusiones o a obtener resultados, esto demanda muchas
veces estudiar centenares de cifras de cosas, objetos, personas o grupos.
Por ejemplo un caso extremo de estudio que involucra a la estadística es la
realización de un censo, a pesar de la ayuda de procedimientos complejos
diseñados para tal fin, constituye siempre una tarea gigantesca resumir y
describir las enormes cantidades de datos que se generan de los proyectos
de investigación. Usando los principios más elementales de la estadística
descriptiva, es posible describir las características de los datos con bastante
claridad y precisión, de modo que las tendencias o generalidades se puedan
descubrir más rápidamente y comunicar con mayor facilidad. Primero, es
menester clarificar que dependiendo del nivel de medición de la variable se
posibilitará su organización.
1.1.- Organización de los datos
Siendo el dato el material que se debe procesar, es decir, la materia
prima de la estadística:
El primer paso es entonces la recolección de datos, para lo
cual se emplean diferentes técnicas, como la entrevista
personal, el cuestionario, la observación, etc.
El segundo paso es la organización y ordenamiento de los
datos, lo que se hace a través de tablas, las cuales pueden ser
28
por medio de una distribución de frecuencias simples o una
distribución de frecuencias con intervalos, en ambos casos
agrupando todos aquellos que corresponden a una mismo dato
nominal o variable y expresando en una columna el número de
veces que aparece esa variable.
La frecuencia es el número de veces que aparece cada variable
o dato nominal.
Una distribución de frecuencias es el resultado de organizar los
datos recolectados en grupos, mostrando la frecuencia de cada
uno. Esta puede ser simple o por intervalos.
1.2.- Distribución de frecuencias simple datos no agrupados
Organizar los datos recolectados, ya sea de menor a mayor o
viceversa, de manera que se muestre la frecuencia de cada uno de ellos, es
hacer una distribución de frecuencias simple. El primer paso es localizar el
dato menor y el dato mayor dentro del conjunto de datos recolectados aún en
desorden, en el caso que los datos sean de carácter numérico. Una vez
conseguido lo anterior, en una primera columna se escriben todos los
números que van desde el menor hasta el mayor, incluidos éstos. Luego, se
cuenta cuántas veces aparece el primer valor nominal, para lo cual se
aconseja ir marcando con una línea (/) cada vez que se cuente uno. El
proceso debe repetirse para cada variable. Finalmente se cuentan el número
de marcas que se hayan registrado para cada valor nominal y se procede a
construir la tabla definitiva.
1.3.- Distribución de frecuencias por intervalos o datos agrupados
Los datos recolectados pueden también organizarse por intervalos.
Cada intervalo se llama también clase. El ancho de clase o longitud del
intervalo es la resta del límite superior menos el límite inferior de cada clase
o intervalo. No debe confundirse el ancho de la clase con el número de datos
nominales que contiene el intervalo.
29
Cuando se trabaja con variables discretas, el ancho de clase o
longitud del intervalo es la resta del límite superior menos el
límite inferior de cada clase o intervalo, mientras que el número
de datos es la resta del límite superior menos el límite inferior
de cada clase o intervalo más 1.
Cuando se trabaja con variables continuas, el ancho de clase o
longitud del intervalo es, igual que antes, la resta del límite
superior menos el límite inferior de cada clase o intervalo,
mientras que el número de datos posibles que pudiera contener
el intervalo no es posible conocerlos porque caben todos los
valores intermedios.
A la organización de los datos recolectados en tablas por
intervalos se le llama distribución de frecuencias por intervalos.
La característica más importante es que el ancho de cada clase
o longitud del intervalo debe ser el mismo para cada intervalo.
1.4.- Porcentajes y porcentajes acumulados
Otras dos informaciones muy útiles dentro de la etapa de organización
de datos es calcular el porcentaje de cada variable conforme a su frecuencia,
lo mismo que su porcentaje acumulado, ya sea en una distribución de
frecuencias simple o por intervalos. Para calcular el porcentaje basta hacer
una regla de tres, en donde el porcentaje da cada variable o cada intervalo
se obtiene multiplicando el número de datos que contiene cada variable o
cada intervalo por 100% y dividiéndolo entre el número total de datos. Los
porcentajes acumulados se obtienen sumando a partir del primer resultado
los resultados siguientes hasta llegar hasta el último la suma debe dar 100%
para datos acumulados
A continuación presentaremos tablas de distribución simple para
variables categóricas: (nominal y ordinal) y variables numéricas.
30
Como aclaratoria las variables categóricas nominales solo se pueden
elaborar la columna de frecuencia, frecuencia relativa y frecuencia porcentual
ya que dichas variables no tienen ningún orden establecido.
Ejercicios sobre elaboración de tablas de frecuencia simple y de
intervalo
Ejemplo Nº1 (categórica nominal)
En una reunión donde se encontraban un grupo de personas. El
investigador Juan para su investigación les solicito por favor le indicasen el
título universitario obtenidos por ellos y se encontró con la siguiente
información: 14 abogados, 5 médicos, 12 docentes, 5 ingenieros y 4 no
poseían títulos. Construya con esta información una tabla de distribución de
frecuencia simple
Solución: como se puede observar no existe un orden lógico para colocar las
variables se puede comenzar con cualquiera de ellas, por estética las
ordenare en orden alfabético y elaboro la tabla obteniendo
Ilustración Nº 12: Tabla de distribución de frecuencia simple para una variable categórica
nominal
31
Solución:
A diferencia del ejemplo anterior, aquí podemos observar que en las
variable (vocales) hay un orden que respetar pues primero va la “a”, luego la
“e”, luego la “i”, luego la “o” y por último la “u”, por eso es que en la tabla se
pueden incluir las columnas de frecuencias acumuladas ya que se puede
preguntar cuántas o que porcentaje de vocales están por debajo de la vocal
“i” por ejemplo o por la vocal “u”
Aclaremos algo de ahora en adelante
Ilustración Nº 14: Tabla de distribución de frecuencia simple para una variable categórica
ordinal
32
33
Ejemplo Nº3 (numérica)
24 20 32 32 29 21 21 22 33
30 27 26 23 24 20 25 26 32
28 22 29 29 33 35 31 28 32
35 33 32 27 21 33 39 25 24
34
Procedimiento para elaborar la tabla para datos agrupados o por
intervalo
1. Lo primero es identificar los valores Mínimo y Máximo
2. Se calcula el rango R = Max – Min
3. Luego el número de intervalos “si no te dicen cuántos son en el
problema”, para calcularlos puedes utilizar la formula
35
10. La tabla se puede construir con estos pasos ayudados con Excel o
cualquier otro programa estadístico
Ejemplo Nº4 – (intervalos, números enteros)
Las notas de 35 alumnos en el examen final de estadística, calificado del
0 al 10, son las siguientes:
0; 0; 0; 0; 1; 1; 1; 1; 2; 2; 2; 3; 3; 3; 3; 4; 4; 4; 4; 5; 5; 5; 5; 6; 6; 6; 7; 7; 7; 8; 8;
8; 9; 10; 10.
Con los datos obtenidos, elaborar una tabla de frecuencias con 5
intervalos o clases.
Solución:
1. Min = 0 y Max = 10
2. Rango, R = Max – Min = 10 – 0 = 10
3. Número de intervalos “N” me lo da el problema N = 5
4. Calculamos la amplitud de clase o del intervalo
R 10
i= = =2
N 5
5. Construimos el primer intervalo
[ Min, Min+i−1 ] =[ 0,0+2−1 ] =[ 0,1 ]
6. Construimos nuestra tabla
36
Ejemplo Nº5 – (Intervalo – un decimal)
Un grupo de atletas se está preparando para una maratón siguiendo
una dieta muy estricta. A continuación, viene el peso en kilogramos que ha
logrado bajar cada atleta gracias a la dieta y ejercicios.
37
Total 20 1 100
Ilustración Nº 18: Tabla de distribución de frecuencia para datos agrupados (un decimal)
Gráficos estadísticos
Solo señalare los más usados, sobre todo en educación y en las
presentaciones en PowerPoint
Centen 261
2000
o
Trigo 6436 0
Avena Cebada Centeno Trigo
38
Total 22952
Ilustración Nº 19: Ejemplo gráfico de barras vertical “Producción Agrícola en España 2019”
Vocales frecuencia
a 4
e 8
i 1
o 3
u 2
Total 18
39
GRÁFICO DE BARRAS HORIZONTAL
u
o
GRÁFICO DE BARRAS HOR-
IZONTAL
i
0 1 2 3 4 5 6 7 8 9
Producción Agrícola
en España 2019
Cereale Millones
s de
Toneladas
Avena 4310
Cebada 11945
Centeno 261
Trigo 6436
Total 22952
40
GRÁFICO DE SECTOR PRODUCCIÓN
AGRICOLA DE UN PAÍS
19%
Avena
28%
Cebada
Centeno
Trigo
1%
52%
Vocales frecuencia
a 4
e 8
i 1
o 3
u 2
Total 18
a
17% e
i
o
41 u
6%
44%
3.- Histograma
Un Histograma es un tipo especial de gráfica de barras que despliega
la variabilidad dentro de un proceso, también toma datos variables (tales
como alturas, pesos, densidades, tiempo, temperaturas, etc.) y despliega su
distribución. Un histograma es una representación gráfica de una variable en
forma de barras, donde la superficie de cada barra es proporcional a la
frecuencia de los valores representados. En el eje vertical se representan las
frecuencias, y en el eje horizontal los valores de las variables, normalmente
señalando las marcas de clase, es decir, la mitad del intervalo en el que
están agrupados los datos.
3.1.- Tipos de histograma
Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa) mediante la
altura de la barra la cual es proporcional a la frecuencia simple de la
categoría que representa.
Diagramas de barras compuesta
Se usa para representar la información de una tabla de doble entrada
o sea a partir de dos variables, las cuales se representan así; la altura
de la barra representa la frecuencia simple de las modalidades o
categorías de la variable y esta altura es proporcional a la frecuencia
simple de cada modalidad.
42
Diagramas de barras agrupadas
Se usa para representar la información de una tabla de doble entrada
o sea a partir de dos variables, el cual es representado mediante un
conjunto de barras como se clasifican respecto a las diferentes
modalidades.
43
Ilustración Nº 24: Histograma y polígono de frecuencia
5.- Ojiva
La representación gráfica de un cuadro de frecuencia acumulada son
curvas llamadas ojivas. En la gráfica de ojiva, el último intervalo no se une
con el eje horizontal.
La ojiva apropiada para información que presente frecuencias
mayores que el dato que se está comparando tendrá una pendiente negativa
(hacia abajo y a la derecha) y en cambio la que se asigna a valores menores,
tendrá una pendiente positiva. Una gráfica similar al polígono de frecuencias
es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a
una distribución acumulativa y de igual manera que éstas, existen las ojivas
mayor que y las ojivas menor que.
44
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS DATOS AGRUPADOS
Intervalo MC f F fr Fr %fr %Fr
[ 0,1 ] 0,5 8 8 0,23 0,23 23 23
[ 2,3 ] 2,5 7 15 0,20 0,43 20 43
[ 4,5 ] 4,5 8 23 0,23 0,66 23 66
[ 6,7 ] 6,5 6 29 0,17 0,83 17 83
[ 8,9 ] 8,5 4 33 0,11 0,94 11 94
[ 10,11 ] 10,5 2 35 0,06 100 6 100
Total 35 1 100
Ilustración Nº 26: Tabla de distribución de frecuencia para datos agrupados (números enteros)
Si nos ayudamos con Excel por ejemplo los gráficos del histograma, polígono
de frecuencia y ojiva para este ejemplo serían:
Ilustración Nº 27: Histograma del resultado de las notas obtenidas por los 35 alumnos
POLÍGONO DE FRECUENCIA
10
8 POLÍGONO DE
6 FRECUENCIA
4
2
0
0.5 2.5 4.5 6.5 8.5 10.5
45
Ilustración Nº 28: Polígono de frecuencia del resultado de las notas obtenidas por los 35
alumnos
Ilustración Nº 29: Ojiva del resultado de las notas obtenidas por los 35 alumnos
∑ xi
x= i=1
n
46
x : media o promedio
x i : datos
n :número de datos
Para datos agrupados por intervalo la formula sería
n
∑ xm f i i
x= i=1
n
x : media o promedio
x m : punto m edio de cada intervalo o marca de clase
i
47
1.1.- Ejemplos. (Araujo Oropeza, 2020)
1.1.1.- Para datos no agrupados
a. El profesor de la materia de estadística desea conocer el promedio de
las notas finales de los 10 alumnos de la clase. Las notas de los
alumnos son:
∑ xi
x= i=1
n
(3,2+3,1+2,4 +4,0+3,5+ 3,0+3,5+3,8+ 4,2+ 4,0) 34,7
x= = =3,47
10 10
Luego el promedio de notas de los 10 alumnos de la clase de
estadística es de 3,47
∑ xi
x= i=1
n
48
(125+145+ 143+ 157+164+154 +160+147) 1195
x= = ≅ 149,4
8 8
Luego el promedio de estatura de los ocho niños es de 149,4 cm
Ilustración Nº 33: Tabla de distribución de frecuencia para datos agrupados de las notas
49
n
∑ xm f i i
321
x= i=1 = =10,7
n 30
Luego el promedio de las notas es de 10,7 puntos
b. Una dieta realizada por 20 mujeres durante el período de 2 meses
reflejo que ellas rebajaron durante ese tiempo la siguiente cantidad de
kilogramos:
DATOS RESULTADOS KILOS PERDIDOS
0,95 1 2,3 1,88 0,99 1,44 2,55 2,48 1,75 2,99
1,65 2,76 1,44 1,23 3,45 2,66 0,99 3 2,56 3
Datos:
n 20
Min 0,95
Max 3,45
N 1+3,32log(20) 5,31942 6
Rango 2,5
i 0,416667 0,42
INTERVALOS
Xi Xs Xm f Xm*f
0,95 1,36 1,155 5 5,775
1,37 1,78 1,575 4 6,3
1,79 2,2 1,995 1 1,995
2,21 2,62 2,415 4 9,66
2,63 3,04 2,835 5 14,175
3,05 3,46 3,255 1 3,255
Total 20 41,16
Ilustración Nº 35: Tabla de distribución de frecuencia para datos agrupados de los kilos
rebajados
50
n
∑ xm f i i
41,16
x= i=1 = ≅ 2,06
n 20
Luego el promedio de los kilos rebajados por las mujeres, durante el
período de dos meses es de 2,06 Kg
2.- Mediana
Es el valor que divide a la serie de datos exactamente a la mitad; es
decir por debajo de la mediana esta el 50% de los datos o es lo mismo decir
por encima de la mediana esta el 50% de los datos.
Se representa por el símbolo M d y se lee mediana de los datos
recogidos en la muestra. (Solo puede calcularse para datos cuantitativos).
Para obtener la mediana de datos no agrupados, se ordenan estos de
menos a mayor y si:
El número de datos es impar, la mediana queda representada
por el término central de la serie de los datos ordenados de
menos a mayor
El número de datos es par la mediana queda determinada por
la semisuma de los dos términos centrales
M =L +
( n
2
−F )
i
a
d i
f
M d : Mediana
n
F : frecuencia que contiene a
2
F a : frecuencia acumulada anterior a F
Li :l í mite inferior del interv alo de la frecuencia acumulada F
51
i: amplitud del intervalo
n :número de elementos en la serie de datos
A continuación veremos algunos ejemplos aplicados a estás tres
situaciones
Resultados de un experimento
3 13 7 5 21 23 39 23 40 23 14 12 56 23 29
52
Resultados de un experimento
3 13 7 5 21 23 40 23 14 12 56 23 29
3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56
Ahora hay catorce números, así que no tenemos solo uno en el medio,
sino un par:
3, 5, 7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56
Para nuestro caso los números intermedios son 21 y 23, ya dijimos en
la teoría que la mediana es la semisuma de ellos o sea:
( 21+23 )
M d= =22
2
53
Entonces, para encontrar la mediana: suma los números 33ero y 34to
y divide entre 2.
Nota: cuando calculamos la mediana para datos no agrupados el valor que
resulta de la misma puede:
Repetirse con otros valores de la serie: lo importante es que a la
derecha e izquierda de ese número se distribuyan el 50% de los datos
No estar en la serie de números dados: los que están a la izquierda
deben ser menores que él y los que están a la derecha mayores y
también en cada caso se distribuyan con un 50% de la serie
2.1.3.- Para datos agrupados en intervalos
Vamos a retomar los que usamos para la media:
1. Primero teníamos que la tabla de la notas de los alumnos era:
En esta tabla voy a colocar solo las columnas que me interesan para
calcular la mediana:
54
Ilustración Nº 38: Tabla para calcular la mediana en el ejemplo del resultado en Matemática
n 30
a. Calculamos = =15
2 2
b. Buscamos en la columna de las frecuencias acumuladas la primera
clase que contenga el resultado y es la tercera
c. Aplicamos la formula y calculamos la mediana
M =L +
( n
2
−F ) a
i=10,5+
( 15−14 )
∗3 ≅ 10,8
d i
f 9
Es decir que por debajo o por encima de 10,8 está el 50% de los
resultados obtenidos por los alumnos en el examen de Matemática.
En esta tabla igual que en el ejercicio anterior voy a colocar solo las
columnas que me interesan para calcular la mediana:
56
n 20
a. Calculamos = =10
2 2
b. Buscamos en la columna de las frecuencias acumuladas la primera
clase que contenga el resultado y es la tercera
c. Aplicamos la formula y calculamos la mediana
M =L +
( n
2
−F ) a
i=1,785+
( 10−9 )
∗0,42=2,205
d i
f 1
Es decir que por debajo o por encima de 2,205 está el 50% de los
resultados obtenidos por las mujeres que realizaron la dieta.
3.- Moda
La moda estadística de un conjunto de datos de una muestra de una
población, se define como el número que más veces se repite dentro de esos
datos, es decir, aquel número que presenta una mayor frecuencia absoluta
dentro de la muestra.
La moda puede ser calculada tanto para variables cuantitativas como
para variables cualitativas.
La moda se abrevia de la siguiente manera M o se lee “moda de la
muestra”
Podemos distinguir distintos tipos de moda, en función del número de
números que se repitan una misma cantidad de veces, siendo ese número
de repeticiones el máximo del conjunto. Dicho así parece algo complicado,
pero es un término mucho más simple de lo que pueda parecer.
Para datos no agrupados puede ser
Unimodal: El dato que más se repite es uno solo.
Bimodal: cuando hay dos datos que se repiten la misma
cantidad de veces.
Multimodal: cuando hay tres o más datos que se repiten
la misma cantidad de veces
Para datos agrupados en intervalos. Usamos la formula
57
di
M o=Li + i
( d i +d s )
Dónde:
d i=f o −f i
d s =f o−f s
M o :modade la muestra
f o : frecuencia modal(ubicada en el intervaloque tengam á s da tos)
f i : frecuencia anterior a la frecuencia focal
f s :frecuencia superior a la frecuencia modal
Li :límite inferior del intervalo que con tiene la frecuencia focal
d i :diferencia entre la frecuencia modal y su frecuancia anterior
d s :diferencia entre la frecuenciamodal y su frecuencia superior
Notas:
En caso de que la frecuencia modal caiga en el primer intervalo
de la serie de datos la frecuencia anterior a ella vale cero
En caso de que la frecuencia modal caiga en el último intervalo
de la serie de datos la frecuencia superior a ella vale cero
En caso de que existan más de un intervalo con los mismos
valores en la frecuencia acumulada, la frecuencia modal es
aquella donde los valores de la frecuencia anterior y superior a
ella sean los mayores
3.1.- Ejemplos – datos no agrupados. (Araujo Oropeza, 2020)
3.1.1.- Unidimodal
Sea el conjunto de datos [2, 3, 4, 5, 5, 5, 6, 8, 8] la moda del conjunto de
datos es el número 5 porqué es el dato que más se repite (tres veces)
M o=5
58
3.1.2.- Bimodal
Sea el conjunto de datos [ 1 ,1 , 2 ,2 , 2 ,3 , 4 ,5. 5.5 ,6. 8 ] la moda del conjunto de
datos serían los valores 2 y 5 porqué son los que más se repiten y ambos lo
hacen tres veces
M 0=2 ; y M o=5
3.1.3.- Multimodal
Sea el conjunto de datos [ 1 ,1 , 2 ,3 , 3 , 3 , 4 , 5 ,6 ,6 ,6 , 7 , 8 , 8 , 8 , 9 ,10 , 10 ,10 ,11 ]
La moda de los datos serían los valores 3; 6; 8 y 10 porque son los que más
se repiten y lo hacen tres veces cada uno.
M o=3 ; M o =6 ; M o=8 , y M o=10
3.2.- Ejemplo datos agrupados por intervalos. (Araujo Oropeza, 2020)
3.2.1.- Volvamos al problema de las notas. Usamos la última tabla
problema para la mediana
Ilustración Nº 40: Tabla para el cálculo de la moda datos agrupados notas de un examen de
Matemática
Datos
f o=9 d i=9−6=3
f i=6 d s =9−5=4
f s=5
Li=10.5
59
di 3
i=3 M o=Li + i=10,5+ 3 ≅ 11,8
( d i +d s ) (3+ 4)
La nota que más se repite es aproximadamente 11,8 puntos en el
examen de Matemáticas.
60
3.2.2.- Tabla de frecuencias de un experimento en un laboratorio –
mayor frecuencia de datos primer intervalo
TABLA DE FRECUENCIA
Límite Límite
inferior superior
real INTERVALOS real
Li Xi Xs Ls f F
2,5 3 7 7,5 12 12
7,5 8 12 12,5 6 18
12,5 13 17 17,5 5 23
17,5 18 22 22,5 5 28
22,5 23 27 27,5 2 30
Total 30
Ilustración Nº 41: Tabla para el cálculo de la moda datos agrupados de un experimento
Datos
f o=12 d i=12−0=12
f i=0 d s =12−6=6
f s=6
Li=2,5
i=5
di 12
Solución M o=Li + i=2,5+ 5 ≅ 5,8
( d i +d s ) (12+6)
61
3.2.3.- Tabla de frecuencias de un experimento en un laboratorio –
mayor frecuencia de datos último intervalo – Calculo de la moda
TABLA DE FRECUENCIA
Límite Límite
inferior superior
real INTERVALOS real
Li Xi Xs Ls f F
2,5 3 7 7,5 12 12
7,5 8 12 12,5 8 20
12,5 13 17 17,5 5 25
17,5 18 22 22,5 5 30
22,5 23 27 27,5 20 50
Total 50
Ilustración Nº 42: Tabla para el cálculo de la moda datos agrupados de un experimento
Datos
f o=20 d i=20−5=15
f i=5 d s =20−0=20
f s=0
Li=22,5
i=5
di 15
Solución M o=Li + i=22,5+ 5 ≅ 24,6
( d i +d s ) (15+20)
62
3.2.4.- Dada una tabla de frecuencia para datos agrupado. Calcular la
moda de esa distribución
TABLA DE FRECUENCIA
Límite Límite
inferior superior
real INTERVALOS real
Li Xi Xs Ls f F
1,5 2 5 5,5 9 9
5,5 6 9 9,5 10 19
9,5 10 13 13,5 5 24
13,5 14 17 17,5 10 34
17,5 18 21 21,5 6 40
Total 40
Solución
Como hay dos clases que tienen la misma cantidad de elementos, que
son la segunda y la cuarta escojo la cuarta; porqué, las frecuencias
anterior y posterior a la frecuencia focal son mayores que los de la
segunda
Datos
f o=20 d i=20−5=15
f i=5 d s =20−6=14
f s=6
Li=13,5
i=4
di 15
Solución M o=Li + i=13,5+ 4 ≅15,6
( d i +d s ) (15+14)
63
4.- Ejercicios completos para hallar la media, mediana y moda – solo
aplicable a datos cuantitativos
4.1.- Datos no agrupados - (Araujo Oropeza, 2020)
Los pesos, en Kg, de 20 alumnos de cierto centro se señalan en la
siguiente tabla. Calcular la Media, mediana y moda de dichos datos.
Ilustración Nº 43: Tabla de datos 20 alumnos de un determinado centro educativo sobre sus
pesos
Media
51+47+55+ 53+49+ 47+ 48+50+43+ 60+45+54 +62+57+ 46+49+ 52+ 42+38+61
x=
20
1009
x= =50,45
20
La media de los pesos de los alumnos es 50,45 Kg
Mediana: Ordenamos los datos de menor a mayor
38-42-43-45-46-47-47-48-49-49-50-51-52-53-54-55-57-60-61-62
Cómo son pares la mediana es la semisuma de los términos centrales
49+50
M d= =49,5
2
64
65
4.2.- Datos agrupados - (Araujo Oropeza, 2020)
Dada la siguiente distribución, calcular la media la mediana y la moda
Ilustración Nº 44: Tabla de datos agrupados para calcular la media, la mediana y la moda
Media
n
∑ xm f i i
165
i=1
x= = ≅ 7,9
n 21
Mediana
M =L +
( n
2
−F )
i=6,5+
a
( 10,5−8 )
∗3 ≅ 7,8
d i
f 6
Moda
di 1
M o=Li + i=6,5+ ∗3 ≅ 7,5
( d i +d s ) ( 1+ 2 )
66
El dato que más se repite es aproximadamente 7,5
67
calificaciones, pero no superior a 71%, el centil correspondiente será el de
70. En otras palabras a tal estudiante le corresponde 70º (septuagésimo)
centil.
Obviamente los centiles dividen la información en 100 partes, lo cual
facilita la interpretación porcentual de una distribución de frecuencias.
P =L +
( kn
100
−F )
i
a
k i
f
Pk :Centil o Percentil
kn
F : frecuencia que contiene a
100
F a : frecuencia acumulada anterior a F
Li :l í mite inferior del intervalo de la frecuencia acumulada F
i: amplitud del intervalo
n :número de elementos en la serie de datos
k :número de centil o percentil en la serie de datos
k =1 ,2 , 3 , … , 99
2.- Déciles.
Son los cuantiles que dividen una distribución en 10 tantos a
intervalos, por lo que se tienen nueve puntos de división, los deciles, que
originan los 10 intervalos.
Los deciles, representados por Dn, pueden marcarse en una gráfica
como la siguiente:
A D1 D2 D3 D4 D5 D6 D7 D8 D9 B
0 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
68
D 1=P10 , D 2=P20 , D3=P30 , … , D 9=P90
3.- Cuartiles
Cuartiles. Son los puntos que dividen a una distribución de valores en
cuatro porciones iguales o intervalos. Se representan por Q1, Q2, Q3 y se
ilustran en el esquema siguiente:
A Q1 Q2 Q3 B
0 25% 50% 75% 100%
Q2=D5 =P50
Q3=P75
Ilustración Nº 48: Tabla de datos agrupados para calcular percentiles, deciles y cuartiles
Percentil 60
Calculamos primero
69
kn 60∗21
= =12,60 ≅ 13
100 100
Este valor cae en la tercera clase luego
P =L +
( kn
100
−F )
i=6,5+
( 13−8 ) a
∗3=9
k i
f 6
Interpretación: por debajo de 9, se encuentra el 60% de los casos a
estudio
Décil 4: corresponde al percentil cuarenta
Calculamos primero
kn 40∗21
= =8,4 ≅ 8
100 100
Este valor cae en la segunda clase luego
P =L +
( kn
100
−F )
i=3,5+
( 8−3 ) a
∗3=6,5 ≅ 7
k i
f 5
Interpretación: por debajo de 7, se encuentra el 40% de los casos a
estudio
Cuartil 2: corresponde al percentil 50
Calculamos primero
kn 50∗21
= =10,5 ≅ 11
100 100
Este valor cae en la tercera clase luego
P =L +
( kn
100
−F )
i=6,5+
( 11−3 ) a
∗3=10,5 ≅ 11
k i
f 6
Interpretación: por debajo de 11, se encuentra el 50% de los casos a
estudio
Medidas de variación o dispersión
Las medidas de variabilidad nos informan sobre el grado de
concentración o dispersión que presentan los datos respecto a su promedio.
Llamaremos homogénea, concentrada o poco dispersa a aquella distribución
70
en la que todos los datos están cercanos al centro, como 4 4 5 5 5 5 6 6 6 6
7, y heterogénea o dispersa a la distribución con datos más separados del
centro, como 1 3 5 8 10 16 20
71
X Max :Valor máximo de los d atos
X Min :Valor mínimo de losdatos
2.- Desviación media
Es una medida de la dispersión consistente en la media aritmética de
las desviaciones individuales respecto a la media, tomadas en valor absoluto.
También se usan desviaciones respecto a la mediana.
Para datos no agrupados
DM =
∑| xi −x|
n
Para datos agrupados
DM =
∑| x m−x|f
n
DM :desviación media
x i : datos de la muestra
x m : punto medio del intervalo
x : media de lamuestra
f : frecuencia delintervalo al que pertenece x m
n :número de elementos
3.- Varianza
Es una medida muy sensible de la variabilidad y base de muchas
técnicas estadísticas.
Junto con la media forma el conjunto más importante de medidas.
Es propia de las medidas de intervalo o razón. Su inconveniente es
que no usa la misma unidad que los datos, sino su cuadrado.
No se deben comparar varianzas en conjuntos de unidades muy
distintas, como estatura e inteligencia.
En teoría del muestreo se sustituye por la cuasi-varianza, de idéntica
fórmula, pero con cociente N-1 en lugar de N. En este caso no sería válida la
segunda fórmula.
Para datos no agrupados
72
σ
2
=
∑ ( xi −μ )
2
n
Si debemos usar la cuasi – varianza o varianza de la muestra
s=
∑2( x i−x )
2
n−1
Para datos agrupados
σ 2
=
∑ 2
( x m−μ ) f
n
Si queremos usar la cuasi – varianza o varianza de la muestra
s=
∑2
2
( x m− x ) f
n−1
2
σ : varianza de la población
2
s :varianza de la muestra
x i : datosde la muestra
x m : punto medio del intervalo
x : media de l a muestra
f : frecuencia delintervalo al que pertenece x m
n :número de elementos
4.- Desviación típica o estándar
Es la raíz cuadrada de la anterior. Su objeto es conseguir medir la
variabilidad en las mismas unidades que los datos. Así, un conjunto medido
en metros, tendrá la varianza medida en metros cuadrados, pero la
desviación típica en metros.
Como en la varianza, para datos aislados basta con suprimir las
frecuencias ni.
La desviación típica s es base de muchas técnicas, al igual que la
media y la varianza. Su gran ventaja es estar medida en las mismas
unidades que los datos y la media, lo que permite establecer razones y
proporciones entre ellas.
73
La desviación típica cumple la llamada desigualdad de Tchebychev:
según la cual, los datos que se alejan de la media una distancia igual o
menor que s, multiplicado por un coeficiente k suponen más de la proporción
1-1/k2. Así, el 75% de los datos al menos, se encuentra a menos de dos
desviaciones típicas y el 89% a menos de tres.
74
5.- Ejemplos - (Araujo Oropeza, 2020)
5.1.- Datos no agrupados
5.1.1.- Si el conjunto de datos formado por 1, 3, 5 y 7 corresponde a una
población, calcular: el rango, la desviación media, la varianza, la desviación
estándar y el coeficiente de variación entero y porcentual.
μ=
∑ x i = (1+3+ 5+7 ) =4
n 4
Ubicamos ahora el menor y mayor dato
X Min =1 ; X Max =7
Con la información anterior calculamos el rango
R=X Max− X Min=7−1=6
Ahora calculamos la desviación media de la población
D.M=
∑|x−μ|=|1−4|+|3−4|+|5−4|+|7−4|
n 4
3+1+1+3
D .M = =2
4
Ahora calculamos la varianza
σ 2
=
∑ ( xi −μ ) ( ( 1−4 )2 + ( 3−4 )2+ ( 5−4 )2 + ( 7−4 )2 )
2
=
n 4
2 9+1+1+ 9
σ = =20
4
La desviación típica que no es más que la raíz cuadrada de la varianza
σ =√ σ 2= √ 20 ≅ 4,47
Por último el coeficiente de variación
Entero
σ 4,47
C.V= = ≅1,12
|μ| 4
Porcentual
σ 4,47
C.V= 100 %= 100 % ≅ 111,75 %
|μ| 4
75
5.1.2.- Datos agrupados
Considere la siguiente tabla de datos, recogidos de un determinado experimento.
Construya una tabla de distribución de frecuencia con seis intervalos y calcule:
desviación media, varianza, desviación típica y coeficiente de variación
13 5 18 6 6 18 12 12 14
15 15 5 9 9 9 10 10 17
8 8 7 6 7 9 9 11 16
10 7 8 11 13 17 16 12 18
Ayudados con Excel construimos la tabla de distribución de frecuencias como sigue:
se anexo un intervalo porqué el último no contenía el máximo valor.
intervalos |x m−x|
2
Xi Xs Xm f F Xm*f ( x m−x ) |x m−x|f 2
( x m−x ) f
5 6 5,5 5 5 27,5 5,5 30,25 27,5 151,25
7 8 7,5 6 11 45 3,5 12,25 21 73,5
9 10 9,5 8 19 76 1,5 2,25 12 18
11 12 11,5 5 24 57,5 0,5 0,25 2,5 1,25
13 14 13,5 3 27 40,5 2,5 6,25 7,5 18,75
15 16 15,5 4 31 62 4,5 20,25 18 81
17 18 17,5 5 36 87,5 6,5 42,25 32,5 211,25
Total 36 396 121 555
Media
n
∑ xm f i i
396
x= i=1 = =11
n 36
Desviación media
DM =
∑| x m−x|f = 121 ≅ 3,36
n 36
Varianza
2
s=
∑ 2
( x m− x ) f 555
= ≅ 15,86
n−1 35
Desviación típica
s= √ s =√15,86 ≅ 3,98
2
76
Coeficiente de variación
77
s 3,98
C.V= 100 %= 100 % ≅ 36,18 %EJERCICIOS PROPUESTOS DE ESTA
|x| 11
UNIDAD- (ARAUJO OROPEZA, 2020)
1.- Se le pidió a un grupo de personas que indiquen su color favorito, y se
obtuvo los siguientes resultados:
negro azul amarillo rojo azul
azul rojo negro amarillo rojo
rojo amarillo amarillo azul rojo
negro azul rojo negro amarillo
0 1 2 1 2 0 3 2 4 0
4 2 1 0 3 0 0 3 4 2
0 1 1 3 0 1 2 1 2 3
2 7 10 16 19
22 6 25 5 20
13 32 13 29 18
20 13 6 12 35
78
Con los datos obtenidos, elaborar una tabla de frecuencias, para datos
agrupados con cinco intervalos y calcule las medidas de tendencia central,
los cuartiles, el decil tres y el decil siete, las medidas de dispersión, elabore
el histograma, el polígono de frecuencia y la ojiva.
4.- Los datos que se dan a continuación corresponden a los pesos en Kg. de
ochenta personas:
60 66 77 70 66 68 57 66 52 70
75 65 69 71 58 66 67 74 61 63
69 80 59 66 70 67 78 64 71 75
81 62 64 69 68 72 83 56 65 74
67 54 65 65 69 67 61 73 57 62
67 68 63 67 71 68 76 61 62 63
76 61 67 67 64 72 64 73 79 58
67 71 68 59 69 70 66 62 63 66
79
La ojiva
¿Cuántas personas pesan entre 72 Y 75 Kg?
¿Qué porcentaje de personas están por debajo de 80 kg?
¿Qué porcentaje está por encima de 67 kg?
4 4 1 3 5 3 2 4 1 6
2 3 4 5 5 6 2 3 3 2
2 1 8 3 5 3 4 7 2 3
5.- Se ha realizado una encuesta en 30 hogares en la que se les pregunta el
nº de individuos que conviven en el domicilio habitualmente. Las respuestas
obtenidas han sido las siguientes:
80
j. ¿Qué porcentaje de hogares está compuesto por 6 o menos
personas?
k. ¿Qué porcentaje de hogares tienen más de 4 personas?
l. ¿Qué porcentaje de hogares está constituido a lo máximo por
dos personas?
81
Esta disciplina es largamente empleada por otras ciencias
naturales y sociales como disciplina auxiliar, ya que les permite manejar
escenarios posibles en base a generalizaciones.
El origen de la probabilidad reside en la necesidad del ser humano de
anticiparse a los hechos, y de predecir en cierta medida el futuro. Así, en su
empeño por percibir patrones y conexiones en la realidad, se enfrentó
constantemente al azar, o sea, a lo que carece de orden.
Las primeras consideraciones formales sobre esta materia provienen
del siglo XVII, específicamente de la correspondencia entre Pierre de Fermat
y Blaise Pascal en 1654, o de los estudios de Christiaan Huygens en 1657 y
de la Kybeia de Juan Caramuel en 1649, texto hoy en día perdido.
1.2.- Tipos de probabilidad
Existen los siguientes tipos de probabilidad:
Frecuencial. Aquella que determina la cantidad de veces que un
fenómeno puede ocurrir, considerando un número determinado de
oportunidades, a través de la experimentación.
Matemática. Pertenece al ámbito de la aritmética, y aspira al cálculo
en cifras de la probabilidad de que determinados eventos aleatorios
tengan lugar, a partir de la lógica formal y no de su experimentación.
Binomial. Aquella en la que se estudia el éxito o fracaso de un evento,
o cualquier otro tipo de escenario probable que tenga dos posibles
resultados únicamente.
Objetiva. Se denomina así a toda probabilidad en la que conocemos
de antemano la frecuencia de un evento, y simplemente se dan a
conocer los casos probables de que ocurra dicho evento.
Subjetiva. Contrapuesta a la matemática, se sustenta en ciertas
eventualidades que permiten inferir la probabilidad de un evento,
aunque alejada de una probabilidad certera o calculable. De allí su
subjetividad.
82
Hipergeométrica. Aquella que se obtiene gracias a técnicas de
muestreo, creando grupos de eventos según su aparición.
Lógica. La que posee como rasgo característico que establece la
posibilidad de ocurrencia de un hecho a partir de las leyes de
la lógica inductiva.
Condicionada. Aquella que se emplea para comprender la causalidad
entre dos hechos distintos, cuando puede determinarse la ocurrencia
de uno tras la ocurrencia del otro.
1.3.- Ejemplos de probabilidad
83
1.4.- Fórmula para calcular la probabilidad
El cálculo de las probabilidades se lleva a cabo según la fórmula siguiente:
casos favorables
Probabilidad = ∗100( para llevarlo a porcentaje)
casos posibles
84
En la ubicación de partículas subatómicas , según el Principio de
Incertidumbre de Heisenberg, el cual establece que no podemos saber
dónde está una partícula subatómica en un momento determinado y al
mismo tiempo a qué velocidad se mueve, de modo que los cálculos en
la materia se realizan normalmente en términos probabilísticos: existe
X por ciento de probabilidades de que la partícula esté allí.
En la investigación biomédica, se calculan porcentajes de éxito y de
fracaso de las drogas médicas o de las vacunas, para así saber si son
fiables o no, y si conviene o no producirlas en masa, o a qué
porcentaje de la población podrán causarle determinados efectos
secundarios.
2.- (Molina, 2019). Probabilidad: ¿qué es y cómo la utilizamos?
Una de las características más especiales de los seres humanos, que nos
diferencia del resto de animales, es nuestra capacidad de “predicción”, de
anticiparnos a los acontecimientos que van a ocurrir. Muchas veces fallamos,
pero otras muchas no y, esta capacidad, nos ha permitido llegar hasta donde
estamos hoy, pudiendo predecir tanto peligros como oportunidades.
La probabilidad es el cálculo matemático que evalúa las posibilidades
que existen de que una cosa suceda cuando interviene el azar.
Por eso es importante trabajarlo y aprender más sobre ello, aunque no va
a ser difícil, porque forma parte de nuestro razonamiento innato. Mira, seguro
que sabes resolver este problema:
Viendo este aparcamiento, ¿de qué color crees que será el próximo
coche que salga del aparcamiento?
85
Ilustración Nº 53: Ejemplo del aparcamiento de probabilidad
86
Ilustración Nº 54: Ejemplo de pares y nones de probabilidad
87
La probabilidad surgió como respuesta a cuestiones que surgían en
los juegos de azar; por ejemplo, cuántas veces había que lanzar un par de
dados al aire para que la probabilidad de que salga 5 sea el 40%. Con el
paso del tiempo, las técnicas matemáticas se fueron perfeccionando y
disminuyendo progresivamente los márgenes de error en los cálculos.
3.2.- Conceptos de probabilidad
Para explicar los conceptos de probabilidad vamos a hacerlo con el
ejemplo de lanzar un dado al aire.
Experimento aleatorio
Es un conjunto de valores cuyos resultados están determinados única
y exclusivamente por el azar.
Espacio muestral
Es el conjunto de todos los resultados posibles de un experimento
aleatorio.
{1, 2, 3, 4, 5, 6}
Suceso / Evento
Cualquier subconjunto de puntos muéstrales.
Por ejemplo, evento A = {resultado es impar} = {1, 3, 5}; evento B =
{resultado es mayor que 4} = {5, 6}
3.3.- Probabilidad vs. Estadística
La probabilidad tiene como principal objetivo el estudio de variables
aleatorias; es decir, valores que dependen básicamente del azar o de la
probabilidad de que puedan o no ocurrir. Por ejemplo, la probabilidad de
lanzar un dado al aire y que el número que salga sea un 5 es de ⅙.
La estadística podemos dividirla en dos apartados: Descriptiva e
inferencial.
Para explicar ambos tipos de estadística vamos a hacerlo con un
ejemplo. Imaginemos una universidad con 500 alumnos de los que se quiere
saber si están o no a favor de la última reforma educativa. Pongamos que
dicha universidad cuenta con los recursos suficientes como para entrevistar a
88
estos 500 alumnos y un 45% están a favor de la reforma y el 55% restante,
no; con esto nos referimos a estadística descriptiva.
Pero, quizá la universidad no cuente con los recursos necesarios para
entrevistar a 500 alumnos y sólo lo hace a 50, el 10% del total; de ellos, el
40% está a favor de la reforma y el 60% restante no. Pues bien, éstos datos
se extrapolan al total de alumnos y se establece que si la opinión del 10% es
esa, también lo será la del 100%. A esto se le conoce como estadística
inferencial.
89
el evento de la siguiente manera: A = sale número par = (2, 4, 6(,
resultados favorables n(E) = 3
Los eventos pueden ser:
Evento cierto.- Un evento es cierto o seguro si se realiza
siempre. Ejemplo: Al introducirnos en el mar, en condiciones
normales, es seguro que nos mojaremos.
Evento imposible.- Un evento es imposible si nunca se realiza.
Al lanzar un dado una sola vez, es imposible que salga un 10
Evento probable o aleatorio.- Un evento es aleatorio si no se
puede precisar de antemano el resultado. Ejemplo: ¿Al lanzar
un dado, saldrá el número 3?
Probabilidad.- Es el conjunto de posibilidades de que un evento ocurra
o no en un momento y tiempo determinado. Dichos eventos pueden
ser medibles a través de una escala de 0 a 1, donde el evento que no
pueda ocurrir tiene una probabilidad de 0 (evento imposible) y un
evento que ocurra con certeza es de 1 (evento cierto).
La probabilidad de que ocurra un evento, siendo ésta una medida de
la posibilidad de que un suceso ocurra favorablemente, se determina
principalmente de dos formas: empíricamente (de manera
experimental) o teóricamente (de forma matemática).
i. Probabilidad empírica.- Si E es un evento que puede ocurrir
cuando se realiza un experimento, entonces la probabilidad
empírica del evento E, que a veces se le denomina definición
de frecuencia relativa de la probabilidad, está dada por la
siguiente fórmula:
Número de veces que ocurre el evento E
P ( E )=
Número de veces que se realizó el experimento
90
ii. Probabilidad teórica.- Si todos los resultados en un espacio
muestral S finito son igualmente probables, y E es un evento en
ese espacio muestral, entonces la probabilidad teórica del
evento E está dada por la siguiente fórmula, que a veces se le
denomina la definición clásica de la probabilidad, expuesta por
Pierre Laplace en su famosa Teoría analítica de la probabilidad
publicada en 1812:
Número de resultados favorables n (E)
P ( E )= =
Número total de posibles resultados n (S )
Posibilidades.- Las posibilidades comparan el número de resultados
favorables con el número de resultados desfavorables. Si todos los
resultados de un espacio muestral son igualmente probables, y un
número n de ellos son favorables al evento E, y los restantes m son
desfavorables a E, entonces las posibilidades a favor de E sonde de
n(E) a m(E), y las posibilidades en contra de E son de m(E) a n(E)
Ejemplos ilustrativos: Mathías se le prometió comprar 6 libros,
tres de los cuales son de Matemática. Si tiene las mismas
oportunidades de obtener cualquiera de los 6 libros, determinar
las posibilidades de que le compren uno de Matemática.
Solución:
Número de resultados favorables = n(E) = 3
Número de resultados desfavorables = m(E) = 3
Posibilidades a favor son n(E) a m(E), entonces,
Posibilidades a favor = 3 a 3, y simplificando 1 a 1.
Nota: A las posibilidades de 1 a 1 se les conoce como "igualdad
de posibilidades" o "posibilidades de 50-50"
B.2.- Propiedades de las probabilidades
Si A es un evento cualquiera , su probabilidad es mayor o igual
a cero y menor o igual a uno
0 ≤ P( A )≤ 1
91
Cuando dos eventos A y B se excluyen mutuamente
P ( A ∪ B ) =P ( A )+ P( B)
Cuando dos eventos A y B no se excluyen mutuamente
P ( A ∪ B ) =P ( A )+ P ( B )−P( A ∩ B)
P( A ∩ B), para dos eventos independientes o excluyentes (la
ocurrencia de uno no influye en la ocurrencia del otro), o sea
P ( A ∩ B )=0
P ( A ∩ B )=P ( A ) P ( B )
Probabilidad del suceso contrario al suceso A , la denotamos
c
A o A , viene dada por la expresión
P ( A )=1−P( A)
c
P( A ∩ B)
P( A ∪ B)
92
Solución:
U
A B
0,1
P ( B )=P ( A 1 ) P
( )
B
A1
+ P ( A2) P
( )
B
A2
+ …+ P ( A n ) P
B
( )
An
Ejemplo:
93
Se tienen dos urnas, en la urna A hay 5 bolas rojas y 3 negras, en la urna B
hay 2 bolas rojas y 3 negras. Si se extrae una bola al azar de cualquiera de
las urnas ¿cuál es la probabilidad de que sea negra?
Solución:
Primero la probabilidad de escogencia de urnas como solo hay
dos urnas la P( A)=½ y la P( B)=½
Segundo probabilidades de extraer una bola negra, conocida
cada urna en particular P( N / A)=3 /8 y P(N /B)=3/5
Tercero aplicamos la fórmula para conocer la probabilidad total
de extraer una bola negra
P ( N )=P ( A ) P ( NA )+ P ( B ) P ( NB )
[( ) ( ) ]
1 1
∗3 ∗3
2 2 39
P ( N )= + = =0,4875=48,75 %
8 5 80
94
supuestos de sucesos disjuntos y exhaustivos, el teorema es totalmente
válido.
1.2.- Fórmula del teorema de Bayes
Para calcular la probabilidad tal como la definió Bayes en este tipo de
sucesos, necesitamos una fórmula. La fórmula se define matemáticamente
como:
[ ] [ ]
P
B
∗P A n
P [ ]∑
An
=
An
B
[ ] [ ]
P
B
Ai
∗P Ai
P ( A )=0,40 P ( DA )=0,02
P ( B )=0,30 P ( )=0,03
D
B
95
P ( C ) =0,30 P ( DA )=0,05
1. Si un envase ha sido fabricado por la fábrica de esta empresa en
Venezuela. ¿Cuál es la probabilidad de que sea defectuoso?
Se calcula la probabilidad total. Ya que, a partir los diferentes sucesos,
calculamos la probabilidad de que sea defectuoso.
[
P ( D )= P ( A )∗P ( DA )]+[ P ( B )∗P ( DB )]+[ P ( C )∗P ( DC )]
P ( D )=[ 0,40∗0,02 ] + [ 0,30∗0,03 ] + [ 0,30∗0,05 ]
P ( D )=0,032
Expresado en porcentaje
P ( D )=3,2 %
2. Siguiendo con la pregunta anterior, si se adquiere un envase y este
es defectuoso ¿Cuáles es la probabilidad de que haya sido
fabricado por la máquina A? ¿Y por la máquina B? ¿Y por la
máquina C?
Aquí se utiliza el teorema de Bayes. Tenemos información previa,
es decir, sabemos que el envase es defectuoso. Claro que,
sabiendo que es defectuoso, queremos saber cuál es la
probabilidad de que se haya producido por una de las máquinas.
P ( DA )∗P ( A )
P( DA )= P ( D )
P ( )=
A 0,02∗0,40
=0,25
D 0,032
P ( )∗P ( B )
D
P ( )=
B B
D P ( D)
P ( )=
B 0,03∗0,30
=0,28
D 0,032
96
P ( DC )∗P ( C )
P( CD )= P ( D )
P ( )=
C 0,05∗0,30
=0,47
D 0,032
Conclusión.
Llevando los resultados a porcentaje tenemos:
Sabiendo que un envase es defectuoso, la probabilidad de que haya sido
producido
Por la máquina A es del 25%
Por la máquina B es del 28%
Por la máquina C es del 47%.
Nota: Si son solo dos eventos A y B la fórmula del teorema de bayes se reduce:
P ( A )∗P ( BA )
P ( BA )= P (B)
80%
Si
Hace deporte
Hombre
40%
No
20%
Genero 97
50%
Si
Mujer
60% Hace deporte
Ilustración Nº 57: Diagrama de árbol ejercicio propuesto sobre deportes
P ( dh )∗P(h)
P ( hd )= P( d)
98
P ( hd )= (0,8∗0,4)
0,62
≅ 0,5161
P ( hd ) ≅ 51,61 %
99
2.- En una fábrica de latas hacen producen latas de dos tamaños, de 25 ml y
de 40 ml, si se sabe que hacen la misma cantidad de ambas latas y que un
1% de las latas de 25ml y un 4% de las latas de 40ml salen defectuosas
¿Cuál es la probabilidad que al seleccionar una lata de las defectuosas al
azar, esta sea de 40ml?
P ( d ) : probabilidad de lalata defectuosa
P ( 40 ml ) : probabilidad de lalata decuarenta mililitros
Elaboramos nuestro diagrama de árbol con la información dada
1%
Si
Defectuosa
25 ml
50%
No
99%
Tamaño
4%
Si
40 ml
50% Defectuosa
No
96%
P(
d )
40 ml
=80 %
P ( CA ) : probabilid ad candidato A
101
5%
Si
Candidato A
Clase media y baja
75%
No
95%
Candidato
90%
Si
Clase alta
25% Candidato A
No
10%
P ( cmb
CA
)=0,05 probabilidad que vote por elCA y sea de cmb
P ( CAca )=0,9 probabilidad que vote por elCA y sea de ca
Calculemos la probabilidad general ambos grupos voten por el
candidato A
P ( cmb
CA
)∗P(cmb)
P ( cmb
CA )
=
P (CA)
102
P ( cmb
CA ) =
(0,05∗0,75)
0,2625
=0,1429
P(
CA )
cmb
=14,29 %
t
P ( h )∗P( )
P ()
h
t
=
P(t)
h (0,6∗0,4)
=
0,36
≅ 0,6667 ≅ 66,67 %
103
a. Seleccionamos una pieza al azar calcula la probabilidad de que
sea defectuosa
b. Tomamos al azar una pieza, y resulta ser defectuosa. Calcula la
probabilidad de que haya sido producida por la máquina B
c. ¿Qué maquina tiene la mayor probabilidad de producir una
pieza defectuosa?
Datos:
P ( A ) : probabilidad de producción de lamáquina A ; P ( A )=0,45
P ( B ) : probabilidad de producción de la máquina B ; P ( B )=0,30
P ( C ) : probabilidad de producción de la máquinaC ; P ( C )=0,25
P ( D ) : probabilidad de defecto en general
[
P ( D )= P ( A )∗P ( DA )+ P ( B )∗P ( DB )+ P ( C )∗P( DC )]
P ( D )=[ ( 0,45∗0,03)+(0,30∗0,04)+(0,25∗0,05) ]
P ( D )=0,038
b. ahora aquí es buscar defectuosa producida por la maquina B, aplicamos el
teorema de bayes para la maquina B
D
P ( B )∗P( )
P ( DB )= P (D)
B
104
( DB )= 0,30∗0,04
P
0,038
≅ 0,316 ≅31,6 %
D
P ( C )∗P()
P ( CD )= P(D)
C
=
0,25∗0,05
0,038
≅ 0,327 ≅ 32,7 %
105
R
P ( A )∗P ( )
P ( RA )= P( R)
A
La probabilidad en general de que una bola escogida sea roja se calcula mediante la
fórmula:
[
P ( R )= P ( A )∗P ( RA )+ P ( B )∗P ( RB )+ P ( C )∗P( CR )]
[ ]
1 1 1
∗3 ∗2 ∗2
3 3 3
P ( R )= ( )+( )+( ) ≅ 0,481
8 3 5
P ( D ) ≅ 0,481
Luego
1
∗3
3
P( )
A
=
8
R 0,481
≅ 0,2598
P ( RA ) ≅ 0,26
4.- El 20% de los empleados de una empresa son ingenieros, otro 20% son
economistas. El 75% de los ingenieros ocupan cargos directivos y el 50% de
los economistas también, mientras que los no ingenieros y no economistas
solamente el 20% ocupan cargos directivos. ¿Cuál es la probabilidad de que
un empleado directivo escogido al azar sea ingeniero?
P ( I ) : probabilidad de que sea ingeniero , P ( I )=0,2
P ( E ) : probabilidad de que sea economista, P ( E )=0,2
P ( O ) : probabilidad de no ser∋ingeniero∋economista , P ( O )=0,6
P ( D ) : probabilidad de ser directivo
106
P ( OD ) : probabil idad de ser directivo siendo otro ; P ( DO )=0,20
Calculemos la probabilidad general para ser directivo
[
P ( D )= P ( I )∗P ( DI )+ P ( E )∗P ( DE )+ P ( O )∗P( DO )]
P ( D )=[ (0,2∗0,75)+(0,2∗0,50)+( 0,60∗0,20) ] =0,37
P ( D )=0,37
Ahora calculemos la de que un directivo escogido al azar sea
ingeniero
D
P ( I )∗P( )
P ( DI )= P( D)
I
P ( DI )= (0,2∗0,75)
0,37
≅ 0,4054 ≅ 40,54 %
107
Se sabe que la probabilidad de que, diariamente, un autobús se averíe es del
2%, 4% y 1%, respectivamente, para cada línea. Determina la probabilidad
de que, en un día, un autobús sufra una avería.
R :0,025
Nº3.- Una empresa del ramo de la alimentación elabora sus productos en
cuatro factorías: F1, F2, F3 y F4. El porcentaje de producción total que se
fabrica en cada factoría es del 40%, 30%, 20% y 10%, respectivamente, y
además el porcentaje de envasado incorrecto en cada factoría es del 1%,
2%, 7% y 4%. Tomamos un producto de la empresa al azar. ¿Cuál es la
probabilidad de que se encuentre defectuosamente envasado?
R :0,028
Nº4.- Para realizar un experimento aleatorio, disponemos de una muestra de
cinco concesionarios de coches, de los cuales dos concesionarios tienen 3
coches blancos y 5 azules, otros dos concesionarios tienes 2 coches blancos
y 3 azules, y el último concesionario tiene 2 coches blancos y 1 azul.
a. ¿Cuál es la probabilidad de elegir un coche azul?
b. ¿Cuál es la probabilidad de que el coche azul elegido sea del
concesionario donde hay sólo 2 coches blancos y 1 azul?
Respuestas :a . 0,55 y b . 0,10
Nº5.- Tenemos tres urnas: A con 3 bolas rojas y 5 negras, B con 2 bolas
rojas y 1 negra y C con 2 bolas rojas y 3 negras
a. ¿Cuál es la probabilidad de extraer una bola roja?
b. ¿Cuál es la probabilidad de extraer una bola negra?
Escogemos una urna al azar y extraemos una bola. Si la bola ha sido
roja:
c. ¿Cuál es la probabilidad de haber sido extraída de la urna A?
d. ¿Cuál es la probabilidad de haber sido extraída de la urna B?
e. ¿Cuál es la probabilidad de haber sido extraída de la urna C?
Respuestas :a .0,48 ; b . 0,52; c . 0,26 ; d . 0,46 y e . 0,28
108
D.- Distribución de probabilidad
D.1.- (WikipediA, 2020)
En teoría de la probabilidad y estadística, la distribución de
probabilidad de una variable aleatoria es una función que asigna a cada
suceso definido sobre la variable la probabilidad de que dicho suceso ocurra.
La distribución de probabilidad está definida sobre el conjunto de todos los
sucesos y cada uno de los sucesos es el rango de valores de la variable
aleatoria. También puede decirse que tiene una relación estrecha con las
distribuciones de frecuencia. De hecho, una distribución de probabilidades
puede comprenderse como una frecuencia teórica, ya que describe cómo se
espera que varíen los resultados.
109
Variable aleatoria continua: Es aquella que resulta generalmente de la
medición y puede tomar cualquier valor dentro de un intervalo dado. 7
D.1.2- División de distribuciones
Esta división se realiza dependiendo del tipo de variable a estudiar.
Las cuatro principales (de las que nacen todas las demás) son:
a. Si la variable es una variable discreta (valores enteros), corresponderá
una distribución discreta, de las cuales existen:
Distribución binomial (eventos independientes).
Distribución de Poisson (eventos independientes).
Distribución hipergeométrica (eventos dependientes).
b. Si la variable es continua, esto significa que puede tomar cualquier
valor dentro de un intervalo, la distribución que se generará será una
distribución continua, también llamada distribución normal o
gaussiana.
Además, se puede utilizar la «distribución de Poisson como una
aproximación de la distribución binomial» cuando la muestra por estudiar es
grande y la probabilidad de éxito es pequeña. De la combinación de los dos
tipos de distribuciones anteriores (a y b), surge una conocida como
«distribución normal como una aproximación de la distribución binomial y de
Poisson».
D.1.3.- Definición de la función distribución
Dada una variable aleatoria X, su función de distribución FX(x) es:
F X ( x ) =Prob ( X ≤ x ) =μ P { ω ∈ Ω/ X (ω)≤ x }
Prob, es la probabilidad definida sobre un espacio de probabilidad y
una medida unitaria sobre el espacio muestral.
μ P, es la medida sobre la σ-álgebra de conjuntos asociada al espacio
de probabilidad.
7
Díaz Mata, Alfredo (2013). Estadística aplicada a la administración y economía. México: MC
Graw Gill.
110
Ω, es el espacio muestral, o conjunto de todos los posibles sucesos
aleatorios, sobre el que se define el espacio de probabilidad en
cuestión.
X :Ω → R , es la variable aleatoria en cuestión, es decir, una función
definida sobre el espacio muestral a los números reales.
D.1.4.- Propiedades de la función distribución
Como consecuencia casi inmediata de la definición, la función de
distribución:
Es una función continua por la derecha.
Es una función monótona no decreciente.
Además, cumple
lim F ( x )=0
x→−∞
lim F ( x )=1
x→+∞
Para dos números reales cualesquiera ayb tal que (a< b), los sucesos
( X ≤ a ) y (a< X ≤b) son mutuamente excluyentes y su unión es el suceso
( X ≤ b), por lo que tenemos entonces:
P ( X ≤b )=P ( X ≤ a ) + P(a< X ≤ B)
P ( a< X ≤ b ) =P ( X ≤ b )−P( X ≤ a)
P ( a< X ≤ b ) =F ( b ) −F( a)
111
D.1.5.- Distribuciones de variable discreta
Se denomina distribución de variable discreta a aquella cuya función
de probabilidad solo toma valores positivos en un conjunto de valores de X
finito o infinito numerable. A dicha función se le llama función de masa de
probabilidad. En este caso la distribución de probabilidad es la suma de la
función de masa, por lo que tenemos entonces que:
x
F ( x )=P ( X ≤ x ) = ∑ f ( k)
k=−∞
112
La distribución de Rademacher, que toma valores «1» o «-1»
con probabilidad 1/2 cada uno.
La distribución beta-binomial, que describe el número de
aciertos en una serie de n experimentos independientes con
posibles resultados «sí» o «no», cada uno de ellos con una
probabilidad de acierto variable definida por una beta.
La distribución degenerada en x0, en la que X toma el valor x0
con probabilidad 1. A pesar de que no parece una variable
aleatoria, la distribución satisface todos los requisitos para ser
considerada como tal.
La distribución uniforme discreta, que recoge un conjunto finito
de valores que son resultan ser todos igualmente probables.
Esta distribución describe, por ejemplo, el comportamiento
aleatorio de una moneda, un dado, o una ruleta de casino
equilibrado (sin sesgo).
La distribución hipergeométrica, que mide la probabilidad de
obtener x (0 ≤ x ≤ d) elementos de una determinada clase
formada por d elementos pertenecientes a una población de N
elementos, tomando una muestra de n elementos de la
población sin reemplazo.
La distribución hipergeométrica no central de Fisher.
La distribución hipergeométrica no central de Wallenius.
La ley de Benford, que describe la frecuencia del primer dígito
de un conjunto de números en notación decimal.
Definidas sobre un dominio infinito
La distribución binomial negativa o distribución de Pascal, que
describe el número de ensayos de Bernoulli independientes
necesaria para conseguir n aciertos, dada una probabilidad
individual de éxito p constante.
113
La distribución geométrica, que describe el número de intentos
necesarios hasta conseguir el primer acierto.
La distribución beta-binomial negativa, que describe el número
de experimentos del tipo «sí/no» necesarios para conseguir n
aciertos, cuando la probabilidad de éxito de cada uno de los
intentos está distribuida de acuerdo con una beta.
La distribución binomial negativa extendida.
La distribución de Boltzmann, importante en mecánica
estadística, que describe la ocupación de los niveles de energía
discretos en un sistema en equilibrio térmico. Varios casos
especiales son:
La distribución de Gibbs.
La distribución de Maxwell-Boltzmann.
La distribución elíptica asimétrica.
La distribución fractal parabólica.
La distribución hipergeométrica extendida.
La distribución logarítmica.
La distribución logarítmica generalizada.
La distribución de Poisson, que describe el número de eventos
individuales que ocurren en un periodo de tiempo. Existen
diversas variantes como la distribución de Poisson desplazada,
la hiperdistribución de Poisson, la distribución binomial de
Poisson y la distribución de Conway-Maxwell-Poisson, entre
otras.
La distribución de Polya-Eggenberger.
La distribución Skellam, que describe la diferencia de dos
variables aleatorias independientes con distribuciones de
Poisson de distinto valor esperado.
La distribución de Yule-Simon.
114
La distribución zeta, que utiliza la función zeta de Riemman
para asignar una probabilidad a cada número natural.
La ley de Zipf, que describe la frecuencia de utilización de las
palabras de una lengua.
La ley de Zipf-Mandelbrot es una versión más precisa de la
anterior.
D.1.6.- Distribuciones de variable continua
Se denomina variable continua a aquella que puede tomar cualquiera
de los infinitos valores existentes dentro de un intervalo. En el caso de
variable continua la distribución de probabilidad es la integral de la función de
densidad, por lo que tenemos entonces que:
x
F ( x )=P ( X ≤ x ) =∫ f ( t ) d (t)
−∞
115
La distribución degenerada en x 0, en la que X toma el valor x 0
con probabilidad 1. Puede ser considerada tanto una
distribución discreta como continua.
La distribución de Irwin-Hall o distribución de la suma uniforme,
es la distribución correspondiente a la suma de n variables
aleatorias i .i . d . U (0,1).
La distribución de Kent, definida sobre la superficie de una
esfera unitaria.
La distribución de Kumaraswamy, tan versátil como la beta,
pero con FDC y FDP más simples.
La distribución logarítmica continúa.
La distribución logit-normal en (0, 1).
La distribución normal truncada, sobre el intervalo [a, b].
La distribución recíproca, un tipo de distribución inversa.
La distribución triangular, definida en [a, b], de la cual un caso
particular es la distribución de la suma de dos variables
independientes uniformemente distribuidas (la convolución de
dos distribuciones uniformes).
La distribución uniforme continúa definida en el intervalo
cerrado [a, b], en el que la densidad de probabilidad es
constante.
La distribución rectangular es el caso particular en el intervalo
[ −1 1
]
, .
2 2
La distribución U – cuadrática, definida en [a, b], utilizada para
modelar procesos bimodales simétricos.
La distribución von Mises, también llamada distribución normal
circular o distribución Tikhonov, definida sobre el círculo
unitario.
116
La distribución von Mises-Fisher, generalización de la anterior a
una esfera N-dimensional.
La distribución semicircular de Wigner, importante en el estudio
de las matrices aleatorias.
Definidas en un intervalo semi-infinito, usualmente ¿
La distribución beta prima.
La distribución de Birnbaum-Saunders, también llamada
distribución de resistencia a la fatiga de materiales, utilizada
para modelar tiempos de fallo.
La distribución chi.
La distribución chi no central.
La distribución X 2 o distribución de Pearson, que es la suma de
cuadrados de n variables aleatorias independientes
gaussianas. Es un caso especial de la gamma, utilizada en
problemas de bondad de ajuste.
La distribución chi-cuadrada inversa.
La distribución chi-cuadrada inversa escalada.
La distribución chi-cuadrada no central.
La distribución de Dagum.
La distribución exponencial, que describe el tiempo entre dos
eventos consecutivos en un proceso sin memoria.
2 2
La distribución F, que es la razón entre dos variables ℵn y ℵ m
independientes. Se utiliza, entre otros usos, para realizar
análisis de varianza por medio del test F.
La distribución F no central.
La distribución de Fréchet.
La distribución gamma, que describe el tiempo necesario para
que sucedan n repeticiones de un evento en un proceso sin
memoria.
117
La distribución de Erlang, caso especial de la gamma con un
parámetro k entero, desarrollada para predecir tiempos de
espera en sistemas de líneas de espera.
La distribución gamma inversa.
La distribución gamma-Gompertz, que se utiliza en modelos
para estimar la esperanza de vida.
La distribución de Gompertz.
La distribución de Gompertz desplazada.
La distribución de Gumbel tipo-2.
La distribución de Lévy.
Distribuciones en las que el logaritmo de una variable aleatoria está
distribuido conforme a una distribución estándar:
La distribución log-Cauchy.
La distribución log-gamma.
La distribución log-Laplace.
La distribución log-logistic.
La distribución log-normal.
La distribución de Mittag-Leffler.
La distribución de Nakagami.
Variantes de la distribución normal o de Gauss:
La distribución normal pleglada.
La distribución semi normal.
La distribución de Gauss inversa, también conocida
como distribución de Wald.
La distribución de Pareto y la distribución de Pareto
generalizada.
La distribución tipo III de Pearson.
La distribución por fases bi-exponencial, comúnmente usada en
farmacocinética.
118
La distribución por fases bi-Weibull.
La distribución de Rayleigh.
La distribución de mezcla de Rayleigh.
La distribución de Rice.
La distribución T² de Hotelling.
La distribución de Weibull o distribución de Rosin-Rammler,
para describir la distribución de tamaños de determinadas
partículas.
La distribución Z de Fisher.
Definidas en la recta real completa
La distribución de Behrens-Fisher, que surge en el problema de
Behrens-Fisher.
La distribución de Cauchy, un ejemplo de distribución que no
tiene expectativa ni varianza. En física se le llama función de
Lorentz, y se asocia a varios procesos.
La distribución de Chernoff.
La distribución estable o distribución asimétrica alfa-estable de
Lévy, es una familia de distribuciones usadas e multitud de
campos. Las distribuciones normal, de Cauchy, de Holtsmark,
de Landau y de Lévy pertenecen a esta familia.
La distribución estable geométrica.
La distribución de Fisher-Tippett o distribución del valor extremo
generalizada.
La distribución de Gumbel o log-Weibull, caso especial de la
Fisher-Tippett.
La distribución de Gumbel tipo-1
La distribución de Holtsmark, ejemplo de una distribución con
expectativa finita pero varianza infinita.
La distribución hiperbólica.
119
La distribución secante hiperbólica.
La distribución SU de Johnson.
La distribución de Landau.
La distribución de Laplace.
La distribución de Linnik.
La distribución logística, descrita por la función logística.
La distribución logística generalizada.
La distribución map-Airy.
La distribución normal, también llamada distribución gaussiana
o campana de Gauss. Está muy presente en multitud de
fenómenos naturales debido al teorema del límite central: toda
variable aleatoria que se pueda modelar como la suma de
varias variables independientes e idénticamente distribuidas
con expectativa y varianza finita, es aproximadamente normal.
La distribución normal generalizada.
La distribución normal asimétrica.
La distribución gaussiana exponencialmente modificada, la
convolución de una normal con una exponencial.
La distribución normal-exponencial-gamma.
La distribución gaussiana menos exponencial es la convolución
de una distribución normal con una distribución exponencial
(negativa).
La distribución de Voigt, o perfil de Voigt, es la convolución de
una distribución normal y una Cauchy. Se utiliza principalmente
en espectroscopía.
La distribución tipo IV de Pearson.
La distribución t de Student, útil para estimar medias
desconocidas de una población gaussiana.
La distribución t no central.
120
Definidas en un dominio variable
La distribución de Fisher-Tippett o distribución del valor extremo
generalizada, puede estar definida en la recta real completa o
en un intervalo acotado, dependiendo de sus parámetros.
La distribución de Pareto generalizada está definida en un
dominio que puede estar acotado inferiormente o acotado por
ambos extremos.
La distribución lambda de Tukey, puede estar definida en la
recta real completa o en un intervalo acotado, dependiendo de
sus parámetros.
La distribución de Wakeby.
Distribuciones mixtas discreta/continua
La distribución gaussiana rectificada, es una distribución normal
en la que los valores negativos son sustituidos por un valor
discreto en cero.
Distribuciones multivariable
La distribución de Dirichlet, generalización de la distribución
beta.
La fórmula de muestreo de Ewens o distribución multivariante
de Ewens, es la distribución de probabilidad del conjunto de
todas las particiones de un entero n, utilizada en el análisis
genético de poblaciones.
El modelo de Balding-Nichols, utilizado en el análisis genético
de poblaciones.
La distribución multinomial, generalización de la distribución
binomial.
La distribución normal multivariante, generalización de la
distribución normal.
121
La distribución multinomial negativa, generalización de la
distribución binomial negativa.
La distribución log-gamma generalizada multivariante.
Distribuciones matriciales
La distribución de Wishart
La distribución de Wishart inversa
La distribución normal matricial
La distribución t matricial
Distribuciones no numéricas
La distribución categórica
Distribuciones misceláneas
Distribución de Cantor
Distribución de tipo fase
D.1.7.- Ejercicio
Nº1.- Según estadísticas la probabilidad de que el motor de un auto nuevo,
de cierto modelo, y marca sufra de algún desperfecto en los primeros 12
meses de uso es de 0.02, si se prueban tres automóviles de esta marca y
modelo, encuentre el número esperado de autos que no sufren de algún
desperfecto en los primeros doce meses de uso.
Solución:
Haciendo uso de un diagrama de árbol, usando las literales siguientes, se
obtiene el espacio muestral “Ω” como se muestra a continuación;
N = no sufre de algún desperfecto en el motor los primeros 12 meses de uso
S = sufre de algún desperfecto en el motor los primeros 12 meses de uso
N
122
S
S
Ω
N
P ( x=1 )=( 0.98 ) ( 0.02 ) ( 0.02 )+ ( 0.02 )( 0.98 )( 0.02 ) + ( 0.02 ) ( 0.02 ) ( 0.98 )=0,001176
123
P ( x=3 )=P ( NNN ) =( 0,98 ) ( 0,98 ) ( 0,98 )=0,941192
μ= E ( x )=∑ xi P ( xi )
124
-1 desviación estándar μ-σ -1
-2 desviaciones estándar μ - 2σ -2
-3 desviaciones estándar μ - 3σ -3
125
La tabla (Z) nos da las probabilidades de P(z ≤ k), siendo z la variable
tipificada. Estas probabilidades nos dan la función de distribución Φ (k ).
Φ (k )=P(z ≤ k)
En la tabla de valor de k se ubican las unidades y décimas en la
columna de la izquierda y las centésimas en la fila de arriba.
E.2.- Ejercicios de tipificación
Ejemplo 1. La temperatura durante septiembre está distribuida normalmente
con media 18,7ºC y desviación estándar 5ºC. Calcule la probabilidad de que
la temperatura durante septiembre esté por debajo de 21ºC.
Solución.
x−μ 21−18,7
Datos: z= = =0,46
σ 5
µ = 18,7ºC
σ = 5ºC
x = 21ºC
Ahora vamos a la tabla y para el valor de Z=0,46 tenemos que la
probabilidad es de 0,6772.
¿Pero qué probabilidad es la que hemos averiguado en la tabla?
Justamente esta tabla nos proporciona la probabilidad de que ocurran
sucesos menores que z=0,46−P( z ≤0,46). Esto es la probabilidad de que
ocurran sucesos desde −∞ hasta z =0,46 es 0,6772 . Dicho de otra forma la
probabilidad de que un suceso este por debajo de z=0,46 es de 67,72 %
Ejemplo 2. Supongamos que en el ejercicio anterior me hubiesen pedido la
probabilidad de que la temperatura durante septiembre esté por encima de
21ºC.
Solución: como en el ejercicio anterior hallamos el área por debajo de z=0,46
y ahora la necesitamos por encima la probabilidad es:
1 – 0,6762=0,3228
Esto es en forma de porcentaje el 32,28 %
126
Ejemplo Nº3. La media de los pesos de 5000 estudiantes de un colegio es 70
kg y la desviación típica 3 kg. Suponiendo que los pesos se distribuyen
normalmente, “hallar cuántos estudiantes” pesan menos de 60 kg.
Solución:
127
Resumen
La tabla de los valores de Z nos da la probabilidad
P( z <a)
P( z >a)=1 – P( z< a)
P ( z← a )= p ( z> a )=1−P(z <a)
P ( z>−a )=P ( z ≤ a )
P(a < z ≤ b)=P( z ≤ b)−P( z ≤ a)
P(−b <Z ≤−a)=P(a< Z ≤ b)
P(−a<Z ≤ b)=P( Z ≤ b)−[1−P(Z ≤ a)]
Ilustración Nº 65: Resumen de las diferentes situaciones al tipificar una variable usando la tabla
Z
Solución
( 21−23 5 )
Datos: 27−23
µ = 23 ºC P ( 21< x ≤ 27 )=P <z ≤
5
σ = 5 ºC
x1 = 21 ºC
P (−0,4< z ≤ 0,8 )=P ( z ≤ 0,8 ) −[ 1−P ( z ≤ 0,4 ) ]
x2 = 27 ºC
0,7881− [ 1−0,6554 ]=0,4435
Cómo Junio tiene 30 días el número de días con estas temperaturas será:
30∗0,4435 ≅ 13 días
128
Ejercicio Nº5. La media y los que de los pesos de 500 estudiantes de un
colegio es 70 kg y la desviación típica 3 kg. Suponiendo que los pesos se
distribuyen normalmente, hallar cuántos estudiantes pesan:
i. Entre 60 kg y 75 kg
ii. Más de 90 Kg
iii. Menos de 64 kg
Solución
i.
Cómo son 500 estudiantes el número ellos comprendidos entre estas dos
medidas es:
500∗0,952=476 estudiantes
ii. (
P ( x> 90 )=P z >
90−70
3 )
P ( z> 6,67 )=[ 1−P ( z ≤6,67 ) ]
[ 1−0,5000 ] =0,5000
Cómo son 500 estudiantes el número ellos comprendidos entre esta medida
es:
500∗0,5000=250 estudiantes
iii.
(
P ( x<64 )=P z ≤
64−70
3 )
P ( z←2 ) =[ 1−P ( z ≤ 2 ) ]
[ 1−0,9772 ] =0,0228
Cómo son 500 estudiantes el número ellos comprendidos entre esta medida
es:
500∗0,0228=11 estudiantes
129
F.- Distribución binomial
F.1.- (Software DELSOL, 2019)
La distribución binomial es una distribución
de probabilidad discreta que nos dice el porcentaje en que es probable
obtener un resultado entre dos posibles al realizar un número n de
pruebas.
La probabilidad de cada posibilidad no puede ser más grande
que 1 y no puede ser negativa.
En estas pruebas deberemos tener sólo dos resultados
posibles, como al lanzar una moneda que salga cara o cruz o en una
ruleta francesa que salga rojo o negro.
Cada experimento es independiente de los otros que hagamos
y no influye en las probabilidades de los siguientes, en cada uno la
probabilidad de que se de uno de los dos resultados será exactamente
la misma.
Por ejemplo, si lanzamos un dado la posibilidad de que el resultado sea par
(2, 4 ó 6) o impar (1, 3 ó 5) será exactamente la misma si el dado está bien
equilibrado, el 50% y por muchas veces que lo lancemos la probabilidad, en
cada una de esas veces, seguirá siendo el 50%.
En la distribución binomial tenemos tres variables:
n es el número de veces que repetimos el experimento.
p es uno de los dos resultados al que llamaremos éxito.
q es el otro resultado posible al que llamaremos fracaso.
Como p y q son los dos únicos resultados posibles, entre los dos
su porcentaje debe sumar uno por lo que p=1−q .
Para hacer el experimento lo primero que tenemos que hacer
es definir p, es decir, en el ejemplo del dado definir si éxito o p es que
salga un número par o impar; a partir de ahí, q será la otra posibilidad.
Otro ejemplo: supongamos que vamos con prisa por la calle y
queremos tomar un taxi, vamos a calcular la probabilidad de que el
130
próximo taxi que pase esté libre u ocupado. Como hoy está lloviendo
es muy probable que esté ocupado. Vamos a asignar a la probabilidad
de que esté libre un 15% (es decir, 0,15). Si definimos p o éxito como
la probabilidad de que esté libre la de que esté ocupado será q que, al
ser 1-p será 1-0,15, es decir 0,85 o, dicho en porcentaje, el 85%
Así, si queremos saber la probabilidad de que un resultado ocurra
determinadas veces utilizaremos estos porcentajes.
Por ejemplo, si observamos que pasan diez taxis y queremos
saber la probabilidad de que tres de ellos estén libres la fórmula sería:
()
P ( X=r )= n p q
r
r n−r
Donde P es la probabilidad de que tres taxis de los diez estén libres, r las
veces que queremos calcular que estén libres, en este caso tres, p el
porcentaje de éxito, en este caso 0,15, elevado a r, que hemos visto antes,
por q (el porcentaje de fracaso que, en este caso es 0,85) elevado a n menos
r; n sobre r se calcula utilizando números factoriales.
Datos:
n=10
()
P ( X=r )= n pr q n−r
r
r =3
p=0,15
q=0,85
( )
P ( X=3 )= 10 (0,15) (0,85) =0,1298 ≅ 12,98 %
3
3 7
131
Por lo tanto, la distribución binomial se entiende como una serie
de pruebas o ensayos en la que solo podemos tener 2 resultados
(éxito o fracaso), siendo el éxito nuestra variable aleatoria.
F.2.1.- Propiedades de la distribución binomial
Para que una variable aleatoria se considere que sigue una
distribución binomial, tiene que cumplir las siguientes propiedades:
En cada ensayo, experimento o prueba solo son posibles dos
resultados (éxito o fracaso).
La probabilidad del éxito ha de ser constante. Esta se representa
mediante la letra p. La probabilidad de que salga cara al lanzar una
moneda es 0,5 y esta es constante dado que la moneda no cambia en
cada experimento y las probabilidades de sacar cara es constate.
La probabilidad de fracaso ha de ser también constate. Esta se
representa mediante la letra q = 1-p. Es importante fijarse que
mediante esa ecuación, sabiendo p o sabiendo q, podemos obtener la
que nos falte.
El resultado obtenido en cada experimento es independiente del
anterior. Por lo tanto lo que ocurra en cada experimento no afecta a
los siguientes.
Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir
los 2 al mismo tiempo. No se puede ser hombre y mujer al mismo
tiempo o que al lanzar una moneda salga cara y cruz al mismo tiempo.
Los sucesos son colectivamente exhaustivos, es decir, al menos uno
de los 2 ha de ocurrir. Si no se es hombre, se es mujer y si se lanza
una moneda, si no sale cara ha de salir cruz.
La variable aleatoria que sigue una distribución binomial se suele
representar como X ( n , p). n representa el número de ensayos o
experimentos y pla probabilidad de éxito.
132
F.2.2.- Formula de la distribución binomial
La fórmula para calcular la distribución normal es:
()
P ( x ) = n p x q n−x
x
Dónde:
n=número de ensayos /experimentos
x=número de éxitos
p= probabilidad de éxito
q= probabilidad de fracaso ( 1− p )
()
C n , x= n =
n!
x x ! ( n−x ) !
El signo de exclamación en la expresión anterior, representa el
símbolo de factorial.
F.2.3.- Ejemplo de distribución binomial
Imaginemos que un 80% de personas en el mundo han visto el
partido de la final del último mundial de futbol. Tras el evento, 4
amigos se reúnen a conversar, ¿Cuál es la probabilidad de que 3 de
ellos hayan visto?
Definamos las variables del experimento:
n=4 (es eltotal de la muestra que tenemos )
x=número de éxitos ,que en este caso es igual a 3
p= probabilidad de éxito( 0,8)
q= probabilidad de fracaso( 0,2)
Tras definir todas nuestras variables, simplemente sustituimos en
la formula.
()
P ( x ) = n p x q n−x
x
133
()
P ( 3 )= 4 (0,8) (0,2) =0,4096
3
3 4 −3
Si multiplicamos por 100 tenemos que hay una probabilidad del 40,96 %
de que 3 de los 4 amigos hayan visto el partido de la final del mundial.
134
La desviación típica es σ =√ μ
Cuando realizamos un experimento contando sucesos y obtenemos
un valor x, su error vendrá determinado por la raíz de x. x ± √ x
La distribución de Poisson debe de cumplir los siguientes
requisitos:
La variable discreta es el número de ocurrencias de un suceso
durante un intervalo (esto es la propia definición que hemos dado
anteriormente).
Las ocurrencias deben ser aleatorias y no contener ningún vicio que
favorezca unas ocurrencias en favor de otras.
Las ocurrencias deben estar uniformemente distribuidas dentro del
intervalo que se emplee.
G.1.2.- ¿Cuándo se usa la Distribución de Poisson?
La distribución de Poisson es particularmente importante ya que
tiene muchos casos de uso. Podemos poner como ejemplos de uso: la
disminución de una muestra radioactiva, la llegada de pasajeros de un
aeropuerto o estación de trenes o autobuses, los usuarios que se
conectan a una web determinada por hora (es un caso particularmente
interesante que usa Googlee en sus métricas predictivas de visitantes
únicos a una web).
135
Ilustración Nº 66: Protomisil V2 de los que se lanzaban sobre Londres desde Calais ( Francia )
136
G.1.4.- Ejemplos de la distribución de Poisson
Ejemplo Nº1: Suponga que el número de clientes que entran a un banco en
una hora es una variable aleatoria de Poisson, y suponga que P( x=0)=0.05.
Determine la esperanza y la varianza de x
Datos: x
μ e
−μ
x=0 P ( x) =
x!
P ( 0 )=0,05
μ=? μ 0 e− μ −μ
0,05= =e
2
σ =? 0!
−μLn ( e ) =ln(0,05)
−μ=−2,9957
μ=2,9957 (Que es el valor de la esperanza y a la vez la
varianza)
Datos:
a.- Para 1 hora
x=5 μ x e−μ
P ( 5 )=? P ( x) =
x!
μ=10
b.- Para ½ hora a. Calculemos la parte (a)
μ=5 La mitad del 5 −10
(10) e
promedio original P ( 5 )= =0,0378
5!
137
H.- Ejercicios sobre distribuciones: (de probabilidad, normal, binomial y
poisson). (Santiago, 2019)
Ejercicio 1.- El 30% de un determinado pueblo ve un concurso que hay en
televisión. Desde el concurso se llama por teléfono a 10 personas del pueblo
elegidas al azar. Calcular la probabilidad de que, entre las 10 personas,
estuvieran viendo el programa: a) Más de ocho personas b) Algunas de las
diez personas c) Calcular la media y desviación típica. (Binomial)
Respuestas :a :0,000144 ; b :0,972 y c :3 y 1,45
Ejercicio 2.- El jefe de recursos humanos de una empresa realiza un test de
diez ítems a los aspirantes a un puesto, teniendo en cada ítems cuatro
posibles respuestas, de las que sólo una es correcta. Suponiendo que los
aspirantes teniendo la misma probabilidad de responder. Se pide hallar las
probabilidades para el aspirante: a) Conteste todos los ítems mal b) Conteste
al menos cuatro ítems bien c) Conteste entre cuatro y seis ítems bien d)
Conteste todos los ítems bien e) Conteste menos de tres ítems bien.
(Binomial)
Respuestas :a :0,0563 ; b :0,2241 , c :0,2206 ; d :0 y e :0,5256
Ejercicio 3.- Una compañía de seguros garantiza pólizas de seguros
individuales contra retrasos aéreos de más de doce horas. Una encuesta ha
permitido estimar a lo largo de un año que cada persona tiene una
probabilidad de cada de mil de ser víctima de un retraso aéreo que esté
cubierto por este tipo de póliza y que la compañía aseguradora podrá vender
una media de cuatro mil pólizas al año. Se pide hallar las siguientes
probabilidades: a) Que el número de retrasos cubiertos por la póliza no pase
de cuatro por año b) Número de retrasos esperados por año c) Que el
138
número de retrasos sea superior a dos por año d) Que ocurran doce retrasos
por año. (Binomial)
Respuestas :a :0,6289 ; b :4 ; c :0,7619 y d :0,00064
139
c) ¿Cuál es la probabilidad de que fallen por lo menos tres componentes
en 125 horas?
Respuestas :a :0,27067 ; b :=, 0916 y c :0,9972
Se pide:
a) Porcentaje de los días que obtendrá premio el distribuidor A b
140
b) Porcentaje de los días que obtendrá premio el distribuidor B c
c) A qué distribuidor beneficia la decisión de la agencia
d) Si se asocian los dos distribuidores, ¿qué porcentaje de días obtendrían
premio?
Respuestas :a :6,68 % ; b :2,28 % : c : Al distribuidor A y d :Todos los días100 %
Ejercicio 11.- La utilización de la tarjeta VISA en operaciones comerciales, en
la población de una gran ciudad, sigue en porcentajes una distribución
normal de media 4,5 y desviación típica 0,5. Se pide calcular las siguientes
probabilidades:
a. Que un ciudadano tomado al azar utilice la tarjeta más del 5% en sus
operaciones
b. Tanto por ciento de la ciudad que utiliza la tarjeta menos del 3,75%
c. Porcentaje de operaciones con tarjeta que utiliza el 20% más alto de
la población
d. Porcentaje de operaciones con tarjeta que utiliza el 10% más bajo de
la población
e. Porcentaje de operaciones del 80% más próximo a la media
Respuestas :a :0,1587 ; b :0,0668 ; c : 4,921 %; d :3,96 %
e :3,86 % ≤ μ ≤ 5,14 %
Ejercicio 12.- En una población de mujeres, las puntuaciones de un test de
ansiedad riesgo siguen una distribución normal N (25,10). Al clasificar la
población en cuatro grupos de igual tamaño, ¿cuáles serán las puntuaciones
que delimiten estos grupos?
Respuesta :
El primer gr upo seríanlas mujeres con puntuaciones inferiores oiguales a 18,3
El segundo grupos son aquellas mujeres con puntuaciones entre 18,3 y 25
El tercer grupo son lasmujeres con puntuaciones entre 25 y 31,7
El cuarto grupo son mujeres que tengan puntuaciones superiores a31,7
Ejercicio 13.- El peso de un determinado tipo de manzanas fluctúa
normalmente con media 150 gramos y desviación típica 30 gramos. Una
141
bolsa de llena con 15 manzanas seleccionadas al azar. ¿Cuál es la
probabilidad de que el peso total de la bolsa sea inferior a 2 kilos?
Respuesta: 0,0158
142
BIBLIOGRAFÍA
Alcaste.com. (14 de Octubre de 2016). Tema 9 - Estadística. Recuperado el 31 de Julio de
2020, de Tema 9 - Estadística:
http://www.alcaste.com/departamentos/matematicas/secundaria/Cuarto/
09_Estadistica/teoria.pdf
Alvarado, M. (23 de Enero de 2019). Las ramas de la estadística, qué estudian y aplicaciones.
Recuperado el 31 de Julio de 2020, de Las ramas de la estadística, qué estudian y
aplicaciones: https://www.lifeder.com/ramas-estadistica/
Díaz Peña, J., & Chávez Prieto, N. (30 de Mayo de 2012). La Importancia De Los Datos
Estadisticos. Recuperado el 1 de Agosto de 2020, de La Importancia De Los Datos
Estadisticos: http://la-informatic.blogspot.com/2012/05/la-importancia-de-los-
datos.html
143
Formulas, U. . (11 de Abril de 2018). Variables estadísticas. Recuperado el 31 de Julio de
2020, de Variables estadísticas:
https://www.universoformulas.com/estadistica/descriptiva/variables-estadisticas/
Giampaolo Orlandon, i. M. (2010). Escalas de medición en Estadística. Telos Vol. 12, No. 2 ,
243 - 247.
Sálas, C., Remuzgo, l., Jordá, V., & Sarabia, J. (2019). Conceptos básicos de estadística
descriptiva. Barcelona - España: Commons BY - NC - S.A 4.0.
144
Science, B. D. (17 de Octubre de 2016). Qué es la probabilidad estadística? Recuperado el 9
de Agosto de 2020, de Qué es la probabilidad estadística?:
https://datosconciencia.com/probabilidad-estadistica/
145