Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CICLO: II
Tarapoto-Perú
2023
1
ÍNDICE
Introducción...............................................................................................................................................3
1.TERMINOLOGÍA ESTADÍSTICA:.........................................................................................................4
1.1 Definiciones básicas..........................................................................................................................4
2. ORGANIZACIÓN Y RECOLECCIÓN E INTERPRETACIÓN DE DATOS........................................6
2.1 Variables y clases de variables........................................................................................................6
2.2 La encuesta y sus características.....................................................................................................8
2.3 Tablas de frecuencias Unidimensionales y Bidimensionales.........................................................9
3. MEDIDAS DE RESUMEN ESTADÍSTICO......................................................................................10
3.1 Medidas de tendencia central (media, mediana y moda)............................................................10
3.2 Medidas de posición: cuartiles, deciles y percentiles...................................................................16
4. MEDIDAS DE RESUMEN ESTADÍSTICO......................................................................................17
4.1 Medidas de dispersión (varianza, desviación estándar y C. V.)..................................................17
4.2 Medidas de forma (Asimetría y Kurtosis)....................................................................................19
5. REGRESIÓN Y PROBABILIDADES:..............................................................................................22
5.1 Regresión y correlación lineal simple...........................................................................................22
5.2 Correlación Lineal Simple.............................................................................................................23
5.3 Probabilidades................................................................................................................................25
LABORATORIO DE ESTADÍSTICA GENERAL -UNIDAD II.......................................................................30
2
Introducción
La estadística se refiere a un conjunto de métodos para manejar la obtención, presentación y
análisis de observaciones numéricas. Sus objetivos son describir el conjunto de datos obtenidos y
tomar decisiones o realizar generalizaciones acerca de las características de todas las posibles
observaciones bajo consideración.
Los métodos estadísticos son ampliamente utilizados en diferentes áreas del quehacer humano: el
gobierno, los negocios, la educación, la psicología, la sociología, la antropología, las ciencias del
comportamiento, la agricultura, la medicina, la biología y la física, entre otras.
Existen dos grandes ramas en esta disciplina, una es la estadística descriptiva y se refiere a la
obtención, organización, presentación y descripción de la información numérica. Por otro lado, la
estadística inferencial es una técnica mediante la cual se obtienen generalizaciones o se toman
decisiones con base en información parcial o incompleta, obtenida mediante técnicas
descriptivas.
En la ilustración 1 se muestra el proceso de aplicación de los métodos estadísticos en su dos
grandes ramas. Con la estadística descriptiva se obtienen los estadísticos muestrales utilizados
por la estadística inferencial para hacer inferencias y estimaciones de los parámetros de una
población.
3
1.TERMINOLOGÍA ESTADÍSTICA:
4
Una conocida frase, que algunas veces se atribuye a Benjamin Disraeli y otras a Mark Twain,
dice “Existen tres tipos de mentiras: las mentiras, las malditas mentiras y la estadística”.
El uso incorrecto de la estadística puede deberse a la realización de un muestreo erróneo y la
presentación engañosa de los datos; contar con datos insuficientes, o no representativos llevará a
conclusiones falsas.
Características de un estimador
Como se mencionó, los estadísticos muestrales pueden fungir como estimadores de los
parámetros de una población. Algunas características de los estimadores son:
* Exactitud
Es el grado de aproximación de los resultados de la observación (de la medida, del cálculo o de
la estimación) con respecto al valor verdadero (o que se considera como tal) o a un valor de
referencia.
* Precisión
Desde el punto de vista estadístico, resulta del agrupamiento de los datos obtenidos por la
repetición de una medida. Sólo se ve afectada por factores aleatorios y no guarda relación con el
valor aceptado como real. Una varianza pequeña nos indica que hay mayor precisión.
* Sesgo
Se dice que los datos presentan un sesgo cuando todas las mediciones están cargadas hacia un
mismo lado del valor real. En este caso, el valor esperado del estadístico muestral difiere del
parámetro correspondiente.
En la ilustración 2 se muestran gráficamente las características de un estimador. Supongamos que
te encuentras frente a un tablero de tiro al blanco y que el punto central representa el valor del
parámetro real de una población; mientras que cada tiro (representado en la ilustración mediante
una estrella de color rojo) equivale al valor de un estimador de dicho parámetro, tomado a partir
de una muestra.
5
Ilustración 2. Características de un estimador. Porras, A. (2014).
En el caso “a” se tiene que los tiros realizados (estimadores) son exactos porque tienden a dar en
el blanco, es decir que son precisos, están agrupados y varían poco; no hay sesgo porque los
estimados son similares al valor real.
En el caso “b”, a diferencia del primero, los estimadores no dieron en el blanco (no son exactos),
sin embargo, varían poco (son precisos) y tienen un sesgo porque los tiros están cargados hacia
un lado del valor real.
En lo que respecta a la opción “c”, los estimadores no son exactos porque no dan en el blanco,
son imprecisos en tanto que los tiros están dispersos en el espacio y no hay sesgo, es decir, los
estimadores no se agrupan en una dirección preferencial.
Finalmente, en el caso “d”, los estimadores no son exactos porque no dan en el blanco, son
imprecisos porque están dispersos, y hay un sesgo debido a que sí hay una dirección en la cual
tienden a agruparse los estimadores.
Algunos ejemplos de abusos en el uso de la estadística
Aquí se muestran algunas afirmaciones que denotan el uso inadecuado de la estadística:
Datos insuficientes. Un vendedor de pólizas, basado en cuatro visitas, afirma que un cuarto de
sus reuniones es exitoso.
Datos muestrales no representativos. Supongamos que los gastos mensuales de una muestra de
estudiantes son: 2000,1900, 2300, 1800, 1700, 2100, 2200 y 10, 000.Con todos los estudiantes, el
gasto promedio total asciende a 3000, pero sin el último de ellos, decae a 2000.
Falsas conclusiones. Según las estadísticas, un estadounidense que viaja en avión está más
seguro que otro que permanece en casa, pues en un año hubo solamente 395 accidentes aéreos
fatales, mientras que ocurrieron29,000 accidentes fatales en el hogar.
Aplicaciones de la Estadística
Interpretaciones y conclusiones de la investigación.
Meta-análisis de las revisiones de la literatura.
Diseño del ensayo clínico.
Diseño de encuestas.
Estudios epidemiológicos.
Modelado estadístico.
Se define a una variable estadística como una característica de una población o muestra
estadística para que adopten diferentes valoraciones. Las variables estadísticas se destacan por ser
cualidades que van adoptando forma numérica.
Un ejemplo de esto puede ser la altura de una persona, que sería de 175 centímetros. La variable
estadística en este caso es esa altura, mientras que la medida es la unidad, que son los
centímetros.
Otro ejemplo que puede aplicar: se puede argumentar que el dueño de una asociación empresarial
obtiene ingresos aproximados de más de un millón de pesos por mes. Aquí aplica lo mismo, la
6
variable estadística es el número, el millón, mientras que la medida es el peso chileno. Ambas
variables se expresan en números porque son cuantitativas. (López, 2020)
Características
Ahora bien, es necesario aclarar que no todas las variables estadísticas son idénticas y que, por
ende, no todas se expresan de forma numérica (cuantitativamente). Las variables tienen la
característica de cambiar, así que también pueden ser cualitativas, como el color de ojos de una
persona.
Por ejemplo: Martín tiene ojos marrones y Julieta azules. En ambos casos, la variable estadística
es el color de ojos, no existiendo una medida numérica para abordarlo. (López, 2020)
Las variables presentan distintos tipos y cada cual cuenta con sus propias subdivisiones y
características. Principalmente, las variables se dividen en cuantitativas y cualitativas.
Variables cualitativas
Las variables cualitativas se caracterizan por ser clasificadas por palabras y no por números o
expresiones matemáticas. A su vez, estas se clasifican en:
Nominal: estas variables no siguen un orden en particular.
Ordinal: siguen un orden determinado o una jerarquía específica.
Binaria: este tipo de variable da lugar a la obtención de dos tipos de resultados a la vez.
Variables cuantitativas
Estas, al contrario que las cualitativas, si se expresan mediante números y cálculos matemáticos.
También cuentan con subdivisiones:
Discreta: se destaca por el uso de valores enteros, en vez de los finitos.
Continua: se aplican valores objetivos y a su vez finitos, dejando de lado los enteros, ya que se
usan expresiones decimales.
Una vez comprendas los distintos tipos y características que poseen las variables estadísticas
queda mostrarte ejemplos para que puedas extender tu comprensión. Pero antes, explicaremos
otros subtipos no tan conocidos de las mismas. (López, 2020)
Otras variantes
Además de las variables explicadas antes, que vienen a ser los tipos principales, no está de más
decir que también hay otros tipos menos aplicados. Existen otras variables de tipo categóricas;
económicas; dependientes; independientes; dicotómicas y cardinales. Por dar un ejemplo, una
variable puede ser, a su vez, discreta, dependiente y cuantitativa.
Además, también es necesario explicar que, si una variable cualitativa se expresa o representa
con un nombre, no significa que automáticamente ya no pueda pertenecer a un modelo
matemático.
Se puede crear una variable cuantitativa sobre una que de origen es cualitativa. ¿Suena muy
extraño? Vamos con un ejemplo: podemos tomar los posibles colores de cabello y darles una
variable numérica. Al color negro un 1, al rubio un 2 y al colorado un 3. También pueden
aplicarse variables dicotómicas para indicar resultados por SI o NO. (López, 2020)
Ejemplos de variables
7
Vamos a darte ejemplos más que claros para que comprendas todos los tipos de variables
estadísticas que existen:
Cuantitativa: las horas laborales de los empleados durante una semana o un mes.
Continua: al tratarse de valores finitos y decimales, podemos tomar por ejemplo el peso de una
persona, que nunca es exacto. Tal como 75,8 KG.
Discreta: aquí son valores enteros, puede ser el peso de un producto de mercado, una distancia
en kilómetros con un número par o bien la cantidad de invitados a una fiesta.
Cualitativa: un buen ejemplo de esto puede ser la forma en la que se ubican los espectadores de
un concierto. Se diferencian por su localización en el lugar, ya sean las gradas, el campo o la
zona VIP.
Ordinal: ejemplos de esto pueden ser los niveles sociales y económicos de una sociedad, o el
orden de llegada de una carrera de coches.
Nominal: no se sigue un orden, así que pueden ser elementos elegidos de forma azarosa, como
una lista con colores.
Binaria: únicamente dos posibles resultados, pueden ser: si o no, blanco y negro u hombre y
mujer. (López, 2020)
Una encuesta es un método de recopilación de datos que implica hacer preguntas a una muestra
de personas con el fin de obtener información sobre sus opiniones, actitudes, comportamientos o
características demográficas. Sus principales características son:
8
Ejemplos de técnicas de recopilación de datos:
. Encuestas: Utilización de cuestionarios para obtener respuestas de personas sobre un tema
específico.
Supongamos que estamos recopilando datos sobre la edad de un grupo de personas y queremos
crear una tabla de frecuencias para resumir la distribución de edades. Aquí está un ejemplo de
una tabla de frecuencias unidimensional:
En esta tabla, hemos agrupado las edades en intervalos de 10 años y contado cuántas personas se
encuentran en cada intervalo.
Tablas de Frecuencias Bidimensionales: Estas tablas se emplean cuando se desean resumir dos
variables en conjunto. Se muestran las frecuencias conjuntas de las combinaciones de valores de
ambas variables, lo que permite analizar las relaciones entre ellas. Se utilizan frecuentemente en
estadísticas descriptivas y en la prueba de hipótesis.
9
En esta tabla, hemos resumido las preferencias deportivas de hombres y mujeres. Por ejemplo, 20
hombres prefieren el fútbol, 15 prefieren el baloncesto, y 5 prefieren el tenis. Del mismo modo,
10 mujeres prefieren el fútbol, 12 el baloncesto y 18 el tenis. Esta tabla muestra cómo se
distribuyen las preferencias deportivas entre los dos grupos.
La
media (a menudo llamada promedio) es probablemente la medida de tendencia central con la que
estás familiarizado, pero existen otras, como la mediana y la moda. (EIG, s.f)
10
La Media
La media, también conocida como media aritmética y frecuentemente llamada como promedio, es
una medida de tendencia central que se obtiene al sumar cada uno de los datos y dividirlos entre la
cantidad de los mismos. Por otra parte, si la media es obtenida dentro de una población la media se
ha de representar con la letra miu (µ) y si esta se calcula dentro de una muestra se representará con
una x que llevará una raya en la parte superior.
Es importante mencionar que este tipo de medida, se puede calcular tanto en variables continuas y
discretas.
Formula de la Media para Datos Agrupados
En el caso del cálculo de la media para datos agrupados, la fórmula cambia en gran medida
debido a que se tienen en cuenta una serie de factores nuevos. Ya que en esta tenemos en cuenta
la marca de clase y la frecuencia absoluta.
Resumiendo, la formula, debemos sumar cada frecuencia absoluta con la marca de clase en cada
intervalo y luego dividirla en la cantidad total de datos.
11
Solución:
En este caso la media se aplica para datos agrupados, por tanto, tenemos que tener en cuenta la
marca de clase (xi) y la frecuencia absoluta acumulada (fi). Recuerda que la sumatoria indica que
debemos sumar dentro de los cinco intervalos el producto de la frecuencia absoluta junto a la marca
de clase, en este caso en la tabla se expresa como la suma de todos estos productos es 2868. (EIG,
s.f)
La Mediana
La mediana es el valor intermedio que se encuentra entre el conjunto de datos, una vez que estos
están ordenados. Es importante precisar que un 50% de los datos está por encima de la mediana y
el otro 50% está por debajo de la misma.
12
. En donde i sería el intervalo con una frecuencia acumulada que supera el valor de n/2.
. Li es el límite inferior del intervalo en donde la frecuencia acumulada supero el valor de n/2.
Solución:
Iniciamos determinando en que intervalo se encuentra la mediana, para ello debe cumplir que el
valor de n/2 sea menor igual que la frecuencia absoluta acumulada (Fi):
13
En este caso i=6, que es el número del intervalo a tener en cuenta. Por tanto, cada una de las
variables que necesitamos son:
Finalmente, calculamos la mediana reemplazando cada uno de los datos hallados: (EIG, s.f)
La Moda
La moda es el valor que se repite con mayor frecuencia en nuestro conjunto de datos. Es
importante aclarar que un conjunto de datos puede presentar desde una moda, varias modas o
ninguna. En un histograma de frecuencias absolutas, la moda es la barra más alta de nuestro
gráfico.
El símbolo de la moda es Mo, tanto para datos agrupados y no agrupados.
Formula de la Moda para Datos Agrupados
La fórmula que usaremos para el cálculo de la moda, en el caso de que tengamos datos agrupados
será:
14
. Li es el límite inferior del intervalo con mayor frecuencia absoluta.
. fi-1 es la frecuencia absoluta anterior a la de mayor frecuencia.
. fi+1 es la frecuencia absoluta del siguiente intervalo al de mayor frecuencia absoluta.
. a es la amplitud del intervalo de mayor frecuencia absoluta.
Cálculo de la moda para datos agrupados
d) Dada la siguiente distribución de frecuencias, calcular lo moda para dicha muestra.
Solución:
En este caso estamos abordando un ejercicio con datos agrupados en intervalos, por ende,
debemos usar la fórmula para tal caso.
Por definición la moda para datos agrupados es: (EIG, s.f)
15
3.2 Medidas de posición: cuartiles, deciles y percentiles
Aunque la varianza y la desviación estándar son las medidas de dispersión más útiles en análisis
estadístico, existen otras técnicas con las cuales puede medirse la dispersión de un conjunto de
datos. Estas medidas adicionales de dispersión son los cuartiles, los deciles y los percentiles.
Cuartiles
Son valores de la variable que dividen los datos ordenados en cuartos; cada conjunto de datos
tiene tres cuartiles. El primer cuartil, Q1, es un número tal que a lo sumo 25% de los datos son
menores en valor que Q3 y a lo sumo 75% son mayores. El segundo cuartil es la mediana (50%).
El tercer cuartil, Q3, es un número tal que a lo sumo 75% de los datos son menores en valor que
Q3 y a lo sumo 25% son mayores (Pacuala,2023).
16
Deciles
Son valores de la variable que dividen los datos ordenados en diez partes iguales (9 divisiones).
Percentiles
Son los valores de la variable que dividen un conjunto de datos clasificados en 100subconjuntos
iguales; cada conjunto de datos tiene 99 percentiles. El k-ésimo percentil, Pk, es un valor que a lo
sumo k% de los datos son menores en valor que k Py a lo sumo (100 - k) %de los datos son
mayores (Pacuala, 2023)
17
X → Variable sobre la que se pretenden calcular la varianza
xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.
N → Número de observaciones.
x̄ → Es la media de la variable .
Desviación estándar
La desviación estándar es una de las principales medidas estadísticas que intervienen en el
cálculo de la muestra de una investigación, y también es una medida de riesgo que utilizan los
analistas, los gestores de carteras y los asesores.
En este artículo te describiremos en qué consiste, cuáles son sus usos y cómo obtenerla paso a
paso.
Formula de la desviación estándar
18
• X → Variable sobre la que se pretenden calcular la varianza
• σx → Desviación típica de la variable X.
• | x̄ | → Es la media de la variable X en valor absoluto con x̄ ≠ 0
El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x. Cuanto
mayor sea la suma ∑(xi–x)3, mayor será la asimetría. Sea el conjunto X= (x1, x2, …, xN),
entonces la fórmula de la asimetría de Fisher es:
Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de
asimetría de Fisher se convierte en:
19
Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores que la
media. Si CAF=0: la distribución es simétrica.
Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la media
Coeficiente de Karl Pearson
Donde:
= media aritmética.
Md = Mediana.
s = desviación típica o estándar.
Nota:
El Coeficiente de Pearson varía entre -3 y 3
Si As < 0 ? la distribución será asimétrica negativa.
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.
Medida de Yule Bowley o Medida Cuartílica
Donde:
= Cuartil uno; = Cuartil dos= Mediana; =Cuartil tres.
KURTOSIS
La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la
distribución normal, es decir, mide cuán puntiaguda es una distribución. (ibujes).
TIPOS DE CURTOSIS
La curtosis determina el grado de concentración que presentan los valores en la región central de
la distribución. Así puede ser:
Leptocúrtica. - Existe una gran concentración.
Mesocúrtica. - Existe una concentración normal.
20
Platicúrtica. - Existe una baja concentración.
MEDIDAS DE KURTOSIS
Medida de Fisher
Para datos sin agrupar se emplea la siguiente fórmula:
Donde:
=cada uno de los valores; n = número de datos; = media aritmética;
=Cuádruplo, de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca de clase
Nota:
Si a < 3 ? la distribución es platicúrtica
Si a = 3 ? la distribución es normal o mesocúrtica
Si a > 3 ? la distribución es leptocúrtica
Ejemplo ilustrativo: Determinar qué tipo de curtosis tiene la siguiente distribución: 6, 9, 9, 12,12,
12, 15 y 17. Emplear la medida de Fisher y el coeficiente percentil de curtosis.
Solución: Calculando la media aritmética se obtiene
21
Calculando la desviación estándar poblacional se obtiene:
Coeficiente de Kurtosis
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del
conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia. Sea el
conjunto X= (x1, x2,…, xN), entonces el coeficiente de curtosis será:
5. REGRESIÓN Y PROBABILIDADES:
22
de estudios de regresión lineal, es más común que una de las variables se controle (tiempo,
concentración de reactivo, temperatura…) y se mida la otra.
• Por norma general, los estudios de correlación lineal preceden a la generación de modelos de
regresión lineal. Primero se analiza si ambas variables están correlacionadas y, en caso de estarlo,
se procede a generar el modelo de regresión.
5.2 Correlación Lineal Simple
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de
parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza,
que indica el grado de variación conjunta de dos variables aleatorias (Amat,2016)
23
El test paramétrico de significancia estadística empleado para el coeficiente de correlación es el t-
test. Al igual que ocurre siempre que se trabaja con muestras, por un lado, está el parámetro
estimado (en este caso el coeficiente de correlación) y por otro su significancia a la hora de
considerar la población entera. Si se calcula el coeficiente de correlación entre X e Y en
diferentes muestras de una misma población, el valor va a variar dependiendo de las muestras
utilizadas. Por esta razón se tiene que calcular la significancia de la correlación obtenida y su
intervalo de confianza.
Para este test de hipótesis, H0 considera que las variables son independientes (coeficiente de
correlación poblacional = 0) mientras que, la Ha, considera que existe relación (coeficiente de
correlación poblacional ≠≠ 0)
La correlación lineal entre dos variables, además del valor del coeficiente de correlación y de su
significancia, también tiene un tamaño de efecto asociado. Se conoce como coeficiente de
determinación R2. Se interpreta como la cantidad de varianza de Y explicada por X. En el caso
del coeficiente de Pearson y el de Spearman, R2 se obtiene elevando al cuadrado el coeficiente de
correlación. En el caso de Kendall no se puede calcular de este modo. (No he encontrado como se
calcula) (Amat,2016).
Mediante bootstrapping también se puede calcular la significancia de un coeficiente de
correlación. Es una alternativa no paramétrica al t-test. Resampling: Test de permutación,
Simulación de Monte Carlo y Bootstrapping).
Regresión Lineal Simple
La información aquí presente recoge los principales conceptos de la regresión lineal. Se puede
encontrar una descripción mucho más detallada en los libros. Introduction to Statistical Learning
y en Linear Models with R.
La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una recta)
que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o
respuesta se le identifica como Y y a la variable predictora o independiente como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este último representa
la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas
variables que influyen en Y pero que no se incluyen en el modelo como predictores. Al error
aleatorio también se le conoce como residuo.
En la gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos, por lo que, a
partir de una muestra, se obtienen sus estimaciones β^0 y β^1. Estas estimaciones se conocen
como coeficientes de regresión o least square coefficient estimates, ya que toman aquellos
valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa más
24
cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados para obtener las
estimaciones de los coeficientes).
Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de ellos es
necesario satisfacer distintas condiciones. En caso de querer medir la relación lineal entre dos
variables, la recta de regresión lo va a indicar de forma directa (ya que calcula la correlación). Sin
embargo, en caso de querer predecir el valor de una variable en función de la otra, no solo se
necesita calcular la recta, sino que además hay que asegurar que el modelo sea bueno
(Amat,2016).
5.3 Probabilidades
¿Qué es la probabilidad?
El término probabilidad proviene de lo probable, o sea, de aquello que es más posible que ocurra,
y se entiende como el mayor o menor grado de posibilidad de que un evento aleatorio ocurra,
expresado en una cifra entre 1 (posibilidad total) y 0 (imposibilidad absoluta), o bien en
porcentajes entre el 100% o el 0%, respectivamente.
Para obtener la probabilidad de un suceso, generalmente se determina la frecuencia con la que
ocurre (en experimentos aleatorios bajo condiciones estables), y se procede a realizar cálculos
teóricos.
Para ello se sigue lo establecido por la Teoría de la probabilidad, una rama de las matemáticas
dedicada al estudio de la probabilidad. Esta disciplina es largamente empleada por otras ciencias
naturales y sociales como disciplina auxiliar, ya que les permite manejar escenarios posibles en
base a generalizaciones.
El origen de la probabilidad reside en la necesidad del ser humano de anticiparse a los hechos, y
de predecir en cierta medida el futuro. Así, en su empeño por percibir patrones y conexiones en la
realidad, se enfrentó constantemente al azar, o sea, a lo que carece de orden.
25
Las primeras consideraciones formales sobre esta materia provienen del siglo XVII,
específicamente de la correspondencia entre Pierre de Fermat y Blaise Pascal en 1654, o de los
estudios de Christiaan Huygens en 1657 y de la Kybeia de Juan Caramuel en 1649, texto hoy en
día perdido. (EE, 2022)
Tipos de probabilidad
Existen los siguientes tipos de probabilidad:
Frecuencial. Aquella que determina la cantidad de veces que un fenómeno puede ocurrir,
considerando un número determinado de oportunidades, a través de la experimentación.
Matemática. Pertenece al ámbito de la aritmética, y aspira al cálculo en cifras de la probabilidad
de que determinados eventos aleatorios tengan lugar, a partir de la lógica formal y no de su
experimentación.
Binomial. Aquella en la que se estudia el éxito o fracaso de un evento, o cualquier otro tipo de
escenario probable que tenga dos posibles resultados únicamente.
Objetiva. Se denomina así a toda probabilidad en la que conocemos de antemano la frecuencia
de un evento, y simplemente se dan a conocer los casos probables de que ocurra dicho evento.
Subjetiva. Contrapuesta a la matemática, se sustenta en ciertas eventualidades que permiten
inferir la probabilidad de un evento, aunque alejada de una probabilidad certera o calculable. De
allí su subjetividad.
Hipergeométrica. Aquella que se obtiene gracias a técnicas de muestreo, creando grupos de
eventos según su aparición.
Lógica. La que posee como rasgo característico que establece la posibilidad de ocurrencia de un
hecho a partir de las leyes de la lógica inductiva.
Condicionada. Aquella que se emplea para comprender la causalidad entre dos hechos distintos,
cuando puede determinarse la ocurrencia de uno tras la ocurrencia del otro. (EE, 2022)
Ejemplos de probabilidad.
La probabilidad se halla continuamente a nuestro alrededor. Los ejemplos más obvios de ella
tienen que ver con juegos de azar: los dados, por ejemplo. Es posible determinar la frecuencia de
aparición de cada cara, a partir de una serie continua de lanzamientos del dado. O también puede
hacerse con la lotería, aunque ello exige cálculos tan enormes que, virtualmente, los hace
imposibles de predecir.
También lidiamos con la probabilidad cuando consultamos el pronóstico del tiempo, y se nos
advierte un cierto porcentaje de probabilidad de lluvia. Dependiendo de la cifra, será más o
menos probable que llueva, pero podría ocurrir que no suceda, dado que se trata de una
predicción, no de una certeza. (EE, 2022)
Fórmula para calcular la probabilidad
El cálculo de las probabilidades se lleva a cabo según la fórmula siguiente:
Probabilidad = Casos favorables / casos posibles x 100 (para llevarlo a porcentaje)
Así, por ejemplo, podemos calcular la probabilidad de que una moneda salga cara en un único
lanzamiento, pensando que sólo puede salir una cara (1) de las dos que hay (2), esto es, 1 / 2 x
100 = 50% de probabilidad.
26
En cambio, si decidimos calcular cuántas veces saldrá la misma cara en dos lanzamientos
seguidos, deberemos pensar que el caso favorable (cara y cara o sello y sello) es uno entre cuatro
posibilidades de resultado (cara y cara, cara y sello, sello y cara, sello y sello). Por ende, 1 / 4 x
100 = 25% de probabilidad. (EE, 2022)
Aplicaciones de la probabilidad
El cálculo de la probabilidad tiene numerosas aplicaciones en la vida cotidiana, como son:
El análisis de riesgo empresarial. Según el cual se estiman las posibilidades de caída de precio
de las acciones bursátiles, y se intenta predecir la conveniencia o no de la inversión en una u otra
empresa.
El análisis estadístico de la conducta. De importancia para la sociología, emplea la
probabilidad para evaluar la posible conducta de la población, y así predecir tendencias de
pensamiento o de opinión. Es común verlo en las campañas electorales.
La determinación de garantías y seguros. Procesos en los que se evalúa la probabilidad de
avería de los productos o la fiabilidad de un servicio (o de un asegurado, por ejemplo), para así
saber cuánto tiempo de garantía conviene ofrecer, o a quiénes conviene asegurar y por cuánto.
En la ubicación de partículas subatómicas. Según el Principio de Incertidumbre de
Heisenberg, el cual establece que no podemos saber dónde está una partícula subatómica en un
momento determinado y al mismo tiempo a qué velocidad se mueve, de modo que los cálculos en
la materia se realizan normalmente en términos probabilísticos: existe X por ciento de
probabilidades de que la partícula esté allí.
En la investigación biomédica. Se calculan porcentajes de éxito y de fracaso de las drogas
médicas o de las vacunas, para así saber si son fiables o no, y si conviene o no producirlas en
masa, o a qué porcentaje de la población podrán causarle determinados efectos secundarios. (EE,
2022)
Teorema de Bayes
El teorema de Bayes es utilizado para calcular la probabilidad de un suceso, teniendo
información de antemano sobre ese suceso
Podemos calcular la probabilidad de un suceso A, sabiendo además que ese A cumple cierta
característica que condiciona su probabilidad. El teorema de Bayes entiende la probabilidad de
forma inversa al teorema de la probabilidad total. El teorema de la probabilidad total hace
inferencia sobre un suceso B, a partir de los resultados de los sucesos A. Por su parte, Bayes
calcula la probabilidad de A condicionado a B.
El teorema de Bayes ha sido muy cuestionado. Lo cual se ha debido, principalmente, a su mala
aplicación. Ya que, mientras se cumplan los supuestos de sucesos disjuntos y exhaustivos, el
teorema es totalmente válido. (López, 2018)
Fórmula del teorema de Bayes
Para calcular la probabilidad tal como la definió Bayes en este tipo de sucesos, necesitamos una
fórmula. La fórmula se define matemáticamente como:
27
Donde B es el suceso sobre el que tenemos información previa y A(n) son los distintos sucesos
condicionados. En la parte del numerador tenemos la probabilidad condicionada, y en la parte de
abajo la probabilidad total. En cualquier caso, aunque la fórmula parezca un poco abstracta, es
muy sencilla. Para demostrarlo, utilizaremos un ejemplo en el que en lugar de A (1), A (2) y A
(3), utilizaremos directamente A, B y C. (López, 2018)
28
LABORATORIO DE ESTADÍSTICA GENERAL -UNIDAD II
29
Las medidas de dependencia central son estadísticas que resumen la ubicación
de un conjunto de datos. Algunas de las más comunes son la media, la mediana
y la moda. La media es el promedio, la mediana es el valor del medio cuando
los datos están ordenados, y la moda es el valor que aparece con mayor
frecuencia. Estas medidas ofrecen diferentes perspectivas sobre la tendencia
central de los datos.
. Media:
- Datos: 8, 12, 18, 24, 30
- Media: (8 + 12 + 18 + 24 + 30) / 5 = 18
. Mediana:
- Datos: 4, 7, 9, 12, 15
- Mediana: 9 (valor medio cuando se ordenan los datos)
. Moda:
- Datos: 3, 5, 5, 8, 10
- Moda: 5 (valor más frecuente)
30
Estas medidas se utilizan para interpretar datos en muchas áreas, desde la
investigación científica hasta la economía. Por ejemplo, un economista podría
usar la varianza y la desviación estándar para analizar la volatilidad de los
precios de las acciones. Un rango alto y una desviación estándar alta
indicarían que los precios de las acciones fluctúan mucho, lo que podría ser
un signo de riesgo para los inversores.
4. ¿Qué son las medidas de forma en estadísticas y por qué son importantes?.
Proporciona un ejemplo de una medida de forma.
31
La asimetría se refiere a la falta de simetría en una distribución de datos. Un
conjunto de datos es simétrico si, cuando lo trazas en un gráfico, los dos lados
del gráfico son imágenes especulares uno del otro. Si un conjunto de datos no
es simétrico, entonces tiene asimetría. La asimetría puede ser positiva (la cola
del gráfico se extiende hacia la derecha) o negativa (la cola se extiende hacia
la izquierda).
La curtosis, por otro lado, mide la "pesadez" de las colas de una distribución.
Una distribución con alta curtosis tiene colas más pesadas, lo que significa
que es más probable que tenga valores extremos.
32
Usando los datos agrupados proporcionados, responde las siguientes preguntas:
33
c) Calcula la desviación estándar de la cantidad de árboles plantados.
34
d) Determina el rango intercuartílico de los intervalos de plantación.
35
e) Calcula la Asimetría. Interpretar
36
37
f) Calcula la Curtosis. Interpretar
38
Parte B: Regresión Lineal Simple
2.Supón que estás analizando la relación entre la cantidad de estudio (en horas) y el
puntaje en un examen (en puntos, 0 a 100 puntos). Realiza una regresión lineal
simple, utilizando los siguientes datos:
39
x y x.y x
2
y
2
2 70 140 4 4900
3 75 225 9 5625
5 85 425 25 7225
6 88 528 36 7744
8 92 736 64 8464
∑ x =¿ 24 ¿ ∑ y=¿ ¿410 ∑ xy =¿ ¿205 ∑ x 2=¿ ¿13 ∑ y 2=¿ ¿33 958
4 8
5 ( 2054 )−(24)(410)
a= 2
5(138)− ( 24 )
10270−9840
a=
690−576
430
a=
114
a=3.771
Hallamos a:
b=
∑ y−a ∑ x
n
410−(3.771)(24)
b=
5
410−90.504
b=
5
40
319.496
b=
5
b=63.89
Ecuación de la recta de regresión: Y =3.771 x +63.892
5(2054 )−(24)(410)
r=
√ [5 ( 138 )− ( 24 ) ][5 ( 33962 )−( 410 ) ]
2 2
10270−9840
r=
√ [690−576][169810−168100]
430
r=
√ [114 ][1710]
430
r=
√ 194940
430
r=
441.52
r =0.973
41
Parte C: Probabilidad
42
Define el teoremade Bayes y cómose utiliza en la probabilidad. Proporciona un
ejemplo quemuestre suaplicació n .
43
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General
En unestudio sobre latalade árboles en el Perú, se han recopilado datos sobre dos
3.
eventos: A (talailegal de árboles) y B (tala legal de árboles).
• En el 60% de las áreas forestales, se lleva a la tala legal de árboles (evento B).
cabo lleva latalailegal de árboles (evento A).
• En el 40% de las áreas forestales, se a cabo
• El 25% de las áreas donde se latalailegal de á rboles tambié nse realiza latala
realiza legal (es decir, P(B|A) =
0.25).
• El 75% de las áreas donde se latalailegal de árboles nose realiza latala legal
realiza (es decir, P(B'|A) = 0.75).
c) Calcula la probabilidadde que nose realice la tala legal de árboles dado que
yaseha realizado latalailegal de árboles enun área forestal (P(B'|A)).
1
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General
- P(B'|A) es la probabilidad de no realizar la tala legal de árboles dado que se
ha realizado la tala ilegal de árboles.
Los valores proporcionados son:
- P(B) = 0.60 (probabilidad de tala legal de árboles)
- P(A) = 0.40 (probabilidad de tala ilegal de árboles)
-(P(B|A) = 0.25 (probabilidad de tala legal dado que se ha realizado tala ilegal)
- P(B'|A) = 0.75 (probabilidad de no realizar tala legal dado que se ha realizado
tala ilegal)
Vamos a resolver cada uno de los incisos:
2
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General
Calculamos:
P(B|A') = 1 - P(B'|A')
P(B|A') = 1 - 0.75
P(B|A') = 0.25
Ahora, utilizamos la fórmula de la probabilidad total para encontrar
(P(B):
P(B) = P(B|A) × P(A) + P(B|A') × P(A')
P(B) = 0.25 × 0.40 + 0.25 × 0.60
P(B) = 0.1 + 0.15
P(B) = 0.25
Por lo tanto, la probabilidad de que se realice la tala legal de árboles en
cualquier área forestal en Perú es (0.25) o (25)
3
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General
REFERENCIAS:
ALEA, V. et al. (1999) Estadística Aplicada a les Ciències Econòmiques i Socials. Barcelona:
Edicions McGraw-Hill EUB.