Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TECNOLOGICO DE
ORIZABA
Ingeniería en sistemas computacionales
Nombre:
Hernández Heredia Kevin
Numero de control:
C22010603
Unidad 2, 3, 4, 5 y 6
Fecha:
05 de diciembre de 2023
P(A∪B)=P(A)+P(B)
P(A∩B)=P(A)×P(B)
Es importante destacar que el Principio Aditivo es válido solo para eventos mutuamente
excluyentes. Si los eventos no son mutuamente excluyentes, se debe considerar la
posibilidad de que ocurran ambos eventos, y la fórmula de la Unión de Eventos P(A∪B) se
modifica utilizando el principio de inclusión-exclusión:
P(A∪B) = P(A)+P(B)−P(A∩B)
P(A∩B)=P(A)×P(B∣A)
Donde:
P(A∩B)=P(A)×P(B)
n!=n×(n−1)×(n−2)×…×3×2×1
Permutaciones (2.1.4)
P(n,k)=n!(n−k)!
Donde:
En palabras simples, la fórmula de permutaciones nos dice que para encontrar el número de
formas en que k elementos pueden ser ordenados de entre un total de n elementos, se toman
k elementos a la vez y se calcula cuántas formas hay para ordenarlos.
Por ejemplo, si tienes una colección de 5 cartas y quieres saber cuántas formas diferentes
puedes organizar 3 de esas cartas, utilizarías la fórmula de permutaciones:
P(5,3)=5!(5−3)!=5!2!=5×4×3×2×12×1=60
Esto significa que hay 60 formas diferentes de organizar 3 cartas seleccionadas de un total
de 5 cartas.
Las permutaciones son útiles en problemas donde se necesita calcular el número de arreglos
distintos de elementos o cuando se trabaja con ordenamientos específicos de objetos en una
colección.
Combinaciones (2.1.5)
C(n,k)=(nk)=n!k!(n−k)!
Donde:
C(7,3)=(73)=7!3!(7−3)!=7!3!4!=7×6×53×2×1=35
El diagrama de árbol es una herramienta visual útil para comprender las diferentes
secuencias de eventos y calcular la probabilidad de resultados en situaciones con múltiples
etapas o decisiones. Ayuda a organizar la información y visualizar todas las posibles
trayectorias que pueden ocurrir en un proceso dado.
El Teorema del Binomio establece la fórmula para expandir (a+b)n donde a y b son
números reales o variables, y n es un número entero no negativo:
(a+b)n=∑k=0n(nk)an−kbk
En esta fórmula:
Por ejemplo, si tienes (x+y)4, puedes aplicar el Teorema del Binomio para expandirlo:
(x+y)4=(40)x4y0+(41)x3y1+(42)x2y2+(43)x1y3+(44)x0y4
Estos son algunos de los conceptos básicos que forman la teoría elemental de la
probabilidad. Estos conceptos se aplican en una amplia gama de disciplinas, incluyendo
estadística, análisis de riesgos, ciencias de la computación, economía, y muchas otras áreas
para modelar y analizar la incertidumbre en diversos contextos.
Definiciones:
Simbología:
A∪B (Unión): Representa el evento que al menos uno de los eventos A o B ocurra.
Es la unión de los conjuntos A y B.
A∩B (Intersección): Representa el evento en el que ambos eventos A y B ocurren
simultáneamente. Es la intersección de los conjuntos A y B.
A′ (Complemento): Representa el evento complementario de A, es decir, todos los
resultados que no están en el evento A.
Unión ( A∪B ):
La unión de dos eventos, A∪B, es el evento que ocurre si al menos uno de los eventos A o
B (o ambos) ocurre.
Intersección ( A∩B):
La intersección de dos eventos, A∩B, es el evento que ocurre cuando ambos eventos A y B
ocurren simultáneamente.
Diagramas de Venn:
Los diagramas de Venn son representaciones gráficas utilizadas para mostrar las relaciones
entre conjuntos y eventos. En el contexto de la teoría de la probabilidad, se utilizan para
ilustrar la relación entre eventos, su intersección, su unión y sus complementos. Estos
diagramas muestran conjuntos como regiones en un plano y las interacciones entre ellos.
Por ejemplo, un diagrama de Venn para dos conjuntos, A y B, mostraría dos círculos
superpuestos o intersecados, representando sus elementos individuales y la región común
entre ellos para mostrar su intersección A∩B.
Los diagramas de Venn pueden extenderse para representar más de dos eventos o
conjuntos, proporcionando una visualización clara de las relaciones entre ellos en términos
de su unión, intersección y complemento.
Axiomas de la Probabilidad:
Teoremas importantes:
P(B∣A)=P(A∩B)P(A)
P(B∣A)=P(B)
O, de manera equivalente:
P(A∩B)=P(A)×P(B)
Esto significa que la probabilidad de que ocurra B dado que A ha ocurrido es igual a la
probabilidad de que ocurra B en general, lo que implica que la ocurrencia de A no afecta la
probabilidad de B.
Esta ley se utiliza para calcular la probabilidad de dos eventos que ocurren en secuencia, es
decir, cuando un evento A ocurre y luego un evento B ocurre, y se denota como P(A∩B).
P(A∩B)=P(A)×P(B∣A)
Otro ejemplo sería la probabilidad de tener dos eventos consecutivos, como la probabilidad
de que llueva un día y luego el siguiente día también llueva. La ocurrencia del segundo
evento está condicionada por la ocurrencia del primer evento.
Los eventos independientes son aquellos eventos cuya ocurrencia no está influenciada por
la ocurrencia o no-ocurrencia de otros eventos. En otras palabras, la ocurrencia de un
evento no tiene impacto en la probabilidad de ocurrencia de otro evento.
Eventos Independientes:
P(B∣A)=P(B)
También, de manera equivalente:
P(A∩B)=P(A)×P(B)
Esto significa que la probabilidad de que ocurra B dado que A ha ocurrido es igual a la
probabilidad de que ocurra B en general. La ocurrencia de A no afecta la probabilidad de B
y viceversa.
Reglas de Bayes:
Las reglas de Bayes son un conjunto de teoremas que permiten actualizar las probabilidades
de un evento basándose en nueva información o evidencia. Estos teoremas son
particularmente útiles en situaciones donde se necesita modificar las probabilidades
después de obtener nueva información.
Teorema de Bayes:
P(A∣B)=P(B∣A)×P(A)
Esto significa que la probabilidad de que ocurra el evento A dado que B ha ocurrido es
igual a la probabilidad de que ocurra B dado A multiplicada por la probabilidad de A,
dividida por la probabilidad de B.
Las reglas de Bayes son aplicables en situaciones donde se desea actualizar las
probabilidades a medida que se obtiene nueva información. Por ejemplo, en la medicina, se
utiliza para evaluar la probabilidad de que un paciente tenga cierta enfermedad después de
realizar una prueba diagnóstica, considerando la sensibilidad y especificidad de la prueba.
Por ejemplo, al lanzar un dado, la variable aleatoria X podría representar el número que
aparece en la cara superior del dado. Los posibles valores que puede tomar esta variable son
1,2,3,4,5,6, siendo una variable discreta ya que estos valores son finitos y contables.
Propiedades Importantes:
El valor esperado, también conocido como esperanza matemática o media, es una medida
importante en teoría de probabilidad y estadística que representa el promedio ponderado de
los posibles valores que puede tomar una variable aleatoria.
El valor esperado de una variable aleatoria X se denota como E(X) o μ (en el caso de una
población), y se calcula como la suma ponderada de todos los posibles valores que puede
tomar X, multiplicados por sus respectivas probabilidades.
Para una variable aleatoria discreta con función de masa de probabilidad (PMF) P(X=xi)=pi
para i=1,2,3,…,n, el valor esperado se calcula como:
E(X)=∑i=1nxi⋅pi
E(X)=∫−∞∞x⋅f(x) dx
Varianza:
La varianza de una variable aleatoria X es una medida de cuánto se dispersan los valores
alrededor de su valor esperado (media). Se denota como Var(X) o σ2 (en el caso de una
población).
Para una variable aleatoria discreta con función de masa de probabilidad (PMF) P(X=xi)=pi
para i=1,2,3,…,n, la varianza se calcula como:
Var(X)=E[(X−E(X))2]=∑i=1n(xi−μ)2⋅pi
Para una variable aleatoria continua con función de densidad de probabilidad (PDF)
f(x)f(x), la varianza se calcula como:
Var(X)=E[(X−E(X))2]=∫−∞∞(x−μ)2⋅f(x) dx
Desviación Estándar:
La desviación estándar es la raíz cuadrada positiva de la varianza y proporciona una medida
de la dispersión en la misma escala que los datos originales. Se denota como SD(X) o σ (en
el caso de una población).
SD(X)=Var(X)
F(x)=P(X≤x)
Las variables aleatorias continuas son aquellas que pueden tomar un número infinito de
valores en un intervalo continuo. A diferencia de las variables aleatorias discretas, que solo
pueden tomar valores específicos, las variables aleatorias continuas pueden tomar cualquier
valor dentro de un rango determinado.
El valor esperado o esperanza matemática de una variable aleatoria continua es una medida
importante que representa el promedio ponderado de los posibles valores que puede tomar
esa variable, ponderados por su función de densidad de probabilidad.
El valor esperado de una variable aleatoria continua X se denota como E(X) o μ (en el caso
de una población), y se calcula como la integral del producto entre el valor de la variable
aleatoria y su función de densidad de probabilidad:
E(X)=∫−∞∞x⋅f(x) dx
Donde xx representa los posibles valores que puede tomar la variable aleatoria, y f(x) es la
función de densidad de probabilidad asociada con X.
Ejemplo:
Por ejemplo, si tenemos una variable aleatoria X que representa la altura de un grupo de
personas y su función de densidad de probabilidad f(x), el valor esperado E(X)
representaría la altura promedio ponderada de acuerdo con la distribución de la población.
La varianza de una variable aleatoria continua X se denota como Var(X) o σ2 (en el caso de
una población), y se calcula como la integral del cuadrado de la diferencia entre cada valor
posible de la variable aleatoria y su valor esperado, ponderado por su función de densidad
de probabilidad:
Var(X)=E[(X−E(X))2]=∫−∞∞(x−μ)2⋅f(x) dx
La desviación estándar, denotada como SD(X) o σ (en el caso de una población), es la raíz
cuadrada positiva de la varianza:
SD(X)=Var(X)
La desviación estándar es una medida de dispersión que indica cuánto se desvían los
valores de la variable aleatoria continua respecto a su media.
La desviación estándar es una medida de dispersión que se expresa en las mismas unidades
que los datos originales. Cuanto mayor sea la desviación estándar, mayor será la dispersión
de los datos alrededor de la media. Por lo tanto, la varianza y la desviación estándar son
fundamentales para entender la dispersión y la variabilidad en una distribución de
probabilidad o un conjunto de datos.
Función acumulada (3.2.4)
La función acumulada de una variable aleatoria continua es una función que describe la
probabilidad acumulativa de que la variable aleatoria sea menor o igual a un valor
específico dentro de su rango de valores.
F(x)=P(X≤x)=∫−∞xf(t) dt
Donde xx es cualquier valor dentro del rango de la variable aleatoria X, f(t) es la función de
densidad de probabilidad (PDF) de X, y la integral representa la acumulación de
probabilidades hasta el valor x.
Para calcular la probabilidad de que una variable aleatoria continua X caiga en un rango
específico [a,b], se utiliza la función de distribución acumulada (CDF):
P(a≤X≤b)=F(b)−F(a)=∫abf(x) dx
Ejemplo:
P(−1≤X≤1)=F(1)−F(−1)
La probabilidad de que una variable aleatoria caiga fuera de un rango específico [a,b] es el
complemento de la probabilidad de que caiga dentro de ese rango:
P(X<a o X>b)=1−P(a≤X≤b)
Por ejemplo, la probabilidad de sacar cualquier número al lanzar un dado es de 1/6 (un dado tiene
seis caras), por lo tanto, la función de probabilidad asociada a este espacio muestral será igual a 1/6
para cualquier valor.
Finalmente, la suma de todos los valores de una función de probabilidad da como resultado
1, pues es la suma de todas las probabilidades del espacio muestral.
Donde:
n = Número de ensayos/experimentos
x = Número de éxitos
p = Probabilidad de éxito
q = Probabilidad de fracaso (1-p)
Es importante resaltar que la expresión entre corchetes no es una expresión matricial, sino que es un
resultado de una combinatoria sin repetición. Este se obtiene con la siguiente formula:
Por ejemplo, una variable aleatoria discreta X que tiene una distribución hipergeométrica con
parámetros N=8, K=5 y n=3 se define de la siguiente manera:
Queremos calcular la probabilidad de sacar 4 bolas azules (x=4), por lo tanto, aplicamos la fórmula
de la distribución hipergeométrica, sustituimos las variables por sus correspondientes valores y
hacemos el cálculo:
Distribución de Poisson (4.4)
La distribución de Poisson es una distribución de probabilidades discreta, mediante la cual se
puede conocer la probabilidad de que, dentro de una muestra de tamaño grande y durante un cierto
intervalo, ocurra un evento cuya probabilidad es pequeña.
Con frecuencia, la distribución de Poisson se puede utilizar en lugar de la distribución binomial,
siempre y cuando se cumplan las siguientes condiciones descritas: muestra grande y probabilidad
pequeña.
Simeón-Denis Poisson (1781‐1840) creó esta distribución que lleva su nombre, muy útil cuando se
trata de sucesos impredecibles. Poisson publicó sus resultados en 1837, un trabajo de investigación
sobre la probabilidad de ocurrencia de las sentencias penales erróneas.
Posteriormente otros investigadores adaptaron la distribución en otros ámbitos, por ejemplo, el
número de estrellas que podían hallarse en un cierto volumen del espacio, o la probabilidad de que
un soldado muriese a causa de la coz de un caballo.
Formula y ecuaciones
La forma matemática de la distribución de Poisson es la siguiente:
– La variable aleatoria es y
– La probabilidad de obtener y = k es P
Las variables aleatorias discretas, como su nombre lo indica, dependen del azar y únicamente toman
valores discretos: 0, 1, 2, 3, 4…, k.
La media de la distribución viene dada por:
La varianza σ, que mide la dispersión de los datos, es otro parámetro importante. Para la
distribución de Poisson es:
σ=μ
μ → constante
Modelo y propiedades
-La probabilidad P de que cierto suceso y ocurra durante un periodo de tiempo concreto es muy
pequeña: P→ 0.
-El valor promedio se aproxima a una constante dada por: μ = n.p (n es el tamaño de la muestra)
-Puesto que la dispersión σ es igual a μ, a medida que esta adopta valores más grandes, la
variabilidad también se hace mayor.
-La suma de i variables que siguen una distribución de Poisson, es también otra variable de Poisson.
Su valor promedio es la suma de los valores promedio de dichas variables.
-La distribución binomial es afectada tanto por el tamaño de la muestra n como por la
probabilidad P, pero la distribución de Poisson solamente es afectada por la media μ.
-En una distribución binomial, los posibles valores de la variable aleatoria y son 0, 1, 2, …, N, en
cambio en la distribución de Poisson no hay límite superior para dichos valores.
Ejemplos:
Poisson aplicó inicialmente su famosa distribución a casos legales, pero a nivel industrial, uno de
sus primeros usos fue en la fabricación de cerveza. En este proceso se utilizan cultivos de levadura
para la fermentación.
Durante la II Guerra Mundial se utilizó la distribución de Poisson para saber si los alemanes estaban
apuntando realmente a Londres desde Calais, o simplemente disparando al azar. Esto era importante
para que los aliados determinaran cuan buena era la tecnología de la que disponían los nazis.
El nombre de distribución normal viene del hecho que esta distribución es la que se aplica a mayor
número de situaciones donde está involucrada alguna variable aleatoria continua en un grupo o
población dada.
Como ejemplos donde se aplica la distribución normal se tienen: la altura de los hombres o de las
mujeres, variaciones en la medida de alguna magnitud física o en rasgos psicológicos o sociológicos
medibles como el cociente intelectual o los hábitos de consumo de cierto producto.
Por otra parte, se le llama distribución gaussiana o campana de Gauss, porque es a este genio
matemático alemán a quién se le acredita su descubrimiento por el uso que le dio para la
descripción del error estadístico de las mediciones astronómicas allá por el año 1800.
Sin embargo, se afirma que esta distribución estadística fue publicada previamente por otro gran
matemático de origen francés, como lo fue Abraham de Moivre, allá por el año 1733.
Formula
N (x; μ, σ)
N (+∞, μ, σ) = 1
La expresión anterior asegura que la probabilidad de que la variable aleatoria x esté comprendida
entre -∞ y +∞ sea 1, es decir el 100% de probabilidad.
N( x; μ = 0, σ = 1)
3- La forma de la función de densidad f se asemeja a la de una campana, por lo que a esta función
muchas veces se le llama campana de Gauss o función gaussiana.
6- La función f es simétrica respecto a un eje que pase por su valor medio μ y tiene asintóticamente
a cero para x ⟶ +∞ y x ⟶ -∞.
7- A mayor valor de σ mayor dispersión, ruido o distanciamiento de los datos alrededor del valor
medio. Es decir, a mayor σ la forma de campana es más abierta. En cambio, σ pequeño indica que
los dados se ciñen a la media y la forma de la campana es más cerrada o puntiaguda.
8- La función de distribución N (x; μ, σ) indica la probabilidad que la variable aleatoria sea menor o
igual que x. Por ejemplo, en la figura 1 (más arriba) la probabilidad P de que la variable x sea menor
o igual a 1.5 es de 84% y se corresponde con el área bajo la función densidad de probabilidad f (x;
μ, σ) desde -∞ hasta x.
Intervalos de confianza
9- Si los datos siguen una distribución normal, entonces 68,26% de estos están entre μ – σ y μ + σ.
10- El 95,44% de los datos que siguen una distribución normal se encuentran entre μ – 2σ y μ + 2σ.
11- El 99,74% de los datos que siguen una distribución normal se encuentran entre μ – 3σ y μ + 3σ.
12- Si una variable aleatoria x sigue una distribución N(x; μ,σ), entonces la variable
En definitiva, la prueba t de Student sirve para rechazar o aceptar la hipótesis de estudio de algunas
pruebas de hipótesis. Por ejemplo, la prueba t de Student se utiliza en las pruebas de hipótesis para
una muestra, para muestras independientes o para muestras relacionadas. A continuación, veremos
cómo se calcula la prueba t de Student en cada caso.
Prueba t de Student para una muestra: se usa para analizar la hipótesis sobre el valor de
la media de una muestra.
Prueba t de Student para dos muestras independientes: sirve para estudiar la hipótesis
sobre la diferencia entre las medias de dos muestras independientes.
Prueba t de Student para dos muestras pareadas (o muestras relacionadas): se utiliza
para investigar la hipótesis sobre la media de una muestra evaluada dos veces.
Las pruebas de hipótesis para la media de una muestra son aquellas en las que la hipótesis nula y la
hipótesis alternativa del contraste afirman algo sobre el valor de la media de una población.
Donde:
es el estadístico de la prueba de hipótesis para la media, el cual está definido por una
distribución t Student.
es la media de la muestra.
es el valor de la media propuesto en la prueba de hipótesis.
es la desviación estándar de la muestra.
es el tamaño de la muestra.
Una vez se ha calculado el valor de la prueba t de Student, se debe interpretar el resultado del
estadístico de la prueba con el valor crítico para rechazar o no la hipótesis nula:
Ten en cuenta que los valores críticos de la prueba se obtienen de la tabla de la distribución t
Student.
Así pues, la distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una distribución chi-
cuadrada tiene tantos grados de libertad como la suma de los cuadrados de variables con
distribución normal que representa.
La distribución chi-cuadrado también se conoce como distribución de Pearson.
La moda de una distribución chi-cuadrada es dos unidades menos que sus grados de
libertad, siempre y cuando la distribución tenga más de un grado de libertad.
Como consecuencia del teorema del límite central, la distribución chi-cuadrado puede
aproximarse por una distribución normal si k es suficientemente grande.
Distribución F (4.8)
La distribución F o distribución de Fisher-Snedecor es la que se usa para comparar las
varianzas de dos poblaciones diferentes o independientes, cada una de las cuales sigue una
distribución normal.
La distribución que sigue la varianza de un conjunto de muestras de una sola población normal
es la distribución ji-cuadrada (Χ2) de grado n-1, si cada una de las muestras del conjunto tiene n
elementos.
Para comparar las varianzas de dos poblaciones diferentes, es necesario definir un estadístico,
es decir una variable aleatoria auxiliar que permita discernir si ambas poblaciones tienen o no
igual varianza.
Dicha variable auxiliar puede ser directamente el cociente de las varianzas muestrales de cada
población, en cuyo caso, si dicho cociente es cercano a la unidad, se tiene evidencia que ambas
poblaciones tienen varianzas semejantes.
La variable aleatoria F o estadístico F propuesto por Ronald Fisher (1890 – 1962) es el que se
usa más frecuentemente para comparar las varianzas de dos poblaciones y se define de la
siguiente manera:
Siendo s2 la varianza muestral y σ2 la varianza poblacional. Para distinguir cada uno de los dos
grupos poblacionales, se utilizan los subíndices 1 y 2 respectivamente.
Se sabe que la distribución ji-cuadrada con (n-1) grados de libertad es la que sigue la variable
auxiliar (o estadístico) que se define a continuación:
X2 = (n-1) s2 / σ2.
Por lo tanto, el estadístico F sigue una distribución teórica dada por la siguiente fórmula:
Media
Donde se nota que, curiosamente, la media no depende de los grados de libertad d1 del numerador.
Moda
Para d1 > 2.
Varianza de la distribución F
Obteniéndose:
Manejo de la distribución F
Al igual que otras distribuciones continuas de probabilidad que involucran funciones complicadas,
el manejo de la distribución F se realiza mediante tablas o mediante software.
Tablas de la distribución F
Las tablas involucran los dos parámetros o grados de libertad de la distribución F, la columna indica
el grado de libertad del numerador y la fila el grado de libertad del denominador.
Los diagramas de dispersión reciben varios nombres diferentes, tales como diagrama de
correlación o nube de puntos.
Cabe destacar que el diagrama de dispersión se considera como una de las herramientas básicas de
control de calidad, junto con el diagrama de Pareto, el diagrama de causa-efecto, el diagrama de
flujo, etc.
1. Recolectar los datos estadísticos de la muestra que se quiere analizar. Ten en cuenta que
para poder hacer un diagrama de dispersión debe haber como mínimo dos variables
cuantitativas.
2. Representar los dos ejes del gráfico de dispersión.
3. Determinar las dos variables estadísticas que se representarán gráficamente.
4. Calibrar la escala de cada eje de la gráfica. Para ello, se recomienda encontrar primero el
mínimo y el máximo de cada variable y, a partir de estos valores, graduar cada eje.
En la siguiente tabla de frecuencia, se han recogido como datos las notas de matemáticas y
estadística de una muestra de 20 alumnos. Representa el conjunto de datos en un diagrama de
dispersión y analízalo.
Para representar la serie de datos en un diagrama de dispersión simplemente debemos dibujar dos
ejes, calibrarlos y representar un punto en la gráfica para cada pareja de datos. Recuerda que un
punto en una gráfica se pone donde se cortan las rectas imaginarias correspondientes a cada uno de
sus valores.
Cada eje del diagrama de dispersión representa una variable. En concreto, el eje horizontal
pertenece a la nota conseguida en matemáticas y, por otro lado, el eje vertical corresponde a la nota
obtenida en estadística.
Como puedes ver en el gráfico de dispersión, las dos variables tienen una correlación positiva, ya
que una variable aumenta a medida que la otra variable también aumenta. Por lo tanto, se concluye
que si un alumno consigue mejor nota en matemáticas es más probable que también saque mejor
nota en estadística, y al revés.
Sin embargo, la conclusión anterior no significa que una variable sea la causa de la otra, ya que
obtener una buena nota en matemáticas no te garantiza automáticamente conseguir una buena nota
en estadística sin hacer nada, sino que se deben estudiar las dos asignaturas. En el siguiente
apartado entraremos más en detalle en este concepto.
A partir de un diagrama de dispersión se puede identificar qué tipo de correlación tienen dos
variables:
Correlación fuerte: las dos variables están muy relacionadas. Los puntos están muy juntos
entre sí en el diagrama de dispersión. En consecuencia, resulta más fácil identificar la
relación entre las variables.
Correlación débil: existe una relación entre las dos variables, pero resulta difícil de
identificar. Los puntos están muy separados en el diagrama de dispersión.
Debido a las características del diagrama de dispersión, este tipo de gráficos estadísticos tienen sus
ventajas y sus desventajas.
Ventajas:
Desventajas:
Este tipo de diagramas no son útiles para representar variables cualitativas.
La interpretación de un diagrama de dispersión puede llevar a una conclusión errónea de
causa-efecto entre dos variables.
Los diagramas de dispersión no permiten analizar la relación entre más de dos variables.
La regresión lineal simple es un modelo estadístico usado para relacionar una variable
independiente X con una variable dependiente Y. Es decir, en una regresión lineal simple solo hay
dos variables (la variable explicativa X y la variable respuesta Y) y se intenta aproximar la relación
que hay entre ambas variables.
Por lo tanto, la regresión lineal simple sirve para encontrar una ecuación que relacione dos variables
de una manera lineal. Lógicamente, la relación entre las dos variables debe ser lineal, sino se debe
utilizar otro tipo de modelo de regresión.
La ecuación de un modelo de regresión lineal simple está formada por dos coeficientes: la constante
de la ecuación (b0) y el coeficiente de la correlación entre las dos variables (b 1). Por lo tanto, la
ecuación de un modelo de regresión lineal simple es y=b0+b1x.
La ecuación de una regresión lineal simple se representa gráficamente como una línea recta, por lo
que el coeficiente b0 es la ordenada en el origen y el coeficiente b1 es la pendiente de la recta.
Puedes usar la calculadora que hay más abajo para calcular los coeficientes de una regresión lineal
simple de cualquier conjunto de datos.
Evidentemente, la ecuación resultante del modelo de regresión lineal simple no podrá acertar el
valor exacto de todas las observaciones, ya que este modelo simplemente trata de encontrar una
ecuación que aproxime la relación entre las dos variables. Así pues, se define como residuo a la
diferencia entre el valor real y el valor estimado por el modelo de la regresión lineal.
Ten en cuenta que el objetivo de un modelo de regresión lineal simple es minimizar los cuadrados
de los residuos, es decir, la regresión lineal simple se basa en el criterio de los mínimos cuadrados.
Para acabar de entender el método de la regresión lineal simple, a continuación, tienes un ejemplo
resuelto paso a paso en el que se calcula la ecuación de un modelo de regresión lineal simple de un
conjunto de datos estadísticos.
Después de realizar un examen de estadística, se ha preguntado a cinco estudiantes cuántas
horas de estudio dedicaron al examen, los datos se muestran en la tabla de abajo. Realiza un
modelo de regresión lineal simple de los datos estadísticos recopilados para relacionar
linealmente las horas de estudio con la nota obtenida.
Para hacer un modelo de regresión lineal simple tenemos que determinar los coeficientes b 0 y b1 de
la ecuación y, para ello, tenemos que utilizar las fórmulas vistas en el apartado de arriba.
No obstante, para poder aplicar las fórmulas de la regresión lineal simple primero tenemos que
calcular la media de la variable independiente y la media de la variable dependiente:
Ahora que ya sabemos las medias de las variables, calculamos el coeficiente b 1 del modelo usando
su fórmula correspondiente:
Por último, calculamos el coeficiente b0 del modelo empleando su fórmula correspondiente:
En definitiva, la ecuación del modelo de regresión lineal simple del problema es la siguiente:
A continuación, puedes ver la representación gráfica de la muestra de datos junto con la recta del
modelo de regresión lineal simple:
Para terminar, una vez hemos calculado la ecuación del modelo de regresión lineal simple, solo nos
queda interpretar el resultado obtenido. Para ello, es imprescindible calcular el coeficiente de
determinación del modelo de regresión, puedes ver cómo se hace buscando el artículo
correspondiente en nuestra página web.
Para poder hacer una regresión lineal simple, se deben cumplir las siguientes hipótesis:
Independencia: los residuos observados deben ser independientes entre sí. Una manera
común de garantizar la independencia del modelo es añadiendo aleatoriedad en el proceso
de muestreo.
Homocedasticidad: debe haber homogeneidad en las varianzas de los residuos, es decir, la
variabilidad de los residuos debe ser constante
Normalidad: los residuos deben estar distribuidos normalmente, o dicho de otra forma,
deben seguir una distribución normal de media 0.
Linealidad: la relación entre la variable independiente y la variable dependiente debe ser
lineal.
Correlación (5.1.3)
La correlación es una medida estadística que indica el grado de relación entre dos variables. En
concreto, la correlación lineal sirve para determinar cuánto de correlacionadas linealmente están
dos variables distintas.
Dos variables están relacionadas cuando al variar los valores de una variable también cambian los
valores de la otra variable. Por ejemplo, si al aumentar la variable A también aumenta la variable B,
existe una correlación entre las variables A y B.
Tipos de correlación
Según cómo sea la relación que hay entre dos variables aleatorias, se distinguen los siguientes tipos
de correlación lineal:
Ten en cuenta que estos son los diferentes tipos de correlación lineal que hay, pero también puede
ser que la relación matemática entre dos variables no se pueda representar con una recta, sino que se
debe utilizar una función más compleja, como por ejemplo una parábola o un logaritmo. En tal caso
sería una correlación no lineal.
Coeficiente de correlación
Vista la definición de correlación y cuáles son los diferentes tipos de correlación que hay, vamos a
ver cómo se calcula este valor estadístico.
El valor del índice de correlación puede estar entre -1 y +1, ambos incluidos. Más abajo veremos
cómo se interpreta el valor del coeficiente de correlación.
Interpretación de la correlación
El valor del coeficiente de correlación puede ir desde -1 hasta +1, ambos incluidos. Así pues, según
el valor del coeficiente de correlación, significa que la relación entre las dos variables es de una
forma u otra. A continuación, se explica cómo interpretar el valor de la correlación:
r=-1: las dos variables tienen una correlación perfecta negativa, por lo que se puede trazar
una recta con pendiente negativa en la que se encuentren todos los puntos.
-1<r<0: la correlación entre las dos variables es negativa, por lo tanto, cuando una variable
aumenta la otra disminuye. Cuanto más cerca esté el valor de -1 significa que más
relacionadas negativamente están las variables.
r=0: la correlación entre las dos variables es muy débil, de hecho, la relación lineal entre
ellas es nula. Esto no significa que las variables sean independientes, ya que podrían tener
una relación no lineal.
0<r<1: la correlación entre las dos variables es positiva, cuanto más cerca esté el valor de
+1 más fuerte es la relación entre las variables. En este caso, una variable tiende a
incrementar su valor cuando la otra también aumenta.
r=1: las dos variables tienen una correlación perfecta positiva, es decir, tienen una relación
lineal positiva.
Como puedes ver en los gráficos de dispersión de arriba, cuanto más fuerte es la correlación entre
dos variables más juntos están los puntos en el gráfico. Por otro lado, si los puntos están muy
separados entre sí significa que la correlación es débil.
Ten presente que, aunque haya correlación entre dos variables esto no significa que exista
causalidad entre ellas, es decir, la correlación entre dos variables no significa que el cambio en
una variable sea la causa del cambio en la otra variable.
Por ejemplo, si encontramos que hay una relación positiva entre la producción de dos hormonas
diferentes del cuerpo, no tiene por qué ser que el incremento de una hormona cause el incremento
de la otra hormona. Podría ser que el cuerpo produzca las dos hormonas porque necesita ambas para
combatir una enfermedad y por tanto incremente el nivel de ambas simultáneamente, en este caso la
causa sería la enfermedad. Para determinar si existe causalidad entre las dos hormonas se debería
hacer un estudio más detallado.
Correlación y regresión
La correlación y la regresión son dos conceptos que suelen ir unidos, ya que ambos sirven para
analizar la relación entre dos variables.
La correlación es una medida estadística que cuantifica la relación entre dos variables, en cambio, la
regresión consiste en hacer una ecuación (si es una regresión lineal será una recta) que permita
relacionar las dos variables.
De manera que la correlación simplemente proporciona un valor numérico a la relación entre
variables, mientras que la regresión se puede utilizar para intentar predecir el valor de una variable a
partir de la otra.
Matriz de correlación
La matriz de correlación es una matriz que contiene en la posición i,j el coeficiente de correlación
entre las variables i y j.
Por lo tanto, la matriz de correlación es una matriz cuadrada llena de unos en la diagonal principal y
el elemento de la fila i y la columna j consiste en el valor del coeficiente de correlación entre la
variable i y la variable j.
La matriz de correlación resulta muy útil para resumir los resultados y comparar la correlación entre
varias variables al mismo tiempo, ya que se puede ver rápidamente qué relaciones son más fuertes.
Determinación y análisis de los coeficientes de correlación y de
determinación. (5.1.4)
Cálculo de los coeficientes de correlación y determinación
El análisis de correlación es la herramienta estadística que podemos usar para describir el grado en
el que una variable está linealmente relacionada con otra. Con frecuencia, el análisis de correlación
se utiliza junto con el de regresión para medir qué tan bien la línea de regresión explica los cambios
de la variable dependiente, Y. Sin embargo, la correlación también se puede usar sola para medir el
grado de asociación entre dos variables.
Los estadísticos han desarrollado dos medidas para describir la correlación entre dos variables: el
coeficiente de determinación y el coeficiente de correlación.
El coeficiente de determinación
Otra interpretación de r2. Los estadísticos han desarrollado una versión abreviada, usando valores
que habríamos determinado de antemano en el análisis de regresión.
La fórmula es:
donde:
ahora podemos resolver el problema, referente a la relación entre el dinero gastado en investigación
y desarrollo y las ganancias anuales de la compañía química. La tabla presenta la información de los
6 años anteriores. Con esto, podemos determinar la ecuación de regresión que describe la relación.
Y el valor de a es:
Entonces podemos sustituir el valor de a y b en la ecuación, podemos obtener:
Para ver por qué esta fórmula constituye un método abreviado, la aplicaremos a la regresión que
relaciona los gastos de investigación y desarrollo con las ganancias. En la tabla, repetimos las
columnas de la tabla, añadiendo una columna Y2.
Recuerda que cuando encontramos los valores de a y b, la recta de regresión para este problema era:
Así, podemos concluir que la variación en los gastos de investigación y desarrollo (la variable
independiente X) aplica el 82.6% de la variación en las ganancias anuales (la variable pendiente Y).
Dado que seleccionamos una muestra aleatoria de residentes, no hay garantía de que el coeficiente
de correlación entre la altura y el peso de estos residentes en la muestra coincida exactamente con el
coeficiente de correlación en la población más grande. Entonces, para capturar esta incertidumbre,
podemos crear un intervalo de confianza que contenga un rango de valores que probablemente
contengan el verdadero coeficiente de correlación entre la altura y el peso de los residentes en este
condado.
Sea z r = ln (1 + r / 1-r) / 2
Otra forma de decir lo mismo es que hay solo un 5% de probabilidad de que el coeficiente de
correlación de la población real se encuentre fuera del intervalo de confianza del 95%. Es decir, hay
solo un 5% de probabilidad de que el verdadero coeficiente de correlación poblacional entre la
altura y el peso de los residentes de este condado sea menor que .2502 o mayor que .7658.
Un error de medición (o error de medida) es un fallo que se produce al medir una magnitud. Por
lo tanto, un error de medición es la diferencia entre el valor medido y el valor real.
En ingeniería y en física, resulta habitual cometer errores de medición en los experimentos. Aunque
se tomen precauciones para hacer el mínimo error de medida posible, cuando se miden muchas
observaciones es probable realizar algún error en la medición.
Por eso, a pesar de que generalmente es una tarea aburrida, debemos prestar atención en el proceso
de medición de una magnitud para minimizar los errores de medición.
Ahora que ya sabemos la definición de error de medición, vamos a ver cuáles son los diferentes
tipos de errores medición para entender mejor el concepto.
Según la naturaleza de los errores de medición, se pueden clasificar en los siguientes dos tipos:
Errores de medición aleatorios: tipo de error de medición del cual no se conoce la causa
por la que ocurre. En ocasiones, realizando un experimento en las mismas condiciones, se
puede obtener un resultado ligeramente diferente y no se sabe el motivo.
Por otro lado, el error de medición cometido se puede valorar calculando la diferencia del valor
medido respecto al valor real. Así pues, se distingue entre el error absoluto y el error relativo.
Error absoluto: es la diferencia entre el valor medido y el valor real. Por lo tanto, para
calcular el error absoluto simplemente se debe restar el valor obtenido de la medición
menos el valor real.
Error relativo: es la diferencia relativa entre el valor medido y el valor real. Por lo tanto, el
error relativo es equivalente al error absoluto partido por el valor real. Generalmente se
expresa en forma de porcentaje.
Causas de errores de medición
Existen varias causas que dan lugar a errores de medición, entre ellas destacan:
Por último, veremos varios ejemplos de errores de medición para entender mejor en qué consiste un
error de medición.
Muestreo:
Definición: El muestreo es un proceso o conjunto de métodos para obtener una muestra finita de
una población finita o infinita, con el fin de estimar valores de parámetros o corroborar hipótesis
sobre la forma de una distribución de probabilidades o sobre el valor de un parámetro de una o más
poblaciones.
Al realizar cualquier investigación social o de mercados, la mayor parte de las veces se rebasa
la capacidad de los investigadores/as para llegar a toda la población o universo de estudio, por lo
que se suele optar por métodos de muestreo que sirvan para acotar ese universo y así poder realizar
la investigación dentro de nuestras posibilidades.
El uso de estos métodos de muestreo, como su propio nombre indica, nos ayuda a obtener
información fiable de la población a partir de una muestra de la que extraer inferencias estadísticas
con un margen de error medido en términos de probabilidades. En otras palabras, en una
investigación por muestreo podremos estudiar el comportamiento y las opiniones de toda una
población analizando únicamente una parte de esta, teniendo en cuenta que siempre existirá un
margen de error a la hora de realizar dichos cálculos.
Tipos de Muestreo:
Muestreo probabilístico:
Muestreo sistemático:
Este muestreo selecciona de forma aleatoria al primer individuo de la población que hará parte
del estudio y luego, define un intervalo para completar la muestra.
Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un intervalo de este tipo
se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a) %, o nivel de
significación de 100a%. El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96.
Al valor se le denomina estimación puntual y se dice que es un estimador de m.
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20
en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar
comprendida en el intervalo
Esta manera de construir los intervalos de confianza sólo es válido si la variable es normal.
Cuando n es grande (>30) se puede sustituir t por z sin mucho error.
Cuando en una población procedemos a estudiar una característica con sólo dos posibles valores
(éxito/fracaso), entonces la población sigue una distribución binomial.
Cada muestra de la población tiene un porcentaje de individuos que tiene esta característica. p es la
proporción de éxito de esta variable aleatoria de la población. La proporción de fracaso es q = 1 – p
Sean todas las muestras de tamaño n de la población. Cada muestra tiene una proporción de
individuos con esa característica.
La distribución asociada a la variable aleatoria que une cada muestra con su proporción se
llama distribución muestral de proporciones.
Como, para poblaciones grandes, la binomial se aproxima a la normal, la distribución muestral de
proporciones también sigue una distribución normal:
si n es suficientemente grande, n ≥ 30, and np ≥ 5, nq ≥ 5
Como generalmente las proporciones de la población son desconocidas, las aproximamos por las de
la muestra.
Ejemplo. Una máquina fabrica piezas de precisión. En su producción habitual fabrica un 3% de
piezas defectuosas. Un cliente recibe una caja de 500 piezas procedentes de la fábrica.
a) ¿Cuál es la probabilidad de que encuentre más del 5% de piezas defectuosas en la caja?
b) ¿Cuál es la probabilidad de que encuentre menos de un 1% de piezas defectuosas?
Estimación
La estimación es la determinación de un elemento o factor. Esto, usualmente tomando como
referencia una base o conjunto de datos.
En otras palabras, la estimación es un cálculo que se realiza a partir de la evaluación estadística.
Dicho estudio suele efectuarse sobre una muestra y no sobre toda la población objetivo.
Para llevar a cabo una estimación, entonces, es necesario primero contar con una serie de datos.
Además, es común que los investigadores se sustenten en un marco teórico.
Por ejemplo, podemos estimar la inflación definiéndola como la diferencia entre los precios (de la
economía) del periodo A y los precios del periodo B. Entonces, se calcula una variación porcentual
entre los datos registrados en ambos puntos del tiempo.
Vale aclarar también que la estimación puede efectuarse sin rigurosidad matemática. Esto suele
suceder, por ejemplo, cuando se consulta a algunos expertos sobre cuánto va a crecer la economía
en el presente año. Entonces, sin haber trabajado un cálculo econométrico, el analista lanza una
cifra (o un rango), posiblemente con base en los indicadores que se vienen observando, como el
consumo de cemento.
Estimación puntual
Una estimación puntual de un parámetro poblacional es cuando se utiliza un único valor para
estimar ese parámetro, es decir, se usa un punto en concreto de la muestra para estimar el
valor deseado.
Cuando estimamos un parámetro de forma puntual, podemos saber con certeza, cual es ese valor.
Imaginemos una población de 30 personas de las que seleccionamos una muestra de 20 para las que
conocemos sus edades. Estimar de forma puntual la media de edad, sería tan sencillo como sumar
esos 20 datos y dividirlos entre el total de la muestra estadística.
Pensemos ahora en que queremos estimar la altura media de esa muestra. Al contrario que antes, no
tenemos el valor de la altura de cada persona. En este caso no podríamos realizar una estimación
puntual, es decir, no podríamos hallar un valor concreto de esa altura media. En este caso
tendríamos que realizar una estimación por intervalos, es decir, podríamos acotar el valor más alto y
más bajo de las alturas de las personas con cierta seguridad o lo que en estadística se conoce como
cierto nivel de confianza.
Propiedades deseables de un estimador
La desviación típica muestral que sirve de estimación para la desviación típica de la población.
La estimación por intervalos permite conocer el rango de valores en que podemos confiar que está
el verdadero valor poblacional; por lo tanto, permite dimensionar la imprecisión de la estimación
puntual y este es su principal propósito. Se puede decir que la estimación puntual constituye el
centro de la estimación, que el intervalo dimensiona los radios de ella y que su ancho es una medida
de la imprecisión envuelta.
La estimación por intervalo se hace para un determinado grado de confianza. Este indica la
probabilidad que el intervalo contenga en su interior al parámetro en cuestión. Para la mayoría de
las estimaciones por intervalos – como es el caso de medias, desviaciones estándar, proporciones
como riesgo relativo o razón de ventajas (odds ratio), coeficientes de regresión – se puede asumir
que la distribución de los valores de interés sigue una distribución Normal y lo mismo vale para las
diferencias entre ellos. El cálculo del grado de confianza sigue el raciocinio presentado sobre el área
bajo una curva Normal en un artículo anterior; por el mismo motivo, existe una relación cercana
entre los intervalos de confianza y las pruebas de hipótesis de dos colas como veremos luego.
Intervalo de confianza para una media (6.2.3)
Por ejemplo, si el intervalo de confianza del 95% para la media de una población es (6,10), significa
que el 95% de veces la media poblacional estará entre 6 y 10.
Por lo tanto, el intervalo de confianza para la media se usa para estimar dos valores entre los cuales
se encuentra la media de una población. Así pues, el intervalo de confianza para la media resulta
muy útil para aproximar el promedio de una población cuando se desconocen todos sus valores.
El intervalo de confianza para la media se calcula sumando y restando a la media muestral el valor
de Zα/2 multiplicado por la desviación típica (σ) y dividido por la raíz cuadrada del tamaño de la
muestra (n). Por lo tanto, la fórmula para calcular el intervalo de confianza para la media es la
siguiente:
Para tamaños muestrales grandes y un nivel de confianza del 95% el valor crítico es Z α/2=1,96 y
para un nivel de confianza del 99% el valor crítico es Zα/2=2,576.
Para que puedas ver cómo se calcula el intervalo de confianza para la media de una población, a
continuación, te dejamos con un ejemplo resuelto paso a paso.
Tal y como hemos visto en el apartado anterior, la fórmula que nos permite sacar el intervalo de
confianza para una media poblacional cuando no conocemos la desviación típica de la población es
la siguiente:
Entonces, para poder determinar el intervalo de confianza de la media, primero tenemos que
calcular la media y la desviación típica de la muestra.
Como queremos hallar el intervalo de confianza con un nivel de confianza de 1-α=95% y el tamaño
muestral es 8, tenemos que ir a la tabla de la distribución t de Student y ver qué valor corresponde a
t0,025|7.
De modo que aplicamos la fórmula del intervalo de confianza para la media y hacemos los cálculos
para encontrar los valores límites del intervalo:
En conclusión, el intervalo de confianza calculado nos indica que con un nivel de confianza del
95% la media de la población estará entre 190,82 y 209,43.
Por lo tanto, el intervalo de confianza para la proporción se usa para hacer una estimación del valor
de la proporción de una población que cumplen con unas características.
Tal y como veremos en el siguiente apartado, el intervalo de confianza para la proporción depende
de la proporción muestral y del número de observaciones de la muestra.
Donde:
es la proporción de la muestra.
es el tamaño de la muestra.
Para que puedas ver cómo se calcula un intervalo de confianza para la proporción, a continuación,
te dejamos con un ejemplo resuelto paso a paso.
En este caso, queremos que el nivel de confianza del intervalo de confianza sea del 95%, por lo que
el valor de Zα/2 que debemos tomar es 1,96.
El enunciado del problema ya nos dice que el tamaño muestral es n=700 y la proporción observada
en la muestra es p=0,40, por lo que sustituimos los datos en la fórmula del intervalo de confianza
para la proporción y calculamos los límites del intervalo:
Error tipo I
El primer tipo de error es el rechazo erróneo de una hipótesis nula como resultado de un
procedimiento de prueba. Este tipo de error se denomina error de tipo I (falso positivo) y, a veces,
se denomina error de primer tipo.
En términos del ejemplo de la sala de audiencias, un error tipo I corresponde a condenar a un
acusado inocente.
Error tipo II
El segundo tipo de error es la aceptación errónea de la hipótesis nula como resultado de un
procedimiento de prueba. Este tipo de error se denomina error de tipo II (falso negativo) y también
se denomina error de segundo tipo.
En términos del ejemplo de la sala de audiencias, un error tipo II corresponde a absolver a un
criminal.
Una prueba perfecta tendría cero falsos positivos y cero falsos negativos. Sin embargo, los métodos
estadísticos son probabilísticos y no se puede saber con certeza si las conclusiones estadísticas son
correctas. Siempre que hay incertidumbre, existe la posibilidad de cometer un error. Teniendo en
cuenta esta naturaleza de la ciencia estadística, todas las pruebas de hipótesis estadísticas tienen una
probabilidad de cometer errores de tipo I y tipo II.
La tasa de error tipo I o nivel de significación es la probabilidad de rechazar la hipótesis nula dado
que es cierta. Se denota con la letra griega α (alfa) y también se le llama nivel alfa. Por lo general, el
nivel de significación se establece en 0,05 (5 %), lo que implica que es aceptable tener una
probabilidad del 5 % de rechazar incorrectamente la hipótesis nula verdadera.
La tasa del error de tipo II se denota con la letra griega β (beta) y se relaciona con la potencia de una
prueba, que es igual a 1−β.
Estos dos tipos de tasas de error se compensan entre sí: para cualquier conjunto de muestras dado, el
esfuerzo por reducir un tipo de error generalmente da como resultado un aumento del otro tipo de
error.
La misma idea puede expresarse en términos de la tasa de resultados correctos y, por lo tanto,
usarse para minimizar las tasas de error y mejorar la calidad de la prueba de hipótesis. Para reducir
la probabilidad de cometer un error de Tipo I, hacer que el valor alfa (p) sea más estricto es bastante
simple y eficiente. Para disminuir la probabilidad de cometer un error de tipo II, que está
estrechamente relacionado con la potencia de los análisis, aumentar el tamaño de la muestra de la
prueba o relajar el nivel alfa podría aumentar la potencia de los análisis. Una estadística de prueba
es robusta si se controla la tasa de error de tipo I.
También se podría utilizar un valor de umbral (límite) diferente para hacer que la prueba sea más
específica o más sensible, lo que a su vez eleva la calidad de la prueba. Por ejemplo, imagine una
prueba médica, en la que el experimentador podría medir la concentración de cierta proteína en la
muestra de sangre. El experimentador podría ajustar el umbral (línea vertical negra en la figura) y se
diagnosticaría a las personas con enfermedades si se detecta un número por encima de este umbral
determinado. Según la imagen, cambiar el umbral daría como resultado cambios en falsos positivos
y falsos negativos, correspondientes al movimiento en la curva.
Ejemplo
Dado que en un experimento real es imposible evitar todos los errores de tipo I y tipo II, es
importante considerar la cantidad de riesgo que uno está dispuesto a correr para rechazar H 0 o
aceptar H 0 falsamente. La solución a esta pregunta sería reportar el valor p o nivel de significancia
α de la estadística. Por ejemplo, si el valor p del resultado de una estadística de prueba se estima en
0,0596, entonces hay una probabilidad del 5,96 % de que rechacemos falsamente H 0. O, si decimos
que la estadística se realiza en el nivel α, como 0.05, entonces permitimos rechazar falsamente H 0
al 5%. Un nivel de significación α de 0,05 es relativamente común, pero no existe una regla general
que se ajuste a todos los escenarios.
El límite de velocidad de una autopista en los Estados Unidos es de 120 kilómetros por hora. Se
configura un dispositivo para medir la velocidad de los vehículos que pasan. Suponga que el
dispositivo realizará tres mediciones de la velocidad de un vehículo que pasa, registrando como una
muestra aleatoria X 1, X 2, X 3. La policía de tránsito multará o no a los conductores dependiendo
de la velocidad promedio {\bar {X}}. Es decir, el estadístico de prueba
Además, suponemos que las medidas X 1, X 2, X 3 se modelan como una distribución normal
N(μ,4). Entonces, T debería seguir a N(μ,4/3) y el parámetro μ representa la verdadera velocidad
del vehículo que pasa. En este experimento, la hipótesis nula H 0 y la hipótesis alternativa H 1
deben ser
Si realizamos el nivel estadístico en α=0.05, entonces se debe calcular un valor crítico c para
resolver
Según la regla del cambio de unidades para la distribución normal. Con referencia a la tabla Z,
podemos obtener
Aquí, la región crítica. Es decir, si la velocidad registrada de un vehículo es superior al valor crítico
121,9, el conductor será multado. Sin embargo, todavía hay un 5% de los conductores que son
multados falsamente ya que la velocidad media registrada es superior a 121,9 pero la velocidad real
no pasa de 120, lo que decimos, un error tipo I.
El error tipo II corresponde al caso de que la velocidad real de un vehículo supere los 120
kilómetros por hora y no se multe al conductor. Por ejemplo, si la velocidad real de un vehículo
μ=125, la probabilidad de que el conductor no sea multado se puede calcular como
lo que significa que, si la velocidad real de un vehículo es 125, la conducción tiene una probabilidad
del 0,36 % de evitar la multa cuando la estadística se realiza en el nivel 125, ya que la velocidad
media registrada es inferior a 121,9. Si la velocidad real está más cerca de 121,9 que de 125,
entonces la probabilidad de evitar la multa también será mayor.
También se deben considerar las compensaciones entre el error de tipo I y el error de tipo II. Es
decir, en este caso, si la policía de tránsito no quiere multar falsamente a conductores inocentes, el
nivel α se puede establecer en un valor menor, como 0.01. Sin embargo, si ese es el caso, más
conductores cuya velocidad real es superior a 120 kilómetros por hora, como 125, tendrían más
probabilidades de evitar la multa.
En estadística, una prueba de hipótesis es un método que se usa para rechazar o aceptar una
hipótesis. Es decir, una prueba de hipótesis sirve para determinar si se rechaza o se acepta una
hipótesis que se tiene acerca del valor de un parámetro estadístico de una población.
En una prueba de hipótesis se analiza una muestra de datos y, a partir de los resultados obtenidos, se
decide rechazar o aceptar una hipótesis de un parámetro poblacional que se había establecido
previamente.
Una de las características de las pruebas de hipótesis es que nunca se puede saber con total certeza
si la decisión de rechazar o aceptar una hipótesis es la correcta. Así pues, en las pruebas de hipótesis
se rechaza o no una hipótesis según qué es más probable que sea verdad, pero, aunque existe
evidencia estadística para rechazar o aceptar la hipótesis, siempre se puede estar cometiendo un
error. Más abajo entraremos en detalle en los errores que se pueden hacer al realizar una prueba de
hipótesis.
Una prueba de hipótesis siempre tiene una hipótesis nula y una hipótesis alternativa, que se definen
de la siguiente manera:
Hipótesis nula (H0): es la hipótesis que sostiene que la suposición inicial que se
tiene respecto a un parámetro poblacional es falsa. Por lo tanto, la hipótesis nula es
aquella hipótesis que se pretende rechazar.
Para hacer una prueba de hipótesis se deben seguir los siguientes pasos:
En una prueba de hipótesis, al rechazar una hipótesis y aceptar la otra hipótesis de la prueba, se
puede cometer uno de los siguientes dos errores:
Por otro lado, la probabilidad de cometer cada tipo de error se llama de la siguiente manera:
La prueba de hipótesis para la media es un método estadístico que se usa para rechazar o no la
hipótesis nula de una media poblacional.
Cabe destacar que las pruebas de hipótesis se llaman de maneras diferentes, en estadística también
se conocen como contrastes de hipótesis, test de hipótesis o pruebas de significación.
A continuación, vamos a ver cómo se calcula el estadístico de la prueba de hipótesis para la media.
No obstante, la fórmula varia ligeramente según si se conoce la varianza o no, por lo que primero
veremos cómo se hace cuando la varianza es conocida y luego cuando la varianza es desconocida.
Una empresa tecnológica afirma que la batería del ordenador portátil que vende
tiene una duración de 6 horas. Se procede a comprobar si es falsa esta hipótesis
realizando una prueba de hipótesis con un nivel de significación α=0,05. Para ello,
se decide comprar 20 unidades y observar cuánto dura la batería de cada ordenador
(los valores están expresados en horas):
En este caso, la hipótesis nula y alternativa de la prueba de hipótesis para la media son las
siguientes:
Para poder determinar el estadístico de la prueba, primero tenemos que calcular la media de la
muestra y la desviación típica de la muestra:
Como no conocemos la varianza de la población, para sacar el estadístico de la prueba tenemos que
aplicar la fórmula de la prueba de hipótesis para la media con la varianza desconocida:
Ahora tenemos que encontrar el valor crítico de la prueba de hipótesis, así que buscamos en la tabla
de la distribución t Student el valor correspondiente. Los grados de libertad de la t de Student son
uno menos que el tamaño muestral (20-1=19) y, por otro lado, la probabilidad correspondiente es la
mitad del nivel de significación (0,05/2=0,025) ya que es una prueba de hipótesis bilateral.
En conclusión, como es una prueba de hipótesis bilateral y el valor absoluto del estadístico de la
prueba es menor que el valor crítico, no se rechaza la hipótesis nula, sino que se rechaza la hipótesis
alternativa.
De modo que la hipótesis nula de una prueba de hipótesis para la diferencia de dos medias siempre
es la siguiente:
Mientras que la hipótesis alternativa puede ser cualquiera de las siguientes tres:
Donde:
es el estadístico de la prueba de hipótesis para la diferencia de dos medias con
varianza conocida, que sigue una distribución normal estándar.
es la media de la muestra 1.
es la media de la muestra 2.
es la varianza de la población 1.
es la varianza de la población 2.
es el tamaño de la muestra 1.
es el tamaño de la muestra 2.
Por otro lado, la fórmula para calcular el estadístico de la prueba de hipótesis para la
diferencia de medias cuando la varianza es desconocida es la siguiente:
Donde:
es el estadístico de la prueba de hipótesis para la diferencia de dos medias con
varianza desconocida, que sigue una distribución t Student.
es la media de la muestra 1.
es la media de la muestra 2.
es la varianza de la muestra 1.
es la varianza de la muestra 2.
es el tamaño de la muestra 1.
es el tamaño de la muestra 2.
La prueba de hipótesis para la proporción es un método estadístico que sirve para determinar si
se rechaza o no la hipótesis nula de una proporción poblacional.
Así pues, según el valor del estadístico de la prueba de hipótesis para la proporción y el nivel de
significación, se rechaza la hipótesis nula o se acepta.
Ten en cuenta que las pruebas de hipótesis también se pueden llamar contrastes de hipótesis, test de
hipótesis o pruebas de significación.
Recuerda que los valores críticos se pueden obtener fácilmente de la tabla de la distribución normal.
Calculamos el estadístico del contaste de hipótesis para la proporción aplicando la fórmula vista
más arriba:
Por otro lado, como el nivel de significación es 0,05 y es una prueba de hipótesis de dos colas, el
valor crítico de la prueba es 1,96.
En conclusión, el valor absoluto del estadístico de la prueba es mayor que el valor crítico, por lo
tanto, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.
La prueba de hipótesis para las proporciones de dos muestras se usa para rechazar o aceptar la
hipótesis nula de que las proporciones de dos poblaciones diferentes son iguales.
Así pues, la hipótesis nula de una prueba de hipótesis para las proporciones de dos muestras
siempre es la siguiente:
Mientras que la hipótesis alternativa puede ser cualquiera de las siguientes tres opciones:
La proporción combinada de las dos muestras se calcula de la siguiente manera:
Y la fórmula para calcular el estadístico de la prueba de hipótesis para las proporciones de dos
muestras es la siguiente:
Donde:
es el estadístico de la prueba de hipótesis para las proporciones de dos muestras.
es el número de aciertos de la muestra 1.
es el número de aciertos de la muestra 2.
es el tamaño de la muestra 1.
es el tamaño de la muestra 2.
es la proporción combinada de las dos muestras.
En una prueba de hipótesis para las proporciones de k muestras se pretende determinar si todas
las proporciones de las diferentes poblaciones son iguales o, por el contrario, hay alguna proporción
diferente. Por lo tanto, la hipótesis nula y la hipótesis alternativa en este caso son:
En este caso, la proporción combinada de todas las muestras se calcula de la siguiente manera:
La fórmula para hallar el estadístico de la prueba de hipótesis para las proporciones de k muestras
es la siguiente:
Donde:
es el estadístico de la prueba de hipótesis para las proporciones de k muestras.
En este caso el estadístico sigue una distribución chi-cuadrado.
es el número de aciertos de la muestra i.
es el tamaño de la muestra i.
es la proporción combinada de todas las muestras.
es el número de aciertos esperados de la muestra i. Se calcula multiplicando la
proporción combinada por el tamaño de la muestra .
El coeficiente de
determinación es la
principal forma en que
podemos medir el
grado, o fuerza, de la
asociación que existe entre
dos variables, X y Y. Debido
a que
usamos una muestra de puntos
para desarrollar rectas de
regresión, nos referimos
a esta medida como el
coeficiente de determinación
muestral.
El coeficiente de
determinación muestral se
deriva de la relación entre dos
tipos de
variación: la variación de los
valores Y en un conjunto de
datos al