Está en la página 1de 57

“INSTITUTO TECNOLÓGICO DE CERRO AZUL.

PROBABILIDAD Y ESTADÍSTICA.

NOMBRE DEL TRABAJO:


INVESTIGACIÓN UNIDAD 4.

ALUMNO:
MIGUEL ANGEL MAURICIO GONZALEZ.

NUMERO DE CONTROL:
17500082.

CARRERA: INGENIERÍA CIVIL.

DOCENTE:
I.SC. MA.DEL CARMEN BACA GUTIÉRREZ

CD. CERRO AZUL, VER. A 28 DE JUNIO DEL 2018


INTRODUCCIÓN
La estadística se caracteriza porque a través de una muestra se pueden
realizar inferencias o predicciones de toda una población en estudio. De manera
que utilizando modelos estadísticos (funciones de distribución de probabilidad)
se puede asignar un nivel de confiabilidad a las conclusiones que se obtengan,
proporcionando un soporte "numérico" para la toma de decisiones.

En el uso de la regresión lineal siempre es muy utilizado para observar el tipo de


relación que existe entre dos variables y poder llevar a cabo la toma de daciones
correspondientes dependiendo de la relación entre dichas variables, así por
ejemplo, pudiera darse el caso en el que después de aplicar la regresión lineal no
exista relación entre variables involucradas y en consecuencia la decían podría
ser buscar cual es la variable independiente que tiene influencia sobre la
dependencia y volver a realizar al estudio completo. Sin embargo pero si fuera el
caso en el cual si exista una relación positiva entre la variables involucradas, la
obtención del coeficiente de correlación nos dará más información sobre el
porcentaje de relación existente y pudiendo determinar si es nefario la inclusión
de otra variable independiente en el problema mismo , para el cual análisis de
regresión serias del tipo múltiple.
TEMAS UNIDAD 4

4.1.- Estimación puntual y por intervalos de confianza.

4.2.-Estimacion de la media, de la diferencia de medias, de la proporción y de la


diferencia de proporciones.

4.3.- Determinación del tamaño de la muestra.

4.4.- Prueba de hipótesis.

4.4.1.- Pruebas unilaterales y bilaterales.

4.4.2.- Pruebas para media y para diferencia de medidas.

4.4.3.- Pruebas para proporción y diferencia de proporciones.

4.5.- Muestras pequeñas.

4.5.1.- Distribución t de student.

4.5.2.-Distribucion de ji-cuadrada. Cuadros de contingencia, limitaciones de la


prueba.
4.1. ESTIMACIÓN PUNTUAL Y POR INTERVALOS DE CONFIANZA.

ESTIMACIÓN PUNTUAL
Sea X una variable poblacional con distribución Fθ , siendo θ desconocido. El problema
de estimación puntual consiste en, seleccionada una muestra X1, ..., Xn, encontrar el
estadístico T(X1, ..., Xn) que mejor estime el parámetro θ. Una vez observada o
realizada la muestra, con valores x1, ..., xn, se obtiene la estimación puntual de θ, T(x1,
..., xn) = ˆ θ . Vemos a continuación dos métodos para obtener la estimación puntual de
un parámetro: método de los momentos y método de máxima verosimilitud.
Métodos de estimación puntual Método de los momentos: consiste en igualar
momentos poblacionales a momentos muestrales. Deberemos tener tantas igualdades
como parámetros a estimar.
Momento poblacional de orden r αr = E(Xr)
Momento muestral de orden r ar = Xn i=1 Xr i n
Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de
una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de un
determinado grupo de individuos, puede extraerse una muestra y ofrecer como
estimación puntual la talla media de los individuos. Lo más importante de un estimador,
es que sea un estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y
estable en el muestreo o eficiente (varianza mínima).

ESTIMACIÓN POR INTERVALOS DE CONFIANZA


En estadística, se llama intervalo de confianza a un par de números entre los cuales
se estima que estará cierto valor desconocido con una determinada probabilidad de
acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de
datos de una muestra, y el valor desconocido es un parámetro poblacional. La
probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de
confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de
significación, esto es, una medida de las posibilidades de fallar en la estimación
mediante tal intervalo.

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un


intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza),
mientras que para un intervalo más pequeño, que ofrece una estimación más precisa,
aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer


la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro
presente una distribución normal. También pueden construirse intervalos de confianza
con ladesigualdad de Chebyshov.

En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un


parámetro poblacional θ que sigue una determinada distribución de probabilidad, es
una expresión del tipo [θ1,θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de
distribución de probabilidad de θ.

Intervalo de confianza para la media de una población


De una población de media y desviación típica se pueden
tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media
( ). Se puede demostrar que la media de todas las medias muestrales coincide con la
media poblacional:
Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución
de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con

media μ y una desviación típica dada por la siguiente expresión: . Esto se

representa como sigue: . Si estandarizamos, se sigue

que:
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual
caigan un determinado porcentaje de las observaciones, esto es, es sencillo
hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje
deseado.

Se desea obtener una expresión tal que


En esta distribución normal de medias se puede calcular el intervalo de confianza
donde se encontrará la media poblacional si sólo se conoce una media muestral ( ),
con una confianza determinada. Habitualmente se manejan valores de confianza del 95
y del 99 por ciento. A este valor se le llamará (debido a que es el error que se
cometerá, un término opuesto).
Para ello se necesita calcular el punto —o, mejor dicho, su versión

estandarizada o valor crítico— junto con su "opuesto en la distribución" .


Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la
siguiente imagen:

Dicho punto es el número tal que:

Y en la versión estandarizada se cumple que:

Así:

Haciendo operaciones es posible despejar para obtener el intervalo:

De lo cual se obtendrá el intervalo de confianza:

Obsérvese que el intervalo de confianza viene dado por la media muestral ± el

producto del valor crítico por el error estándar .


Si no se conoce y n es grande (habitualmente se toma n ≥ 30):
, donde s es la desviación típica de una muestra.
Aproximaciones para el valor para los niveles de confianza estándar son 1,96
para y 2,576 para .

4.2. ESTIMACIÓN DE LA MEDIA, DE LA DIFERENCIA DE MEDIAS, DE


LA PROPORCIÓN Y DE LA DIFERENCIA DE PROPORCIONES.

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y

desviación estándar 1, y la segunda con media 2y desviación estándar 2. Más

aún, se elige una muestra aleatoria de tamaño n 1 de la primera población y una


muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la
media muestral para cada muestra y la diferencia entre dichas medias. La colección de
todas esas diferencias se llama distribución muestral de las diferencias entre

medias o la distribución muestral del estadístico

La distribución es aproximadamente normal para n 1 30 y n2 30. Si las poblaciones


son normales, entonces la distribución muestral de medias es normal sin importar los
tamaños de las muestras.

En ejercicios anteriores se había demostrado que y que , por lo que no


es difícil deducir que y que .

La fórmula que se utilizará para el calculo de probabilidad del estadístico de diferencia


de medias es:

Ejemplo:

En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en
una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se
sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El
promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100
libras y su desviación estándar es de 14.142, mientras que el promedio de los pesos de
todas las niñas del sexto grado de esa escuela es de 85 libras y su desviación estándar

es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y es el


promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el
promedio de los pesos de los 20 niños sea al menos 20 libras más grande que el de las
25 niñas.

Solución:

Datos:

1= 100 libras

2 = 85 libras

1= 14.142 libras

2= 12.247 libras

n1 = 20 niños
n2 = 25 niñas

=?

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños


sea al menos 20 libras más grande que el de la muestra de las niñas es 0.1056.

Distribución Muestra de Diferencia de Proporciones

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben


compararse utilizando proporciones o porcentajes. A continuación se citan algunos
ejemplos:

 Educación.- ¿Es mayor la proporción de los estudiantes que aprueban


matemáticas que las de los que aprueban inglés?
 Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que
presentan una reacción adversa que el de los usuarios del fármaco B que
también presentan una reacción de ese tipo?
 Administración.- ¿Hay diferencia entre los porcentajes de hombres y mujeres en
posiciones gerenciales.
 Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que
genera la máquina A a los que genera la máquina B?

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos


proporciones muestrales, la distribución muestral de diferencia de proporciones es
aproximadamente normal para tamaños de muestra grande (n 1p1 5, n1q1 5,n2p2 5 y
n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales,
así que su diferencia p1-p2también tiene una distribución muestral aproximadamente
normal.

Cuando se estudió a la distribución muestral de proporciones se comprobó que y

que , por lo que no es difícil deducir que y

que .

La fórmula que se utilizará para el calculo de probabilidad del estadístico de diferencia


de proporciones es:
Ejemplo:

Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en
sus opiniones sobre la promulgación de la pena de muerte para personas culpables de
asesinato. Se cree que el 12% de los hombres adultos están a favor de la pena de
muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se pregunta a dos
muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación
de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a
favor sea al menos 3% mayor que el de las mujeres.

Solución:

Datos:

PH = 0.12

PM = 0.10

nH = 100

nM = 100

p(pH-pM 0.03) = ?

Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una
distribución binomial y se está utilizando la distribución normal.
Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de
muerte, al menos 3% mayor que el de mujeres es de 0.4562.

4.3. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA.

En la selección de la muestra se debe tener en cuenta que las porciones, individuos,


plantas o animales, que constituyen la misma, deben ser tomados, siempre que sea
posible, de forma aleatoria, es decir al azar, de modo que se garantice que cualquier
miembro de la población, indiferentemente y con igual probabilidad, pueda formar parte
de la muestra. Esta condición de aleatoriedad es imprescindible, ya que todos los
métodos estadísticos han sido desarrollados para aplicarse en muestras al azar y son,
por tanto, inútiles en muestras seleccionadas por otros procedimientos.
De la muestra deben eliminarse los individuos que representan una anormalidad o
características exageradas que no corresponden con los demás individuos de la
población. La selección de las muestras,la forma, el procedimiento que se va a emplear
para la eliminación o no de algún sujeto, etc., es una labor de suma responsabilidad y
siempreque sea posible se debe considerar valoraciones de un equipo
multidisciplinario, es decir, está decisión no es solo estadística, un valor que desde el
punto de vista estadístico parezca estar muy desviado del resto de los resultados puede
ser una ocurrencia normal del proceso experimental.

1. Estimar un parámetro determinado con el nivel de confianza deseado.


2. Detectar una determinada diferencia, si realmente existe, entre los grupos de
estudio con un mínimo de garantía.
3. Reducir costes o aumentar la rapidez del estudio.

Por ejemplo, en un estudio de investigación epidemiológico la determinación de un


tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así:

1. Si el número de sujetos es insuficiente habría que modificar los criterios de


selección, solicitar la colaboración de otros centros o ampliar el período de
reclutamiento. Los estudios con tamaños muestrales insuficientes, no son
capaces de detectar diferencias entre grupos, llegando a la conclusión errónea
de que no existe tal diferencia.
2. Si el número de sujetos es excesivo, el estudio se encarece desde el punto de
vista económico y humano. Además es poco ético al someter a más individuos a
una intervención que puede ser menos eficaz o incluso perjudicial.

El tamaño de una muestra es el número de individuos que contiene.

Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra para
datos globales es la siguiente:1

N: es el tamaño de la población o universo (número total de posibles encuestados).

Zα: es una constante que depende del nivel de confianza que asignemos. El nivel de
confianza indica la probabilidad de que los resultados de nuestra investigación sean
ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar
con una probabilidad del 4,5%. Los valores de Zα se obtienen de la tabla de la
distribución normalestándar N(0,1).

Los valores de Zα más utilizados y sus niveles de confianza son:

Valor de Zα 1.28 1.65 1.69 1.75 1.81 1.88 1.96

Nivel de confianza 80% 90% 91% 92% 93% 94% 95%

(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en
la fórmula Zα=1.96)
e: es el error muestral deseado, en tanto por ciento. El error muestral es la diferencia
que puede haber entre el resultado que obtenemos preguntando a una muestra de la
población y el que obtendríamos si preguntáramos al total de ella. Ejemplos:

Ejemplo 1: si los resultados de una encuesta dicen que 100 personas comprarían un
producto y tenemos un error muestral del 5% comprarán entre 95 y 105 personas.
Ejemplo 2: si hacemos una encuesta de satisfacción a los empleados con un error
muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que
entre el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo
estarán.
Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a
obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el
porcentaje real de votos estará en el intervalo 52-58% (55% +/- 3%).

p: proporción de individuos que poseen en la población la característica de estudio.


Este dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la
opción más segura.

q: proporción de individuos que no poseen esa característica, es decir, es 1-p.

n: tamaño de la muestra (número de encuestas que vamos a hacer).

Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de
mayor confianza o esté más libre de error necesariamente; antes es preciso minimizar
la principal fuente de error que tiene lugar en la recogida de datos.

Otra fórmula para calcular el tamaño de la muestra es:

Donde: n = el tamaño de la muestra.

N = tamaño de la población.

= Desviación estándar de la población, que generalmente cuando no se tiene su


valor, suele utilizarse un valor estimado a ojo o a partir de una pequeña muestra o
muestra piloto. Para ser conservador (prudente), mejor errar estimando por exceso que
por defecto.
Zα: Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se
tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,64 (como más
usual) o en relación al 99% de confianza equivale 2,33, valor que queda a criterio del
encuestador.

e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor,


suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a
criterio del encuestador.

La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo de


confianza para la media.

4.4. PRUEBA DE HIPÓTESIS


Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar
una afirmación acerca de una población dependiendo de la evidencia proporcionada
por una muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se
probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no
hay diferencia". La hipótesis alternativa es el enunciado que se desea poder concluir
que es verdadero de acuerdo con la evidencia proporcionada por los datos de la
muestra.

Con base en los datos de muestra, la prueba determina si se puede rechazar la


hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el valor p es menor
que el nivel de significancia (denotado como α o alfa), entonces puede rechazar la
hipótesis nula.

Un error común de percepción es que las pruebas estadísticas de hipótesis están


diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al diseñar
una prueba de hipótesis, establecemos la hipótesis nula como lo que queremos
desaprobar. Puesto que establecemos el nivel de significancia para que sea pequeño
antes del análisis (por lo general, un valor de 0.05 funciona adecuadamente), cuando
rechazamos la hipótesis nula, tenemos prueba estadística de que la alternativa es
verdadera. En cambio, si no podemos rechazar la hipótesis nula, no tenemos prueba
estadística de que la hipótesis nula sea verdadera. Esto se debe a que no establecimos
la probabilidad de aceptar equivocadamente la hipótesis nula para que fuera pequeña.

Usted puede seguir seis pasos básicos para configurar y realizar correctamente una
prueba de hipótesis. Por ejemplo, el gerente de una fábrica de tuberías desea
determinar si el diámetro promedio de los tubos es diferente de 5 cm. El gerente sigue

NOTA
Debe determinar los criterios para la prueba y el tamaño de muestra necesario antes de
recolectar los datos.

1. Especificar las hipótesis.

En primer lugar, el gerente formula las hipótesis. La hipótesis nula es: la media
de la población de todos los tubos es igual a 5 cm. Formalmente, esto se escribe
como: H0: μ = 5

Luego, el gerente elige entre las siguientes hipótesis alternativas:

Condición que se probará Hipótesis alternativa

La media de la población es menor que el objetivo. unilateral: μ < 5

La media de la población es mayor que el objetivo. unilateral: μ > 5

La media de la población es diferente del objetivo. bilateral: μ ≠ 5

Como tiene que asegurarse de que los tubos no sean más grandes ni más
pequeños de 5 cm, el gerente elige la hipótesis alternativa bilateral, que indica
que la media de la población de todos los tubos no es igual a 5 cm.

Formalmente, esto se escribe como H1: μ ≠ 5

2. Elegir un nivel de significancia (también denominado alfa o α).


El gerente selecciona un nivel de significancia de 0.05, que es el nivel de
significancia más utilizado.

3. Determinar la potencia y el tamaño de la muestra para la prueba.

El gerente utiliza un cálculo de potencia y tamaño de la muestra para determinar


cuántos tubos tiene que medir para tener una buena probabilidad de detectar
una diferencia de 0.1 cm o más con respecto al diámetro objetivo.

4. Recolectar los datos.

Recoge una muestra de tubos y mide los diámetros.

5. Comparar el valor p de la prueba con el nivel de significancia.

Después de realizar la prueba de hipótesis, el gerente obtiene un valor p de


0.004. El valor p es menor que el nivel de significancia de 0.05.

6. Decidir si rechazar o no rechazar la hipótesis nula.

El gerente rechaza la hipótesis nula y concluye que el diámetro medio de todos


los tubos no es igual a 5 cm.
4.4.1. PRUEBAS UNILATERALES Y BILATERALES.
Al auditor del ejemplo 1 puede no importarle que el verdadero promedio de todaslas
cuentas por cobrar sea superior a los $260.00, sino solo que pueda ser menor que
$260. Así, si el auditor concede el beneficio de la duda a la propuesta de quela media

verdadera sea cuando menos de $260.00


4.4.2. PRUEBAS PARA MEDIA Y PARA DIFERENCIA DE MEDIAS.
Supuestos:
Además de los supuestos de normalidad e independencia, un supuesto específico para
esta prueba es que las Varianzas de los dos grupos sean semejantes.
b) Hipótesis:

o también

c) Estadístico de contraste:

d) Distribución del estadístico de contraste: t con n1+ n2-2 grados de libertad.


e) Significación del estadístico de contraste.
g) Intervalo de confianza:

Ejemplo
Dicen que los estudiantes de los grupos de tarde son diferentes a los de los grupos de
la mañana. Para comprobarlo han calculado las Medias de los exámenes a los dos
grupos. Comprobar esta hipótesis (a= 0.05, datos ficticios)
a) Supuestos: Las muestras han sido obtenidas aleatoriamente, por lo que se asume
que los datos son independientes.
b) Hipótesis.

c) Estadístico de contraste:

d) Distribución del estadístico de contraste: t con 110+90-2=198 grados de libertad.


e) Significación del estadístico de contraste: 0.01
f) La significación del estadístico de contraste es inferior a 0.05, por lo que se rechaza
la Hipótesis Nula.
g) Intervalo de confianza:

La diferencia entre las medias poblacionales se sitúa entre 0.13 y 0.87 con un nivel de
confianza del 95%.
Conclusión: Los datos respaldan la Hipótesis de que los estudiantes del grupo de la
tarde difieren de los estudiantes en los otros grupos.
4.4.3. PRUEBAS PARA PROPORCIÓN Y DIFERENCIA DE
PROPORCIONES.
Las pruebas de proporciones son adecuadas cuando los datos que se están analizando
constan de cuentas o frecuencias de elementos de dos o más clases. El objetivo de
estas pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje)
de población. Las pruebas se basan en la premisa de que una proporción muestral (es
decir, x ocurrencias en n observaciones, o x/n) será igual a la proporción verdadera de
la población si se toman márgenes o tolerancias para la variabilidad muestral. Las
pruebas suelen enfocarse en la diferencia entre un número esperado de ocurrencias,
suponiendo que una afirmación es verdadera, y el número observado realmente. La
diferencia se compara con la variabilidad prescrita mediante

una distribución de muestreo que tiene como base el supuesto de que es


realmente verdadera.
En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de
medias, excepto que, en el caso de las primeras, los datos muestrales se consideran
como cuentas en lugar de como mediciones. Por ejemplo, las pruebas para medias y
proporciones se pueden utilizar para evaluar afirmaciones con respecto a:
1) Un parámetro de población único (prueba de una muestra)
2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y
3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras).
Además, para tamaños grandes de muestras, la distribución de muestreo adecuada
para pruebas de proporciones de una y dos muestras es aproximadamente normal,
justo como sucede en el caso de pruebas de medias de una y dos muestras.
Cuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a
la proporción de una población, es adecuado utilizar una prueba de una muestra.
La metodología de prueba depende de si el número de observaciones de la muestra es
grande o pequeño.
Como se habrá observado anteriormente, las pruebas de grandes muestras de medias
y proporciones son bastante semejantes. De este modo, los valoresestadísticos de
prueba miden la desviación de un valor estadístico de muestra a partir de un valor
propuesto. Y ambas pruebas se basan en la distribución normal estándar
para valores críticos. Quizá la única diferencia real entre las ambas radica en la forma
corno se obtiene la desviación estándar de la distribución de muestreo.
Esta prueba comprende el cálculo del valor estadístico de prueba Z
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una
tabla normal a un nivel de significación seleccionado.
Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones
pueden ser de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la


tercera, una prueba de dos colas.
4.5. MUESTRAS PEQUEÑAS.
Prueba de hipótesis Muestras pequeñas
Introducción • Para emplear la distribución z es necesario conocer la desviación
estándar de la población y tener una muestra grande (>30). • Si no conoce la
desviación estándar de la población y el número de observaciones de la muestra es
menor que 30, entonces es posible utilizar la desviación estándar de la muestra como
una estimación de la desviación estándar de la población; pero no es posible utilizar la
distribución normal, el estadístico adecuado es t.
Características de una distribución t • William S. Gossett desarrolló la distribución t de
Student. 1. Al igual que la distribución z, es una distribución continua. 2. Al igual que z,
tiene forma de campana y es simétrica. 3. Al igual que z, no hay una distribución t, sino
una “familia” de distribuciones. Todas con la misma media (0); pero con distinta
desviación estándar, de acuerdo al tamaño de la muestra. 4. La distribución t es más
ancha y más plana que la distribución z. A medida que la muestra es más grande, se
asemeja más a la distribución z.
Prueba para la media de la población ¿Población normal? n => 30 Prueba no
paramétrica Use z ¿Conoce la Desv. Est.? Use t Use z No No No Si Si Si
Recuerde: ¿Cómo comprobar una hipótesis? 1.Plantear las hipótesis nula y
alternativa(s). 2.Seleccionar un nivel de significancia. 3.Calcular el estadístico de
prueba. 4.Formular la regla de decisión. 5.Tomar una decisión.
• El costo promedio de resolver una queja en la empresa es de $60.00. • Se adoptaron
medidas para reducir los costos. • Se analizaron los costos de 26 quejas y se calculó un
promedio de $57.00 y una desviación estándar de $10.00. • Con un nivel de
significancia de 0.01, ¿se puede concluir que las medidas adoptadas reducen los
costos?
Paso 1: Establecer hipótesis nula y alternativa H0: Promedio >= $60.00 Ha: Promedio <
$60.00
Paso 2: Seleccionar nivel de significancia • Siendo un problema de calidad, se
selecciona 0.01 (la tabla de distribución t, incluye también 0.005 y 0.0005.
Paso 3: Resuelva el estadístico de prueba • De acuerdo al diagrama en la dispositiva 4,
se utiliza el estadístico de prueba t. • Sustituyendo, t=-1.530 n s t   
Paso 4: Formar regla de decisión • Utilice la tabla: Distribución t para encontrar el valor
crítico. • En la columna del lado izquierdo de la tabla, encontrará los grados de libertad
(gl). Los grados de libertad son igual al número de observaciones en la muestra, menos
el número de muestras (1). • En segundo lugar, se debe determinar si se trata de una
prueba de una o dos colas. • En este caso., 2.485

Paso 5: Se toma una decisión • Como se trata de una prueba con una cola, y la región
de rechazo está en la cola izquierda, el valor crítico es negativo. • La regla de decisión
señala que se debe rechazar la H0, si t pasa el valor crítico de -2.485. • Como -1.530
está a la derecha del valor crítico, no se rechaza la hipótesis nula.

4.5.1. DISTRIBUCIÓN T DE STUDENT.

Supóngase que se toma una muestra de una población normal con media y

varianza . Si es el promedio de las n observaciones que contiene la muestra

aleatoria, entonces la distribución es una distribución normal estándar.

Supóngase que la varianza de la población 2 es desconocida. ¿Qué sucede con la

distribución de esta estadística si se reemplaza por s? La distribución t proporciona


la respuesta a esta pregunta.

La media y la varianza de la distribución t son = 0y para >2,


respectivamente.

La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general


de la distribución t es similar a la de la distribución normal estándar: ambas son
simétricas y unimodales, y el valor máximo de la ordenada se alcanza en la media =
0. Sin embargo, la distribución t tiene colas más amplias que la normal; esto es, la
probabilidad de las colas es mayor que en la distribución normal. A medida que el
número de grados de libertad tiende a infinito, la forma límite de la distribución t es la
distribución normal estándar.
Propiedades de las distribuciones t

1. Cada curva t tiene forma de campana con centro en 0.


2. Cada curva t, está más dispersa que la curva normal estándar z.

3. A medida que aumenta, la dispersión de la curva t correspondiente


disminuye.

4. A medida que , la secuencia de curvas t se aproxima a la curva normal


estándar, por lo que la curva z recibe a veces el nombre de curva t con gl =

La distribución de la variable aleatoria t está dada por:

Esta se conoce como la distribución t con grados de libertad.

Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con

media y desviación estándar . Entonces la variable aleatoria tiene una

distribución t con = n-1 grados de libertad.

La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo


de W. S. Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que
desaprobaba la publicación de investigaciones de sus empleados. Para evadir esta
prohibición, publicó su trabajo en secreto bajo el nombre de "Student". En
consecuencia, la distribución t normalmente se llama distribución t de Student, o
simplemente distribución t. Para derivar la ecuación de esta distribución, Gosset supone
que las muestras se seleccionan de una población normal. Aunque esto parecería una
suposición muy restrictiva, se puede mostrar que las poblaciones no normales que
poseen distribuciones en forma casi de campana aún proporcionan valores de t que se
aproximan muy de cerca a la distribución t.

La distribución t difiere de la de Z en que la varianza de t depende del tamaño de la


muestra y siempre es mayor a uno. Unicamente cuando el tamaño de la muestra tiende
a infinito las dos distribuciones serán las mismas.

Se acostumbra representar con el valor t por arriba del cual se encuentra un área
igual a . Como la distribución t es simétrica alrededor de una media de cero,

tenemos ; es decir, el valor t que deja un área de a la derecha y


por tanto un área de a la izquierda, es igual al valor t negativo que deja un área
de en la cola derecha de la distribución. Esto es, t0.95 = -t0.05, t0.99=-t0.01, etc.

Para encontrar los valores de t se utilizará la tabla de valores críticos de la distribución t


del libro Probabilidad y Estadística para Ingenieros de los autores Walpole, Myers y
Myers.

Ejemplo:

El valor t con = 14 grados de libertad que deja un área de 0.025 a la izquierda, y por
tanto un área de 0.975 a la derecha, es

t0.975=-t0.025 = -2.145
Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es por esto

que se tiene que hacer la resta de . La manera de encontrar el valor de t es


buscar el valor de en el primer renglón de la tabla y luego buscar los grados de

libertad en la primer columna y donde se intercepten y se obtendrá el valor de t.

Ejemplo:

Encuentre la probabilidad de –t0.025 < t < t0.05.

Solución:

Como t0.05 deja un área de 0.05 a la derecha, y –t0.025 deja un área de 0.025 a la
izquierda, encontramos un área total de 1-0.05-0.025 = 0.925.

P( –t0.025 < t < t0.05) = 0.925

Ejemplo:

Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra aleatoria de tamaño 15
que se selecciona de una distribución normal.

Solución:
Si se busca en la tabla el valor de t =1.761 con 14 grados de libertad nos damos cuenta
que a este valor le corresponde un área de 0.05 a la izquierda, por ser negativo el valor.
Entonces si se resta 0.05 y 0.045 se tiene un valor de 0.005, que equivale a . Luego
se busca el valor de 0.005 en el primer renglón con 14 grados de libertad y se obtiene

un valor de t = 2.977, pero como el valor de está en el extremo izquierdo de la


curva entonces la respuesta es t = -2.977 por lo tanto:

P(-2.977 < t < -1.761) = 0.045

Ejemplo:

Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso


en lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación
toma una muestra de 25 lotes cada mes. Si el valor de t calculado cae entre –t0.05 y t0.05,
queda satisfecho con su afirmación. ¿Qué conclusión extraería de una muestra que
tiene una media de 518 gramos por milímetro y una desviación estándar de 40 gramos?
Suponga que la distribución de rendimientos es aproximadamente normal.

Solución:

De la tabla encontramos que t0.05 para 24 grados de libertad es de 1.711. Por tanto, el
fabricante queda satisfecho con esta afirmación si una muestra de 25 lotes rinde un
valor t entre –1.711 y 1.711.

Se procede a calcular el valor de t:

Este es un valor muy por arriba de 1.711. Si se desea obtener la probabilidad de


obtener un valor de t con 24 grados de libertad igual o mayor a 2.25 se busca en la
tabla y es aproximadamente de 0.02. De aquí que es probable que el fabricante
concluya que el proceso produce un mejor producto del que piensa.

4.5.2. DISTRIBUCIÓN DE JI-CUADRADA. CUADROS DE


CONTINGENCIA, LIMITACIONES DE LA PRUEBA.

El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad del


mismo nombre, sirve para someter a prueba hipótesis referidas a distribuciones de
frecuencias. En términos generales, esta prueba contrasta frecuencias observadas con
las frecuencias esperadas de acuerdo con la hipótesis nula. En este artículo se
describe el uso del estadístico ji-cuadrado para probar la asociación entre dos variables
utilizando una situación hipotética y datos simulados. Luego se describe su uso para
evaluar cuán buena puede resultar una distribución teórica, cuando pretende
representar la distribución real de los datos de una muestra determinada. A esto se le
llama evaluar la bondad de un ajuste. Probar la bondad de un ajuste es ver en qué
medida se ajustan los datos observados a una distribución teórica o esperada. Para
esto, se utiliza una segunda situación hipotética y datos simulados.
Del mismo modo que los estadísticos “z”, con su distribución normal y “t”, con su
distribución t de Student, nos han servido para someter a prueba hipótesis que
involucran a promedios y porcentajes, el estadístico ji-cuadrado (o chi cuadrado), que
tiene distribución de probabilidad del mismo nombre, nos servirá para someter a prueba
hipótesis referidas a distribuciones de frecuencias.
En primer lugar usaremos el estadístico ji-cuadrado para probar la asociación entre dos
variables, y luego lo usaremos para evaluar en qué medida se ajusta la distribución de
frecuencias obtenida con los datos de una muestra, a una distribución teórica o
esperada.
En términos generales, esta prueba contrasta frecuencias observadas con las
frecuencias esperadas de acuerdo con la hipótesis nula. Al igual que en el caso de las
pruebas anteriormente presentadas, ilustraremos con ejemplos.
Ji- cuadrado como prueba de asociación
Supongamos que un investigador está interesado en evaluar la asociación entre uso de
cinturón de seguridad en vehículos particulares y el nivel socioeconómico del conductor
del vehículo. Con este objeto se toma una muestra de conductores a quienes se
clasifica en una tabla de asociación, encontrando los siguientes resultados:

Uso de Nivel Nivel Nivel TOTAL


cinturón socioeconómico socioeconómico socioeconómico
bajo medio alto
SI 8 15 28 51
NO 13 16 14 43
TOTAL 21 31 42 94
Tabla I. Tabla de asociación, valores observados.
¿Permiten estos datos afirmar que el uso del cinturón de seguridad depende del nivel
socioeconómico? Usaremos un nivel de significación alfa=0,05.
Los pasos del análisis estadístico en este caso son los siguientes:

BIBLIOGRAFIA
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/basics/example-of-a-hypothesis-test/
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/basics/what-is-a-hypothesis-test/
https://es.scribd.com/doc/59080063/Pruebas-unilaterales-y-bilaterales
http://probabilidadyestadisticaitsav.blogspot.com/2012/06/52-estimaciones-puntuales-y-
por.html
http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap01c.html
https://www.ecured.cu/Tama%C3%B1o_de_Muestra
“INSTITUTO TECNOLÓGICO DE CERRO AZUL.”

PROBABILIDAD Y ESTADÍSTICA.

NOMBRE DEL TRABAJO:


INVESTIGACIÓN UNIDAD 5.

ALUMNO:
MIGUEL ANGEL MAURICIO GONZALEZ.

NUMERO DE CONTROL:
17500082.

CARRERA: INGENIERÍA CIVIL.

DOCENTE:
I.SC. MA.DEL CARMEN BACA GUTIÉRREZ

CD. CERRO AZUL, VER. A 28 DE JUNIO DEL 2018


UNIDAD 5

TEMA
ANÁLISIS DE REGRESO Y CORRELACION
SUBTEMAS
5.1.- regresión lineal simple, curvilínea y múltiple
5.2.- correlación
5.3.- regresión y correlación para datos agrupados
5.4.- correlación por rangos
5.5.- coeficiente de correlación para datos nominales
5.1.- REGRESIÓN LINEAL SIMPLE, CURVILÍNEA Y MÚLTIPLE
Regresión lineal simple y curvilínea
Los métodos de regresión se usan para elegir la "mejor" relación funcional entre las
variables, es decir, la función o ecuación que mejor se ajuste a los datos. Mientras que
los métodos de correlación se utilizan para medir el grado de asociación o de relación
entre las distintas variables. Se debe tener en cuenta que la única persona que puede
decir con seguridad, que las variables básicas son las que se están utilizando y que el
mecanismo básico opera de acuerdo con la función matemática elegida, es una
persona bien entrenada en el asunto o campo en el cual se está investigando. El
análisis estadístico es solamente un instrumento que ayuda en el análisis e
interpretación de los datos.
REGRESIÓN Y CORRELACIÓN SIMPLE
Cuando se posee información acerca de dos o más variables relacionadas, es natural
buscar un modo de expresar la forma de la relación funcional entre ellas. Además, es
deseable conocer la consistencia de la relación. Es decir, no se busca solamente una
relación matemática que nos diga de qué manera están relacionadas las variables, sino
que se desea saber también con qué precisión se puede predecir o pronosticar el valor
de una variable, si se conocen o suponen valores para las otras variables. Las técnicas
usadas para lograr estos dos objetivos se conocen como método de regresión y
correlación

II.- MARCO TEORICO

REGRESIÓN.-

Se define como un procedimiento mediante el cual se trata de determinar si existe o no


relación de dependencia entre dos o más variables. Es decir, conociendo los valores de
una variable independiente, se trata de estimar los valores, de una o más variables
dependientes.

La regresión en forma grafica, trata de lograr que una dispersión de las frecuencias sea
ajustada a una línea recta o curva.

Clases de Regresión

La regresión puede ser Lineal y Curvilínea o no lineal, ambos tipos de regresión pueden
ser a su vez:

a. Esta regresión se utiliza con mayor frecuencia en las ciencias económicas, y sus
b. disciplinas tecnológicas. Cualquier función no lineal, es linealizada para su estudio
y efectos prácticos en las ciencias económicas, modelos no lineales y lineales
multiecuacionales.

Objetivo: Se utiliza la regresión lineal simple para:

1.- Determinar la relación de dependencia que tiene una variable respecto a otra.

2.- Ajustar la distribución de frecuencias de una línea, es decir, determinar la forma


de la línea de regresión.

3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos
de otra variable.

Por ejemplo: Podría ser una regresión de tipo lineal:

En una empresa de servicio de Internet busca relacionar las ganancias que


obtiene cada computadora con el numero de usuarios que ingresan a dicha cabina
diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios)

Y 100 98 99 102 102 111 97 104 102 96

X 116 96 110 105 99 106 100 109 98 108

Coeficiente de Regresión

Indica el número de unidades en que se modifica la variable dependiente "Y" por


efecto del cambio de la variable independiente "X" o viceversa en una unidad de
medida.

Clases de coeficiente de Regresión:

El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.

Es positivo cuando las variaciones de la variable independiente X son


directamente proporcionales a las variaciones de la variable dependiente "Y"

Es negativo, cuando las variaciones de la variable independiente "X" son


inversamente proporcionales a las variaciones de las variables dependientes "Y"

Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X"
no existen relación alguna.
Procedimiento para hallar el Coeficiente de Regresión

Para determinar el valor del coeficiente de regresión de una manera fácil y exacta
es utilizando el método de los Mínimos Cuadrados de dos maneras:

1.- Forma Directa

De la ecuación de la recta:

Si y , se obtienen a partir de las ecuaciones normales:


Aplicando normales Y sobre X tenemos:

El Coeficiente de Regresión es

De la misma manera la recta de regresión de "X" sobre "Y" será dada de la


siguiente manera:

Donde: y se obtienen a partir de las ecuaciones normales:

Aplicando normales X sobre Y tenemos:


2.- Forma Indirecta del Método de los Mínimos Cuadrados.

El fundamento de este método es de las desviaciones de X respecto a su media


aritmética. X

Ecuación de y sobre x Ecuación de y sobre x

Donde:

x, y = desviaciones

X = media aritmética

Y = media aritmética

c. Regresión Simple: Este tipo se presenta cuando una variable independiente


ejerce influencia sobre otra variable dependiente. Ejemplo: Y = f(x)
d. Regresión Múltiple: Este tipo se presenta cuando dos o más variables
independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).

Por ejemplo: Podría ser una regresión de tipo múltiple:

Una Empresa de desarrollo de software establece relacionar sus Ventas en función del
numero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y
Automatizaciones Empresariales), para atender 10 proyectos en el presente año.

En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W (Nº de


pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de Automatizaciones
empresariales).
Y 440 455 470 510 506 480 460 500 490 450

X 50 40 35 45 51 55 53 48 38 44

W 105 140 110 130 125 115 100 103 118 98

Z 75 68 70 64 67 72 70 73 69 74

Objetivo: Se presentara primero el análisis de regresión múltiple al desarrollar y


explicar el uso de la ecuación de regresión múltiple, así como el error estándar múltiple
de estimación. Después se medirá la fuerza de la relación entre las variables
independientes, utilizando los coeficientes múltiples de determinación.

Análisis de Regresión Múltiple

Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener y en una ecuación de regresión múltiple


el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se
generan por el método de mínimo de cuadrados:

Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y
Minitab y Excel.
El error estándar de la regresión múltiple

Es una medida de dispersión la estimación se hace más precisa conforme el grado de


dispersión alrededor del plano de regresión se hace mas pequeño.

Para medirla se utiliza la formula:

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

n : Número de datos

m : Número de variables independientes

El coeficiente de determinación múltiple

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por

, y simultáneamente.

III.- APLICACION DE REGRESION MULTIPLE

Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Multiple:

En la Facultad de Ingeniería de Sistemas y Computo de la Universidad "Inca Garcilaso


de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan
la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos
registran notas promedios en las asignaturas de Algoritmos, Base de
Datos y Programación como se muestran en el siguiente cuadro.

Alumno PHP Algoritmos Base de Datos Programación


1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

8 13 16 14 15

9 13 15 14 13

10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15

14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de


aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las
asignaturas Algoritmos, Base de Datos y Programación.

Se presentara la siguiente ecuación a resolver:


Utilizando las formulas de las ecuaciones normales a los datos obtendremos los
coeficientes de regresión o utilizando Regresión de Análisis de datos, en la Hoja de
Calculo de Excel podemos calcular también los coeficientes de regresión:

Por lo tanto podemos construir la ecuación de regresión que buscamos:

El Error Estándar de Regresión Múltiple

Mediante esta medida de dispersión se hace más preciso el grado de dispersión


alrededor del plano de regresión, se hace más pequeño.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación del
aprendizaje de PHP que se viene desarrollando es de 0.861

El coeficiente de determinación múltiple (r2)

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables
múltiples, utilizando la si siguiente formula:
5.2.- CORRELACIÓN

Correlación
La correlación está íntimamente ligada con la regresión en el sentido de que se centra
en el estudio del grado de asociación entre variables. Por lo tanto, una variable
independiente que presente un alto grado de correlación con una variable dependiente
será muy útil para predecir los valores de ésta última. Cuando la relación entre las
variables es lineal, se habla de correlación lineal. Una de las medidas más utilizadas
para medir la correlación lineal entre variables es el coeficiente de correlación lineal
de Pearson.
En esta práctica se mostrará cómo ajustar un modelo de regresión con R, prestando
especial atención a los modelos de regresión lineal. Además, enseñaremos como
calcular e interpretar algunas medidas de correlación.

Coeficiente de correlación

Una vez observado que en una variable bidimensional existe una cierta dependencia
entre las dos características o variables que la forman (nube de puntos y covarianza),
podemos precisar el grado de dicha dependencia.

- Si los puntos de la nube estuvieran todos sobre la recta de regresión se diría que
existe una dependencia funcional. De su estudio se encargan las funciones.

- Si los puntos no están todos sobre la recta de regresión se dice que entre las
variables hay una cierta correlación lineal. Este es el caso que nos ocupa. Para
cuantificar el grado de dicha correlación se usa el:

Coeficiente de correlación de Pearson. Si le llamamos r, su valor es:

Puede observarse que el signo del coeficiente de correlación es el mismo que el de


la covarianza y puede deducirse que el valor del mismo esta comprendico entre -1
y 1.

En la escena siguiente se puede observar la escena del ejercicio 4, donde se ha


añadido el valor del coeficiente de correlación.
Se pueden deducir las siguientes conclusiones relativas al coeficiente de correlación
(r):

- Su signo es el mismo de la covarianza, luego si r es positivo la dependencia es


directa y si es negativo inversa.

- Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto


las predicciones que se realicen a partir de la recta de regresión serán
bastante fiables.

- Si r se acerca a 0 la dependencia es débil y por tanto las predicciones que se


realicen a partir de la recta de regresión serán poco fiables.
5.3.-REGRESIÓN Y CORRELACIÓN PARA DATOS AGRUPADOS

Regresión
El objetivo del Análisis de regresión es determinar una función matemática sencilla que
describa el comportamiento de una variable dados los valores de otra u otras variables.
En el Análisis de regresión simple, se pretende estudiar y explicar el comportamiento
de una variable que notamos y, y que llamaremos variable explicada,
variable dependiente o variable de interés, a partir de otra variable, que notamos x, y
que llamamos variable explicativa, variable independiente o variable de predicción.
El principal objetivo de la regresión es encontrar la función que mejor explique la
relación entre la variable dependiente y las independientes.

Para cumplir dicho objetivo, el primer paso que debe realizar el investigador, es
representar las observaciones de ambas variables en un gráfico llamado diagrama de
dispersión o nube de puntos. A partir de esta representación el investigador puede
especificar la forma funcional de la función de regresión.
Suponemos un modelo en la forma

A menudo se supone que la relación que guardan la variable dependiente y las


independientes es lineal. En estos casos, se utlizan los modelos de regresión lineal.
Aunque las relaciones lineales aparecen de forma frecuente, también es posible
considerar otro tipo de relación entre las variables, que se modelizan mediante otros
modelos de regresión, como pueden ser el modelo de regresión
cuadrático o parabólico o el modelo de regresión hiperbólico.
Teoría de la Regresión: Consiste en la búsqueda de una “función” que exprese lo
mejor posible el tipo de relación entre dos o más variables.

Regresión lineal simple


La regresión lineal simple supone que los valores de la variable dependiente, a los que
llamaremos yi, pueden escribirse en función de los valores de una única variable
independiente, los cuales notaremos por xi, según el siguiente modelo lineal:

donde y , son los parámetros desconocidos que vamos


a estimar.
Habitualmente, al iniciar un estudio de regresión lineal simple se suelen representar los
valores de la variable dependiente y de la variable independiente de forma conjunta
mediante un diagrama de dispersión para determinar si realmente existe una relación
lineal entre ambas. Para realizar un diagrama de dispersión en R utilizaremos la
orden plot
> plot(x,y)
donde x e y son los valores de las variables independiente y dependiente,
respectivamente. En caso de que en el diagrama de dispersión se aprecie un patrón
lineal entre las dos variables, se podrá asumir una cierta relación lineal entre ambas
variables y se procederá a ajustar el modelo de regresión lineal simple.
Después de comprobar gráficamente la relación lineal entre las variables, el siguiente

paso es la estimación de los valores de los parámetros y que aparecen en la


fórmula (1) a partir de un conjunto de datos. Para ello, podemos utilizar la
función lm de R, cuya sintaxis es la siguiente
> lm(formula, data)
donde formula indica la relación que guardan la variable dependiente y la variable
independiente.

Por ejemplo:

> lm(formula = y ~ x, data=midataset)


Ejemplo 1

La siguiente tabla incluye información acerca del peso (en kg.) y la altura (en cm.) de
12 individuos:

Tabla1: Datos del Ejemplo 1

En primer lugar, vamos a almacenar los datos de las dos variables en dos vectores.
> peso <- c(74, 92, 63, 72, 58, 78, 85, 85, 73, 62, 80, 72)
> altura <- c(168, 196, 170, 175, 162, 169, 190, 186, 176, 170, 176, 179)

Supongamos que nuestro objetivo es determinar el peso de un individuo a partir de su


altura o, lo que es lo mismo, supongamos que la variable dependiente es peso y que la
variable independiente es altura. Vamos a representar el diagrama de dispersión de las
dos variables para determinar si la relación existente entre ambas puede considerarse
lineal, y por tanto, tiene sentido plantear un modelo de regresión lineal simple.

> plot(altura, peso)

Fig. 1: Diagrama de Dispersión

A la vista del gráfico de dispersión, se puede asumir un cierto grado de relación lineal
entre ambas variables, por lo que procedemos al ajuste del modelo lineal.

> reg_lin <- lm(peso ~ altura)


> reg_lin
Call:
lm(formula = peso ~ altura)
Coefficients:
(Intercept) altura
-80.222 0.877
Por defecto, la salida que muestra la función lm incluye únicamente las estimaciones

para los parámetros, en nuestro caso y . Por tanto, el modelo lineal puede
escribirse del siguiente modo:
Estos dos parámetros pueden interpretarse del siguiente modo: -80.222 es el valor del
peso para una persona de altura 0, lo cual no tiene sentido. De hecho, en multitud de

ocasiones la interpretación del parámetro no es relevante y todo el interés recae

sobre la interpretación del resto de parámetros. El parámetro es igual a 0.877 indica


que, por término medio, cada centímetro de incremento en la altura de una persona
supone un incremento de 0.877 kg. en su peso.

5.4.- CORRELACIÓN POR RANGOS

Correlación. Conceptos asociados

Regresión: La regresión es una técnica utilizada para inferir datos a partir de otros y
hallar una respuesta de lo que puede suceder Se pueden encontrar varios tipos de
regresión, por ejemplo:

 Regresión lineal simple.


 Regresión múltiple ( varias variables).
 Regresión logística.

Correlación: Expresa grado de asociación entre dos variables, según el sentido de la


relación de estas en términos de aumento o disminución. Se clasifican en:

Lineal o curvilínea, según la nube de puntos se condense en torno a una línea recta o a
una curva.

Positiva o directa cuando al aumentar una variable aumenta la otra y viceversa.

Negativa o inversa cuando al crecer una variable, la otra decrece y viceversa.

Nula cuando no existe ninguna relación y la nube de puntos están distribuidas al azar.
Se dice que no están correlacionadas.

Funcional si existe una función tal que todos los valores de la nube de puntos la
satisfacen.

COEFICIENTE DE CORRELACION
Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1
COEFICIENTE DE DETERMINACION
Es el cuadrado del coeficiente de correlación.

RHO DE SPEARMAN

Nombre utilizado para designar la correlación de Spearman. 4

¿Cuándo utilizar la prueba de correlación de rangos de Spearman?

El coeficiente de correlación no debe utilizarse para comparar dos métodos que


intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la
saturación de oxígeno en sangre. El coeficiente de correlación mide el grado de
asociación entre dos cantidades, pero no mira el nivel de acuerdo o concordancia. Si
los instrumentos de medida miden sistemáticamente cantidades diferentes uno del otro,
la correlación puede ser 1 y su concordancia ser nula . El coeficiente de correlación de
Spearman es recomendable utilizarlo cuando los datos presentan valores extremos, ya
que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante
distribuciones no normales. No está afectada por los cambios en las unidades de
medida. 5

Coeficiente de correlación de rangos de Spearman

Como resultado de la revisión de varios autores, asumimos el siguiente concepto:


SPEARMAN (Rho de Spearman). Este coeficiente es una medida de asociación lineal
que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos
rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos:
uno, señalado por Spearman y otro, por Kendall. El r de Spearman llamado también rho
de Spearman es más fácil de calcular que el de Kendall. 5

Fórmula

en donde d i = r xi – r yi es la diferencia entre los rangos de X e Y.


Otra variante de la fórmula expresada es: 6

Algoritmo de solución : Observando el criterio de estadísticos actuales, la mayoría


confluye en el siguiente algoritmo de trabajo: Los valores de los rangos se colocan
según el orden numérico de los datos de la variable. Por ejemplo, si tenemos las
siguientes variables:

Talla Peso

1,68 68

1,89 70

1,75 80

1,56 45

1,48 48

Al convertirlas en una escala ordinal, obtendríamos los resultados:

Talla Peso

33

54

45

21

12
El primer valor de talla (en este caso 1,68) se convierte en 3, porque el 1,68 es el tercer
valor más pequeño de la talla. El valor en peso de 45 se convierte en 1, porque es el
menor –Luego se calculan las diferencias de rangos

didi2

3-3 0

5-4 1

4-5 1

2-1 1

1-2 1

--------

Sustituyendo

Interpretación: En la muestra observada los valores de talla y peso tienen una


correlación entre fuerte y perfecta, lo que se traduce que en la medida que aumentan
los valores de la talla también aumentan los del peso y viceversa.
5.5.- COEFICIENTE DE CORRELACIÓN PARA DATOS NOMINALES

MEDIDAS DE ASOCIACIÓN PARA DATOS NOMINALES

El botón Estadísticos permite calcular las medidas de asociación más utilizadas para
variables nominales y ordinales. Por defecto no hay ninguna opción activada.

Algunos de los estadísticos que recoge este cuadro de diálogo son:

1. Chi-cuadrado, con esta opción se obtienen los estadísticos:

Chi-cuadrado de Pearson: (donde nij y eij son las frecuencias


absoluta observada y esperada, respectivamente). Si la tabla es 2x2, el estadístico se
puede calcular mediante la expresión

abreviada (donde ni. y nj. son las frecuencias marginales por filas
y columnas). Este estadístico es fiable únicamente cuando por lo menos el 80% de las
frecuencias esperadas son mayores que 5.

Corrección de continuidad (de Yates):en las tablas 2x2 corrige el error que se comete al
calcular el estadístico Chi-cuadrado de Pearson debido a la aproximación de una
distribución discreta por una continua. El estadístico corregido

es


Contraste de la razón de verosimilitud:se basa en el estadístico que se calcula
como


Prueba exacta de Fisher:si la tabla es 2x2 y los totales marginales se consideran fijos, la
probabilidad exacta de obtener la tabla analizada bajo el supuesto de independencia es:

Si la variable es Nominal los estadísticos que se pueden calcular son los siguientes:

2. Coeficiente de Contingencia de Pearson: se define como Esta


medida de asociación no se ve afectada por el tamaño de la muestra y está

acotada, Si las variables son independientes se tiene C=0, pero en caso


de asociación perfecta nunca alcanza el valor 1. Para tablas cuadradas RxR se puede

calcular la cota superior que es ; en tal caso

3. Phi y V de Cramer:

 El coeficiente Phi es Este coeficiente toma el valor 0 en caso de


independencia, pero su valor máximo depende de las dimensiones de la tabla;

para tablas superiores a 2xJ o Ix2 el coeficiente puede tomar valores


mayores que 1.

 El coeficiente V de Cramer se calcula también en función de :

(donde k =mín(I,J)) y siempre está acotado entre 0 y 1 (sea cual sea la

dimensión de la tabla). Para tablas 2xJ o Ix2 el valor de V coincide con el de .

4. Lambda: Incluye la simétrica y asimétrica y la de Goodman y Kruskal. Ambas


medidas se basan en la reducción proporcional del error de predicción cuando se
utilizan los valores de la variable independiente para predecir los de la dependiente.
 El coeficiente de Kruskal se calcula:

- Si la es la variable dependiente:

donde fmj es la frecuencia relativa conjunta máxima correspondiente a la columna j-

ésima y . es la frecuencia relativa marginal máxima de . El valor de este


estadístico, acotado entre 0 y 1, indica en cuanto se reduce la incertidumbre de la

variable cuando se dispone de información sobre el comportamiento de

- De forma análoga se calcula

- Si no se puede determinar cual de las dos variables es la dependiente y cual la

independiente se calcula el coeficiente simétrica como:

El valor de simétrica está comprendido entre

Un valor igual a 0 indica que la información acerca de la variable independiente no


ayuda en absoluto a predecir los valores de la variable dependiente; mientras que un

valor igual a 1 indica asociación predictiva perfecta entre las variables.

 La de Goodman y Kruskal indica la reducción en el error de clasificación de los


elementos para una de las variables (dependiente) cuando se tiene información
sobre el comportamiento de la otra (independiente). Si es la variable

dependiente, se calcula: siendo TMCSI=total de

elementos mal clasificados sin información acerca de y TMCCI=total de

elementos mal clasificados con información acerca de La se define de


manera análoga.
5. Coeficiente de incertidumbre, U: mide la reducción proporcional del error cuando los
valores de una variable se emplean para predecir valores de la otra.

En el cuadro Nominal por intervalo se encuentra el estadístico:

6. Eta: Este coficiente es apropiado cuando la variable dependiente se mide en una


escala de intervalo, mientras que la independiente es una variable nominal. El
programa muestra dos valores de Eta según se considere que la variable medida en
una escala de intervalo esté en las filas o en las columnas.
CONCLUSION
Sin embargo en esta investigación logreamos dar información muy importante para dar
a conocer la importancia de correlación y fuentes tipos de información que nos da
mucha eficiencia para aprender como los temas hablamos anteriormente como:
inferencias estadísticas y análisis de regresión, correlación.
En estos temas nos dieron mucha información muy importante como el tema
La correlación está íntimamente ligada con la regresión en el sentido de que se centra
en el estudio del grado de asociación entre variables. Así no este tema ay muchos que
nos sirvieran de mucha importancia.
Todo esto es importante saberlo y tener conocimientos de ello.