Está en la página 1de 8

Actividad 3.

Proyecto integrador etapa 1

Jesica Monserrat Celaya Tejeda

Universidad del Valle de México

FECHA DE ENTREGA: 1/AGOSTO/22

REYNOSA, TAMAULIPAS.

26/JULIO/22

Análisis de datos

Notas de autor

Jesica Celaya Tejeda, Ingeniería Industrial y de Sistemas, Universidad del Valle de México

La correspondencia relacionada con esta investigación debe ser dirigida a Jesica Celaya

Tejeda

Universidad del Valle de México, Av Conductores 503-A, Peña Guerra, 66490 San
Nicolás de los Garza, N.L.

Contacto: A870204227@my.uvm.edu.mx
Introducción

En este proyecto se trabajará con diversas herramientas le estadística para el


análisis de datos.
Se usarán pruebas de significancia, así como diagramas de flujo, regresiones
lineales y coeficiente de correlación.
Estas pruebas son de gran importancia en determinadas ocasiones nos interesa
determinar si existe relación en algunas de nuestras variables ya sean
dependientes o independientes, o queremos saber el valor de una de ellas
conociendo el valor de otra.
En diversos planteamientos, nos interesa determinar si distintos instrumentos,
métodos o personas obtienen valores similares cuando se mide una variable en
las mismas unidades experimentales, para esto nos sirven estas herramientas
estadísticas.

I. Extracción de los datos necesarios para la experimentación


1.1 Encontrar alguna fuente de datos suficientemente grande (mayor a 30
individuos)
• Encontrar una fuente de datos de algún proceso empresarial, académico, o
de la vida diaria que pueda ser recolectado por paloteo o cuenta simple.
• Es importante que los datos sean mayores que 30 individuos, ya que esto es
una población significativa.

1.2 Extraer de la fuente dada los datos a estudiar y establecer la(s) variable(s) a
estudiar.
• Dada toda la fuente que produce datos, se debe establecer cuales datos y
sus frecuencias, o los términos en los que el proceso se describe, se van a
estudiar.
• Establecer el conjunto de variables o variable que se va a estudiar con
respecto de esos datos y cómo se comporta con respecto a los otros datos.
II. Realizar el análisis de regresión y correlación de los datos
2.1 Realizar un diagrama de dispersión de los datos recolectados
• Elegir un software como Excel o Minitab (preferentemente), entre otros
muchos, donde se pueda realizar tabulación y los cálculos estadísticos
pertinentes al proyecto.
• Realizar mediante el software elegido, una tabulación de todos los datos,
tanto variables dependientes como independiente.
• Obtener un diagrama de dispersión mediante el software de elección y
resaltar las variables dependientes.

2.2 Realizar la correlación de los datos para las variables seleccionados.


• Mediante el uso del software elegido, utilizar sus funciones para obtener los
coeficientes de correlación lineal y/o polinómica
• Realizar en a lo más tres líneas una interpretación de los parámetros de la
“función” obtenida.

2.3 Obtener la recta de regresión lineal o polinómica y realizar pruebas de


significancia
• Utilizar el software seleccionado para realizar la regresión lineal y/o polinómica.
• Obtener los parámetros de la función de regresión y colocarla en la
• Realizar pruebas de significancia con respecto a los parámetros obtenidos y
realizar una discusión en tres o cuatro líneas a lo mucho
1.2 Los datos que se utilizarán serán el número de cigarrillos que consume una
persona (cientos) y el porcentaje de mortalidad por cáncer de pulmón que se
puede registrar.
Se estudiará cual es el comportamiento en relación con estas dos variables.

2.1 El software elegido es minitab


Cigarrillos % Mortalidad

18 17.05
25 19.8
18 15.98
28 22.07
31 22.83
33 24.55
40 27.27
28 23.57
20 13.58
27 22.8
26 20.3
22 16.59
21 16.59
23 16.84
21 17.71
22 25.45
24 28.54
27 22.78
38 15.65
33 25.96
22 25.63
50 37.96
30 19.42
26 20.53
23 15.88
20 13.6
18 15.92
31 22.63
40 27.7
Gráfica 1. Diagrama de dispersión

2.2 El método que más se utiliza para determinar si existe asociación lineal entre
dos variables cuantitativas continuas es el Análisis de Correlación de Pearson.
Con ayuda de este método se obtiene el Coeficiente de Correlación de Pearson, el
cual se representa por la letra R. Se utiliza una muestra, por lo que se obtiene un
estimado del coeficiente de correlación poblacional, r.
Para poder obtener este estimado del coeficiente de correlación no se necesita
conocer la distribución de probabilidad de cada variable; pero, como se obtiene a
partir de una muestra se deben tener indicadores como la variabilidad del valor
estimado, el error estándar o el intervalo de confianza.
Además, se deben realizar pruebas de hipótesis, por ejemplo, para determinar si
el coeficiente es estadísticamente diferente de cero.
Una prueba de hipótesis sobre el coeficiente de correlación se puede establecer
en los términos siguientes:

Ho= Las variables muestran una correlación


Hi= Las variables no muestras una correlación
Nivel de significancia: α= 0.05
P>α= Se rechaza Ho

Resumen del modelo


R-cuadrado
S R-cuadrado R-cuadrado(ajustado) (pred)
3.86781 51.27% 49.47% 39.92%

El coeficiente de correlación (R- cuadrado) al >0 nos indica la presencia de una


asociación lineal positiva.
El valor .57 nos indica que no hay una alta correlación entre los valores.

2.3

Gráfica 2. Diagrama de recta de regresión lineal.


En el diagrama de recta de regresión lineal se puede observar que la mayor parte
de los datos se concentran entre 15 a 35 cigarrilos por persona, con un porcentaje
de mortalidad que va de 15 a 25 aproximadamente.
También se pueden observar valores anómalos que están fuera de la nube
agrupada de datos, esto puede resultar en que estos datos puedan tener gran
influencia en el cálculo de coeficiente de correlación, en este caso la regresión de
la recta no considera estos puntos, por lo que no tienen mayor influencia.

Análisis de Varianza
Fuente GL SC MC F P
Regresión 1 425.003 425.003 28.41 0.000
Error 27 403.919 14.960

Total 28 828.922

Se rechaza la Ho ya que P= 0>α.


Se acepta la hipótesis Hi, es decir que las variables no muestran una correlación.
Se concluye que el coeficiente de correlación es significativamente distinto de
cero.
Bibliografía

Matefacil (Productor). (16 de octubre de 2015). Ecuación de Correlación Lineal y


Coeficiente de Correlación (Ejercicio 1) [Archivo video]. Recuperado de
https://www.youtube.com/watch?v=fNeXC8d5En8

Spiegel, M. y Stephen, L. (2004). Estadística (4ta Edic.) [Archivo PDF].


Recuperado de
https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnx1
bGlz ZXNtZXJjYWRvdmFsZW56dWVsYXxneDo2YWZjYTIwOTVhYzRlMDY0

También podría gustarte