P. 1
Estadistica Avanzada

Estadistica Avanzada

2.0

|Views: 975|Likes:
Publicado pordodger04
Estudio estadistico del voltaje de la ZN y ZS de la ciudad de Maracaibo
Estudio estadistico del voltaje de la ZN y ZS de la ciudad de Maracaibo

More info:

Published by: dodger04 on Jul 12, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC or read online from Scribd
See more
See less

07/08/2014

UNIVERSIDAD RAFAEL URDANETA FACULTAD DE INGENIERÍA ESCUELA DE INDUSTRIAL CÁTEDRA: LABORATORIO DE ESTADÍSTICA AVANZADA PROF.

JUAN DIEGO HERNÁNDEZ LALINDE

Estudio Estadístico sobre el voltaje medido de la zona norte y la zona sur en Maracaibo

PROYECTO DE CÁTEDRA

Realizado por: • • Gómez Rivas, Claudio Sergio C.I.:20.370.165 Más y Rubí Márquez, Alberto C.I.: 21.162.889

2

Maracaibo, abril de 2.010

3

ESTUDIO ESTADÍSTICO SOBRE EL VOLTAJE MEDIDO DE LA ZONA NORTE Y LA ZONA SUR EN MARACAIBO

Gómez Claudio C.I.: 20370165 Av. 3G con calle 62 Residencias Santa Marta Apto 3 - 4 Tlf: 04146896013 Claudio.gomez.1991.s@gmail.com

Más y Rubí Alberto C.I.: 21162889 Calle 19 con Av. 115 Urbanización el Pinar Apto 3-F Tlf: 04264672080 aj_m_789@hotmail.com

Tutor académico

4 ÍNDICE RESUMEN ABSTRACT INTRODUCCIÓN CAPÍTULO I: EL PROBLEMA 1. Planteamiento del problema 2. Objetivos de la investigación 2.1 2.2 General Específicos

3. Justificación de la investigación 4. Delimitación de la investigación CAPÍTULO II: MARCO TEÓRICO 1. Muestra piloto 2. Distribución normal 3. Statgraphics 4. SPSS 5. Excel 6. Inferencia estadística CAPÍTULO III: MARCO METODOLÓGICO 1. Tabla de fundamentos metodológicos de la investigación realizada 2. Población 3. Muestra CAPÍTULO IV: ANÁLISIS DE LOS RESULTADOS 4.1.Análisis de la distribución que siguen los datos 4.2. Tamaño adecuado de la muestra 4.3. Inferencia sobre el voltaje CONCLUSIONES ANEXOS

5 Gómez, Claudio – Más y Rubí, Alberto. (2010) Estudio estadístico sobre el voltaje medido de la zona norte y la zona sur en Maracaibo Trabajo de investigación de la cátedra laboratorio de estadística avanzada RESUMEN El problema planteado en esta investigación es la disminución de la calidad del servicio eléctrico causado por fluctuaciones en el voltaje, que podría ocasionar daños en dispositivos electrodomésticos, entre otros. El objetivo principal de este trabajo es analizar el voltaje de la zona norte (ZN) y zona sur (ZS) en Maracaibo para determinar la existencia de posibles fluctuaciones y su rango de valores. Esta investigación es de tipo exploratoria porque el tema de investigación es poco estudiado y sirve para establecer prioridades para investigaciones posteriores. El diseño es no experimental porque no hubo manipulación de la variable; y, documental, debido a que el proceso está basado en el análisis y la interpretación de datos obtenidos por otros investigadores en fuentes documentales. Para realizar este análisis, primero se debe realizar un estudio de normalidad, para determinar si los datos siguen esta distribución. Luego se determina el número de muestra adecuado con el uso del paquete estadístico Statgraphics, para finalmente realizar una inferencia sobre los voltajes de la ZN y de la ZS.

Palabras claves: Estadística, Distribución normal, Inferencia estadística, Statgraphics, SPSS, Excel

6 ABSTRACT The problem presented in this investigation is the decrease of the quality of the electric service caused by voltage fluctuations that may derive in damage to electro domestic devices and others. The main objective of this investigation is to analyze the voltage in the south zone (SZ) and in the north zone (NZ) in Maracaibo in order to determine the existence of possible fluctuations and its range of values. The type of this research is exploratory because the subject of investigation isn’t much studied and it serves to establish priorities for future investigations. The design is “not experimental” because there wasn’t any manipulation of the variable, and “documentary” because the process is based in the analysis and interpretation of data obtained by other investigators in documentary sources. To conduct this analysis, a normality study must be conducted first to determine if the data follow this distribution. Then the sample is calculated with the statistic package “Statgraphics” to finally execute an inference about the voltages of the SZ and the NZ.

7 INTRODUCCIÓN La presente investigación tiene como objetivo principal determinar si existe fluctuación del voltaje entre la zona norte (ZN) y la zona sur (ZS), así como si este suministro está ubicado fuera del intervalo de 100V a 120V. En el capítulo 1 se plantean los problemas que se pueden generar producto de un voltaje suministrado mayor a 120V o menor a 100V en alguna de las zonas. En el capítulo 2 se definirán conceptos básicos para el claro entendimiento de la investigación realizada. En el capítulo 3 se especifica el tipo de investigación, el diseño de la investigación y las fases de la metodología, para posteriormente analizar las fases establecidas en el capítulo 4.

8 CAPÍTULO I EL PROBLEMA 1. PLANTEAMIENTO DEL PROBLEMA Los sistemas eléctricos están sujetos a una amplia variedad de problemas de calidad de energía que pueden interrumpir el servicio de fluido eléctrico en la comunidad y afectar equipos sensibles ocasionando paralizaciones, mal funcionamiento y pérdidas. Las fluctuaciones momentáneas de voltaje pueden impactar desastrosamente en la población originando todos los problemas mencionados en el diagrama que se muestra en la figura 1.

Fluctuación de voltaje (Generalmente por se da por
pérdidas de capacidad)
Menor o mayor intensidad Daños a equipos Mal funcionamiento de los equipos

Estallamiento de bombillos

Menor o mayor potencia

Funcionamiento ineficiente de generadores

Costos excesivos

DISMINUCIÓN DE LA CALIDAD DEL SERVICIO DE FLUIDO ELÉCTRICO DE LA ZONA NORTE Y SUR DE LA CIUDAD DE MCBO

Paradas no programadas

Ausencia de un programa de Mantenimiento preventivo

Fig. 1. Diagrama causa – efecto del problema “Disminución de la calidad del Servicio de fluido eléctrico en la zona Norte y Sur de la ciudad de Maracaibo

9 En este proyecto de investigación se pretende estudiar:

Si realmente “FLUCTUACIONES DEL VOLTAJE” se presenta en las zonas investigadas de Maracaibo: Baja para la zona norte (ZN) Alta para la zona sur (ZS))

Si el voltaje suministrado esta fuera del intervalo 100 V – 120 V

2. OBJETIVOS DE LA INVESTIGACIÓN 2.1. GENERAL Analizar la tensión eléctrica de la ZN y ZS determinando la existencia de fluctuaciones de voltaje y su rango de valores. 2.2. ESPECÍFICOS Comprobar mediante una muestra piloto que el comportamiento de los datos siguen una distribución normal. Establecer el tamaño adecuado de la muestra con el uso del paquete estadístico Statgraphics. Inferir si el voltaje de la ZS y ZN están dentro del intervalo preestablecido utilizando el paquete estadístico Statgraphics y paquete estadístico SPSS (statistics Packaged for social science). 3. JUSTIFICACIÓN DE LA INVESTIGACIÓN Con la realización de este proyecto se tendrá certeza en relación a la existencia o no de fluctuaciones voltaje en la ZS y ZN, entonces será posible tomar las medidas necesarias que permitan solventar los problemas de ingeniería, diseño, mantenimiento o cualquier otro, que puedan estar originando dicha falla. Así mismo, el desarrollo de la investigación permitió adquirir destrezas y habilidades en relación al manejo de dos paquetes importantes en la estadística,

10 como son el Statgraphics y el SPSS (aumentando el nivel de conocimientos referidos al tratamiento estadístico de datos). 4. DELIMITACIÓN DE LA INVESTIGACIÓN 4.1. DELIMITACIÓN ESPACIAL Los datos usados para realizar este estudio exploratorio fueron recolectados en las zonas norte y sur de la ciudad de Maracaibo, estado Zulia. 4.2. DELIMITACIÓN TEMPORAL El periodo de desarrollo del proyecto es de 2 semanas, comprendido en el semestre 2010-A. 4.3. DELIMITACIÓN CIENTÍFICA En el trabajo se comprueba mediante una muestra piloto que el comportamiento de los datos sigue una distribución normal, para luego establecer el tamaño adecuado de la muestra, finalizando con la inferencia de si el voltaje de la ZS y ZN están dentro del intervalo preestablecido. Para el desarrollo de los puntos fueron utilizados los paquetes estadísticos Statgraphics y SPSS.

11 CAPÍTULO II MARCO TEÓRICO 1. MUESTRA PILOTO Cuando no es conveniente considerar todos los elementos de la población, lo que se hace es estudiar una parte de esa población. Una parte de la población se llama muestra. La muestra siempre debe tener las mismas características del universo, ya que es representativa de este. Según: “Se llama muestra a una parte de la población a estudiar que sirve para presentarla”. Murria R. Spiegel(1991) “Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia”. Cadenas (1974) “Una muestra es la colección de algunos elementos de la población, pero no de todos”. Levin & Rubin (1996) 2. DISTRIBUCIÓN NORMAL “Sin lugar a dudas, la distribución mas utilizada para modelar experimentos aleatorios es la distribución normal. Esta distribución puede obtenerse al considerar el modelo básico de una variable aleatoria binomial cuando el número de ensayos se vuelve cada vez más grande. Este fue el enfoque original seguido por De Moivre en 1773. Desafortunadamente, su trabajo se perdió por un tiempo, y Karl Gauss desarrollo, de manera independiente, la distribución normal casi cien años después. Aunque más tarde se dio crédito a De Moivre, la distribución normal también se conoce como distribución Gaussiana”. Douglas C. Montgomery y George C. Runger. (1996)

12 3. STATGRAPHICS “Statgraphics es un programa para gestionar y analizar valores estadísticos. Statgraphics tiene cuatro módulos principales: un editor estadístico (StatReport) que prepara informes con datos variables; un asistente estadístico (StatWizard) que sugiere los métodos más adecuados para recopilar y analizar datos; y un enlace estadístico (StatLink) que enlaza el libro de análisis (Statfolio) con la fuente de datos. Statgraphics destaca especialmente por sus capacidades para la representación gráfica de todo tipo de estadísticas y el desarrollo de experimentos, previsiones y simulaciones en función del comportamiento de los valores. En definitiva, Statgraphics es una completa herramienta para el estudio, análisis y aprendizaje de cualquier rama de la Estadística.” Referencia proveniente de su página principal.

4. SPSS “Es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. En la actualidad, la sigla se usa tanto para designar el programa estadístico como la empresa que lo produce. Originalmente SPSS fue creado como el acrónimo de Statistical Package for the Social Sciences ya que se está popularizando la idea de traducir el acrónimo como "Statistical Product and Service Solutions". Sin embargo, aunque realizando búsquedas por internet estas pueden llevar a la página web de la empresa, dentro de la página misma de la empresa no se encuentra dicha denominación. Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de

13 suNational Opinión Research Center estuvo a cargo del desarrollo, distribución y venta del programa. A partir de 1975 corresponde a SPSS Inc.”
Información referencial de su página principal

5. MICROSOFT EXCEL Microsoft Excel es un programa de hoja o planilla de cálculo. Al igual que Microsoft Word, posee actualmente un mercado dominante. Fue originalmente el más fuerte competidor del entonces popular Lotus 1-2-3, y en tercera posición estuvo Quattro Pro; pero eventualmente Excel se vendió más, se popularizó y se convirtió en el estándar de facto. Está disponible para plataformas Windows y Mac. Extensiones comunes: .xls (Excel 97-2003), .xlsx (Excel 2007-2010) Información referida por parte de la página del proveedor

6. INFERENCIA ESTADÍSTICA Consiste en tomar una muestra de alguna población que posea la mayor cantidad de características de la misma, es decir, que sea representativa. Ya que, si es representativa, se puede inferir correctamente sobre la población que se va a estudiar. Uno de los métodos utilizados para la inferencia estadística es la prueba de hipótesis, que consiste en realizar una afirmación acerca de uno de los parámetros desconocidos de la población que se va a estudiar.

14 CAPÍTULO III MARCO METODOLÓGICO 1. TABLA DE FUNDAMENTOS METODOLÓGICOS DE LA INVESTIGACIÓN REALIZADA
TIPO DE INVESTIGACIÓN (ARIAS, 2006) EXPLORATORIA Utilizada cuando se desea conocer un tema o problema de investigación poco estudiado o que no ha sido abordado antes DISEÑO DE LA INVESTIGACIÓN (HERNANDEZ SAMPIERI, 2006) NO EXPERIMENTAL No fue manipulada la variable DOCUMENTAL Proceso basado en la búsqueda, recuperación, análisis, crítica e interpretación de datos secundarios, es decir, los obtenidos y registrados por otros investigadores en fuentes documentales; impresas, audiovisuales o electrónicas. Como en toda investigación el propósito de este diseño es el aporte de nuevos conocimientos OBJETIVOS FASES DE LA METODOLOGÍA TÉCNICAS DE RECOLECCIÓN DE DATOS - Observación documental - Observación indirecta - Lectura evaluativa

Comprobar mediante una muestra piloto que el comportamiento de los datos siguen una distribución normal

Establecer el tamaño adecuado de la muestra con el uso del paquete estadístico Statgraphics

1.- Introducción de la muestra piloto aleatoria en el paquete estadístico SPSS 2.- Se analizaron los resultados arrojados determinándose si se sigue una distribución normal 1.- Introducción de la muestra piloto aleatoria en el paquete estadístico Statgraphics 2.- Se estableció el tamaño de la muestra, tomando en cuenta una potencia de 80%.

- Observación documental - Observación indirecta - Lectura evaluativa

Inferir si el voltaje de la ZS y ZN están dentro del intervalo preestablecido utilizando el paquete estadístico Statgraphics y paquete estadístico SPSS.

1.- Introducción - Observación de la muestra documental obtenida en el - Observación paquete indirecta estadístico - Lectura Statgraphics. evaluativa 2.Uso del Statgraphics para el método de prueba de hipótesis.

15

2. POBLACIÓN Mediciones de los voltajes en la ZN y ZS 3. MUESTRA Para el estudio de normalidad, la muestra fue aleatoria, cuyo tamaño fue establecido por el profesor Hernández, siendo éste de 30 tensiones. Para la aplicación del método de la prueba hipótesis, se estableció un tamaño de muestra que satisfaga los requerimientos del estudio (potencia), con el uso del paquete estadístico Statgraphics.

16 CAPÍTULO IV ANÁLISIS DE LOS RESULTADOS 1. ANÁLISIS DE LA DISTRIBUCIÓN QUE SIGUEN LOS DATOS La muestra aleatoria seleccionada de 30 datos se aprecia en la tabla 1 (obtenida con Excel):
Dato 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ZN 111,23 120,68 92,83 146,06 123,59 100,29 135,64 103,4 99,97 125,58 127,1 71,82 71,82 79,03 70,49 102,56 92,08 121,79 59,48 97,51 108,91 125,58 118,38 129,35 98,04 100,83 98,04 79,03 118,69 106,34 ZS 101,6 114,45 97,34 121,24 134,1 129,71 134,26 106,47 129,01 102,84 104,99 125,01 94,55 145,33 115,32 112,06 149,98 114,45 77,99 108,87 123,64 72,61 125,59 145,29 132,76 118,39 99,49 163,12 126,35 107,75

TABLA 1

17 Esta muestra aleatoria se obtuvo con el uso del programa Excell. Con estos datos y con la información proporcionada en la tabla 2, en los histogramas 1, 2, 3 y 4; y, en los diagramas 1 y 2, se comenzó el estudio de normalidad:

ESTADÍSTICOS Puntua(Zo N Media Error típ. de la media Mediana Moda Desv. típ. Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Mínimo Máximo Percentiles 2,5 16 84 97,5 Válidos Perdidos ZonaN 30 0 104,5380 3,89482 102,9800 71,82(a) 21,33279 -,265 ,427 -,478 ,833 59,48 146,06 59,4800 78,7416 125,6408 ZonaS 30 0 117,8187 3,68368 116,8550 114,45 20,17632 -,052 ,427 ,278 ,833 72,61 163,12 72,6100 99,4040 134,7012 163,1200 naN) 30 0 ,0000000 ,18257419 -,0730331 1,53370(a) 1,0000000 0 -,265 ,427 -,478 ,833 -2,11215 1,94639 2,1121475 1,2092370 ,9892189 1,9463933 Puntua(Zo naS) 30 0 ,0000000 ,18257419 -,0477623 -,16696 1,0000000 0 -,052 ,427 ,278 ,833 -2,24068 2,24527 -2,2406790 -,9126869 ,8367497 2,2452718

146,0600 a Existen varias modas. Se mostrará el menor de los valores.

TABLA 2

18

ZonaN

6

Frecuencia

4

7 6 5
2

6

3
Media =104,54 Desviación típica =21, 333 N =30

1
0 50,00 75,00 100,00 125,00

1

1
150,00

ZonaN

HISTOGRAMA 1

Puntua(ZonaN)

8

6

Frecuencia

4

8 7

2

3 2 1
0 -3,00000 -2,00000 -1,00000

3 2

3 1
Media =2,36E-16 Desviación típica =1, 00000 N =30

0,00000

1,00000

2,00000

Puntua(ZonaN)

HISTOGRAMA 2

19

ZonaS

6

Frecuencia

4

7 6 5
2

3 2

3

3
Media =117,82 Desviación típica =20, 176 N =30 175,00

1
0 75,00 100,00 125,00 150,00

ZonaS

HISTOGRAMA 3
Puntua(ZonaS)

6

5

4

Frecuencia

3

6 5

6 5

2

1

2 1 1
-1,00000 0,00000

2 1
1,00000

1
3,00000

0 -3,00000 -2,00000 2,00000

Media =-3,33E-16 Desviación típica =1, 00000 N =30

Puntua(ZonaS)

HISTOGRAMA 4

20

2

1

0

-1

-2

-3 Puntua(ZonaN)

DIAGRAMA 1
3

2

1

0

-1

-2

-3 Puntua(ZonaS)

DIAGRAMA 2 Analizando primero los resultados de la ZN en la tabla 2, observamos que en los valores tipificados, el promedio de los voltajes es igual a “0”, así como su

21 desviación estándar es “1”, arrojando indicios de que los datos siguen el comportamiento de una distribución normal. El coeficiente de asimetría resulta igual a -0,265; y la curtosis es -0,478; estos dos valores expresan que los datos están sesgados hacia la izquierda (sesgo negativo) y con la curtosis, se aprecia que la distribución es platicúrtica. En el histograma 2 y en el diagrama 1, se aprecia que la mayoría de los datos (95%) estan comprendidos entre los percentiles 2,5 y 97,5; esto se valida ya que, tipificados, el percentil 2,5 es igual a –2,1121475 y el percentil 97,5 es 1,9463933; resultando prácticamente iguales al valor que deben tener esos percentiles en una distribución normal, que son -2 y 2. Con respecto a los percentiles 16 y 84, ambos resultan (tipificados) -1,2092370 y 0,9892189 respectivamente, valores que se aproximan al -1 y 1 que acumulan el 68% de los datos (característica de una distribución normal). Examinando los resultados de la ZS en la tabla 2, encontramos que el promedio es igual a “0” y la desviación estándar es “1” (ambos valores tipificados). En otro orden de ideas, el coeficiente de asimetría resulta -0,052 y la curtosis es 0,278; por lo tanto, existe un sesgo negativo o hacia la izquierda (pequeño), y la distribución presenta un comportamiento leptocúrtico. Por otra parte, en el histograma 4 y en el diagrama 2 se observa que los percentiles 2,5 y 97,5 (tipificados) resultan – 2,2406790 y 2,2452718 respectivamente, valores muy cercanos a – 2 y 2; y los percentiles 16 y 84 resultan – 0,9126869 y 0,8367497 respectivamente, valores que están muy cerca de – 1 y 1.
Pruebas de normalidad Kolmogorov-Smirnov(a) Puntua(ZonaN) Puntua(ZonaS) ZonaN ZonaS Estadístico ,108 ,074 ,108 gl 30 30 30 Sig. ,200(*) ,200(*) ,200(*) Estadístico ,972 ,989 ,972 ,989 Shapiro-Wilk gl 30 30 30 30 Sig. ,585 ,982 ,585 ,982

,074 30 ,200(*) * Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors

TABLA 3

22 En la tabla 3, observamos que el nivel de significancia de la prueba arrojado con la prueba de Kolmogorov – Smirnov (con la corrección de la significación de Lilliefors) es 0,200 y 0,200 en la ZN y la ZS respectivamente; valores que superan el alfa establecido por el programa SPSS (0,05), entonces, se acepta la hipótesis nula de que la distribución de los datos sigue una distribución normal. Además, con el nivel de significancia de Shapiro-Wilk (prueba que tiene más robustez que las demás), se obtienen 0,585 y 0,982 para la ZN y la ZS respectivamente. Ambos valores superan el alfa de 0,05; por tanto, no se rechaza la hipótesis nula (que es la misma hipótesis que en la prueba Kolmogorov- Smirnov) Con todo lo expuesto anteriormente, se puede afirmar con veracidad que los datos proporcionados siguen el comportamiento de una distribución normal. 2. TAMAÑO ADECUADO DE LA MUESTRA Para el cálculo de la muestra adecuada tanto de la ZN como de la ZS, se utilizó el paquete estadístico Statgraphics, colocándose lo siguiente: • • • • • Parámetro a estimar: media normal Potencia deseada: 80%. Media hipotética: 110 Alfa: 0,05 Varianzas poblaciones conocidas Insertando esto en el Statgraphics, obtenemos un tamaño de muestra para ZN igual a 36, y de la ZS igual a 32. Resultados que se verifican al observar la curva 1 (ZN) y la curva 2 (ZS) de potencia. Con esta muestra calculada, se asegura que al tomar un valor aleatorio del espacio muestral, éste va a estar contenido entre 100,0001V y 119,9999V. De la misma forma se obtiene la muestra significativa si se desea inferir sobre los voltajes de la ZN y la ZS, que resulta 58. Este valor se comprobó con

23 el uso de las curvas OC y con el uso de la fórmula para “n” de la hipótesis alternativa unilateral.

Curva de Potencia alfa = 0,05, sigma = 21,3328, n=36 1

0,8 Potencia (1 - beta)

0,6

0,4

0,2

0 95 100 105 110 115 120 125 Media Verdadera

CURVA 1 (ZN)

Curva de Potencia alfa = 0,05, sigma = 20,1763, n=32 1

0,8 Potencia (1 - beta)

0,6

0,4

0,2

0 95 100 105 110 115 120 125 Media Verdadera

CURVA 2 (ZS)

24 Para saber si el voltaje de la ZS es mayor que el de la ZN, se realiza el método de prueba de hipótesis en el Statgraphics, donde se planteará:
H 0 : µ ZN − µ ZS = 0 H 1 : µ ZN − µ ZS < 0

El resumen estadístico es el siguiente: Recuento Promedio Desviación Estándar Coeficiente de Variación Mínimo Máximo Rango Sesgo Estandarizado Curtosis Estandarizada Norte 58 109,349 22,1534 20,2594% 61,93 157,72 95,79 -0,126744 -0,948562 Sur 58 120,218 21,4741 17,8625% 70,62 163,12 92,5 -0,0170384 -0,676767

El cual, al aplicársele la prueba de hipótesis arroja un valor P de 0,00419025; rechazando así la hipótesis nula, de manera que se afirma que el voltaje de la zona sur es mayor que el de la zona norte. Se debe aclarar que se asumieron varianzas iguales, debido a que al realizar la prueba-F para comparar desviaciones estándar, se obtuvo lo siguiente: Desviación Estándar Varianza Gl Norte 22,1534 490,775 57 Sur 21,4741 461,136 57

Hipótesis Nula: sigma1 = sigma2 Hipótesis Alt.: sigma1 <> sigma2 F = 1,06427 valor-P = 0,814908 No se rechaza la hipótesis nula para alfa = 0,05. Por lo tanto, es razonable asumir varianzas iguales.

25 En el siguiente histograma de frecuencia (histograma 5), diagrama de caja y bigote (3) y gráfico cuantil-cuantil, se aprecian la distribución de los datos de la ZN y de la ZS (obtenido con el Statgraphics), donde se puede visualizar que una cantidad importante de los datos de voltaje de la ZS supera a los de la ZN:
Norte 29 19 frecuencia 9 1 11 21 50 70 90 110 Sur 130 150 170

HISTOGRAMA 5

Gráfico Caja y Bigotes

Norte

Sur

60

80

100

120

140

160

180

DIAGRAMA 3

26

Gráfico Cuantil-Cuantil 180 160 140 Sur 120 100 80 60 60 80 100 120 Norte 140 160 180

27 CONCLUSIONES En un análisis estadístico, resulta de una gran ayuda que los datos provengan de una distribución normal, porque permite una facilidad al momento de encontrar parámetros especificados, así como para observar los histogramas, diagrama de caja y bigote, entre otras herramientas gráficas. En la investigación realizada, se realizó un estudio de normalidad tomando en como base los valores tipificados de la media, desviación estándar, los percentiles 2,5; 16; 84 y 97,5; Prueba de Kolmogorov-Smirnov (con la corrección de Lilliefors) y la de Shapiro Wilk. El conjunto de datos estudiado pasó todas las pruebas y por lo tanto se concluyó con suficiente evidencia que seguía una distribución normal, lo que permitió el avance del estudio, llegando al cálculo de una muestra que tuviera un nivel de tolerancia de 80% y cuyos valores estuvieran comprendidos entre 100,0001V y 199,9999V. El cálculo se hizo con el Statgraphics, arrojando una muestra de 36 y 32 para la ZN y la ZS respectivamente; pero, como se deseaba realizar una prueba de hipótesis entre ambas muestras, se tuvo que realizar un nuevo cálculo de muestra adecuado (de nuevo con el Statgraphics), donde se obtuvo un valor de 58 datos. Finalmente, se realizó la inferencia estadística para determinar qué voltaje resultaba mayor. El resultado fue que el voltaje de la ZS es mayor que el de la ZN, para obtener esto se utilizó de nuevo el paquete estadístico Statgraphics y el método de prueba de hipótesis, donde la nula expresaba que la diferencia de medias es igual a cero y la alternativa que era menor que cero, de manera que al rechazarse la hipótesis nula (que ocurrió porque el valor P resultó menor que el alfa de 0,05), se concluye que el voltaje en la ZS es mayor que el de la ZN.

28 ANEXOS Anexado ejercicio exigido por el profesor Juan Hernández de Regresión Lineal Múltiple de primer y segundo orden.

29 INTRODUCCIÓN Las pruebas de aptitud para el trabajo se han usado como criterio de admisión para determinar la factibilidad de una contratación en el ámbito laboral. Con este propósito se ha definido una seria de pruebas capacitadas para determinar que tan eficiente llegaría ser un personal cuando es contratado por una empresa, en tal caso, podría hablarse de la aptitud como la capacidad de una persona de adecuarse a una tarea, esto engloba tanto capacidades cognoscitivas y procesos, como características emocionales y de personalidad. Para ello, deben conocerse bien las características del trabajo a desempeñar, y las de las personas que ha de realizarlo. Por lo tanto, El presente trabajo tiene como apreciación dar a conocer con certeza que prueba repercute mas sobre el individuo por medio de un método estadístico conocido como individuo. Además llevaremos a experimentación las pruebas estadísticas ya mencionadas permitiéndonos así extender el propósito de esta investigación; En otro orden de ideas, no solo conoceremos que pruebas son necesarias para medir la calidad en base a la aptitud del personal sino que también darle el uso adecuado al tema estadístico como herramientas eficaz para el desarrollo personal. lo es la Regresión Lineal múltiple de Primer y Segundo Orden; esta nos conducirá a conocer cuan significativa es para el

30 Ejercicio En muchas agencias gubernamentales y compañías privadas el problema de identificar aquellos factores que son importantes para predecir la aptitud para el trabajo de los aspirantes a obtener un empleo constituyen un proceso continuo. El procedimiento usual es el de aplicar al solicitante un conjunto de pruebas apropiadas y tomar la decisión de contratarlo o no con base en los resultados de estas. El asunto clave es conocer a priori qué pruebas pueden predecir la aptitud para el trabajo de una persona. Supóngase que el personal de una compañía muy grande ha desarrollado cuatro pruebas para una determinada clasificación con respecto al trabajo. Estas pruebas se aplicaron a 20 individuos que fueron contratados por la compañía. Después de un periodo de dos años, cada uno de estos empleados se clasifica de acuerdo con su aptitud para el trabajo. La puntuación para la aptitud hacia el trabajo Y y la correspondiente a cada una de las cuatro pruebas X1, X2, X3, X4 se dan en la tabla: Y 94 71 82 76 111 64 109 104 80 73 127 88 99 80 99 116 100 96 126 58 X1 122 108 120 118 113 112 109 112 115 111 119 112 120 117 109 116 104 110 117 120 X2 121 115 115 117 102 96 129 119 101 95 118 110 89 108 125 122 83 101 120 77 X3 96 98 95 93 109 90 102 106 95 95 107 100 105 99 108 116 100 103 113 80 X4 89 78 90 95 109 88 108 105 88 84 110 87 97 100 95 102 102 103 108 74

31 a) Ajuste un modelo de regresión lineal múltiple de primer orden Para realizar el ajuste de un modelo de regresión lineal múltiple de primer orden, primero debemos definir ciertos aspectos: El modelo de regresión lineal múltiple con “k” regresores está definido como:
Y = β0 + β1 x1 + β2 x 2 + ... + βk x k + ε

Donde los parámetros βj , j = 0,1,2..., k se conocen como coeficientes de regresión. Por lo tanto, el modelo de regresión lineal múltiple del ejercicio es:
Y = β0 + β1 x1 + β2 x 2 + β3 x3 + β4 x 4 + ε

Para la obtención de los betas, utilizamos el siguiente sistema de ecuaciones:
ˆ ˆ ˆ ˆ ˆ 1 → nβ 0 + β1 ∑ xi1 + β 2 ∑ xi 2 + β 3 ∑ xi 3 + β 4 ∑ xi 4 = ∑ y i
i =1 i =1 i =1 i =1 i =1 n n n n n

ˆ ˆ ˆ ˆ ˆ 2 → β 0 ∑ xi1 + β1 ∑ xi2 + β 2 ∑ xi1 .xi 2 + β 3 ∑ xi1 xi 3 + β 4 ∑ xi1 xi 4 = ∑ y i xi1 1
i =1 n i =1 n i =1 i =1 n i =1 n i =1 n

n

n

n

n

n

n

ˆ ˆ ˆ ˆ ˆ 3 → β 0 ∑ xi 2 + β1 ∑ xi 2 xi1 + β 2 ∑ xi22 + β 3 ∑ xi 2 xi 3 + β 4 ∑ xi 2 xi 4 = ∑ y i xi 2
i =1 n i =1 n i =1 n i =1 i =1 n i =1 n

n

ˆ ˆ ˆ ˆ ˆ 4 → β 0 ∑ xi 3 + β1 ∑ xi 3 xi1 + β 2 ∑ xi 3 .xi 2 + β 3 ∑ xi23 + β 4 ∑ xi 3 xi 4 = ∑ y i xi 3
i =1 n i =1 n i =1 n i =1 n i =1 i =1 n

n

ˆ ˆ ˆ ˆ ˆ 5 → β 0 ∑ xi 4 + β1 ∑ xi 4 xi1 + β 2 ∑ xi 4 .xi 2 + β 3 ∑ xi 4 xi 3 + β 4 ∑ xi24 = ∑ y i xi 4
i =1 i =1 i =1 i =1 i =1 i =1

n

32 Hallando todos los coeficientes de beta:

n = 20

∑x
i =1 n i =1 n

n

i1

= 2284

∑x
i =1 n

n

i1

= 2284 = 261292

∑x
i =1 n

n

i2

= 2163 xi1 = 247092 = 237965 xi 3 = 218580 xi 4 = 207894
i2

∑ xi 2 = 2163 ∑x
i =1 n i =1 n i3

∑x
i =1 n i =1 n

2 i1

∑x
i =1 n

i2

= 2010

∑ xi1 xi 2 = 247092 ∑x
i =1 n i1

∑x
i =1 n

2 i2

∑ xi 4 = 1912 ∑y
i =1 i

xi 3 = 229422 xi 4 = 218256

∑x
i =1 n

i2

= 1853

∑x
i =1 n i =1

i1

∑x
i =1 n i =1

i2

∑ yi xi1 = 211605

∑y x
i

= 203005

∑x
i =1 n

n

i3

= 2010 xi1 = 229422

∑x
i =1 n

n

i4

= 1912 xi1 = 218256 xi 2 = 207894 xi 3 = 193440 = 184904
i4

∑x
i =1 n i =1 n

i3

∑x
i =1 n

i4

∑ xi 3 xi 2 = 218580 ∑x
i =1 n 2 i3

∑x
i =1 n

i4

= 203338 xi 4 = 193440

∑x
i =1 n

i4

∑x
i =1 n i =1

i3

∑x
i =1 n i =1

2 i4

∑ yi xi3 = 188994

∑y x
i

= 180553

33 Sustituyendo en el sistema de ecuaciones anterior, tenemos lo siguiente:
1 2 3 4 5 2 0 2 2 8 4 2 1 6 3 2 0 1 0 1 9 1 2 ˆ
0

2 2 8 4 ˆ ˆ ˆ ˆ
0

ˆ 2 6 1 2 9 2 2 4 7 0 9 2 2 2 9 4 2 2 2 1 8 2 5 6

0 0

0

Resolviendo este sistema de ecuaciones se obtiene:
ˆ β0 = −175 .88439507 ˆ β1 = 0.4910803256 59 ˆ β2 = 0.0201810425 323 ˆ β3 = 1.3021711275 8 ˆ β4 = 0.8305674038 5

Con los coeficientes de regresión, obtenemos finalmente el modelo de regresión lineal múltiple, que es:
Y = −175 .884 + 0.491 x1 + 0.02 x 2 +1.302 x3 + 0.831 x 4

Estos resultados también se justifican con el análisis de regresión en el SPSS, donde se obtienen unos valores de beta prácticamente iguales a los que se obtuvieron resolviendo las matrices; estos valores de beta son: Coeficientes(a) Coeficientes no estandarizados Error B típ. 1 (Consta 48.610 nte) 175.884 X1 .491 .359 X2 .020 .140 X3 1.302 .350 X4 .831 .253 b) Realice un análisis completo de residuales. Emita conclusiones: Modelo Utilizaremos varios aspectos:

34  El coeficiente de Durbin-Watson es 1.744, lo cual indica que no existe correlación entre los residuos, ya que su valor es aproximadamente 2 (ver anexo 1). En el siguiente histograma, observamos como el residuo tipificado sigue una distribución normal, esto se demuestra porque su media es
1.14 ×10 −15 ≈ 0 (aproximadamente 0), y su desviación estándar es

0.889 (aproximadamente 1), los datos poseen una sola moda, su curva presenta una forma leptocúrtica, además, el 68% de los datos están contenidos entre -1 y 1, así como el 95% se encuentran entre -2 y 2.

En el siguiente grafico de dispersión se observa un solo valor atípico (encerrado en un cuadrado azul), mientras que la mayoría de los datos

35 se encuentran dentro de -2 y 2, siendo estos los percentiles 2,5% y 97,5%.

c) Interprete las estimaciones de β y β2 3 Los valores de los coeficientes de regresión son 1,302 y 0,02 respectivamente. El valor de β representa el coeficiente mayor, esto quiere decir que su 3 impacto en la variable dependiente Y (o variable aleatoria) es el más grande entre todas las demás variables independientes, ya que, por ejemplo, al introducir los siguientes valores:
x1 =1 x 2 =1 x3 = 1 x 4 =1

36

Al multiplicar cada uno de estos valores por sus respectivos betas, obtenemos el siguiente impacto sobre la variable dependiente Y:
β1 x1 = 0.491 ×1 = 0,491 β2 x 2 = 0,02 ×1 = 0,02 β3 x3 = 1,302 ×1 = 1,302 β4 x 4 = 0,831 ×1 = 0,831

Por lo tanto se puede observar claramente que el coeficiente de regresión

β es el que afecta mas el valor que se obtenga de la variable Y. Por otra 3
parte, se puede visualizar que el valor de β2 es el que tiene menos impacto en la aptitud hacia el trabajo. d) ¿Qué proporción de la variación observada en la aptitud se puede explicar con la relación del modelo? El valor de R2 o coeficiente de determinación es igual a “0.854” representando un 85.4%, es decir que el 85.4% de los datos son tomados en cuenta por la recta o explicado de otra forma, el modelo de regresión es adecuado, porque el valor de R2 se encuentra por encima del 75%. e) ¿El modelo elegido especifica una relación lineal útil entre la aptitud y al menos uno de las cuatro pruebas? A través de la siguiente tabla, se explicara la relación que existe o no entre la aptitud y alguna de las cuatro pruebas. Correlaciones Y Y Correlación de 1 X1 -.004 X2 .479(*) X3 .886(**) X4 .865(**)

37 Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de

20 -.004 .986 20 .479(*) .033 20 .886(**) .000 20

.986 20 1 20 .057 .812 20 -.153 .519 20

.033 20 .057 .812 20 1 20 .517(*) .020 20

.000 20 -.153 .519 20 .517(*) .020 20 1 20 .764(**) .000 20

.000 20 -.096 .688 20 .380 .098 20 .764(**) .000 20 1 20

X1

X2

X3

.865(**) -.096 .380 Pearson Sig. (bilateral) .000 .688 .098 N 20 20 20 * La correlación es significante al nivel 0,05 (bilateral). ** La correlación es significativa al nivel 0,01 (bilateral).

X4

En negrita se observan los datos necesarios para establecer la existencia de una correlación entre las variables (aptitud con las pruebas), estas correlaciones son: Y con x1: Entre estas dos variables no hay correlación lineal, esto se demuestra porque su coeficiente de correlación de Pearson es “0.004”, que es aproximadamente “0”, además, el valor “P” (significancia estadística) es 0.986, superando al alfa utilizado (0.05), aceptando así la hipótesis nula de que el valor de R (coeficiente de correlación muestral o de Pearson) es igual a “0”, por lo tanto, se apoya lo anteriormente dicho. En el grafico de dispersión se observara

38 claramente en el recuadro azul como no hay una correlación lineal entre las variables “Y” y “x1”. Y con x2: Entre estas dos variables sucede una pequeña confusión ya que el coeficiente de correlación de Pearson es “0.479” valor que se encuentra exactamente en la mitad ( entre el intervalo de 0 a 1 , donde 0 significa que no hay correlación, mientras que 1 expresa que están perfectamente correlacionados) , por otra parte, el valor P estimado es igual a “0.033”, siendo este valor menor que el alfa utilizado para la prueba, rechazándose así la hipótesis nula la cual plantea que no hay correlación entre dichas variables. En conclusión y tomando en cuenta el grafico de dispersión no se puede afirmar totalmente que existe una correlación pero se puede observar que los datos expresan una relación medianamente lineal. Y con x3: Entre estas dos variables existe una completa correlación lineal. Esto se puede demostrar ya que el coeficiente de correlación de Persson es igual a “0.886”, el cual es un valor muy cercano a “1”. A su vez, el valor de significancia estadística (P) es igual a 0, donde claramente se observa que es menor al alfa utilizado. Finalmente en el grafico de dispersión se apoya estas suposiciones. Y con x4: Entre estas dos variables existe una completa correlación lineal entre las dos variables. Esto se puede demostrar ya que el coeficiente de correlación de Pearson es igual a “0.865”, el cual es un valor muy cercano a “1”. A su vez, el valor de significancia estadística (P) es igual a 0, donde claramente se observa que es menor al alfa utilizado. Finalmente en el grafico de dispersión se apoya estas suposiciones.

39 f) ¿Si la puntuación de la prueba 3 permanece en el modelo se justifica la eliminación de la puntuación de la prueba 1 como predictor? Justifique su respuesta Si, porque la correlación entre la prueba 1 (x1) y la aptitud para el trabajo (variable dependiente Y) es nula; esto se demuestra porque su coeficiente de Pearson resulta igual a -0.004, valor muy cercano a “0”; y su valor de significancia es 0.986, siendo este superior al alfa de 0.05, reflejándose así una aceptación de la hipótesis nula, donde se plantea que no existe correlación entre las variables. En cambio, la prueba 3 (x3) es la que mayor impacto tiene sobre la aptitud para el trabajo, todo esto se explica con mayor extensión en el punto anterior.

g) Ajuste un modelo de regresión lineal múltiple de segundo orden. Dedúzcase la mejor ecuación de predicción y empléese para estimar la aptitud para el trabajo de un individuo que tiene las siguientes puntuaciones, en las pruebas: x1=105, x2=110, x3=99 y x4=107. Un modelo de regresión lineal múltiple de segundo orden debe contener todas las posibles combinaciones entre las variables independientes (combinaciones expresadas como multiplicaciones). Entonces, el modelo de segundo orden para este ejercicio debe ser:
2 2 2 Y = β0 + β1 x1 + β 2 x 2 + β3 x3 + β4 x 4 + β5 x12 + β6 x 2 + β7 x3 + β8 x 4 + β9 x1 x 2 + β10 x1 x3

+ β11 x1 x 4 + β12 x 2 x3 + β13 x 2 x 4 + β14 x3 x 4

En el programa SPSS observamos como se eliminan o excluyen un gran numero de variables; esto se debe a que su nivel de significancia supera al

40 alfa establecido por el programa (0.05), además cabe destacar que la adición de una variable sin importancia puede aumentar el error cuadrático medio, lo que constituye un indicador de que tal variable disminuye la calidad con la que el modelo ajusta los datos (ver el siguiente cuadro).

Variables excluidas (b) Estadísticos Beta Modelo dentro Toleranci X1 X2 X3 X4 X1 X1 a .101(a) .069(a) .172(a) -.332(a) .105(a) t Toleran cia 1.227 .735 .814 -1.192 1.272 Sig. Toleran cia .237 .473 .427 .250 .221 de colinealidad Tolerancia .988 .795 .158 .087 .987

1

41 X2 X2 X3 X3 X4 X4 X1 X2 X1 X3 X1 X4 X2 X3 X2

.081(a) .189(a) -.259(a) .099(a) .224(a) .040(a) .115(a)

.868 .914 -.925 1.094 1.600 .216 .972

.398 .373 .368 .289 .128 .831 .345

.799 .163 .089 .838 .325 .216 .494

.078(a) .542 .595 .347 X4 a Variables predictoras en el modelo: (Constante), X3X4 b Variable dependiente: Y También podemos visualizar en la siguiente tabla, que la única variable que forma parte de este nuevo modelo de regresión lineal múltiple de segundo orden es X3X4, porque su nivel de significancia (p) resulto igual a “0”, rechazando así la hipótesis nula de que no existe correlación entre ella y la variable dependiente: Coeficientes(a) Coeficient es Coeficientes no Model o 1 (Constant e) X3X4 estandarizados Error B -10.736 .011 típ. 9.334 .001 .936 estandariz ados Beta t -1.150 11.242 Sig. .265 .000

42 a Variable dependiente: Y El modelo de regresión lineal de segundo orden seria entonces:
Y = −10 .736 + 0.011 x3 x 4

Como x1 y x2 no aparecen en el modelo, se utilizan únicamente los valores de, x3=99 y x4=107, y, sustituyendo resulta:
Y = −10 .736 + 0.011 ×(99 ) ×(107 ) Y =105 .787

h) Emita conclusiones para ambos modelos. ¿Cuál seleccionaría y por que? Para escoger el modelo mas adecuado debemos comparar diferentes aspectos: Modelo de primer orden R2 Coeficiente de Durbin Watson Gráficos de dispersión
Y X3X4

Modelo de segundo orden 0.868 1.62

0.854 1.744
Y X1 X2 X3 X4

Y

X3X4

43

Correlacion es entre la variable dependiente y las demás variables Valor del estadístico de prueba F (en ANOVA) Región critica Con respecto al valor del coeficiente de determinación (R 2), se observa claramente que aunque la diferencia entre ambos es pequeña, el coeficiente en el modelo de segundo orden es mayor, explicándose así un 1.4% mas la varianza por la recta de regresión. El coeficiente de Durbin-Watson es mas cercano a 2 en el modelo de primer orden, por lo tanto, en el primer modelo, se infiere que hay menos correlación entre los residuales. En los gráficos de dispersión se observa como en el modelo de segundo orden existe una clara relación lineal y directa con respecto a la aptitud para el trabajo y la variable x3x4, en cambio, en el modelo de primer orden solo se observa correlación entre la variable dependiente “Y” y las variables independientes x2, x3 y x4, mientras que la variable x1 no tiene correlación con la dependiente; esto afecta la exactitud que se espera obtener del modelo, ya que se esta empleando una prueba que no tiene relación directa con la aptitud para F > 3.06 F > 4.41 F = 28.768 F = 126.375

44 el trabajo. Esta afirmación se soporta al observar las tablas que poseen el coeficiente de correlación de Pearson y la significancia estadística, donde se evidencia que la variable x1 no tiene relación con “Y”, y que la correlación de Pearson de valor mayor se encuentra en la variable independiente perteneciente al modelo de segundo orden. Finalmente, al realizar la prueba de análisis de varianzas, obteniendo el valor del estadístico “F” y generando la región critica, observamos que, a pesar de que ambos modelos se encuentran dentro de esta zona (rechazando así la hipótesis nula de que no hay correlación), el modelo de segundo orden se encuentra mucho más alejado del punto crítico. Al momento de tomar la decisión de elegir uno de los modelos, la evidencia indica que el segundo modelo expresa no solamente una mejor adecuación, si no que se observa una correlación mayor entre la variable independiente y la variable dependiente, siendo la correlación uno de los puntos mas importantes al momento de generar un modelo de regresión.

45

CONCLUSIONES Un modelo de regresión lineal sea simple o múltiple permite establecer una relación lineal entre dos variables (en caso de ser regresión lineal simple) ó 3 ó mas variables (en caso de ser regresión lineal múltiple), donde en el modelo existe un variable dependiente y el resto deben ser variable independientes. En el ejercicio planteado se observa cómo la correlación entre variables depende del coeficiente de correlación de Pearson (R), y del valor de significancia (P), donde el valor R vale 1 si las variables están perfectamente correlacionadas y 0 si no hay correlación entre ellas; y P plantea la hipótesis nula de que R es igual a “0”, por lo tanto al ser menor al alfa de 0,05; se rechazará está hipótesis, estableciendo correlación entre las variables. En el modelo de regresión lineal múltiple de segundo orden ocurre generalmente la eliminación o exclusión de variables independientes por no tener correlación con la variable dependiente o por aumentar la suma de cuadrados de los errores. Se debe recordar que R2 (coeficiente de determinación) no mide cuan apropiado resulta ser el modelo, si no que establece que porcentaje de la varianza es explicado por la recta de regresión.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->