Está en la página 1de 50

UNIVERSIDAD COOPERATIVA DE COLOMBIA VILLAVICENCIO 2013 GRUPO DE INVESTIGACION G-DOVAS TALLER R-ESTADISTICO

DOCENTE: MG: JORGE ALEJANDRO OBANDO BASTIDAS PRESENTACION: Se trata de fomentar el uso del software libre atravs de una herramienta creada por la Universidad de CADIS Osluca, como un proyecto de investigacin que permita unificar el anlisis y procesamiento de la informacin de una manera universal. Las grandes Universidades de Colombia y del Mundo responden a este llamado e incorporan a R como uno de los lenguajes de programacin apropiado para el anlisis de resultados en sus trabajos de investigacin y proyectos de grado a todo nivel. La respuesta por parte de la Universidad Cooperativa de Colombia no puede ser indiferente y mxime cuando se enfrenta a procesos de acreditacin de alta calidad. Por tanto se vuelve importante estar a la vanguardia de las grandes universidades y desplegar fomentar mediante talleres e incluso en las aulas de clase el uso masivo de esta herramienta, que no solo es estadstica, si no que responde tambin a procesos de desarrollo de problemas que involucran el algebra lineal, la fsica, el calculo, entre otros.Bienvenidos. Unidad Uno 1. Instalacin de R 2. Reconocimiento de entorno de R 3. R- Como herramienta Matemtica 4. Grficos Matemticos 5. Estadstica Descriptiva con R a. Datos agrupados b. Datos no agrupados 6. taller de Aplicacin DESARROLLO UNIDAD UNO I. INSTALACION DE R 1. Entrar en la pgina web: http://www.r-project.org/ , La pagina tiene el siguiente aspecto (Ver grafico 1) 2. Pulsar el conector CRAN bajo la referencia Download. Aparecen un conjunto de direcciones web en el mundo (mirrors, espejos) donde est disponibles copias del software para ser descargadas.

Grafico 1: Aspecto de la pgina proyecto R Por proximidad se puede elegir la de Espaa, asociada al CSIC: http://cran.es.rproject.org/ (Ver Grafico 2)

Grafico 2: conjunto de direcciones web en el mundo para descarga de R en espaol

3. En el recuadro Download and Install R, seleccionar Windows, si es el caso, para descargar una versin precompilada binaria del sistema R. Resulta una pgina con el ttulo R for Windows (Ver grafico 3)

Grafico 3: Recuadro Dowloand de instalacin de R En la ventana anterior pulsar base, para descargar el paquete bsico. Resulta una pgina con el ttulo R-2-13-2 for Windows. En ella, elegir el hipervnculo R-2.13.2win32.exe, con lo que nos saldr la ventana de dilogo. (Grafico 4)

Grafico 4: Escogiendo la opcin para windows R 2.13.2 Elegimos Guardar, es el programa ejecutable (.exe) instalador del sistema R bsico. Lo descargamos en la carpeta que nos convenga, por ejemplo en el Escritorio. Lo ejecutamos con doble clic, y en la ventana de dilogo que resulta elegimos Ejecutar, teniendo en cuenta:

Elegimos Guardar, es el programa ejecutable (.exe) instalador del sistema R bsico. Lo descargamos en la carpeta que nos convenga, por ejemplo en el Escritorio. Lo ejecutamos con doble clic, y en la ventana de dilogo que resulta elegimos Ejecutar, teniendo en cuenta:

Grafico 6: Ventana ejecutar b) Cuando pregunta si deseamos establecer opciones de instalacin, escogemos S, se elige la opcin de espaol, (Grafico 7)

Grafico 7: Eleccin del Idioma b) En la aprobacin de las opciones de R se elige en la siguiente ventana Instalacin completa

Grafico 8: Instalacin completa

Para el modo de presentacin (MDI o SDI), escoge SDI (es conveniente por la implementacin actual del mdulo R Commander).

Continu con la instalacin aceptando las opciones que le ofrece el programa en esta etapa II. Reconocimiento de entorno de R Ejecute el programa R, una vez instalado. Lo haremos pulsando un icono que es una letra R grande que al instalar nos habr generado en nuestro escritorio. Tambin eligiendo el programa por la va >>Inicio>Programas>R> R 2.13.2

Grafico 10: Instalacin de paquetes Al ejecutar R aparece la ventana bsica R Consol. En el men Paquetes, pinchar en Seleccionar espejo CRAN. En el cuadro de dilogo, escoger Spain (Madrid), France (Toulouse), Portugal o algn otro cercano, y pulsa OK.

En el men Paquetes, pincha en Instalar paquete(s). As se va a completar la instalacin instalando paquetes de programas adicionales al paquete base. Este proceso de Instalar paquetes se hace slo la primera vez que se instala un paquete. (Ver Grafico 10) Escoger fBasics y Rcmdr y aceptar. Si nos dice que le hace falta instalar otros paquetes que complementan a los anteriores, aceptar la propuesta. Con estas opciones al ingresar nuevamente al contexto de R, aparecer la ventana de RComander. 1. Iniciando con R Comandos Iniciales: Para empezar con una pantalla limpia, se teclea Ctrl. + L Las Variables: Las variables en estadstica son representaciones simblicas que asumen diferentes valores. Para definirlas en R se presentan las siguientes caractersticas a. Puede comenzar con letras > Estatura=150 > Estatura [1] 150 b. Puede Llevar nmeros > Ingresos2005=150000 > Ingresos2005 [1] 150000 c. Permite separar los valores y letras por medio de puntos > Estatura.nio.1=140 > Estatura.nio.1 [1] 140 d. Puede empezar con puntos. > .Edad=15 > .Edad [1] 15 Las variables en el editor de R se deben escribir tal como se las declaro, R no admite el cambio de maysculas a minsculas, si se cambia el valor de la variable R emite un mensaje de error. > ingresos2005 Error: objeto 'ingresos2005' no encontrado

Reconocimiento del tipo de variable Existen varios comandos que permiten reconocer el tipo de variable con la que se esta trabajando, entre ellos se puede destacar, el comando mode y el comando storage.mode. mode(estatura) [1] "numeric" storage.mode(Ingresos2005) [1] "double" En un ejemplo en donde se tenga una variable que albergue nombres de objetos o de personas, el storage.mode, la declara como tipo charcter. > nombre="David Alejandro" > nombre [1] "David Alejandro" > storage.mode(nombre) [1] "character" Recordando las variables Existen momentos en que olvidamos las variables que se han declarado, para tal caso se digita sobre la consola de R el comando ls( ). > ls() [1] "estatura" "Estatura" "Estatura.nio.1" "Ingresos2005" [5] "nombre" Tambin existe el comando history( ), que permite ver las variables y las operaciones que se han realizado con ellas en ventana flotante (ver grafico 11)

Grafico 11: ventana flotante del comando history( )

Pidiendo Ayuda: R posee en idioma ingles una amplia ayuda en lnea que permite guiarse en el camino de las diferentes operaciones que se estn realizando, para ello se digita sobre la consola el comando ?, seguido de la expresin que se requiere ayuda. Por ejemplo pidamos ayuda del comando solve ?solve starting httpd help server ... done Inmediatamente enva a la pagina en donde aparece todo lo relacionado con el comando solve.

El entorno R tambin ofrece ayuda al usuario mediante el men Ayuda en la barra de la ventana R Console o en otras ventanas especficas

3. R- Como herramienta Matemtica El poder de R esta en el procesamiento de la informacin para el proceso estadstico de la misma, sin embargo es posible darle un buen uso para mucho de los procesos matemticos que incluyen otros paquetes como Matlab, de tal manera que se puede darle tratamiento a R como una calculadora, como un paquete para la solucin de matrices, o para hacer grficos de funciones reales. Cabe resaltar que el software estadstico R es de uso libre en el dominio pblico, y resulta del esfuerzo cooperativo de personas e instituciones acadmicas relevantes relacionadas con la Estadstica y la Computacin en todo el mundo. Para tal efecto R incluye una serie de comandos que representan las operaciones matemticas. Ver tabla 1

Aritmticos
+ Suma Resta Multiplicacin Divisin Potencia

Comparativos
== igualdad != Diferente de < Menor que > Mayor que <= Menor o igual

Lgicos
& Y lgico ! No lgico

*
/ ^

O lgico

%/% entera

Divisin >= Mayor o igual

Tabla 1: Operadores aritmticos en R De la misma manera R establece una serie de comandos para el manejo de las funciones matemticas. Se agrega en la tabla elementos que corresponden a comandos propios de la estadstica como la varianza, la media, entre otros. Ver tabla 2.
Raz cuadrada de x Media sqrt(x) mean(x) Exponencial de x exp(x) Desv. Tpica Logaritmo neperiano log(x) Varianza N de elementos de un vector x Mediana length(x) median(x) Suma los elementos del vector x Quantiles sum(x) quantile(x,p) Seno de x sin(x) Mximo y Mnimo Coseno de x Ordenacin cos(x) Tangente de x Resumen de todos tan(x)

sd(x) var(x)

range(x) sort(x) summary

Tabla 2: Comandos de R para el manejo de funciones y medidas estadsticas. Veamos como se usan en R. Division > 5/3 [1] 1.666667 Suma > 5+2 [1] 7 Operaciones combinadas, suma y divisin > 1+5/2 [1] 3.5

Divisin entera o modulo de la divisin > 5%%3 [1] 2 Operaciones al Infinito > 1/0 [1] Inf > 0/0 [1] NaN > -5/0 [1] -Inf > a=5/0 > a+10 [1] Inf Potenciacin y raz cuadrada > sqrt(255) [1] 15.96872 > 2^3 [1] 8 > Si por algn motivo se han agregado muchas variables en R existe el comando rm que permite borrar todas las variables que ya no se usan o que se requiere para otro tipo de operaciones. Por ejemplo borrar la variable a > rm(a) >a Error: objeto 'a' no encontrado Listemos las variables > ls() [1] "estatura" [5] "nombre"

"Estatura"

"Estatura.nio.1" "Ingresos2005"

Borremos las dos variables que albergan estatura > rm(estatura, Estatura) > estatura Error: objeto 'estatura' no encontrado > Estatura Error: objeto 'Estatura' no encontrado 4. Grficos de funciones Matemticos en R R esta creado para hacer una buena interaccin con los grficos de las funciones matemticas, de tal manera que es posible usar R como un software de

tratamiento matemtico y darle un buen uso en algunas asignaturas relacionadas con los clculos, algebras entre otras. El comando curve, permite realizar curvas y grficos de funciones matemticas, por ejemplo realicemos la grafica de la expresin y = x2 curve(x^2, -3, 3) la expresin tiene una sintaxis de la forma curve(expresin, inicio, final) En ventana flotante muestra la grafica

R es fuerte en el manejo de funciones que posee indeterminadas como la funcin tangente, vemos su expresin y grafica en R. curve(tan, -2*pi, 2*pi)

La Grafica se puede crear tambin a partir de una secuencia de datos y mostrar la grafica bajo un proceso diferente y con el uso de un nuevo comando denominado plot y usado constantemente para el diseo de grficos

x=seq(0,3, lenght=100) > y=x^2-sqrt(x)+x-3 > plot(y~x)

La correccin de los puntos dispersos que aparecen en el plano determinados por las anteriores expresiones se pueden arreglar con el comando type

> x=seq(0,3, lenght=100) > y=x^2-sqrt(x)+x-3 > plot(y~x) > plot(y~x, type="l")

A los grficos de las funciones matemticas se les puede agregar elementos que permitan identificarla y ser comprendidos con ms claridad.

> x=seq(0,03, lenght=100) > y=x^2-sqrt(x)+x-3 > plot(y~x, type="l") > text(0.5, 6, expression(y==x^2sqrt(x)+x-3))

Ejemplo grafico de la funcin logstica

> curve(plogis, -3, 3) > text(-2, 0.8, expression(y==frac(e^x, 1+e^x)))

ESTADSTICA DESCRIPTIVA Antes de dar inicio al desarrollo de la estadstica descriptiva desde R, se requieren algunos conceptos los cuales permitirn mostrar las medidas estadsticas de una manera ms sencilla. Vector: Un vector en matemticas es un arreglo de elementos en una sola fila y varias columnas, para agregar un vector en R se usa el comando c. > a=c(5, 10.2, 8, 3.2) >a [1] 5.0 10.2 8.0 3.2 Es importante reconocer el nmero de elementos del vector o lo que en matemticas se denomina longitud del vector, el comando para hacer esta operacin es: length > length(a) [1] 4 Un vector puede ser creado con datos de carcter. > b=c("David Alejandro", "Laura Nathalia", "Mariangel", "Joel") >b [1] "David Alejandro" "Laura Nathalia" "Mariangel" "Joel" En los vectores tambin se pueden hacer combinaciones, nmeros y caracteres > d=c("David", 7, "Laura", 14, "Mariangel", 2, "Joel", 1) >d

[1] "David" "7" [7] "Joel" "1"

"Laura"

"14"

"Mariangel" "2"

Para realizar con mayor presicion las combinaciones de valores y nombres se usa el comando list, el cual genera una lista, que a su vez se constituye en una vector con otras connotaciones y estructura diferente, por lo menos desde el punto de vista matemtico. > x=list("David Alejandro", 7) >x [[1]] [1] "David Alejandro" [[2]] [1] 7 Con el comando list, se pueden alistar internamente a varios vectores y=list(c(7,2,14,1), c("David", "Mariangel", "Laura", "Joel")) >y [[1]] [1] 7 2 14 1 [[2]] [1] "David"

"Mariangel" "Laura"

"Joel"

Si desea acceder a algn elemento del vector se puede hacer bajo el siguiente procedimiento > a[c(1,3)] [1] 5 8 La anterior expresin ubica un valor del vector a en la posicin 5 , 8 Por otro lado desde una lista a las variables de tipo carcter se les puede agregar un nombre > a=c("David Alejandro", "Mariangel", "Laura", "Joel") > b=c(7,2,14, 1) > names(a)=b >a 7 2 14 1 "David Alejandro" "Mariangel" "Laura" "Joel" > names(b)=a >b David Alejandro Mariangel Laura Joel 7 2 14 1

Cuando se desea agregar un solo elemento al vector > names(b)="David Alejandro" >b David Alejandro <NA> <NA> <NA> 7 2 14 1 Solo el primer valor tiene nombre, para los dems se obtienen valores nulos Si asignamos bajo el mismo procedimiento otro valor de chacaracter, el resultado complementa un poco ms la tabla. names(b)=c("David Alejandro","b") >b David Alejandro b <NA> 7 2 14 1

<NA>

De los vectores ya se puede obtener algunas medidas de tendencia central usadas en la estadstica descriptiva. > b=c(7,2,14, 1) > mean(b) [1] 6 > var(b) [1] 35.33333 > sd(b) [1] 5.944185 > sqrt(var(b)) [1] 5.944185 median(b) [1] 4.5

Media aritmtica Varianza Desviacin standard Desviacin estndar Mediana

El comando cumsum, permite acumular los datos tal y como se hace en la frecuencia absoluta acumulada o frecuencia relativa acumulada > names(b)=a >b David Alejandro 7 > cumsum(b) David Alejandro 7

Mariangel 2 14

Laura 1

Joel

Mariangel 9 23

Laura 24

Joel

Existen otras formas de crear vectores, la siguiente estructura representa una de ellas.

> x=2:5 >x [1] 2 3 4 5 Se pueden hacer algunas operaciones como la validacin de una variable que puede ser x en una vector b > x=2:5 > b=c(7,2,14, 1) >b [1] 7 2 14 1 > y=x*b+3-x >y [1] 15 6 55 3 Una de las operaciones que con frecuencia se realiza es la ordenacin de los valores. El comando sort, permite ordenar los vectores en orden ascendente o descendente. En forma ascendente > names(b)=a >b David Alejandro Mariangel Laura Joel 7 2 14 1 :> sort(b) Joel Mariangel David Alejandro Laura 1 2 7 14 Y en forma descendente, el comando decreasing permite realizar esta operacion. sort(b, decreasing=TRUE) Laura David Alejandro Mariangel Joel 14 7 2 1 Tambin es posible ordenar un vector condicionado a otro vector. > j=order(a) > b[j] David Alejandro 7

Joel 1 14

Laura 2

Mariangel

Hasta el momento se han creado variables que se han colapsado unas a otras por tanto se proceder a hacer un borrado total de todas la variables. > rm(list=ls()) >a Error: objeto 'a' no encontrado >b Error: objeto 'b' no encontrado

Otro mtodo en R que consigue asociar la informacin en un vector o en una lista, es el comando data.frame, el cual prcticamente se constituye en un proceso para disear una base de datos en donde se puedan combinar diferentes clases de variables. > datos=data.frame(estatura=c(130, 80, 164, 70), + peso=c(35, 14, 58, 12), + row.names=c("David", "Mariangel", "Laura", "Joel")) > datos estatura peso David 130 35 Mariangel 80 14 Laura 164 58 Joel 70 12 Para este caso no existen las variables estatura y peso, existen la variable datos. Si desea obtener un resumen de todas las variables estadsticas descriptivas se usa el comando summary. > summary(datos) estatura Min. : 70.0 1st Qu.: 77.5 Median : 105.0 Mean : 111.0 3rd Qu.: 138.5 Max. : 164.0

peso Min. :12.00 1st Qu.:13.50 Median :24.50 Mean :29.75 3rd Qu.:40.75 Max. :58.00

Si un dato que se va a ingresar en un data.frame no existe se reemplaza por la expresin NA > datos=data.frame(estatura=c(130, NA, 164, 70), + peso=c(35, 14, 58, 12), + row.names=c("David", "Mariangel", "Laura", "Joel")) > datos estatura peso David 130 35 Mariangel NA 14 Laura 164 58 Joel 70 12 Pero se puede incluir el dato cuando se le conozca con el comando $ (Dlar) > datos$estatura[2]=80

> datos estatura David 130 Mariangel 80 Laura 164 Joel 70 peso 35 14 58 12

A los elementos de un data.frame, se les puede calcular algunas medidas de tendencia central de la estadstica descriptiva > mean(datos) estatura peso 111.00 29.75 > var(datos) estatura estatura 1937.3333 peso 937.6667 peso 937.6667 462.9167 Correlacion(estatura_peso) Media aritmtica

Varianza

> cor(datos) estatura peso estatura 1.000000 0.990136 peso 0.990136 1.000000

> sum(datos) [1] 563 El comando appy, permite encontrar en forma mas especifica algunos valores de la estadstica descriptiva > apply(datos,2,sum) estatura peso 444 119 > apply(datos,2, mean) estatura peso 111.00 29.75 > apply(datos,2,min) estatura peso 70 12 > apply(datos,2,max) estatura peso 164 58

IMPORTACIN DE ARCHIVOS DE EXCEL Antes de empezar se debe averiguar, el path de los archivos. > getwd() [1] "C:/Archivos de programa/R" Tambin se puede cambiar la ubicacin del archivo

Esto permite ubicar los archivos en donde se han grabado todos los archivos realizados en Excel y en otras bases de datos. Para guardar comando que se han ido ejecutando se accesa de el men archivo la opcin nuevo script. Se obtiene una ventana donde pueden ir quedando todos los comandos que vamos utilizando en las aplicaciones.

Una vez cambiado el directorio para el reconocimiento de la ruta, el archivo que se quiere grabar en Excel se le debe guardar como texto delimitado por

tabulaciones en la carpeta a lo que se han diseccionado desde R los nuevos archivos.

En R, hacemos el llamado de los archivos mediante el comando read.delim datos2 Pas Grupo Tnatalidad Tmortalidad Tmorinfantil Tcrecimiento 1 Somalia 6 44,12 15,89 154,67 2,626 2 Ucrania 1 9,55 15,93 19,31 0,538 3 Rusia 1 11,03 16,06 4,03 -0,044 4 Nigeria 6 37,23 16,88 28,75 1,209 5 Sudfrica 6 20,23 16,94 182,31 2,136 6 Zimbabwe 6 31,62 17,29 11,94 1,954 7 Malawi 6 41,79 17,89 11,78 1,068 8 Afganistn 5 45,82 19,56 4,48 0,064 9 Mozambique 6 38,21 20,29 23,67 0,57 10 Zambia 6 40,52 21,35 15,64 1,337 11 Sierra Leona 6 45,08 22,26 57,45 2,022 12 Angola 6 44,09 24,44 23,65 2,207 13 NA 14 NA 15 NA Tal como aparece en R los datos exportados bajo el comando read.delim, no es posible aun acceder a estos datos. Mediante el comando attach () es posible tener accesos a ellos y hacer directamente desde R todas las correcciones posibles.

attach(datos2) Ahora que los datos estn atachados es posible traerlos mediante la opcin editar del men y editor de datos.

Al digitar esta opcin nos lleva a una ventana en donde se digita el nombre de la tabla que se quiere editar y corregir datos.

Con esto ya se tiene la tabla en donde se pueden hacer todas las correcciones pertinentes.

TABLAS DE FRECUENCIAS Como ya es posible acceder a los datos de la tabla anterior o bajo el mismo procedimiento se pueden traer otras tablas, por ejemplo la tabla de nombres pesos y estaturas que se diseo en Excel y se exporto bajo el mismo procedimiento anterior; tambin es posible tener tablas de frecuencias en forma mas sencilla y en forma mas rpida. datos1=read.delim("Medidas.txt") > attach(datos1) > datos1 Nombres Estatura Peso 1 David 140 45 2 Natalia 164 54 3 Juan Carlos 178 78 4 Jorge 166 78 5 Sandra 175 85 Para la tabla anterior ya se puede hacer los diferentes grficos que permitirn leer la informacin de una manera ms clara y con criterios especficos de la estadstica descriptiva. Un poco mas complementada esta tabla podemos observar una tabla de frecuencias completa catgpeso=cut(Peso,breaks=c(45,55,80,max(Peso))) > catgpeso [1] <NA> (45,55] (55,80] (55,80] (80,85] (55,80] (80,85] (80,85] (55,80] Levels: (45,55] (55,80] (80,85] leyenda=c("David","Natalia","Juan Carlos","Jorge","Sandra","Pedro","Maria","Juanita","Laura") > table(Nombres, catgpeso) catgpeso Nombres (45,55] (55,80] David 0 0 Jorge 0 1 Juan Carlos 0 1 Juanita 0 0 Laura 0 1 Maria 0 0 Natalia 1 0 Pedro 0 1 Sandra 0 0

(80,85] 0 0 0 1 0 1 0 0 1

GRFICOS ESTADSTICOS BARRAS Mediante los siguientes comandos se invoca el archivo de Excel, para los cuales se realizaran grficos de barras > datos1=read.delim("Tasas.txt") > attach(datos1) Y con los siguientes comandos obtendremos la grafica > barplot(table(Grupo),col=color, main="Denominacin del Grupo", + xlab="Grupos",ylab="Cantidad de grupos")

Para una mejor organizacin de los datos organicemos con el comando cut una tabla de frecuencias para datos agrupados catgpeso=cut(Peso,breaks=c(45,55,80,max(Peso))) > catgpeso [1] <NA> (45,55] (55,80] (55,80] (80,85] (55,80] (80,85] (80,85] (55,80] Levels: (45,55] (55,80] (80,85] Con estos datos realicemos algunas grficas para la base de datos de medidas la cual ha sido complementada con otros datos. datos2 Nombres 1 David 2 Natalia 3 Juan Carlos 4 Jorge Estatura 140 164 178 166 Peso 45 54 78 78

5 6 7 8 9

Sandra Pedro Maria Juanita Laura

175 140 120 166 120

85 78 82 85 76

> barplot(table(Nombres,catgpeso)), Genera una grafica de barras que nos permitir observar las personas que estn entre los intervalos que se han construido.

Los siguientes comandos permiten observar una grafica con mayor claridad > barplot(table(Nombres,catgpeso), + main="ESTUDIANTES Y SUS PESOS", ylab="Pesos", + beside=T, + legend.text=leyenda, + args.legend=list(x="topleft")) La primera lnea con el commando barplot invoca la tabla de nombres y pesos, el commando main permite cambiar el titulo que por omisin dispara la grafica, beside permite hacer grupos para que no quede asociada como en la grafica anterior, legend permite visualizar una leyenda informando de lo diferentes valores, args.legend permite ubicar en una posicin de la pantalla la leyenda. Veamos grficamente estos resultados.

TORTAS > datos4 Candidatos 1 Carlitos 2 Juanito 3 Pedrito 4 Anita 5 Laurita

votos 200 160 240 320 389

pie(datos4$votos,main="Tabla de Votantes")

HISTOGRAMAS Se realiza con el comando hist < hist(datos1$Estatura)

Para ver la utilidad del comando hist, veamos como funciona como se comporta cuando se le invoca con el comando rnorm de una distribucin normal normal=rnorm(250) > hist(normal)

Mejorando la grafica anterior es posible cambiar la frecuencia con una opcin de densidad.

> hist(normal, breaks=50, freq=F)

Los siguientes comandos muestran una grafica mas completa

hist(normal, breaks=50, freq=F, xlab="Eje x", ylab="Eje y", main="Histograma distribucion Normal", xlim=c(-3,3),ylim=c(0,0.6)) finalmente en la distribucin de frecuencias para la construccin de histogramas el comando curve, permitir obtener una huella de la grafica. curve(dnorm, add=T)

DIAGRAMAS DE TALLO Para los diagramas de tallo se debe escoger una variable que haga referencia a los datos de una tabla que ha sido importada como texto desde Excel. > datos4 Candidatos

votos

1 Carlitos 2 Juanito 3 Pedrito 4 Anita 5 Laurita

200 160 240 320 389

stem(datos4$votos) The decimal point is 2 digit(s) to the right of the | 1|6 2 | 04 2| 3|2 3|9 POLGONOS DE FRECUENCIAS Es un grafico que permite en forma visual determinar puntos mnimos y puntos mximos, se utiliza generalmente para datos agrupados el cual se hace encontrando los puntos medios de cada distribucin de clase. >edit(data5) Nombres 1 David 2 Natalia 3 Juan Carlos 4 Jorge 5 Sandra 6 Pedro 7 Maria 8 Juanita 9 Laura

Estatura 180 164 178 166 175 140 120 166 120

Peso 45 54 78 78 85 78 82 85 76

GRFICOS DE REGRESIN Los grficos de regresin establecen una relacin entres dos variables, con ellas se pueden determinar el comportamiento matemtico y la formulacin de un modelo de acuerdo a la distribucin de los datos en el plano cartesiano. Un modelo de regresin parte del reconocimiento del modelo de los datos representado en el eje cartesiano como una nube de puntos. Haciendo llamado a la tabla construida en Excel y que relaciona la edad con el peso de alguno nios, tenemos >data6=read.delim("Regresiones.txt") > attach(data6) >data6 Edad Peso 1 1 6 2 2 7 3 3 8 4 4 7 5 5 8 6 6 7 Los comandos que permite graficar la nube de puntos esta dado por > xyplot(Peso ~ Edad, data=data6) El grafico resultante es:

Construimos ahora una curva de regresin lineal. Para ello se elabora una tabla de datos que para el caso estar conformada la tabla de alumnos

> alumno Edad Peso 1 1 6 2 2 7 3 3 8 4 4 7 5 5 8 6 6 7 > alumno=data.frame(alumno) > alumno Edad Peso 1 1 6 2 2 7 3 3 8 4 4 7 5 5 8 6 6 7 Graficamos > plot(alumno)

Construimos la regresin lineal > alumnos.lm=lm(Edad~Peso) > abline(alumnos.lm) > summary(alumnos.lm) Call: lm(formula = Edad ~ Peso)

Residuals: 1 2 3 4 5 6 -1.0588 -1.2941 -1.5294 0.7059 0.4706 2.7059 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -5.353 7.763 -0.690 0.528 Peso 1.235 1.078 1.146 0.316 Residual standard error: 1.815 on 4 degrees of freedom Multiple R-squared: 0.2471, Adjusted R-squared: 0.05882 F-statistic: 1.313 on 1 and 4 DF, p-value: 0.3158 Graficamos finalmente para obtener la nube de puntos y el grafico de la recta de regresin > plot(alumnos.lm$residuals) > abline(alumnos.lm)

ASIMETRAS Y APUNTAMIENTOS. En la curva de normalidad, las distribuciones de datos arrojan medidas en donde la media, la mediana y la moda son iguales.

Sin embargo existen distribuciones en donde estas medidas no son iguales, y se presentan ligeras alteraciones produciendo asimetras a la izquierda y asimetras a la derecha, dependiendo si la media es mayor o menor a la mediana o a la moda.

Estos elementos de asimetra se abordan desde el punto de vista de los coeficientes de fisher y los coeficientes de pearson.

5. Taller de Aplicacin

DESARROLLO DIA TERCERO R-COMANDER Para el desarrollo de esta sesin se har uso del R-Comander, el cual permitir en menos pasos y con menos esfuerzos obtener lo que se desea, veamos algunas cosas para comprender un poco ms el contexto de R-Comander. Es una herramienta con facilidades para gestin de procesos con mens y ventanas. Esta utilidad se dirige a procesar informacin dada con la estructura de datos llamada data.frame, a la que se debe adaptar el conjunto de datos a tratar. La aplicacin R Console siempre est activa adems de la R Commander. La ventana de R-Comander tiene el siguiente aspecto. El R Commander aparece en una ventana con el nombre R Commander con 3 ventanas: De arriba abajo, cada una de las 3 ventanas se destina a: 1) instrucciones, 2) resultados; 3) mensajes de error o aclaratorios. Adems de utilizar los mens interactivos de R Commander, en su Ventana de instrucciones se pueden escribir una o varias instrucciones R, separadas por ; , o varias lneas de instrucciones, de modo similar a como se puede hacer en la ventana R Console. Para ejecutarlas con R Commander, se puede actuar, bien ubicando el cursor en una de las lneas de las instrucciones o bien seleccionando una o varias instrucciones en una misma lnea o en varias, y pulsando el botn Ejecutar de la ventana R Commander, o tambin pulsando el botn derecho del ratn y seleccionando Ejecutar. Cuando se ejecutan instrucciones, en la Ventana de resultados aparecen las instrucciones ejecutadas y los resultados que producen, y si hay mensajes/errores aparecen en la ventana de Mensajes.

La barra en la parte superior debajo del ttulo, que usaremos para iniciar nuestras actividades, presenta varios mens: Men Fichero: Empezaremos con el men Fichero desde donde podemos abrir un fichero para las instrucciones y guardarlas, guardar los resultados, salir, etc.

En el men fichero son importantes la opcin cambiar de directorio, que permite redireccionar la ruta original de R, de tal manera que se puede acceder a algn archivo previamente construido. La opcin abrir fichero de instruccin permite abrir archivos .text previamente grabados con instrucciones de R, esto ahora y minimiza esfuerzos. Men Editar: limpiamos las ventanas de instrucciones y resultados, copiamos, pegamos, cortamos, seleccionamos, borramos, etc. Men Datos: En l se puede seleccionar: Nuevo conjunto de datos: esta orden nos sirve par introducir los datos dando al conjunto de ellos, sin contener espacios ni caracteres especiales, en una ventana tipo hoja de datos o de clculo, en la que los tecleamos.

Esta opcin nos genera la siguiente ventana

En la cual introducimos una informacin que se convertir en el nombre de una tabla. Los datos pueden ser numricos o cualitativos: pinchando en var1, var2, en las cabeceras, podemos cambiar el nombre de las columnas, indicar si son datos numricos o de tipo carcter:

Al rellenar las celdas se obtiene el siguiente aspecto, los cuales quedan guardados en memoria y se pueden fcilmente regular.

En la barra de comander se visualizan dos opciones: Editar y visualizar conjuntos de datos, con las cuales se puede acceder nuevamente a la tabla creada.

Men Estadsticos: Para hacer diversos clculos estadsticos con los datos. Entre ellos, definir modelos estadsticos aplicados a los datos (regresin,). Estos modelos se pueden tratar con el men Modelos, tambin en la cabecera de mens del R Commander.

El conjunto de datos Estadsticos permite visualizar en la ventana de resultados los valores estadsticos relacionados con los datos mnimos, medianos, medios, y las medidas cuantiles. En el mismo men de estadsticos aparecen otras opciones relacionadas con medias, proporciones, varianzas test no parametritos, anlisis dimensional, y ajustes de modelos que mas tarde se har uso de ellos.

Importar datos: Para leer datos contenidos en un fichero, que puede haberse creado con diversas aplicaciones: editor de texto puro, hoja electrnica Excel, u otros programas (SPSS, Minitab, Stata. Access) que provienen de varios formatos: desde Excel, Acces,.

Al hacer uso de la opcin desde archivo de texto tenemos la ventana seleccionar conjunto en la cual aparecen todas las cargas que se han realizado desde excel.

Veamos acciones desde el men>Datos>Conjunto de datos activo>

Se pueden hacer diversas gestiones sobre el conjunto de datos activo. Seleccionar conjunto de datos activo Elegir el conjunto de datos activo entre los que hay disponibles en la sesin. Ayuda sobre el conjunto.Contiene una descripcin de los datos activos. Variables del conjunto de. En la ventana de resultados muestra los nombres de las variables (columnas) implicadas.. Filtrar el conjunto de datos activo: Podemos elegir de entre las variables aquellas que necesitamos para trabajar, un subgrupo de ellas o todas, pudindose aplicar condiciones de seleccin o filtrado. Se genera un nuevo conjunto (data.frame) de datos activos. GRFICOS DE DISTRIBUCIN NORMAL DISTRIBUCION BINOMIAL En una agencia bancaria, el 40% de los clientes tienen certificado bancario. Si se eligen 8 clientes al azar, cul es la probabilidad de encontrar: a) Exactamente 6 clientes con certificados bancarios Estadsticamente se resuelve

En R dbinom(6,8,0.4) [1] 0.04128768 b. A lo ms 6 clientes tienen certificado bancario: P(X 6) > pbinom(6,8,0.4) [1] 0.9914803 c. Al menos cuatro clientes tienen certificado bancario: P(X 4) 1-pbinom(3,8,0.4) [1] 0.4059136 GRAFICA DE LA FUNCION BINOMIAL > x=0:8 > y=dbinom(x,8,0.4)

> plot(x,y,type="h",lwd=5,main="Binomial: n=8, p=0.4")

DISTRIBUCIN DE POISSON En una inmobiliaria se ha determinado que el nmero promedio de casas vendidas en un da laborable es 1.6 casas/dia. Si el nmero de casas vendidas es una variable Poisson, calcule la probabilidad de que en un da cualquiera: El modelo tiene el siguiente modelo matemtico

a.Se vendan exactamente 4 casas: P(X = 4) En R > dpois(4,1.6) [1] 0.05513121 b) No se venda ninguna casa: P(X = 0) > dpois(0,1.6) [1] 0.2018965 c. Se venda entre 2 y 5 casas, inclusive: P(2 X 5) > dpois(2:5,1.6) [1] 0.25842754 0.13782802 0.05513121 0.01764199 GRAFICA DE LA DISTRIBUCION DE POISSON > x=0:15 > y=dpois(x,3.2) > plot(x,y,type="h",lwd=5,main="Poisson: Lambda=3.2")

DISTRIBUCION NORMAL Calcular: a) P(Z < -1.57) =

En R se puede calcular el rea > pnorm(-1.57) [1] 0.05820756 c. P(Z 1.25) = 1 P(Z< 1.25)

> 1-pnorm(1.25) [1] 0.1056498 e) P(-0.23 Z 1.70) =

> pnorm(1.70)-pnorm(-0.23) [1] 0.5463887

DISTRIBUCION NORMAL CON R-COMANDER

Vamos a utilizar la distribucin Normal para calcular probabilidades asociadas. Ejercicio1: Calcular Pr(X<27) para X=N(28,1) . Secuencia: >Distribuciones >Distribuciones continuas >Distribucin >Probabilidades normales: La instruccin R correspondiente utiliza la funcin pnorm: pnorm(c(27), mean=28, sd=1, lower.tail=TRUE) > pnorm(c(27), mean=28, sd=1, lower.tail=TRUE) [1] 0.1586553 mean: media sd: desviacin tpica

normal

Ejercicio 2: Calcular a tal que Pr(X<a)=0.1587 en una variable aleatoria normal X= N(28,1) Secuencia: >Distribuciones >Distribuciones continuas >Distribucin normal >Cuantiles normales

La instruccin R para la respuesta: > qnorm(c(0.1587), mean=28, sd=1, lower.tail=TRUE) [1] 27.00018

Ejercicio 3: Hallar la probabilidad de que la resistencia a la compresin simple X, de una probeta de hormign sea mayor que 100 Kg/cm2, sabiendo que la resistencia citada es una variable N(200,40) en Kg/cm2. > pnorm(100, mean=200, sd=40, lower.tail=FALSE)

[1] 0.9937903 Ejercicio 4: Calcular P(28<X<31) en una variable aleatoria normal N (28,1) Instrucciones R > vProb=pnorm(c(31,28), mean=28, sd=1, lower.tail=TRUE);vProb [1] 0.9986501 0.5000000 > miProb=vProb[1]-vProb[2];miProb [1] 0.4986501 Ejercicio 5: El contenido de un bote de cerveza se distribuye normalmente con a) Cul es la probabilidad de que un bote determinado tenga ms de 33 cl.? b) En un conjunto de 6 botes cual es la probabilidad de que el contenido lquido total sea inferior a un litro y tres cuartos? Cuestin a) Calcular Pr(X>33) siendo X una v.a. N(30, 2). > pnorm(c(33), mean=30, sd=2, lower.tail=FALSE) [1] 0.0668072 # Hay que marcar cola derecha!!

Cuestin b) Por la 'reproductividad' de la distribucin normal, la capacidad Y de los 6 botes se distribuye como una N(30*6, 4 * 6 )= N(180, 4.89898), luego la cuestin es hallar Pr(Y<175)=0,1537 Resulta: > pnorm(175, mean=180, sd=sqrt(4*6), lower.tail=TRUE) [1] 0.1537171

Grficas con la v.a. Normal Obtenemos las grficas de la funcin de Densidad y de distribucin de la v.a. N(200,40)

Instrucciones R generadas por los mens: > .x <- seq(68.379, 331.621, length=100)

> plot(.x, dnorm(.x, mean=200, sd=40), xlab="x", ylab="Density", main=expression(paste("Normal Distribution: ", mu, " = 200, ", sigma, " = 40")), type="l") > abline(h=0, col="gray") > remove(.x) Observar: > pnorm(c(68.379), mean=200, sd=40, lower.tail=TRUE) [1] 0.0005000031 > pnorm(c(331.621), mean=200, sd=40, lower.tail=TRUE) [1] 0.9995 > pnorm(c(331.621), mean=200, sd=40, lower.tail=FALSE) [1] 0.0005000031 Es decir, restringe la grfica entre los cuantiles de 0.0005 y 0.9995 La funcin plot une puntos expresados como una secuencia de abscisas y otra de ordenadas. La funcin dnorm (o la pnorm) genera las ordenadas, y la variable .x contiene las abscisas. La funcin abline aade una o varias lneas rectas al dibujo actual. El argumento h indica que es una horizontal de ordenada h; el argumento v indica una vertical de abscisa el valor asignado a v. (ver la ayuda a la instruccin con ?plot, o ?abline) Para copiar o guardar el grfico la opcin como metafile hace que ocupe menos espacio.
Normal Distribution: = 200, = 40
Normal Distribution: = 200, = 40

0.010

0.008

Cumulative Probability

Density

0.006

0.004

0.002

0.000

0.0

0.2

0.4

0.6

0.8

1.0

100

150

200 x

250

300

100

150

200 x

250

300

La secuencia de instrucciones R:

> x <- seq ( -6, 6, len=100 ) > y <- cbind ( dnorm ( x, -2, 1 ), + dnorm (x, 0, 2 ), + dnorm ( x, 0, .5), + dnorm ( x, 2, .3 ), + dnorm ( x, -.5, 3 ) ) > matplot ( x, y, type="l", col=1 ) > legend ( -6, 1.3, + paste( "mu =", c(-2,0,0,2,-.5),"; + sigma =", + c(1,2,.5,.3,3) ), + lty=1:5, col=1, cex=.75 ) Genera el dibujo conjunto de densidades normales de la figura. (El + en las lneas anteriores significacontinuacin de instruccin)

VARIABLES ALEATORIAS CON R-COMANDER Las variables aleatorias en la estadstica son funciones cuyos dominios son conjuntos a los cuales muchas veces le denominamos espacios mustrales y los reales son el campo que les sirven como codominios. El nombre de dichas funciones R comienza por d, p, q, r, respectivamente: dbinom, ppois, qnorm, rt Las variables aleatorias pueden ser continuas o discretas.

En las graficacin de las variables aleatorias se realizan dos tipos de graficas: grafica de funcin de densidad (Caso Continuo) o de la probabilidad (caso discreto)

VARIABLES ALEATORIAS DISCRETAS


DISTRIBUCIN BINOMIAL:
d: funcin de probabilidad o densidad p: probabilidad acumulada, funcin de distribucin q: cuantil r: genera nmeros aleatorios

Ejemplo.- El Profesor de Matemtica en la UCC, propone un examen de test opcin mltiple nica respuesta, consistente en 25 cuestiones. Cada item tiene 5 respuestas, siendo correcta slo una de ellas. Si un estudiante no conoce la respuesta correcta de ninguna cuestin y prueba suerte, queremos saber: a) Cul es la probabilidad de responder exactamente 7 respuestas correctas?. b) Cul es la probabilidad de acertar como mximo 9 respuestas?. c) Si se aprueba el examen cuando se responden correctamente 13 cuestiones, cul es la probabilidad de que pase el alumno que ha probado suerte? d) Cul es el conjunto de nmeros menores posibles de aciertos, con probabilidad de alcanzarse en torno a 0.95?
Estamos ante un experimento en el cual se dan dos opciones (xito o fracaso) a n=25 repeticiones de una prueba (cuestin) que consiste en acertar o no la respuesta adecuada. Puesto que tenemos 25 cuestiones con 5 respuestas listadas la probabilidad de acertar cada una es p=1/5. Por lo tanto estamos ante una distribucin binomial Bi(n=25, p=1/5=0.2).

Cuestin a).- Para responder a la primera pregunta Pr(X=7): Actuamos con la secuencia en el R Commander: > Distribuciones > Distribuciones discretas > Binomial > Probabilidades binomiales .Table <- data.frame (Pr=dbinom(0:25, size=25, prob=0.2)) rownames(.Table) <- 0:25 .Table remove(.Table)

Cuestin b).-Siendo x: Bi(n=25, p=0.2), se busca P(X<=9). La secuencia es: >Distribuciones >Distribuciones discretas >Binomial >Probabilidades binomiales acumuladas->.(Cola izquierda: , Cola derecha: > , OJO, es mayor estricto)

La instruccin correspondiente en el lenguaje de R > pbinom(c(9), size=25, prob=0.5, lower.tail=TRUE) [1] 0.1147615 El argumento de la funcin c(9) se refiere al conjunto formado por el valor 9 de la variable, para el que se desea evaluar la funcin de distribucin. En el caso de que se quiera evaluar dicha funcin para 4, 9, 3 , se utilizar ese conjunto de valores as: GRFICA DE LA DISTRIBUCIN BINOMIAL >Distribuciones>Distribuciones discretas >>Distribucin binomial >Grfica de la distribucin binomial

Se puede elegir la grfica de la funcin de probabilidad o de la distribucin

Binomial Distribution: Trials = 25, Probability of success = 0.2


0.20

Binomial Distribution: Trials = 25, Probability of success = 0.2


1.0

0.15

Probability Mass

Cumulative Probability

0.10

0.05

0.0
0

0.2

0.4

0.6

0.8

6 Number of Successes

10

12

0.00
0

6 Number of Successes

10

12

DISTRIBUCIN DE POISSON: Vemoslo con un Ejemplo: La centralita telefnica de un hotel recibe un n de llamadas por minuto que sigue una ley de Poisson con parmetro l=0.5. Determinar las probabilidades: a) De que en un minuto al azar, se reciba una nica llamada. b) De que en un minuto al azar se reciban un mximo de dos llamadas. c) De que en un minuto al azar, la centralita quede bloqueada, sabiendo que no puede realizar ms de 3 conexiones por minuto. d) Se reciban 5 llamadas en dos minutos. Identificacin del problema: Como en el enunciado se dice que la variable sigue una distribucin de Poisson: Secuencia: >Distribuciones > Distribuciones discretas >Probabilidades de Poisson Cuestin a) Se busca P[Pois(0.5)=1] Con la interfaz del RCommander no se obtiene el valor de Pr[Pois(0.5)=1], sino una tabla: > .Table <- data.frame(Pr=round(dpois(0:5, lambda=0.5), 4)) > rownames(.Table) <- 0:5 > .Table Pr 0 0.6065 1 0.3033 2 0.0758 3 0.0126 4 0.0016 5 0.0002 > remove(.Table)

Si slo se quiere la Pr[Poisson(0.5)=1], simplemente llamando a la funcin dpois con el comando R: > dpois(1, lambda=0.5) [1] 0.3032653 Cuestin b): Hay que calcular P(Pois(0.5)<=2). Secuencia de mens: > Distribuciones > Distribuciones discretas >D. Poisson > Probabilidades acumuladas. (Cola izquierda: , Cola derecha : > , OJO, es mayor estricto) La instruccin R y el resultado que se genera: > ppois(c(2), lambda=0.5, lower.tail=TRUE) [1] 0.9856123

GRFICA DE LA DISTRIBUCIN DE POISSON


Poisson Distribution: Mean = 0.5
0.6
1.0

Poisson Distribution: Mean = 0.5

0.5

0.4

Probability Mass

Probability Mass

0.2

0.3

0.0

0.1

0.6 0

0.7

0.8

0.9

2 x

2 x

SIMULACIN DE VARIABLES DISCRETAS Simulacin de lanzamiento de un dado: son 6 resultados posibles, lo hacemos en modo texto para dibujar luego un diagrama de barras. Si fuera en numrico 1:6 usaramos un histograma. La semilla de inicio de los generadores de nmeros aleatorios de R la genera el sistema de modo automtico en funcin de fecha y hora. Muestras aleatorias con probabilidad discreta preelegida. Funcin R: sample(x, tamao, replace = FALSE, prob = NULL). Veamos los Argumentos: -> x: vector de ms de un elemento (real, complejo, carcter o lgico) del que elegir las ocurrencias. O un entero positivo, en cuyo caso se elige del conjunto 1:x

-> tamao: entero no negativo que es el nmero de ocurrencias o extracciones a realizar. -> replace si la extraccin se hace o no con reemplazamiento. -> prob= vector de pesos a asignar a cada uno de los posibles valores que se extraen del conjunto especificado por x. Por defecto, todos los valores resultantes de x tienen la misma probabilidad. #lanza dados no trucado > dadoBueno=sample(c('1','2','3','4','5','6'), 100, replace = TRUE); dadoBueno [1] "2" "3" "2" "3" "2" "1" "6" "3" "2" "6" "5" "1" "3" "3" "2" "5" "4" "4" "3" "1" [21] "5" "4" "2" "4" "3" "2" "1" "6" "1" "4" "1" "1" "2" "5" "1" "5" "6" "6" "6" "1" [41] "5" "4" "5" "2" "3" "3" "6" "2" "5" "1" "4" "3" "4" "3" "1" "4" "5" "6" "1" "4" [61] "3" "3" "5" "4" "3" "1" "4" "6" "1" "5" "1" "1" "1" "5" "1" "4" "1" "6" "6" "6" [81] "6" "6" "4" "3" "3" "5" "6" "3" "1" "5" "4" "5" "3" "1" "3" "2" "5" "5" "6" "5" #la funcin table hace una clasificacin de los niveles de resultados y sus frecuencias
20

15

10

500

1000

1500

> table(dadoBueno); dadoBueno 1 2 3 4 5 6 21 11 19 15 18 16 # para dibujar el diagrama de barras > barplot(table(dadoBueno)) Veamos un ejemplo con el lanzamiento de una moneda trucada, cara con peso 2 y cruz con peso 5: > Moneda=sample(c('cara',"cruz"), 20, replace = TRUE, prob = c(2,5)); > Moneda ;barplot(table(Moneda)) [1] "cara" "cruz" "cruz" "cruz" "cruz" "cara" "cara" "cruz" "cruz" "cruz" "cruz" [12] "cara" "cruz" "cara" "cruz" "cruz" "cruz" "cruz" "cara" "cruz" > table(Moneda) Moneda cara cruz

1. Inferencia estadstica 2. Grficos de inferencias estadsticas

3. Pruebas de hiptesis 4. Muestreo MUESTREO Ejemplo: Qu tamao de muestra hay que elegir para estimar una proporcin de modo que el error en la estimacin sea menor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximacin normal con el criterio ms desfavorable). > z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z [1] 1.959964 > E=0.05; n=ceiling(z^2/(4*E^2));n [1] 385 Qu tamao resultara en el caso de que se emplee una primera estimacin de la proporcin de valor 0.17 ? > p=0.17 > n=ceiling(z^2*p*(1-p)/E^2);n [1] 217 Naturalmente, con ms informacin, se reduce el tamao de la muestra necesaria .

5. Taller de aplicacin