Documentos de Académico
Documentos de Profesional
Documentos de Cultura
OBJETIVOS DE LA UNIDAD:
1. Establecer diferencias entre los principales conceptos utilizados en
la estadstica.
2. Determinar la importancia del R en el manejo de las funciones
matemticas.
TERMINOLOGIA
POBLACIN:
La poblacin no hace referencia nicamente a los seres vivos; una poblacin
puede estar constituida por los peces de un estanque, por animales de una
determinada raza, as como por los establecimientos educativos de una ciudad o
de un ncleo educativo.
POBLACIONES FINITAS:
En este tipo de poblacin el nmero de unidades observables es contable, es decir
un nmero conocido de elementos del conjunto llamado poblacin:
Por ejemplo:
a. Alumnos Matriculados en el ao 2005 en un colegio de la capital.
b. Cantidad de estudiantes que proceden de provincias a un colegio de la capital
POBLACIONES INFINITAS:
En este tipo de poblacin el conteo de unidades observables se hace un poco
difcil. El trmino de infinito en estadstica no se ajusta a una definicin
semntica.
Por ejemplo:
Se define como un conjunto de individuos o de objetos que poseen una o varias
caractersticas comunes. El total de las unidades posibles de observar hace
referencia tambin a una definicin de poblacin.
a. La cantidad de ensayos que hace un estudiante en un experimento de
laboratorio repetido indefinidamente.
b. Nmero de hijos de todas las familias que conforman la gran comunidad
educativa en un colegio.
MUESTRA:
Se define como la mejor representacin de la poblacin. La muestra es un
subconjunto de la poblacin a la cual se le efecta la medicin con el fin de
estudiar las propiedades del conjunto del cual es obtenida.
El tamao de la poblacin, la disponibilidad de recursos, la homogeneidad de los
elementos y de los datos que la conforman le da la importancia suficiente al uso
adecuado de la muestra.
Un buen conocimiento de la poblacin permite encontrar una buena muestra
representativa. Existen muestras tomadas al azar y sin seguir ningn modelo de
muestreo que llevan a conclusiones inadecuadas y por tanto a tomas de decisiones
que no corresponden a la solucin de un problema planteado al interior de
conjunto.
PARMETROS:
Son medidas utilizadas para realizar descripciones cuantitativas de los conjuntos
de datos, o poblaciones suelen estar representadas con letras griegas (por ejemplo
y o).
ESTADSTICOS
Son medidas que describen cuantitativamente a una muestra son representados
por letras de nuestro alfabeto (por ejemplo, x o y).
VARIABLE:
Es el conjunto de caractersticas de las entidades que interesan en una
investigacin. Como por ejemplo, Tamao, edad, precios, rendimiento acadmico,
Indicadores econmicos.
VARIABLES ENTERAS O DISCRETA:
Los elementos que se visualizan estn representados por nmeros enteros:
Ejemplo:
Nmero de estudiantes en la universidad.
Nmero de computadores encendidos, en una sala de sistemas.
Nmero de crditos acadmicos escogidos por un estudiante en un semestre
determinado.
VARIABLES REALES O CONTINUAS:
Es aquella que tericamente puede tomar cualquier valor dentro de un intervalo de
valores, ella se mide uniformemente. Dentro de la escala de los conjuntos
numricos representan a los nmeros Reales.
Ejemplo:
Estatura de los estudiantes de dcimo grado de un colegio.
Salarios devengados por los docentes de un ncleo educativo.
Temperaturas a ciertas horas del da.
Edad exacta de una persona.
VARIABLES CUALITATIVAS:
Representan caractersticas propias de las cualidades de los objetos que
conforman la muestra o la poblacin.
Ejemplo:
- Sexo
- Origen
- Color de piel
Las variables cualitativas se dejan expresar en niveles de categora
Ejemplo:
- Sexo: masculino- Femenino
- Origen: Colombiano Venezolano Panameo
- Color de piel: Blanco Negro Amarillo.
VARIABLES DEPENDIENTES E INDEPENDIENTES:
Una variables se hace independiente cuando puede tomar en forma particular
cualquier valor, la variable se hace dependiente cuando esta sujeta a los valores
que tome la variable independiente.
Para poder hablar de dependencia se hace necesario tener dos variables
correlacionadas entre si.
Ejemplo:
En la pareja de variables representadas por la edad y peso de los alumnos de un
colegio con respecto a la variable independiente y dependiente podemos decir
que:
Sea X Edad:
Variable Independiente: Significa que podemos tomar estudiantes de cualquier
edad
Sea Y Pesos:
Las estaturas van a estar sujetas a la edad de los estudiantes.
La relacin en el ejemplo puede ser inversa; es decir que el peso sea
independiente para que los valores de la edad dependan del peso que tengan los
alumnos. En todo estado de relacin debemos elegir cual es la variable
independiente la otra queda sujeta a esta eleccin.
COMO DECLARAR VARIABLES EN R-ESTADISTICO
Las variables en estadstica son representaciones simblicas que asumen
diferentes valores. Para definirlas en R se presentan las siguientes caractersticas
La variable puede
Escritura en R
Comenzar con letras
> Estatura=150
> Estatura
[1] 150
Llevar nmeros
> Ingresos2005=150000
> Ingresos2005
[1] 150000
Separar los valores y letras
por medio de puntos
> Estatura.nio.1=140
> Estatura.nio.1
[1] 140
Empezar con puntos.
> .Edad=15
> .Edad
[1] 15
Cuando se le pide a R ejecutar la accin la variable debe ser escrita tal como se la
declaro, por ejemplo la variable Ingresos2005 comienza con mayscula si la digita
todas en minsculas el programa emite un mensaje de error.
> ingresos2005
Error: objeto 'ingresos2005' no encontrado
RECORDANDO LAS VARIABLES EN R
Existen momentos en que olvidamos las variables que se han declarado, para tal
caso se digita sobre la consola de R el comando ls( ).
> ls()
[1] "estatura" "Estatura" "Estatura.nio.1"
"Ingresos2005"
[5] "nombre"
Tambin existe el comando history( ), que permite ver las variables y las
operaciones que se han realizado con ellas en ventana flotante (ver grfico 11)
Figura 7: ventana flotante del comando history( )
Pidiendo Ayuda:
R posee en idioma ingles una amplia ayuda en lnea que permite guiarse en el
camino de las diferentes operaciones que se estn realizando, para ello se digita
sobre la consola el comando?, seguido de la expresin que se requiere ayuda. Por
ejemplo pidamos ayuda del comando solve
?solve
starting httpd help server ... done
Inmediatamente enva a la pgina en donde aparece todo lo relacionado con el
comando solve. El entorno R tambin ofrece ayuda al usuario mediante el men
Ayuda en la barra de la ventana R Consola o en otras ventanas especficas
GRAFICANDO FUNCIONES REALES EN R:
El grafico matemtico es una de los problemas que con mayor facilidad resuelve el
R-Estadstico. En R se pueden graficar, Funciones Lineales, funciones cuadrticas,
funciones polinmicas en general, funciones exponenciales, etc.
Como ejemplo empecemos graficando la funcin cuadrtica
16 * 5 3
2
+ = X X y
Comandos en R
Resultado Grafico
curve(x^2-5*x+16,
-5, 10)
Bajo el mismo comando Curve, se pueden realizar curvas ms complejas que en
otro paquete se realizaran con dificultad, por ejemplo el grafico de la tangente.
Comandos en R
Resultado Grafico
curve(tan, -2*pi,
2*pi)
EJERCICIOS PARA PRACTICAR EN R
1. Realice el grafico de las siguientes funciones:
a.
1
2
2
+
=
x
x
y
b.
|
|
.
|
\
|
+
=
1
ln
2
2
x
x
y
c.
3 5 2
3 4
+ = x x y
1. Determinar la importancia del uso de las frecuencias en el
manejo de las medidas y parmetros de la estadstica.
2. Establecer diferencias entre los diferentes tipos de frecuencias y
su uso especfico.
3. Hacer uso del R para la construccin de tablas de frecuencias
FRECUENCIAS:
Para comprender el concepto de frecuencia partimos de una situacin real que a
diario sucede en las aulas de clase con un grupo de estudiantes de educacin
primaria.
Un Profesor de geografa tienen registrado en su informe de logros la informacin
de 20 estudiantes con los siguientes resultados.
E S A S D I A S E D
A I S E D A S A D I
Los datos de los logros obtenidos se pueden registrar en la siguiente tabla.
La tabla muestra en forma organizada los resultados de los logros y la cantidad de
estudiantes que alcanzaron una determinada valoracin. Al respecto podemos
decir:
4 estudiantes obtuvieron D en geografa
3 estudiantes obtuvieron I en geografa
5 estudiantes obtuvieron A en geografa
5 estudiantes obtuvieron S en geografa
3 estudiantes obtuvieron E en geografa
Logros No de estudiantes
D
I
A
S
E
4
3
5
5
3
Esta lectura de la cantidad de estudiantes que alcanzaron una valoracin
determinada es lo que se llama FRECUENCIA. Al listado de logros dispuestos en
forma aleatoria se le llama distribucin de datos, a la forma de organizarlos en una
tabla se le denomina tabla de frecuencias.
CLASES DE FRECUENCIAS
FRECUENCIA ABSOLUTAS: (f)
Resultan del conteo directo, de los datos que se repiten en una distribucin. La
suma de todas las frecuencias absolutas es el tamao de la muestra.
fi = n
f = f1 + f2 + f3 + ... + fn = n; n es el tamao de la muestra.
Para nuestro ejemplo la tabla de frecuencias absolutas quedara.
Logros f
D
I
A
S
E
4
3
5
5
3
20
Algunos datos de esta tabla tienen la siguiente lectura:
3 Estudiantes reaprobaron el examen con una valoracin de I (Insuficiente)
5 Estudiantes aprobaron el examen con una valoracin de A (Aceptable)
3 Estudiantes aprobaron el examen con una valoracin de E (Excelente)
FRECUENCIAS ACUMULADAS:(F)
Se obtiene de la acumulacin sucesiva de las frecuencias absolutas. El ltimo dato
acumulado es el tamao de la muestra.
Su clculo se obtiene as:
F1 = 4
F2 = f1+f2 = 4 + 3 =7
F3 = f1 + f2 +f3 =4 + 3 + 5 = 12
F4 = f1 + f2 + f3 + f4 = 4 + 3 + 5 + 5 = 17
F5 = f1 + f2 + f3 + f4 + f5 = 4 + 3 + 5 + 5 + 3 = 20
En una tabla de frecuencias se observara as:
Logros f F
D
I
A
S
E
4
3
5
5
3
4
7
12
17
20
20
Algunos datos de esta tabla para las frecuencias acumuladas tienen la siguiente
lectura:
12 Estudiantes reaprobaron el examen con una valoracin inferior a A
7 Estudiantes presentan valoraciones inferiores a A.
FRECUENCIA ABSOLUTA RELATIVA: (h)
Corresponde a una porcin de distribucin. Se obtiene dividiendo la frecuencia
absoluta de cada dato entre el total de elementos que conforman la muestra.
n
f
h
i
=
La suma de todas las frecuencias relativas representa al 100% de la poblacin y
equivale a 1 (Uno).
h = 100% = 1
En nuestro ejemplo de referencia.
h1 = 4 / 20 = 0.2 = 20%
h2 = 3 /20 = 0.15 = 15%
h3 = 5 /20 = 0.25 = 25%
h4 = 5 /20 = 0.25 = 25%
h5 = 3/20 =0.15 = 15%
En una tabla de frecuencias se observara as:
Logros f F h
D
I
A
S
E
4
3
5
5
3
4
7
12
17
20
0.2
0.15
0.25
0.25
0.15
20 1
Algunos datos de esta tabla tienen la siguiente lectura:
El 15% de los Estudiantes reaprobaron el examen con una valoracin de I
(Insuficiente)
El 25% de los Estudiantes aprobaron el examen con una valoracin de A
(Aceptable)
El 15% de los Estudiantes aprobaron el examen con una valoracin de E
(Excelente)
FRECUENCIAS RELATIVA ACUMULADAS: (H).
Se obtiene de la acumulacin sucesiva de las frecuencias relativas. El ltimo dato
acumulado es el 100% de la muestra.
Su clculo se obtiene as:
H1 = 0.2
H2 = h1+h2 = 0.2 + 0.15 =0.35
H3 = h1 + h2 +h3 =0.2 + 0.15 + 0.25 = 0.6
H4 = h1 + h2 + h3 + h4 = 0.2 + 0.15 + 0.25 + 0.25 = 0.85
H5 = h1 + h2 + h3 + h4 + h5 = 0.2 + 0.15 + 0.25 + 0.25 + 0.15 = 1
El ltimo dato acumulado equivale al 100% de la muestra. En una tabla de
frecuencias se observara as:
Logros f F h H
D
I
A
S
E
4
3
5
5
3
4
7
12
17
20
0.2
0.15
0.25
0.25
0.15
0.2
0.35
0.6
0.85
1
20 1
Algunos datos de esta tabla para las frecuencias relativas acumuladas tienen la
siguiente lectura:
El 60% de los estudiantes reaprobaron el examen con una valoracin inferior a A
El 35% de los estudiantes presentan valoraciones inferiores a A.
EJEMPLO DE APLICACIN:
La siguiente distribucin de datos representa los salarios de 40 trabajadores de un
colegio privado de la ciudad de Villavicencio en donde se requiere que el docente
trabaje bajo la figura de docente catedrtico. Para el caso se asigna un valor por la
hora trabajada de acuerdo a un grado de escalafn emitido el ministerio de
educacin nacional.
Los valores de los salarios corresponden en miles de pesos.
30 25 20 40 28
35 40 25 45 20
40 30 15 30 25
20 50 50 50 30
50 15 30 45 40
15 20 28 35 40
30 15 20 45 50
15 10 20 28 30
La siguiente tabla muestra los datos organizados con su respectiva frecuencia. La
interpretacin de algunos datos queda como tarea para el estudiante.
SALARIOS
(En miles de $)
f F h H
10 1 1 0,025 0,025
15 5 6 0,125 0,15
20 6 12 0,15 0,3
25 3 15 0,075 0,375
28 3 18 0,075 0,45
30 7 25 0,175 0,625
35 2 27 0,05 0,675
40 5 32 0,125 0,8
45 3 35 0,075 0,875
50 5 40 0,125 1
40 1
FRECUENCIAS PARA DATOS REALES: (Distribuciones para Datos
agrupados)
El pagador de un colegio ha organizado una pequea cooperativa de ahorro para
docentes la participacin es libre y voluntaria. La siguiente tabla muestra los
ahorros de 25 docentes.
200 190 150 148 152
158 100 174 187 188
160 178 153 151 128
137 174 199 103 168
188 127 150 130 175
El dato ms pequeo es 100 y el mayor es 200 Entre estos dos valores es difcil
saber si los dems datos se encuentran ms cerca del 100 o del 200 La dificultad
radica en que los datos no se encuentran organizados. Para ello establezcamos un
orden en los datos propuestos.
100 137 152 174 188
103 148 153 174 188
127 150 158 175 190
128 150 160 178 199
130 151 168 187 200
Como los datos corresponden al ahorro de diferentes profesores, al ponerlos en
orden de tamao no estamos perdiendo ninguna informacin de importancia. Si los
datos correspondieran a un cdigo u orden estipulado, se perdera informacin
valiosa.
Hay una tcnica un poco ms sofisticada para acomodar los datos y poder apreciar
la forma en que se encuentran repartidos, denominada: TABLA DE FRECUENCIAS
PARA DATOS AGRUPADOS.
Para determinar las frecuencias para datos agrupados se debe seguir los siguientes
pasos que involucran clculos matemticos y la utilizacin de algunas formulas de
aproximacin utilizada en forma reiterada por muchos autores y con las cuales nos
identificaremos en este curso de estadstica.
RANGO:
Es el dato calculado mediante la diferencia entre el dato mximo y mnimo.
R = Xmax Xmin
Para el ejemplo propuesto
R = 200 - 100 = 100
NMERO DE INTERVALOS:
Representado por la letra m y se define mediante la formula.
m = 1 + 3,3*log(n)
Donde n es el tamao de la muestra. El nmero de intervalos no puede ser
inferior a 5 ni superior a 16.
5 s m s 16
Algunos utilizan la formula m =
n
La aproximacin de m se puede hacer por defecto o por exceso
m = 1 + 3,3*log(25) ~ 5.6
Aqu m se puede trabajar con 6 y seria una aproximacin por exceso, o a 5 y seria
una aproximacin por defecto.
AMPLITUD DEL INTERVALO:
Determina la distancia que existe entre un dato y otro, se simboliza por C,
depende del criterio establecido para presentar la informacin, puede variar la
amplitud en cada intervalo, pero se recomienda tener a C constante a lo largo de
toda la distribucin de frecuencias, se calcula mediante las formula.
C =
m
X X min max
=
m
Rango
6
100
= C
= 17
Los intervalos de clase se clasifican como:
INTERVALOS APARENTEMENTE NOMINALES:
Son los intervalos utilizados en la clase que utilizamos, tal como resulta en el
clculo de la amplitud C
INTERVALOS REALES:
Se obtienen a partir de los lmites de los Intervalos nominales restando 0,5 al lmite
inferior y sumando 0,5 al lmite superior en todas las clases. Para tal caso se
redefine el rango haciendo
Rango = C * m
Y se compara con el rango original,
Si la diferencia es de 2 unidades o decimales se puede restar solo al dato menor el
excedente y se trabaja con limites reales, si la diferencia es mayor a 2 se resta 2 al
dato menor y se suman el resto al dato mayor con el objetivo de equilibrar la
diferencia dada por el nuevo rango.
Para nuestro caso tenemos que:
Rango= 17*6 = 102
Rango original = 100
Diferencia con el nuevo rango = 2
Xmin 2 = 98
Entonces la distribucin organizada en intervalos, tomara la siguiente forma:
FRECUENCIAS PARA DATOS ENTEROS: (Distribuciones para Datos no
agrupados)
Corresponde a una organizacin de los datos en donde se recurre a la formacin
de intervalos. Por lo general se trabaja para datos enteros. Cuando los datos
continuos son menos de 20 se pueden organizar como datos no agrupados.
EJEMPLO.
Ahorros f F h H
98.5 _ 115 2 2 0.08 0.08
115.5 _ 132 3 5 0.12 0.2
132.5 _ 149 2 7 0.08 0.28
149.5 _ 166 7 14 0.28 0.56
166.5 _ 183 5 19 0.2 0.76
183.5_ 200 6 25 0.24 1
Total 25 1
A la rectora del colegio han llegado 15 cajas con libros de diferentes editoriales
para ser revisados y evaluados por los docentes. El encargado de abrir las cajas es
el rector del colegio. El deber seleccionar los libros por reas para entregarlos a
los respectivos profesores. En el transporte de los libros desde la editorial hasta la
rectora sufrieron algunos daos. Los siguientes datos representan las cajas y la
cantidad de libros que se han daado por caja.
C1=1 C2=2 C3=0 C4=5 C5=2
C6=3 C7=1 C8= 4 C9=3 C10=1
C11=0 C12=3 C13=1 C14=0 C15=5
El rector del colegio desea brindar un informe detallado a los profesores sobre el
estado de los libros. El profesor de estadstica le brinda la siguiente tabla de
frecuencias para que el informe sea ms claro y sencillo.
No de Libros
defectuosos
No de cajas
f
F h H
0 3 3 0.2 0.2
1 4 7 0.26 0.46
2 2 9 0.13 0.59
3 3 12 0.2 0.79
4 1 13 0.066 0.586
5 2 15 0.13 1
15 1
IMPORTACION DE LOS DATOS DE EXCEL
Lo primero es orientar la direccin de los datos a analizar hacia una carpeta de
trabajo ubicada en nuestro disco duro. Para este caso la carpeta recibe el nombre
de ArchivoCompendio. La figura orienta el proceso de dicho direccionamiento.
En data deben estar ubicados los archivos vlidos y que pueden ser llevados a R.
Una vez cambiado el directorio para el reconocimiento de la ruta, el archivo que se
quiere exportar de Excel se le debe guardar como texto delimitado por
tabulaciones en la carpeta destino. Los comandos para exportar son:
Comandos en R
Resultado de la tabla
datos=read.delim("Tasas.txt")
attach(datos)
datos
Tal como aparece en R los datos exportados bajo el comando read.delim, no es
posible aun acceder a estos datos. El comando attach () facilita dicho acceso de tal
manera que se pueden hacer operaciones directamente desde el programa. Ahora
que los datos estn atachados es posible traerlos mediante la opcin editar del
men y editor de datos.
Al digitar esta opcin nos lleva a una ventana en donde se digita el nombre de la
tabla que se quiere editar y corregir datos.
Con esto ya se tiene la tabla en donde se pueden hacer todas las correcciones
pertinentes.
IMPORTACION DE ARCHIVOS TXT
Si los datos no se encuentran en un archivo Excel, se pueden grabar en un
archivo txt, en la carpeta destino de trabajo. Los archivos txt tiene el siguiente
aspecto
En R, se pueden visualizar con los siguientes comandos
Comandos en R
Resultado de la tabla
datos=read.table("Nombres.txt")
attach(datos)
datos
EJERCICIOS DE APLICACION
Ejercicio 1
En las aulas del colegio ha brotado un virus. La alcalda en compaa con el
hospital de la regin han levantado un estudio para evitar que el virus se expanda
en toda la comunidad. La droga que ataca el virus requiere de una dosis que esta
sujeta a un peso. Con el objetivo de obtener un peso promedio y brindar la dosis
adecuada a todos los estudiantes se ha tomado una muestra de 20 estudiantes y
se obtuvieron los siguientes resultados.
30,3 32,1 50,2 52,3 34,2 36,4 54,2 56,3 38,1 40,2
58,2 60,4 42,3 43,3 62,5 64,1 45,2 46,3 65,2 67,3
Determine para el problema una tabla de frecuencia para datos agrupados y
realice interpretacin de algunos resultados, de la misma manera llvelos a un
archivo txt y crguelos en el programa R.
Ejercicio 2
Los siguientes datos representan 50 (en miles de pesos) salarios de los empleados
de la secretaria de educacin. Para tal distribucin de datos realizar la tabla de
intervalos de clase.
50 300 178 320 350 280 145 220 145 220
200 400 392 235 289 400 230 400 220 256
100 400 270 187 400 175 400 189 100 187
120 180 125 248 400 300 178 256 400 200
150 230 280 300 220 276 235 400 386 400
De la misma manera llvelos a un archivo txt y crguelos en el programa R
Ejercicio 3
Complete el siguiente cuadro
Intervalos de
Clases
Intervalos con
limites reales
f F h H
20 _ 24
_56
3
2
5
3
4
1
2
3
2
Total
Cuando el cuadro este completo realice cargue la tabla desde un archivo Excel.
Ejercicio 4
Un corto circuito dao dos monitores de la sala de sistemas del colegio, se
consult en 30 almacenes de la ciudad el precio de monitores para computador y
se obtuvo los siguientes resultados en miles de pesos.
100 101 120 115 130 150 112 145 138 121
126 115 140 137 143 118 147 149 150 115
100 127 135 149 146 137 122 118 135 129
Elabore una distribucin de frecuencias, para datos agrupados, indicando los
valores de los lmites reales. De la misma manera llvelos a un archivo txt y
crguelos en el programa R.