Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Datos 88 Páginas PDF
Analisis de Datos 88 Páginas PDF
UNED
Curso 2012
La estadstica se aplica en todas las reas del saber, y puede ser terica o aplicada
(a la realidad, se entiende), siendo llamada esta ltima: "anlisis de datos".
De razn= Adems de todas las caractersticas de las tres escalas diferentes, supera a las
dems en que se puede establecer un punto de origen verdadero de valor cero (a
diferencia del 0 arbitrario de la escala de intervalo). Es lo que se conoce como valor
absoluto. Ejemplo: la altura y el peso.
Funciones:
- Ofrecer la informacin necesaria para realizar representaciones grficas
- Facilitar los datos para obtener los estadsticos muestrales
Conceptos
Frecuencia absoluta (ni): Nmero de veces que se repite cada uno de los valores de
una variable. La suma de todas las frecuencias absolutas representa el total de la
muestra (n)
Proporcin o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada
valor de la variable (ni) y el nmero total de observaciones (n). pi = ni /n
Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x 100
Frecuencia absoluta acumulada (na): Nmero de veces que se repita cada modalidad
o cualquiera de las modalidades inferiores.
Ms conceptos
Si la variable cuantitativa es reducida (nmero de hijos) no hay problema, la utilizamos
tal cual. Pero si ocurre que puede ser muy amplia (edad) debemos recurrir a la
agrupacin en intervalos.
La amplitud de los intervalos representa al nmero de unidades que tenemos dentro de
cada intervalo. No es lo mismo tener una amplitud de intervalos de 10 en 10 (11-20)
(21-30) (31-40) que de 5 en 5 (15-19) (20-24) (25-29).
Obviamente al establecer intervalos siempre se pierde informacin. Por lo tanto hay que
buscar equilibrio entre la precisin que buscamos y lo cmodo que sea trabajar con esos
datos (si no establecisemos intervalos podramos encontrarnos con tablas de 100 filas)
Aunque tengamos un intervalo de edad (25-35) (36-45) no significa que no pueda haber
personas con 35,5 aos. Por lo tanto los intervalos (25-35) y (36-45) reciben el nombre
de limites informados o aparentes. (aparentan ser lo que no son) ya que en realidad los
lmites verdaderos son (25,5-35,5) y (35,5-45,5). El lmite superior exacto del primer
intervalo (35,5) coincide con el lmite inferior exacto del siguiente (35,5)
*Nota: Con un poco de sentido comn el punto medio se haya sumando los dos valores
del intervalo y dividiendo el resultado entre 2
Tomemos el intervalo (26-35) = 26 + 35 = 61/2 = 35,5.
Ya sabemos lo que es la semisuma
Intervalo abierto: Son los intervalos finales que se utilizan para no tener frecuencia
nula.
Ejemplo de edad: (76 aos o ms)
b) Diagrama de sectores
Se utiliza para variables cualitativas y cuasicuantitativas
- Representacin en forma de crculo. El crculo se divide en secciones cuya superficie
es proporcional a la frecuencia de la modalidad correspondiente. Para determinar el
ngulo de los sectores de cada modalidad se multiplica la frecuencia relativa por 360,
que es el nmero de grados de una circunferencia.
c) Pictograma
Se utiliza para variables cualitativas
- Son dibujos alusivos al objeto de estudio. Son escalas que deben ser proporcionales al
valor que representan.
e) Polgono de frecuencias
Se utiliza para variables discretas
- La forma que obtenemos es una lnea poligonal cuya figura se obtiene a partir de
una diagrama de barras o de un histograma.
- Tambin se puede utilizar en frecuencias acumuladas
Representacin grfica de dos variables
a) Diagrama de barras conjunto
Se utiliza cuando al menos una de las dos variables es cualitativa
- Los datos se organizan en una tabla de doble entrada. Se sitan los valores de una
variable en las filas y los valores de la otra variable en las columnas.
- Una vez construida la tabla, se procede a dibujar los grficos por columnas
a) Tendencia central
Se refiere al lugar donde se centra una distribucin particular en la escala de valores.
b) Variabilidad
Se refiere al grado de concentracin de las observaciones en torno al promedio.
Una distribucin de frecuencias ser:
Homognea (tiene poca variabilidad). Si los valores de distribucin estn cercanos al
promedio. (cuando hay pocos rectngulos alrededor del central)
Heterognea (tiene mucha variabilidad). Si los valores se dispersan mucho en torno al
promedio. (cuando hay muchos rectngulos alrededor del central)
c) Asimetra o sesgo
Se refiere al grado en que los datos se reparten equilibradamente por encima y por
debajo de la tendencia central.
Diremos que una distribucin ser simtrica cuando al dividirla en dos a la altura de la
media, las dos mitades se superponen. Si esto no ocurre decimos que se produce
asimetra. Hay dos tipos de asimetra:
Asimetra positiva: Cuando la mayor concentracin de puntuaciones se produce en la
parte baja de la escala.
Asimetra negativa: Cuando la mayor parte de puntuaciones se sita en la parte alta de
la escala.
Tema 2 de Anlisis de datos resumen
UNED
Curso 2012
La media aritmtica
En realidad da igual cual de los dos procedimientos escojamos, ya que ante una misma
distribucin de frecuencias el resultado va a ser el mismo aunque se haga por la frmula
de frecuencias absolutas o mediante la frmula de frecuencias relativas
Ejemplo:
LA MEDIA ARITMTICA (X: suma de las puntuaciones dividida por el nmero de
casos): ndice que toma en consideracin todas las puntuaciones registradas. Slo puede
calcularse con variables cuantitativas. Para proceder a su clculo se toman en
consideracin dos posibilidades:
_
Para valores no agrupados en intervalos X = xi / n
X ni Xi ni X i _
10 - 12 10 11 110 X = (ni Xi) / n
79 100 8 800 _
46 60 5 300 X = 1. 270 / 200 = 6,35
1-3 30 2 60
Intervalos N = 200 Punto medio ( ni Xi ) = 1. 270
Intervalos
X Xi pi Xi pi _
10 - 12 11 10 / 200 = 0, 05 0, 55 X = (Xi pi )
79 8 100 / 200 = 0, 5 4 _
46 5 60 / 200 = 0, 3 1, 5 X = 6, 35 (resultado
1-3 2 30 / 200 = 0, 15 0, 3 similar al anterior).
Intervalos Punto medio Proporciones ( Xi pi ) =
Intervalos 6,35
Propiedades de la media aritmtica
_
(Xi-X) = 0
Ejemplo
Obtener las desviaciones con respecto a la media en la siguiente distribucin y
comprobar que su suma es cero.
li-1 - li ni
0 - 10 1
10 - 20 2
20 - 30 4
30 - 40 3
Solucin:
li-1 - li ni xi xi ni
0 - 10 1 5 5 -19 -19
10 - 20 2 15 30 -9 -18
20 - 30 4 25 100 +1 +4
30 - 40 3 35 105 +11 +33
n=10
La media aritmtica es:
LA MEDIANA
Al ser muchos casos, los datos vienen presentados en intervalos. El intervalo en el que
se encuentra la mediana se llama Intervalo crtico y se corresponde con aquel en el que
la frecuencia absoluta acumulada na es igual o superior a n/2.
VARIABLES NOMINALES
(Categora o modalidad ms Xi n!
frecuente) Solteras 25
Casadas 50 Mo
Divorciadas 15
Viudas 10
100
VARIABLES ORDINALES
(Grado o magnitud de la Xi n!
caracterstica ms frecuente) Psimo 5
Regular 15
Es preciso ordenar previamente Bueno 25
los valores para facilitar la lectura
Muy bueno 45
de las frecuencias. Mo
Excelente 10
100
VARIABLES CUANTITATIVAS
(DE INTERVALO O Xi ni
RAZN)
3-5 6
- Punto medio del intervalo con 6-8 9
mayor frecuencia. M0 = 10 9 - 11 18
- Cuando se trata de intervalos Punto Medio 12 - 14 12
abiertos (intervalo 15 - 17 7
superior o inferior sin
lmite (o ms / o menos)
la Moda no puede caer
en uno de ellos.
- En primer lugar probaremos con la media aritmtica (menos en los casos en que
la distribucin sea muy asimtrica, o el nivel de medida sea nominal u ordinal, o
existan datos agrupados en intervalos con intervalos abiertos.
- Si vemos que por alguna de estas razones la media aritmtica no funciona
probaremos con la mediana. Sin embargo la mediana no podremos utilizarla
cuando el nivel de la variable sea nominal o la mediana se encuentre en el intervalo
abierto.
- Entonces, descartando las dos medidas anteriores, probaremos con la moda.
Aunque no podremos calcularla si la distribucin es amodal o el intervalo abierto
coincide con el intervalo modal.
2. MEDIDAS DE POSICIN
La medida de tendencia central buscaba un indicador para representar a un conjunto de
datos. En cambio, las medidas de posicin buscan un indicador para representar a un
sujeto o a un dato en particular.
Medidas de tendencia central: Nota media de un examen en una clase de 30 nios
Medidas de posicin: Qu nota debe sacar un alumno para superar al 50% de
compaeros?
Las medidas o ndices de posicin (tambin llamados cuantiles), informan acerca de la
posicin relativa de un sujeto con respecto a su grupo de referencia
Percentiles
Tambin llamados centiles, son los 99 valores de la variable que dividen en 100
partes iguales la distribucin de frecuencias.
Percentil k (Pk ): Es un valor de la variable de inters que deja por debajo de s un
porcentaje k de sujetos, donde k = 1,299
Ejemplo P40 = 25 (25 es la puntuacin en un examen)
Quiere decir que los sujetos con X= 25 estn por encima del 40% de los sujetos.
En los percentiles, la mediana coincide con el percentil 50 (es justo la mitad). Por esta
razn el percentil lo calcularemos a partir de las frmulas para la mediana.
Clculo de los percentiles
Utilizaremos la misma frmula que la mediana pero sustituyendo nk/100 en lugar de
n/2
Li = Lmite exacto inferior del intervalo crtico
n = Nmero de observaciones
nd = Frecuencia absoluta acumulada por debajo del intervalo crtico
nc = Frecuencia absoluta del intervalo crtico
I = Amplitud del intervalo
Ejemplo numrico en la pgina 78. Tenemos que tener en cuenta que lo primero que
hay
que hacer es hallar el intervalo crtico mediante la frmula (nk/100) a diferencia de
cmo lo hallbamos para la mediana que era mediante la frmula (n/2)
Aparte de hallar el valor de los percentiles, tambin puede ocurrir que ya tengamos un
valor y queramos saber qu posicin ocupa ese valor en la distribucin (es como lo de
antes pero al revs, es decir, antes tena una posicin y quera hallar un valor. Ahora
tengo un valor y quiero hallar una posicin. Por lo tanto la frmula cambia un poco.
N = 50
P75 = (El 75% de 50 observaciones es 37, 5); (k n / 100) (75 50 / 100) = 37, 5
P36 = Intervalo (91 96) P36 = 90, 5 + [(36 50 / 100) 15 / 16] 6 = 91, 625
P50 = Intervalo (91 96) P50 = 90, 5 + [(50 50 / 100) 15 / 16] 6 = 94, 25
P75 = Intervalo (97 102) P25 = 96, 5 + [(75 50 / 100) 31 / 11] 6 = 100
*NOTA IMPORTANTE:
La mejor forma de aprender a calcular deciles, cuartiles y percentiles es seguir estos dos
vdeos en You Tube:
http://www.youtube.com/watch?v=Ww0tPH_-31w
http://www.youtube.com/watch?v=iqTPaS32Iz8
Estadsticos de posicin
Para una variable discreta, se define el percentil de orden k, como la observacin, Pk,
Med= P50
Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como:
De forma anloga se definen los deciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ...,
D9 como:
2.5.0.1 Ejemplo
Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus
cuartiles.
xi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Solucin:
1.
Primer cuartil:
2.
Segundo cuartil:
3.
Tercer cuartil:
2.5.0.2 Ejemplo
Calcular los cuartiles en la siguiente distribucin de una variable continua:
li-1 - li ni Ni
0-1 10 10
1-2 12 22
2-3 12 34
3-4 10 44
4-5 7 51
n=51
Solucin:
1.
Primer cuartil
2.
Segundo cuartil:
3.
Tercer cuartil
2.5.0.3 Ejemplo
Han sido ordenados los pesos de 21 personas en la siguiente tabla:
Intervalos f.a.
li-1 -- li ni
38 -- 45 3
45 -- 52 2
52 -- 59 7
59 -- 66 3
66 -- 73 6
21
Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo nmero de
observaciones.
Solucin: Las cantidades que buscamos son los tres cuartiles: , y . Para
calcularlos, le aadimos a la tabla las columnas con las frecuencias acumuladas, para
localizar qu intervalos son los que contienen a los cuartiles buscados:
li-1 -- li ni Ni
38 -- 45 3 3
45 -- 52 2 5
52 -- 59 7 12
59 -- 66 3 15
66 -- 73 6 21
21
y se encuentran en
el intervalo 52--59, ya que
N3=12 es la primera f.a.a.
que supera a y
mayor que .
As se tiene que:
Obsrvese que . Esto es lgico, ya que la mediana divide a la distribucin en
dos partes con el mismo nmero de observaciones, y , hace lo mismo, pues es deja a
dos cuartos de los datos por arriba y otros dos cuartos por abajo.
2.5.0.4 Ejemplo
La distribucin de una variable tiene por polgono acumulativo de frecuencias el de la
figura 2.6. Si el nmero total de observaciones es 50:
1.
Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de
clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y
frecuencias relativa acumulada.
2.
Cuntas observaciones tuvieron un valor inferior a 10, cuntas inferior a 8 y
cuntas fueron superior a 11.
3.
Calcule las modas.
4.
Determine los cuartiles.
1.
En la siguiente tabla se proporciona la informacin pedida y algunos clculos
auxiliares que nos permitirn responder a otras cuestiones.
Intervalos ni Ni fi Fi xi ai
4.
Cuartiles:
Tema 3 de Anlisis de datos resumen
UNED
Curso 2012
MEDIDAS DE VARIABILIDAD
Sin embargo esta medida slo aporta datos de los valores extremos, pero no nos dice la
poca o mucha dispersin que pueda existir en el resto de valores.
Aunque supongo que a estas alturas todo el mundo lo sabr, pero estas frmulas estn
en la Addenda y nos dejan tenerla con nosotros durante el examen.
4. PUNTUACIONES TPICAS
Hasta ahora hemos visto puntuaciones directas (nota de un sujeto en un test), sin
embargo estas puntuaciones nos dan poca informacin ya que no sabemos si se trata de
un valor alto o bajo, ya que esto depende del promedio del grupo.
Sin embargo, dos puntuaciones diferenciales idnticas pueden tener un significado muy
diferente en funcin de la media y de la varianza de las distribuciones de las que
proceden.
Para solucionar este problema tenemos las puntuaciones tpicas que nos permiten no
slo comparar las puntuaciones de un sujeto en dos variables distintas sino tambin
comparar dos sujetos distintos en dos pruebas o variables distintas.
UNED
Curso 2012
Adems
Si dos variables cuantitativas estn relacionadas linealmente utilizaremos la recta de
regresin.
CONCEPTOS PREVIOS
Asociacin y/o relacin entre dos variables: Dos variables estn relacionadas entre s
cuando ciertos valores de una de las variables se asocian con ciertos valores de la otra
variable.
Se tratara de ver la diferencia entre las frecuencias empricas y las tericas. Hay que
comparar ambas tablas, pues (la tabla de frecuencias tericas se har con la frmula
indicada ut supra).
- Es importante quedarnos con el dato de que la suma de las filas y las columnas de esta
tercera tabla siempre es igual a 0, si sale otra cosa es que algo hemos hecho mal.
Una vez que tenemos la tabla debemos interpretarla: La interpretacin que hace el libro
se basa en analizar los valores positivos (8) como fuente de informacin. (parece ser
que los valores negativos no nos aportan informacin) .As tenemos un 8 en S-V y en
No-M. Por lo tanto concluiremos que los varones tienen mayor tendencia a padecer
estrs (S-V) y las mujeres tiene menos tendencia a padecer estrs (No-M).
Y ahora
Calculamos un estadstico X2
Para calcular el estadstico no hace falta informacin nueva, ya que extraemos todos los
nmeros de las tablas anteriores.
Sin embargo este estadstico nos da poca informacin porque desconocemos su lmite
superior. Slo sabemos que si nos da valor 0 no hay relacin entre las dos variables. Sin
embargo si nos da un valor cualquiera como por ejemplo 10,78 no sabemos que
interpretar ya que el lmite podra ser 20, 50 , 100 etc y lo desconocemos. Para resolver
este problema se calcula algo que s que sabemos sus lmites y es el ndice o
Coeficiente de Contingencia, C. (da valores entre 0 y 1)
Su aplicacin, por ende, una vez calculado chi cuadrado, es bien sencilla.
Para concluir:
Caractersticas del Coeficiente C
- Tiene valores entre 0 y 1
- Cuando C = 0 diremos que no existe relacin entre ellas
- C = 1 nunca se puede dar
- Cuanto mayor es C, mayor es la relacin entre las dos variables y viceversa
- Cuando utilicemos C para comparar la relacin entre dos variables cuyos datos
tenemos en dos tablas de contingencia diferentes, tenemos que vigilar que tienen el
mismo nmero de filas y de columnas. De lo contrario los valores de C no permiten una
comparacin vlida.
- Cuando existe un valor elevado de C, no podemos afirmar con rotundidad que una de
las variables es causa de la otra, ya que puede haber una tercera variable que est
relacionando a ambas.
- Cuando la tabla de contingencia tiene igual nmero de filas que de columnas, podemos
estimar un valor mximo que alcanzar C.
CORRELACIN ENTRE DOS VARIABLES CUANTITATIVAS
Una vez realizado el diagrama y tan slo observndolo, podemos decir que existe una
relacin lineal en las variables X e Y. Es decir, a valores mayores de X correspondern
valores mayores de Y y viceversa.
Una vez llegados a este punto calculamos 2 ndices que nos permiten ponerle nmeros a
todo esto que llevamos analizado:
Pero qu pasa cuando tenemos valores intermedios como por ejemplo 0,55?
En ese caso no podemos afirmar que ese valor indica correlacin alta o baja ya que
depender del tipo de datos que estemos analizando
- Ser baja si se trata de dos tests similares que estemos aplicando a los mismos sujetos
o si tenemos pocos sujetos
- Ser alta si se trata de tests bastante diferenciados o si tenemos muchos sujetos.
REGRESIN LINEAL
Fuente: http://www.vitutor.com/estadistica/bi/recta_regresion.html
Cuando existe relacin lineal podemos utilizar la recta de regresin para efectuar
pronsticos de los valores de una variable a partir de otra variable.
NOCIONES BSICAS DE
PROBABILIDAD
UNED
Curso 2012
-Los sucesos son los distintos resultados de un experimento aleatorio (subconjunto del
espacio muestral)
Tipos de sucesos:
_ Elementales o Simples (implican un solo resultado del espacio muestral E). Lanzar
un dado:
Obtener un tres (elemental o simple) A = {3}
_ Compuestos (implican dos o ms resultados del espacio muestral). Obtener un
nmero par
(compuesto) A = {2, 4, 6}
Los sucesos tambin se pueden clasificar atendiendo a las siguientes caractersticas:
_ Suceso Seguro _ Siempre se verifica (Lanzar un dado y obtener puntuacin menor
que siete)
_ Suceso imposible _ Nunca se verifica (conj. vaco ). (Lanzar un dado y obtener diez
puntos)
Ejemplo:
Lanzamiento de un dado............
DEFINICIN DE PROBABILIDAD
Los sucesos simultneos o compatibles son los que pueden ocurrir a la vez (ejemplo: ser
hombre y conducir) _ P (A U B) (conjunto vaco ).
Ejemplo: Una caja con 3 bolas azules o 3A y 3 bolas rojas o 3R, si no hay reposicin,
probabilidad de obtener roja en la primera extraccin= R1 y azul en la segunda= A2?
En el grfico se explica la aplicacin de la frmula.
Solucionario:
Tema 6 de Anlisis de datos resumen
DISTRIBUCIONES DISCRETAS DE
PROBABILIDAD
UNED
Curso 2012
Concepto de variable aleatoria = como una funcin que asigna un nmero real, y slo
uno, a cada uno de los resultados de un experimento aleatorio.
Varianza= sumatorio de cada uno de los valores que toma la variable menos su media
al cuadrado por su funcin de probabilidad.
Donde n es el nmero de ensayos y p la probabilidad de xito
Una forma mucho ms cmoda que la anterior de resolver el ejercicio es con las tablas:
En forma clsica sera:
DISTRIBUCIONES CONTINUAS DE
PROBABILIDAD
UNED
Curso 2012
Se tratara de manejar las tablas III y IV, previa transformacin de las puntuaciones
directas en tpicas: cmo se hace esta transformacin? La tipificacin consiste en
restar la media a una variable X y dividir su resultado por su desviacin tpica, y a
esta variable se llama Z (y as nos ahorramos el clculo integral). La distribucin de la
variable Z tiene media igual a 0 y varianza igual a 1, y esta propiedad se cumple
siempre.
Por ejemplo, hallar la probabilidad de que Z sea menor o igual que -0,25. Primero nos
vamos al valor 0, 2 y luego seguimos viendo hasta llegar al 0,05. El resultado es 0,4013.
Lo vemos grficamente junto con otro ejemplo, tenindose en cuenta que cuando se
buscan probabilidades de que Z sea mayor que... hay que restar la misma previamente
de 1, como detalla la imagen ut infra.
Obsrvese que si queremos hallar la probabilidad de Z est entre menos 0,25 y 0,5, hay
que calcular ambas probabilidades con la tabla y luego restarlas como indica la frmula
tercera de la imagen:
Para saber cuntos alumnos, pues hay 2500 en total, hay que multiplicar dicho total por
la proporcin resultante, en este caso, 0,5.
Es una puntuacin directa que deja por debajo de s el 75% de los casos, se resolvera de
este modo:
No vemos en la tabla directamente el 0,75, por tanto tenemos que buscar lo que ms se
acerque, o sea, el 0,7486 (mirando en el interior de la tabla damos con esta
probabilidad).
LA DISTRIBUCIN T DE STUDENT
La media y la varianza dependeran de los grados de
libertad..
ESTIMACIN
UNED
Curso 2012
Cuarto: se realiza un anlisis descriptivo de los datos para detectar errores y hacer una
descripcin detallada de la muestra.
MUESTREO: CLASES
DISTRIBUCIN MUESTRAL DE LA MEDIA, TEOREMAS:
Aspectos bsicos:
En la estimacin por intervalos hay que determinar el tamao mximo de la muestra con
carcter previo, lo vemos en este ejemplo:
Explicacin: Queremos saber tamao muestra para estimar por intervalos, error de
estimacin mximo 1segundo, desviacin tpica 3, y para un nivel confianza 0,95 Z =
1,96 segn la tabla IV y la nica incgnita sera N que hay que despejarla de la
ecuacin. N= 35. Eso significa= si extraemos una muestra de 35 nios, y les medimos el
tiempo de reaccin en una tarea de discriminacin, la estimacin del tiempo de reaccin
medio tendr un error mximo de 1 segundo para un nivel de confianza de 0,95.