Tema1 Descriptiva

Estad stica
Tema 1: Estad stica Descriptiva
Denici on 1 Poblaci on es cualquier conjunto de datos, objetivo de nuestro inter es, que caracteriza un fen omeno que nos interesa. Denici on 2 Muestra es un subconjunto de una poblaci on determinada. Interesan aquellas muestras que representan elmente a la poblaci on. En ocasiones se utilizan las palabras poblaci on y muestra para representar los objetos que se someten a medici on. Denici on 3 La Estad stica Descriptiva es la rama de la Estad stica dedicada a la recogida, recopilaci on y reducci on de unos datos a unas pocas medidas descriptivas y gr acos, permitiendo conocer las caracter sticas existentes en la poblaci on o conjunto de datos. Denici on 4 La Inferencia Estad stica tiene por objeto obtener conocimientos sobre ciertas poblaciones a partir de las observaciones relativas a una muestra. Su instrumento matem atico es el C alculo de Probabilidades.
Variables estad sticas
Se va a trabajar con conjuntos de datos asociados al car acter o caracter stica objeto de estudio, que denominaremos variable estad stica y se representar a por una letra may uscula: X, Y, Z,. . . A partir de ahora nos referiremos a los conjuntos de datos como variables. Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estad sticas apropiadas.
1.1
Tipos de variables
Las variables estad sticas pueden ser de dos tipos: ericos. Ejemplos: 1. Variables cualitativas o atributos: describen cualidades y no toman valores num Provincias espa nolas, pa ses de la U. E., nivel de estudios, meses del a no, clasicar una pieza como aceptable o defectuosa, . . . 2. Variables cuantitativas: toman valores num ericos. A su vez pueden ser: Discretas: S olo toman un n umero nito o innito numerable de valores distintos (generalmente n umeros naturales o enteros). Ejemplos: n umero de compras de un producto en un mes, el a no de fabricaci on de un veh culo, n umero de entradas de cine vendidas en un intervalo de tiempo, resultado de lanzar un dado, n umero de hijos,. . .
Estad stica
Continuas: Toman valores en un intervalo de IR. Generalmente corresponden a medir magnitudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente, el tiempo entre dos llamadas telef onicas, el tiempo de servicio o de operaci on de una m aquina, etc. Una caracter stica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisi on del instrumento de medida. Se va a suponer que el orden en que se recogen los datos es irrelevante. Cuando los datos se observan alisis requiere otras con una pauta ja (cada hora, semana, etc.), constituyen una serie temporal, y su an t ecnicas especiales, que tengan en cuenta que el orden de los datos inuye. A los distintos resultados que pueden presentar las variables estad sticas los denominaremos modalidades. Ejemplo: Si la caracter stica es el gusto, puede presentar cuatro modalidades: dulce, amargo, salado y acido. Si es el sexo: hombre y mujer.
1.2
Presentaci on de datos
La forma m as elemental de presentar los datos es por medio de una matriz en la que aparecen en la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o caracter sticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos. (Presentaci on t pica de hoja de c alculo) Ejemplo:
edad 21 19 19 18 20 . . . especialidad Estructuras Construcci on de Maqu. Construcci on de Maqu. Estructuras Construcci on de Maqu. . . . sexo mujer hombre hombre mujer hombre . . .
Individuo Individuo Individuo Individuo Individuo . . .
1 2 3 4 5
Normalmente se reserva el nombre de matriz de datos a la obtenida de la anterior, eliminando la primera columna. Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una matriz en la que cada valor corresponde a un individuo de la poblaci on. Ejemplo: Edades de 40 individuos encuestados:
12 36 11 16 33 17 23 34 11 14 16 23 37 13 26 23 15 24 40 26 39 36 17 34 26 32 26 39 18 31 23 17 19 14 35 33 24 31 29 18
Estad stica
1.3
Agrupaci on en clases
En ocasiones, y con objeto de facilitar la toma o presentaci on de datos cuantitativos, estos se agrupan en intervalos o clases. Por ejemplo, es m as sencillo anotar cu antos individuos hay en una muestra con una estatura entre 1.70 y 1.80, que anotar exactamente la estatura de todos. No obstante, siempre se producir a una p erdida de informaci on al agrupar los datos en intervalos, y dado que el uso de ordenadores y programas de c alculo suele ser corriente, se suelen tratar los datos sin agrupar salvo para algunos res umenes gr acos, cuando el n umero de valores distintos que toma una variable discreta sea grande, o cuando esta sea continua. La primera cuesti on que se nos plantea es elegir el n umero de clases y la longitud de cada clase. Si es posible, es recomendable que todas las clases tengan la misma longitud. En cuanto al n umero de clases, en general, se recomienda utilizar entre 5 y 20 o 25 clases, de forma que ninguna contenga menos de 5 datos. Existen distintos criterios, para determinar un n umero adecuado de clases, todos ellos en funci on del n umero de datos. Nosotros utilizaremos para obtener una aproximaci on al n umero de clases k a utilizar 10 la f ormula de Sturges donde k es el entero m as pr oximo a 1 + 3 log10 N siendo N el n umero de datos o individuos. Existen otros criterios, por ejemplo tomar k el entero m as pr oximo a N . En general, el n umero de clases debe ser sucientemente grande para que no se pierda excesiva informaci on, pero no tanto que se pierda la simplicidad de la representaci on. Las clases o intervalos en que se agrupen los datos deben cumplir: Ser disjuntas: un dato no puede estar en dos clases a la vez. Ser exhaustivas: es decir, abarcar todo el rango de posibles valores de la variable. Estar ordenadas de menor a mayor. En general, la forma de las clases que utilizaremos ser a: (L0 , L1 ], (L1 , L2 ], . . . (Lk1 , Lk ] Elementos asociados a las clases o intervalos: mites: Li1 , Li (l mite inferior y l mite superior, respectivamente). L Amplitud de la clase: bi = Li Li1 . Marca de la clase: ci = Li +2Li1 Observaci on 1 La marca de clase se considera el valor representativo de todos los valores de su intervalo. Por ello, deben elegirse los intervalos de forma que la marca s sea un valor representativo. Puede ocurrir que la marca de clase tenga m as cifras decimales que los datos (es decir, que no corresponda a un valor realmente observable) y lo mismo puede ocurrir con los l mites de clase. A veces, el primer y u ltimo intervalo, tienen respectivamente, el extremo inferior y superior indeterminados, con objeto de incluir observaciones poco frecuentes.
Estad stica
Ejemplo de agrupaci on en clases: Edades de 40 individuos encuestados:

12 36 11 16 33 17 23 34 11 14 16 23 37 13 26 23 15 24 40 26 39 36 17 34 26 32 26 39 18 31 23 17 19 14 35 33 24 31 29 18
Agrupaci on en clases:
Clases (10,15] (15,20] (20,25] (25,30] (30,35] (35,40] N o de datos 7 8 6 5 8 6
En este caso el n umero de clases es 6, los l mites son 10, 15, 20, 25, 30, 35 y 40; la amplitud en todas las clases es 5, y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.
Distribuciones univariantes
A partir de ahora, vamos a considerar que tenemos datos correspondientes a una sola variable estad stica, que denominaremos X . (Se corresponder a a tratar con una de las columnas de la matriz de datos ya vista). Denici on 5 Elementos que utilizaremos para resumir la informaci on que ofrecen nuestros datos: Se denomina frecuencia total al n umero total de individuos observados o n umero total de datos, N. Se denomina frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ), al n umero de individuos o n umero de datos que presentan esta modalidad, ni .
i Se denomina frecuencia relativa de la modalidad Mi (valor xi o intervalo Ii ), al cociente fi = n . N
Si la variable considerada es cuantitativa, se pueden denir adem as: Se denomina frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al n umero de individuos o n umero de datos, Ni , que presentan una modalidad menor o igual que esta; se dene n . como Ni = n1 + n2 + + ni = i j =1 j Se denomina frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al cociente: i Fi = N o Fi = f1 + f2 + + fi = i j =1 fj . N Denici on 6 Se dice que se ha dado la distribuci on de frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas) de la variable estad stica X si se dan las distintas modalidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas, respectivamente) de cada modalidad. En ese caso, hablaremos de datos agrupados por frecuencias.
Estad stica
La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa) y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas ( estas dos u ltimas, cuando tengan sentido).
Mi M1 M2 . . . Mk ni n1 n2 . . . nk fi f1 f2 . . . fk Ni N1 N2 . . . Nk = N Fi F1 F2 . . . Fk = 1
Propiedades 1 Propiedades de las tablas: k i=1
ni = N .
k i=1
fi = 1.
- Nk = N .
- Fk = 1.
- Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como porcentajes (tantos por ciento) de la siguiente forma: . 100fi % es el tanto por ciento de datos o individuos que est an en la modalidad Mi . . 100Fi % es el tanto por ciento de datos o individuos que est an en las modalidades M1 , M2 , . . . Mi . Tablas para datos agrupados: Cuando los datos aparecen agrupados por clases, se habla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias tienen la forma:
(Li1 Li ] (L0 , L1 ] (L1 , L2 ] . . . (Lk1 , Lk ] ci c1 c2 . . . ck ni n1 n2 . . . nk fi f1 f2 . . . fk Ni N1 N2 . . . Nk Fi F1 F2 Fk
En el ejemplo anterior:
(Li1 Li ] (10, 15] (15, 20] (20, 25] (25, 30] (30, 35] (35, 40] ci ni 12.5 7 17.5 8 22.5 6 27.5 5 32.5 8 37.5 6 fi Ni 0.175 7 0.200 15 0.150 21 0.125 26 0.200 34 0.150 40 Fi 0.175 0.375 0.525 0.650 0.850 1.000
Se observa c omo en este caso, la marca de clase puede no ser un valor posible de la variable, pero conserva su signicado de valor representativo de todos los datos del intervalo.
Estad stica
Observaci on 2 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para evitar ambig uedades: . Indicar la unidad de medida de cada variable. . Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretaci on es de falta de informaci on sobre la frecuencia del valor). . Escribir todos los datos con igual n umero de decimales.
Representaci on gr aca de variables estad sticas unidimensionales
La representaci on gr aca de una distribuci on de frecuencias va a depender del tipo de variable considerada.
3.1
Representaci on gr aca de variables cualitativas y de variables cuantitativas con pocos valores distintos
Para ilustrar las principales representaciones gr acas, vamos a utilizar los datos del tipo de veh culos:
TIPO deportivo furgoneta gran turismo monovolumen peque no tama no medio frecuencias 14 9 11 16 21 22
Diagrama de barras. Esta representaci on gr aca consiste en construir tantos rect angulos como modalidades presente la variable cualitativa en estudio, todos ellos con base de igual amplitud (la que sea) y la altura se toma proporcional a la frecuencia absoluta o relativa (seg un cu al estemos representando), obteniendo rect angulos con areas proporcionales a las frecuencias que se quieran representar.
Diagrama de Pareto. Es un diagrama de barras en el que los rect angulos se presentan en orden decreciente de altura. Se utilizan para variables cualitativas y son muy frecuentes en control de calidad y procesos, donde las alturas de los rect angulos a menudo representan frecuencias de problemas en el proceso de producci on. Como los rect angulos est an dispuestos en orden decreciente por altura, resulta f acil identicar las cuestiones que presentan mayor n umero de problemas.
Estad stica
Diagrama de sectores. Esta representaci on consiste en dividir un c rculo en tantos sectores circulares como modalidades presente la variable cualitativa, donde cada sector circular tendr a un area proporcional a la frecuencia absoluta (o relativa).
3.2
Representaci on gr aca de variables cuantitativas que toman muchos valores distintos
Histograma. Es la representaci on gr aca m as frecuente y se realiza a partir de una agrupaci on de los datos en intervalos. Consiste en un conjunto de rect angulos construidos de la siguiente forma: - Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los l mites de las clases sobre la escala. - Como eje vertical, tiene una escala de alturas. Sobre cada clase se eleva un rect angulo tal que su area Ai = basealtura = (Li Li1 )hi sea proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, ni ; entonces, despejando tenemos que la ni altura es hi = L . L
i i1
Ejemplo: En el ejemplo de las edades de 40 individuos:
Estad stica
Ejemplo: El siguiente ejemplo corresponde a clases no equiespaciadas: Si la distribuci on de la variable es: (Li1 Li ] ci ni (1.5, 3.5] 2.5 3 5 4 (3.5, 6.5]
un histograma correcto tendr a un primer rect angulo de altura 3 angulo de altura 2 y un segundo rect 4 onde es un n umero real positivo cualquiera. Por ejemplo, para = 6, el histograma ser a: 3 , d
9 8
1.5
3.5
6.5
Pol gono de frecuencias acumuladas. Se construye de la siguiente forma: -Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre el se marcan los l mites de las clases. - La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas). En este plano, partiendo desde el punto sobre el eje OX que corresponde al l mite inferior del primer intervalo, se sit uan los pares formados por el l mite superior de clase y la correspondiente frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una gr aca creciente, que termina en una meseta de altura N, si se utilizan frecuencias acumuladas absolutas, o altura 100 si se utilizan porcentajes acumulados. Esta gr aca se conoce como ojiva de frecuencias.
Estad stica
Diagrama de tallo-hojas. (Stem and leaf) Se trata de un procedimiento semi-gr aco de presentar la informaci on de variables cuantitativas, u til cuando el n umero de datos es peque no (menor que 50), aunque con los ordenadores es posible utilizarlo con m as datos. Los pasos para su construcci on son: 1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras signicativas y ordenarlos de menor a mayor. nea como sigue: 2. Colocarlos en una tabla con dos columnas separadas por una l - Para los datos con dos d gitos, escribir a la izquierda de la l nea los d gitos de las decenas (que forman el tallo) y a la derecha los de las unidades (que forman las hojas). - Para datos con tres d gitos, el tallo estar a formado por las centenas y decenas, escritos a la izquierda, y las hojas ser an las unidades. 3. Cada tallo dene una clase y se escribe una sola vez; el n umero de hojas representa la frecuencia de la clase correspondiente al tallo. Ejemplo: Para el ejemplo de las edades, el diagrama de tallo-hojas ser a:
15 (11) 14 1 1 2 3 4 1 3 1 0 1 3 1 2 3 2 3 3 3 4 4 3 4 4 4 5 6 4 6 6 5 6 6 6 7 6 6 7 9 7 7 9 8 9 8 9
Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor), hasta llegar al tallo en el que se encuentra el valor que ocupa la posici on central; en este tallo, el valor aparece entre par entesis e indica solo la frecuencia de ese tallo. on del diagrama, para una cantidad numerosa de datos, Observaci on 3 Para facilitar la construcci puede ser conveniente escribir en primer lugar un diagrama desordenado anotando los tallos y las hojas sin ordenar de menor a mayor, y a partir de esta primera aproximaci on, construir el diagrama.
Estad stica
10
A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5, las 6 y 7 y, por u ltimo, las 8 y 9; por ejemplo:
6 15 (6) 19 14 7 1 1 1 2 2 3 3 4 1 5 3 6 1 5 0 1 6 3 6 1 6 2 6 3 6 2 6 3 7 3 6 3 7 4 7 4 9 3 9 4 7 4 4 9 8 8 9
Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma correspondiente.
Medidas caracter sticas de una distribuci on unidimensional
Vamos a denir en esta secci on algunos valores num ericos que proporcionan informaci on sobre c omo se distribuye un conjunto de datos homog eneo. Estas medidas adem as, permiten comparar distribuciones y en la tercera parte de la asignatura nos ser an de utilidad para obtener conclusiones sobre la poblaci on cuando se trabaja con una muestra. Algunos de estos valores dependen de la posici on de los datos, cuando se ha ordenado estos de menor a mayor; denotaremos por x(i) el dato que ocupa el lugar i- esimo una vez ordenados los datos de esta forma.
4.1
Medidas de posici on o localizaci on
Proporcionan uno o varios valores en torno a los cuales tienden a agruparse los datos. Entre ellas destacaremos las medidas de tendencia central. 1. Medidas de tendencia central. Vamos a estudiar tres: media aritm etica, mediana y moda. Media o media aritm etica. Denici on 7 Si x1 , . . . , xN son los datos directos de la variable, se dene la media como: x =
N xi i=1
Observaci on 4 Si los datos vienen dados por medio de una tabla de frecuencias:
xi x1 x2 . . . xk ni n1 n2 . . . nk fi f1 f2 . . . fk
k i=1
entonces x =
k xi n i i=1
xi fi
Estad stica
11 Propiedades 2 (a) La media es el valor que equilibra las desviaciones positivas y negativas de los datos directos respecto a su valor:
N 1
(xi x ) = 0. En ese sentido, se la puede considerar
como centro de gravedad o centro geom etrico de los datos. (b) Utiliza toda la informaci on contenida en los datos (pues utiliza todos los datos). Mediana. Denici on 8 Llamaremos mediana y la denotaremos por Me al valor num erico que verica que ordenados los datos de menor a mayor, el 50% son menores o iguales que este valor y el 50% son mayores o iguales. C alculo de la mediana: Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de menor a mayor. Si el n umero de datos, N , es par, el valor mediana es (N/2) 2((N/2)+1) , mientras que si el n umero de datos es impar, el valor mediana es x((N +1)/2) , supuestos los datos ordenados de menor a mayor. Moda. Denici on 9 La moda, se dene como el valor o los valores m as frecuentes de la variable, es decir, a los que corresponde la mayor frecuencia. Cuando los datos est an agrupados por clases, no puede determinarse qu e valor es la moda; en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el histograma (que no tiene porqu e coincidir con la clase de mayor frecuencia). Comparaci on entre las medidas de tendencia central Como ya hemos se nalado al denirla, la media es una medida que utiliza toda la informaci on disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese sentido, menos informativa, pues s olo tiene en cuenta la posici on y no el valor. Por esa misma raz on, la media es muy sensible a valores extremos. Por ello, un error en los datos puede modicarla por completo. Ejemplo: Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo. Si los datos correctos hubiesen sido 10, 15, 21, 20, la media ser a 16.5. Sin embargo, la mediana queda menos afectada por ese dato extremo: en el primer caso ser a 18 y en el segundo, 17.5. a dividido en subgrupos, por ejemplo, los individuos Observaci on 5 A veces, el conjunto de datos est de una clase divididos en hombres y mujeres, y se conoce la media de una caracter stica en cada subgrupo. A partir de esta informaci on se puede obtener la media del conjunto total de datos: si x 1 , x 2 , . . . , x s son las medias en s subgrupos (disjuntos) con n1 , n2 , . . . , ns individuos cada uno, la media total ser a: n1 x 1 + n2 x 2 + . . . + ns x s x = n1 + n2 + . . . + ns
x +x
Estad stica
12
2. Otras medidas de posici on: Percentiles. Denici on 10 Para cada valor p (0, 1), se denomina p-cuantil, y tambi en percentil 100p, y se denota por qp , al valor de la variable que divide a la distribuci on de frecuencias en dos partes, de forma que al menos el 100p% de los datos son menores o iguales que qp . C alculo de los percentiles:

x([pN ]+1) 2
si pN no es entero si pN es entero,
qp =
x(pN ) + x(pN +1)
donde [pN ] denota la parte entera de pN . Denici on 11 Se denominan cuartiles a los percentiles que dividen a la distribuci on en 4 partes iguales, es decir, - el percentil 25, llamado primer cuartil, y denotado por Q1 . - el percentil 50, que es la mediana. Se denota, tambi en, por Q2 . - el percentil 75, llamado tercer cuartil, y denotado por Q3 . Denici on 12 Se denominan deciles a los percentiles que dividen a la distribuci on en 10 partes iguales. Se denotan por d1 , d2 , . . . , d9 , siendo di = q i , esto es, el percentil 10i, para i = 1, 2, , 9.
10
Observaci on 6 A veces solo disponemos de la informaci on de los datos agrupados en clases y no el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando como valor qp el valor del eje X en el que el pol gono de frecuencias relativas acumuladas tiene por altura p: Si F1 , F2 , . . . , Fk son las frecuencias relativas acumuladas de las clases en que se agrupan los datos, existe i {1, 2, . . . k } con Fi1 p < Fi . ( Se considera F0 = 0). El percentil 100p ser a: qp = Li1 + p Fi1 bi fi
4.2
Medidas de dispersi on
Estas medidas indican lo pr oximos o alejados que est an los datos, bien entre s , o respecto a alguna medida de centralizaci on. Rango o recorrido. Denici on 13 Si x(1) , x(2) , . . . , x(k) son los datos, ordenados de menor a mayor, se denomina recorrido a x(k) x(1) , es decir, a la diferencia entre el mayor y el menor dato. El recorrido es f acil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en control de calidad. Adem as tiene id enticas unidades que la variable. Sin embargo, presenta el inconveniente de ser una medida muy sensible a valores extremos.
Estad stica
13
Varianza. Denici on 14 Se dene la varianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2 , al valor: s2 =
N (xi x )2 i=1
N (1
x2 2 i x
i=1
Observaci on 7 Si los datos vienen dados por medio de una tabla de frecuencias, entonces s2 =
k (xi x )2 ni i=1
k i=1
(xi x )2 fi
La varianza tiene en cuenta todos los datos, es f acil de calcular, pero no tiene las mismas unidades que la variable; este inconveniente se salva considerando su ra z cuadrada, que se denomina desviaci on t pica. Observaci on 8 Por razones que veremos m as adelante, en muchos casos se utiliza otra medida, llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades que la varianza. Se dene la cuasivarianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2 c al valor: s2 c =
N (xi x )2 i=1
N 1
Notar que N s2 = (N 1) s2 c , y que si N es grande, la diferencia entre ambas medidas (varianza y cuasivarianza) es peque na. Observaci on 9 En muchos programas de software estad stico, se llama varianza a la cuasivarianza (entre ellos el programa de Statgraphics). Desviaci on t pica. Denici on 15 Se dene la desviaci on t pica o est andar de los datos directos x1 , x2 , . . . , xN , y se denota por s, al valor: s =
N (xi x )2 i=1
Observaci on 10 Si los datos vienen dados por medio de una tabla de frecuencias, entonces s =
k (xi x ) 2 ni i=1
k i=1
(xi x )2 fi
en la cuasidesviaci on t pica como: Observaci on 11 Se dene tambi

N (xi x )2 i=1
sc =
N 1
Estad stica
14
La desviaci on est andar se expresa en las mismas unidades que la variable, dando una idea m as precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente. stica y k IR con k 1. Teorema 1 (Desigualdad de Chebychev) Sea X una variable estad 1 Entonces, en el intervalo [ x ks, x + ks] se halla m as del (1 k2 )100% de las observaciones. (Expres andolo de otra forma: la frecuencia relativa del intervalo [ x ks, x + ks] es mayor que (1 k12 ).) Demostraci on: Vamos a denotar por fr la frecuencia relativa de un conjunto de datos y por x1 , x2 , . . . , xN los valores directos de la variable X. Sean A1 = {xi : |xi x | > ks} y A2 = {xi : |xi x | ks}. A partir de la denici on de varianza, se obtienen las siguientes desigualdades: s2 =
N (xi x )2 i=1
(xi x )2
xi A1
N
(ks)2
(xi x )2
xi A2
(xi x )2
xi A1
>
xi A1
= (ks)2 fr (A1 )
Despejando, fr (A1 ) < k2 . Como fr (A1 ) + fr (A2 ) = 1, se tiene que fr (A2 ) = fr ({xi : |xi x | ks}) > 1 1 k2
y teniendo en cuenta la interpretaci on de la frecuencia relativa como tanto por ciento, se obtiene el resultado. Observaci on 12 Tomando k = 2, en el intervalo [ x 2s, x + 2s] se encuentra como m nimo el 75% de los datos. Tomando k = 3, en el intervalo [ x 3s, x + 3s] se encuentra como m nimo el 89% de los datos. Rango intercuart lico. Denici on 16 Se dene el rango intercuart lico, y se denota por IQR, a: IQR = Q3 Q1 . El rango intercuart lico es una medida de dispersi on utilizada en relaci on con la mediana e indica la dispersi on del 50% central de los datos.
Estad stica
15
4.3
Medidas de posici on y de variaci on utilizadas para comparar conjuntos de datos
Valores o puntuaciones z Los valores z indican la posici on relativa de un dato, respecto del conjunto. Denici on 17 Se dene el valor z del dato xi como el valor zi =
xi x s .
Nos indica cu antas desviaciones t picas se aleja el dato respecto del valor de la media. on. Coeciente de variaci Denici on 18 Para datos todos positivos o todos negativos, se dene el coeciente de variaci on de Pearson de la variable estad stica X como: CV = s . |x |
Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los datos en relaci on al tama no de su media ( no es lo mismo una variabilidad de 200 euros en ganacias del orden de 1000 euros, que en ganancias del orden de 1 mill on). Por ello, es la medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos. Se puede interpretar el CV como el promedio del error de medida.
4.4
Otras caracter sticas observables de una distribuci on de datos
1. Asimetr a. Diremos que una distribuci on es sim etrica si al considerar la representaci on gr aca de la distribuci on de frecuencias y trazar una perpendicular al eje de abcisas por x ocurre lo siguiente: Hay el mismo n umero de valores a ambos lados de la perpendicular, equidistantes de x dos a dos y tales que cada par de valores equidistantes a x tienen la misma frecuencia. En este caso, la mediana coincide con x . Las medidas de asimetr a existentes son v alidas para las denominadas distribuciones con forma de campana o campaniformes (distribuciones unimodales sim etricas o con cierta asimetr a) y para las distribuciones en forma de U. Indicar que las distribuciones en forma de campana son las m as usuales. Cuando la distribuci on de los datos es campaniforme, las distribuciones asim etricas se clasican en distribuciones asim etricas con cola a la derecha y distribuciones asim etricas con cola a la izquierda; el valor de x M e proporciona informaci on del tipo de asimetr a:
asimetr a a la derecha
sim etrica
asimetr a a la izquierda
Estad stica
16
2. Apuntamiento o curtosis. Llamamos curtosis o apuntamiento al grado de concentraci on de los datos alrededor de la media. Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesario denir previamente una distribuci on tipo, que vamos a tomar como modelo de referencia. Esta distribuci on va a ser la llamada distribuci on normal, que corresponde a fen omenos muy corrientes en la naturaleza y cuya representaci on gr aca es una campana de Gauss, dada por la f ormula:
2 1 (x) 1 f (x) = e 2 2 , 2 donde y son respectivamente la media y la desviaci on t pica.
A esta distribuci on se le llama normal porque se presenta en numerosos casos, e implica que la mayor a de los valores de la variable est an cerca de la media, y aquellos que se encuentran muy distanciados de ella, a ambos lados, son poco numerosos. Tomando esta distribuci on como referencia diremos que una distribuci on puede ser m as apuntada que la normal, es decir, leptoc urtica o menos apuntada, es decir, platic urtica. A la distribuci on normal, desde el punto de vista de la curtosis, se le llama mesoc urtica
platic urtica
mesoc urtica
leptoc urtica
En denitiva, aqu lo que se estudia es la deformaci on, en sentido vertical, respecto de la normal, de una distribuci on.
Diagramas de caja o Box-Plot
Este tipo de diagramas son una representaci on semigr aca de la distribuci on, que permite observar las caracter sticas principales de la distribuci on y detectar posibles valores at picos. Son especialmente u tiles para comparar la distribuci on de una variable en distintas poblaciones. Se ha pospuesto su estudio hasta ahora pues para su construcci on son necesarias algunas de las medidas caracter sticas de la distribuci on, denidas en el apartado anterior. Construcci on del Box-Plot Los pasos para su construcci on son: 1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1 , Q2 y Q3 . Se obtienen tambi en otros mite superior (LS), dados por: dos valores, llamados l mite inferior (LI) y l LI = Q1 1.5IQR LS = Q3 + 1.5IQR
Estad stica
17
2. A continuaci on se sit uan en un eje graduado estos 5 valores y tomando como base el segmento [Q1 , Q3 ] se dibuja un rect angulo con altura arbitraria; en el se indica la posici on de la mediana, mediante una l nea vertical que divida al rect angulo. 4. Desde el centro de los lados verticales del rect angulo se dibujan sendas l neas hasta el menor dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos m as extremos del intervalo [LI , LS]). 5. Los datos que queden fuera del intervalo [LI , LS] se marcan con un punto o un asterisco, a la altura de las dos l neas dibujadas. Se denominan datos at picos y se clasican en pr oximos y lejanos, seg un est en en [Q1 3 IQR , Q3 + 3 IQR] o a un m as alejados. Ejemplo: Para los datos de la edad, los cinco valores son: Q1 = 17, Q3 = 33, Me = 24, LI = 7 y LS = 57, y el gr aco:
Ejemplo: distancia de frenado en metros, en autom oviles conducidos sobre una pista h umeda (mismo autom ovil y velocidad en todos los casos). 35.8 39.2 35.3 40.1 30.5 41.9 37.3 36.1 35.9 38.6 35.6 37.0 41.6 39.2 38.0 39.5 35.9 37.3 36.7 38.3
Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35.9, Q3 = 39.2, Me = 37.3, LI = 30.95 y LS = 44.15, y el gr aco:
Estad stica
18
Observaci on 13 El Box-Plot permite ver f acilmente caracter sticas como asimetr a, apuntamiento, variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco inuenciables por datos extremos, proporciona en general una imagen adecuada de la distribuci on. Tambi en permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos. Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en un conjunto de veh culos subdivididos en cuanto al tipo de veh culo. Es f acil observar en el gr aco, por ejemplo, que las furgonetas son las que presentan menor variabilidad y los de tama no peque no son los de mayor variaci on.
Datos at picos en distribuciones univariantes
Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o peque nos. Pueden ser datos reales, como una puntuaci on de 10 en un examen en el que la mayor a de las puntuaciones est an entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de individuos con estaturas normales. Tambi en en ocasiones, aparecen como consecuencia de haber registrado de forma incorrecta un dato. No existe un criterio u nico para determinar qu e datos son o no at picos; dos de los criterios m as usuales son: El proporcionado por el diagrama de caja: considerar como at picos todos los datos fuera del intervalo [LI , LS]. En el ejemplo de la distancia de frenado, ser a el dato 30,5. El criterio de 3s: considerar como at pico todo dato que se aleje m as de 3s de la media de los datos (recordar que seg un la desigualdad de Chebysev, al menos el 88.89% de los datos est a en el intervalo [ x 3s, x + 3s]). En el ejemplo de la distancia de frenado, con este criterio no existir an datos at picos.
Transformaciones de una variable
El objetivo de la descripci on de datos es obtener una visi on lo m as clara posible de los datos, por ello, en muchas ocasiones ser a necesario hacer traslaciones o cambios de escala para obtener datos lo m as simples y manejables posible. En otras ocasiones, como los principales m etodos estad sticos son aplicables s olo a distribuciones sim etricas, nos interesar a transformar unos datos asim etricos en otros que no lo sean tanto. Vamos a distinguir entre dos tipos de transformaciones: Transformaciones lineales: Son del tipo Y=aX+b, con a, b IR; a = 0, es decir, traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posici on y dispersi on, pero no var an la forma de la distribuci on: si x1 , . . . , xN son los datos directos de la variable X, sus transformados ser an los datos y1 , . . . , yN , con yi = axi + b.
Estad stica
19 1. y = ax + b. y =
N yi i=1
Propiedades 3 En efecto:
N axi + b i=1
= a
2 2 2. s2 Y = a sX
N xi i=1
+ b = ax +b
En efecto: s2 Y =
N ( yi y )2 i=1
N (axi + b (ax + b))2 i=1
N
N (xi x )2 i=1
= a2 3. sY = |a| sX 4. Me (Y ) = a Me (X ) + b
= a2 s2 X
En efecto, si a > 0, los datos conservan su orden y por tanto, la mediana de la variable X se transforma en la mediana de la variable Y. Si a < 0, entonces los datos invierten su orden, pero entonces, la transformada de la mediana sigue dejando un 50% de los datos a cada lado. 5. Si a > 0 entonces Q1 (Y ) = a Q1 (X ) + b y Q3 (Y ) = a Q3 (X ) + b. a Q3 (X ) + b y Q3 (Y ) = a Q1 (X ) + b. (Se razona de igual forma que en la propiedad anterior). 6. M oda(Y ) = a M oda(X ) + b 7. IQR(Y ) = |a| IQR(X ). Transformaciones no lineales 1 Las transformaciones no lineales m as usuales son: Y = X 2 , Y = X , Y = ln X e Y = X . Producen, adem as de cambios en la posici on y dispersi on, cambios en la forma. Se utilizan principalmente para promover simetr a. Si a < 0 entonces Q1 (Y ) =
Estad stica Descriptiva Bivariante
Se va a estudiar la situaci on en la que los datos representan observaciones, correspondientes a dos variables o caracteres, efectuadas en los individuos de una determinada poblaci on. Su estudio conjunto nos va a permitir determinar las relaciones entre ellas. Ambas variables pueden ser cuantitativas, una cualitativa y la otra cuantitativa, o las dos cualitativas. Vamos a denotar por X e Y las variables estad sticas objeto de estudio; A1 , A2 , .., Al ser an las modalidades de la variable X , B1 , B2 , ..., Bk las modalidades de la variable Y . El par (xi , yi ) denotar a, en general, el valor de las variables X e Y sobre el elemento i- esimo de la poblaci on.
Estad stica
20
8.1
Tablas de doble entrada
Una primera forma de resumir la informaci on contenida en los datos es por medio de tablas de frecuencias. Denici on 19 i. Se denomina frecuencia total al n umero total de individuos observados o n umero total de datos, N. ii. Se denomina frecuencia absoluta del par (Ai , Bj ), al n umero de individuos, nij , de entre los N , que poseen la modalidad Ai de X , y la modalidad Bj de Y a la vez. iii. Se denomina frecuencia relativa del par (Ai , Bj ), al cociente fij = N . Denici on 20 Se dice que se ha dado la distribuci on conjunta de las variables estad sticas X e Y si se dan las modalidades de las variables y las correspondientes frecuencias (absolutas o relativas) con que aparece cada par. La forma de dar estos valores es por medio de tablas en las que aparecen las distintas modalidades de las variables (ordenadas de menor a mayor, si la variable es cuantitativa). En la tabla pueden aparecer frecuencias relativas en lugar de absolutas y en ocasiones, se indican ambas. X\Y A1 A2 . . . Al
nij
B1 n11 n21 . . . nl 1
B2 n12 n22 . . . nl 2
... ... ... .. . ...
Bk n1k n2k . . . nlk N
Si las dos variables X e Y son cualitativas, la tabla correspondiente recibe el nombre de tabla de contingencia. Propiedades 4
l k i=1 j =1
1.
l k i=1 j =1
nij = N
2.
fij = 1
Ejemplo: Distribuci on de alumnos de 2o de I.T.I. por titulaci on y sexo:
Estad stica Titulaci on\Sexo El ectrico Electr onico Mec anico Qu mico Hombre 27
27 285
21
Mujer 5
5 285
85
85 285
22
22 285
90
90 285
23
23 285
19
19 285
14
14 285
285 1
8.2
Distribuciones marginales
A partir de una distribuci on conjunta de dos variables es posible estudiar la distribuci on de cada una de las variables aisladamente (es decir, independientemente de los valores que tome la otra variable). Los valores de las frecuencias para las variables X e Y se obtienen a partir de la tabla conjunta, anotando en los m argenes de la tabla la suma de los valores de cada la y de cada columna: X\Y A1 A2 . . . Al
B1 n11 n21 . . . nl 1 n.1
B2 n12 n22 . . . nl 2 n.2
... ... ... .. . ... ...
Bk n1k n2k . . . nlk n.k n1. n2. . . . nl. N
Propiedades 5 1. Las frecuencias relativas y absolutas, respectivamente, de la modalidad Ai de la variable X son: fi. =
k
fij
ni. =
nij
j =1
j =1
2. Las frecuencias relativas y absolutas, respectivamente, de la modalidad Bj de la variable Y son: f.j =

l i=1
fij
n.j =
l i=1
nij
Observaci on 14 Las distribuciones marginales de X e Y son distribuciones univariantes; en este sentido, puede aplic arseles todo lo estudiado en el tema anterior. En particular, si son variables cuantitativas, tendr an asociada media, varianza, etc. Ejemplo: Distribuci on de alumnos de 2o de I.T.I. por titulaci on y sexo:
Estad stica Titulaci on\Sexo El ectrico Electr onico Mec anico Qu mico Hombre 27
27 285
22
Mujer 5
5 285
32
32 285
85
85 285
22
22 285
107
107 285
90
90 285
23
23 285
113
113 285
19
19 285
14
14 285
33
33 285
221
221 285
64
64 285
285 1
La distribuci on marginal de Titulaci on es:

Titulaci on Frecuencia Frecuencia relativa El ectrico 32
32 285
Electr onico 107

107 285
Mec anico 113

113 285
Qu mico 33
33 285
Y la de Sexo:
Sexo Frecuencia Frecuencia relativa Hombre 221
221 285
Mujer 64
64 285
8.3
Distribuciones condicionadas
Denici on 21 Se dene la distribuci on condicionada de Y cuando X = Ai (respectivamente, de X condicionada a Bj ) , que se denota por Y /(X = Ai ) (respectivamente X/(Y = Bj )) como la distribuci on de la variable Y (respectivamente X) sobre los elementos de la poblaci on que tienen la caracter stica Ai (respectivamente, Bj ). Observaci on 15 Un aspecto importante de las distribuciones condicionadas es que la poblaci on objeto de estudio no es la misma que la de partida. Los valores de las frecuencias para la variables Y /(X = Ai ) y X/(Y = Bj ) se obtienen a partir de la tabla conjunta: Las frecuencias absolutas de la variable Y cuando X = Ai son las de la l nea correspondiente a Ai . Las frecuencias relativas de la variable Y cuando X = Ai son: fj/i = f (Bj /(X = Ai ))). En efecto, fj/i = n = n /N = f i. i. i.
nij nij /N fij
f ij fi.
(tambi en se representan por
Las frecuencias absolutas de la variable X cuando Y = Bj son las de la columna correspondiente a Bj . Las frecuencias relativas de la variable X cuando Y = Bj son: fi/j = por f (Ai /(Y = Bj ))).
fij f.j
(tambi en se representan
Estad stica
23
Ejemplo: La distribuci on condicionada de Titulaci on a Mujer es:

Titulaci on/(Mujer) Frecuencia Frecuencia relativa El ectrico 5
5 64
Electr onico 22
22 64
Mec anico 23
23 64
Qu mico 14
14 64
Y la de Sexo a Mec anico:

Sexo/(Mec anico) Frecuencia Frecuencia relativa Hombre 90
90 113
Mujer 23
23 113
Proposici on 1 Dadas las distribuciones condicionadas de la variable X a cada modalidad de la variable Y, y dada la distribuci on marginal de Y (respectivamente, de Y a cada modalidad de X, y la marginal de X), queda determinada la distribuci on conjunta de (X,Y). En efecto, basta observar que fij = fi/j f.j = fj/i fi. . sticas X e Y son estad sticamente independientes si se verica: Denici on 22 Se dice que las variables estad fi/j = fi. para i = 1, 2, . . . , l, j = 1, 2, . . . , k . Se dice que dos modalidades Ai y Bj son estad sticamente independientes si se verica: fi/j = fi. La denici on anterior signica que la distribuci on de la variable X no depende de los valores que tome la variable Y, y rec procamente. Proposici on 2 Las siguientes condiciones son equivalentes: 1. Las variables estad sticas X e Y son independientes, 2. fij = fi. f.j , para i = 1, 2, . . . , l, j = 1, 2, . . . , k . 3. fj/i = f.j para i = 1, 2, . . . , l, j = 1, 2, . . . , k. Ejemplo: Variables no independientes: X\Y B1 B2 B3 A1 A2 A3
1 3
Variables independientes: X/Y B1 B2 B3 A1 A2 A3

1 9 1 9 1 9 1 3 1 9 1 9 1 9 1 3 1 9 1 9 1 9 1 3 1 3 1 3 1 3
0
1 3
0 0
1 3
0 0
1 3 1 3
0
1 3
1 3 1 3 1 3
Estad stica
24
Representaciones gr acas de las distribuciones bidimensionales de frecuencias
Las distribuciones marginales y condicionadas son distribuciones unidimensionales, como ya se ha indicado y, por tanto, sus representaciones gr acas se ajustar an a las vistas en la secci on de distribuciones unidimensionales de frecuencias. Se van a considerar s olo representaciones gr acas de distribuciones bidimensionales: Diagrama de Mosaico. Sobre el eje Y se representan las modalidades de una de las variables y sobre cada una se levanta un rect angulo con area proporcional a la frecuencia marginal de la modalidad. Cada rect angulo se subdivide en subrect angulos de base proporcional a la frecuencia condicionada de cada valor de la otra variable a esta modalidad. De esa manera se da tambi en una imagen gr aca de la distribuci on conjunta de ambas variables (proporcionada por el area de cada subrect angulo). En el ejemplo de la distribuci on de alumnos por titulaci on y sexo:
Diagramas de barras. Se utiliza para representar la distribuci on cuando ambas variables tienen pocas modalidades. Consiste en dibujar para cada par (Ai , Bj ) una barra de longitud proporcional a la frecuencia (relativa o absoluta). Las barras se pueden disponer de diversas formas. Damos dos ejemplos:
Histograma tridimensional. Se utiliza para representar la distribuci on cuando ambas variables son continuas y agrupadas en intervalos. Consiste en representar las clases de cada variable en un plano y levantar sobre cada rect angulo un paralelep pedo de volumen proporcional a la frecuencia relativa o absoluta. Si los rect angulos base de todas las clases son iguales, los paralelep pedos que se levantan, y que tienen que vericar que su volumen sea proporcional a la frecuencia de la clase, tendr an como altura un valor proporcional a las frecuencias (relativas o absolutas).
Estad stica
25
Diagrama de dispersi on o nube de puntos. Se utiliza para variables cuantitativas sin agrupar en clases y en las que no existen pares de valores repetidos. Consiste en representar cada par de puntos (xi , yj ) en un plano. Permite obtener tambi en una representaci on gr aca de las distribuciones marginales de X e Y, si se proyectan los puntos sobre cada eje (se obtiene as el diagrama de puntos para cada variable). En el siguiente gr aco est an representados, para una poblaci on de cereales de uso com un en el desayuno, el contenido de carbohidratos y de calor as para 100gr de producto:
10
Dependencia lineal
Una de las formas de dependencia de m as inter es entre variables continuas es la dependencia lineal, por varias razones: En muchos problemas pr acticos la relaci on entre las variables es lineal. un cuando la relaci on no sea lineal, frecuentemente es linealizable, mediante transformaciones. A Si el rango de valores es peque no, la aproximaci on lineal puede ser v alida. Vamos a introducir a continuaci on medidas de la relaci on lineal entre las variables: 1. Covarianza. Denici on 23 Sea (X, Y ) una distribuci on bidimensional, se dene la covarianza de (X,Y) y se representa por Cov(X,Y) o sXY como: Cov(X,Y) =
l k i=1 j =1
(xi x ) (y j y ) fij
Observaci on 16 La f ormula anterior es v alida cuando se tiene la distribuci on de frecuencias de (X, Y ). Si lo que se tiene son los N pares de datos en la forma (xi , yi ) i = 1, 2, . . . , N la expresi on anterior queda de la forma: N (xi x )(yi y ) Cov(X,Y) = N i=1
Estad stica
26
Si los datos est an agrupados en frecuencias absolutas, entonces Cov(X,Y) =

l,k (xi x )(yj y )nij i,j =1
Vamos a ver una forma de expresar la covarianza, u til a la hora de hacer c alculos: Usando la expresi on anterior y desarrollando:
N N 1 1 (xi x ) (y i y ) = (xi yi xi y x yi + x y ) = N i=1 N i=1 N i=1
Cov(X,Y) = 1 = N
(N
i=1 N i=1
xi yi y
xi x
yi + N x y =
N N 1 1 xi y i y x x y +x y = xi yi y x N i=1 N i=1
on sobre la posible relaci on lineal Observaci on 17 El valor de la covarianza proporciona informaci entre dos variables; cuando los datos parecen disponerse entorno a una recta de pendiente positiva, la covarianza es positiva; si parecen disponerse en torno a una recta de pendiente negativa, la covarianza es negativa; si no parece haber relaci on lineal, la covarianza es pr oxima a cero:
Propiedades 6 Sean X e Y dos variables estad sticas. 1. Si X e Y son independientes, entonces Cov(X,Y) = 0. (El rec proco no es en general cierto). En efecto, si X e Y son independientes, para cada i,j se tiene que fij = fi. f.j y por tanto, Cov(X,Y) =
l k i=1 j =1
xi yi fij x y =
l k i=1 j =1
xi yi fi. f.j x y =
Estad stica ( l
i=1
27 =
) k xi fi. yj f.j x y =0
j =1
2. Si a, b, c, d IR, y U = aX + b, V = cY + d, entonces Cov(U,V) = a c Cov(X,Y). Cov(U,V) = Cov(aX+b,cY+d) =

N 1 (axi + b (ax + b)) (cyi + d (cy + d)) = N i=1
N 1 (axi ax ) (cyi cy ) = a c Cov(X,Y) N i=1
Ejemplo: Las variables X e Y cuya distribuci on viene dada por la siguiente tabla conjunta, tienen Cov(X,Y) = 0, pero no son independientes, es f acil observar que Y = X 2 . X\Y -1 0 1 0 0
1 3
1
1 3
0
1 3 2 3
0
1 3
1 3 1 3 1 3
on. 2. Coeciente de correlaci Uno de los principales inconvenientes de la covarianza es que depende de las unidades de medida de las variables. El coeciente de correlaci on es una medida adimensional. Denici on 24 Se dene el coeciente de correlaci on lineal entre dos variables X e Y y se denota por Cov(X,Y) . r, como: r = sX sY Propiedades 7 1. Es un coeciente adimensional.
2. El valor de r no var a si multiplicamos X por a e Y por b con a y b n umeros reales del mismo signo. 3. 1 r 1. 4. |r| = 1 si, y s olo si, existe relaci on lineal exacta entre las variables, es decir, si existen a, b IR tales que yi = axi + b, i = 1, . . . , N . Adem as, si a > 0, es r=1 y si a < 0 es r = 1. sticamente independientes, entonces r = 0. 4. Si X e Y son estad Observaci on 18 De las propiedades anteriores se deduce que si r es pr oximo a 1 se puede sospechar la existencia de relaci on lineal entre las variables y que si r es pr oximo a 0, se puede sospechar la inexistencia de tal relaci on. En cualquier caso, el coeciente de correlaci on es una medida resumen de la estructura de un diagrama de dispersi on, y por tanto siempre conviene dibujar el diagrama que es el que contiene toda la informaci on.

Tema1 Descriptiva

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema1 Descriptiva

Cargado por

Copyright:

Formatos disponibles

Estad stica

Tema 1: Estad stica Descriptiva

Variables estad sticas

Individuo Individuo Individuo Individuo Individuo . . .

Ejemplo de agrupaci on en clases: Edades de 40 individuos encuestados:

Propiedades 1 Propiedades de las tablas: k i=1

Representaci on gr aca de variables estad sticas unidimensionales

Representaci on gr aca de variables cuantitativas que toman muchos valores distintos

Ejemplo: En el ejemplo de las edades de 40 individuos:

Medidas caracter sticas de una distribuci on unidimensional

Medidas de posici on o localizaci on

(xi x ) = 0. En ese sentido, se la puede considerar

x(pN ) + x(pN +1)

en la cuasidesviaci on t pica como: Observaci on 11 Se dene tambi

Medidas de posici on y de variaci on utilizadas para comparar conjuntos de datos

Otras caracter sticas observables de una distribuci on de datos

Diagramas de caja o Box-Plot

Datos at picos en distribuciones univariantes

Transformaciones de una variable

N (axi + b (ax + b))2 i=1

Estad stica Descriptiva Bivariante

Tablas de doble entrada

... ... ... .. . ...

Bk n1k n2k . . . nlk N

Ejemplo: Distribuci on de alumnos de 2o de I.T.I. por titulaci on y sexo:

B1 n11 n21 . . . nl 1 n.1

B2 n12 n22 . . . nl 2 n.2

... ... ... .. . ... ...

Bk n1k n2k . . . nlk n.k n1. n2. . . . nl. N

2. Las frecuencias relativas y absolutas, respectivamente, de la modalidad Bj de la variable Y son: f.j =

La distribuci on marginal de Titulaci on es:

Electr onico 107

Mec anico 113

(tambi en se representan por

Ejemplo: La distribuci on condicionada de Titulaci on a Mujer es:

Y la de Sexo a Mec anico:

Variables independientes: X/Y B1 B2 B3 A1 A2 A3

Representaciones gr acas de las distribuciones bidimensionales de frecuencias

Si los datos est an agrupados en frecuencias absolutas, entonces Cov(X,Y) =

2. Si a, b, c, d IR, y U = aX + b, V = cY + d, entonces Cov(U,V) = a c Cov(X,Y). Cov(U,V) = Cov(aX+b,cY+d) =

N 1 (axi ax ) (cyi cy ) = a c Cov(X,Y) N i=1

También podría gustarte