Estadística Nº1

Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística
ANALISIS UNIDIMENSIONAL
1. INTRODUCCIÓN:
Estadística, disciplina que estudia cuantitativamente los

fenómenos de masa o colectivos, o sea, aquellos fenómenos
cuyo estudio solo puede efectuarse a través de una colección
de observaciones; es decir , La Estadística es una disciplina que
utiliza recursos matemáticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir
conclusiones respecto de ellos.
En muchas ocasiones no basta con estudiar la descripción de un

fenómeno y sus variaciones, es conveniente conocer a qué son
debidas esas variaciones. Puede resultar interesante e incluso
necesario estudiar los cambios producidos en una variable en
relación con otras, o cómo influyen unas variables para que otra
cambie. Cuando se estudian conjuntamente varias variables se
entra en el campo de la estadística multivariable (muchas
variables). Si el estudio se reduce a dos variables, como en este
tema, se llama estadística bidimensional.
La estadística bidimensional estudia fenómenos en los que

intervienen dos variables conjuntamente, buscando la relación que
existe entre ambas. Así, por ejemplo, se puede estudiar la
influencia que tienen los ingresos de una determinada familia en
los gastos que tiene, o cómo influye la velocidad de un cierto
automóvil en su consumo de combustible, o qué relación existe
entre la ley de cabeza de mineral y el costo de ella. Una variable
bidimensional se representa por un par (X, Y), donde X es la
primera variable y toma los valores x1, x2, x3, ...,xn e Y la segunda
y toma los valores, y1, y2, y3, ...,yn .
Sin embargo, al considerar dos variables de una población o
muestra, no podemos afirmar que se trata de una variable
bidimensional porque la relación entre las variables puede no ser
estadística.
2. APLICACIONES DE ESTADÍSTICA:
La estadística es un potente auxiliar de muchas ciencias y

actividades humanas: sociología, psicología, geografía humana,
economía, etc.
Es una herramienta indispensable para la toma de decisiones.
También es ampliamente empleada para mostrar los aspectos
cuantitativos de una situación.
1
La estadística está relacionada con el estudio de proceso cuyo

resultado es más o menos imprescindible y con la finalidad de
obtener conclusiones para tomar decisiones razonables de acuerdo
con tales observaciones.
El resultado de estudio de dichos procesos, denominados procesos
aleatorios, puede ser de naturaleza cualitativa o cuantitativa y, en
este último caso, discreta o continúa.
Son muchas las predicciones de tipo sociólogo, o económico, que
pueden hacerse a partir de la aplicación exclusiva de
razonamientos probabilísticos a conjuntos de datos objetivos como
son, por ejemplo, los de naturaleza demográfica.
Las predicciones estadísticas, difícilmente hacen referencia a
sucesos concretos, pero describen con considerable precisión en el
comportamiento global de grandes conjuntos de sucesos
particulares. Son predicciones que, en general, no acostumbran
resultar útiles.
3. CONCEPTOS BÁSICOS:
Antes de entrar a describir y ejemplarizar algunas de las

herramientas bases del presente trabajo, recordemos algunos
conceptos básicos requeridos en el proceso de investigación.
a) DATO:
Es el registro de una información, o agrupación de cualquier

número de observaciones relacionados. Para que los datos sean
útiles, las observaciones necesitan estar organizadas en tal forma
que se puedan identificar tendencias y llegar a conclusiones
lógicas.
b) VARIABLE:
Es un símbolo tal como X, Y, H que puede tomar un valor

cualquiera de un conjunto determinado de ellos, llamado dominio
de la variable. Variable se define también como los elementos o
propiedades que se estudian: Sexo, ingresos, educación, clase
social, etc. Las variables pueden clasificarse en dos tipos,
Cualitativas o Cuantitativas.
 Variable cualitativa.
Es una variable que no puede expresarse numéricamente sino que

tiene naturaleza de categoría, es decir, que genera datos
expresados con palabras denotando cualidades o atributos. Si la
información de la variable que vamos a organizar corresponde a
una variable cualitativa y si los datos generados no implican orden
al enunciarlos, dicha información se reagrupa en categorías.
2
 Variable cualitativa no ordenable.
Cuando los sucesos elementales se reagrupan en categorías, pero

no requieren un orden determinado, pero si tiene un límite definido
excluyentes unas de otras.
c) MEDIDAS DE TENDENCIA CENTRAL:
Las medidas de tendencia central son valores que generalmente

tienden a ubicarse hacia el centro de una distribución. Las tres
medidas más frecuentes de tendencia central son media, mediana
y moda.
 Media o Promedio.
Es un valor que tiende a situarse en el centro del conjunto de

datos ordenados segun su magnitud. Es equivalente a dividir la
suma de todos los puntajes, entre el número total de éstos, en la
distribución.
Para el ejemplo: X =  (107+111+111+....) = 7724/64 = 120.69
 Mediana:
Es el valor medio o la media aritmética de los valores ordenados

en orden de magnitud. Un 50% de los puntajes quedan encima de
la mediana, y 50% por debajo. Si los puntajes suman un número
par, la mediana es el promedio de los dos puntajes centrales, y por
lo tanto ninguno puede atribuírsela. Si embargo si la suma de los
puntajes es impar, la mediana sólo es el puntaje central.
Ejemplo:
3,4,4,5,6,8,8,8,10 la mediana es 6 ( Número de datos impares)
5,5,7,9,11,12,15,18 la mediana es igual a 1/2(9+11) = 10 (Número

de datos pares)
Para nuestro ejemplo modelo: 107,111,111,112,........ 135 (hay 64

datos) (121 +121)/2 = 121
Para datos agrupados la fórmula viene dada por:
3
Mediana =
L1 = Límite real inferior de la clase mediana (clase que contiene la

mediana)
N = Número de datos (frecuencia total)
( f)1 = Suma de las frecuencias de todas las clases por debajo de

la clase mediana
f = Frecuencia de la clase mediana
C = Tamaño del intervalo de la clase mediana
 Moda:
Es el valor que se presenta con la mayor frecuencia en una

distribución.
2,2,5,9,9,9,10,10,12,18 la moda es 9 (equivalente al 30%)
3,5,8,10,12,15,16 no tiene moda
2,3,4,4,4,5,5,7,7,7 la moda es 4 y 7 (bimodal) (30% cada uno)
Para datos agrupados la fórmula viene dada por:
Lmo = Límite real inferior de la clase modal
d1 = Diferencia (sin considerar signo) entre la frecuencia de la

clase modal y la frecuencia de la clase precedente
d2 =Diferencia (sin considerar signo) entre la frecuencia de la clase

modal y la frecuencia de la clase siguiente.
W = Amplitud de la clase modal (intervalo de la clase)
Existen otras fórmulas para la variable continua, cuando la

amplitud es constante.
Para nuestro ejemplo:
Lmo = 116.5 (21 es la frecuencia mayor)
4
d1 = [21 - 12] = 9
d2 = [21 – 18] = 3
W=5
Moda = 116.5 + 9/(9+3)* 5 = 120.25
 Cuartiles, Deciles, Percentiles:
Cuando la distribución contiene un número alto de intervalos o de

marcas de clase y se requiere obtener un promedio de una parte
de ella, se puede dividir la distribución en cuatro, diez o en cien
partes. En el primer caso se habla de Cuartiles, en el segundo
Deciles y en el último Percentiles.
Así por ejemplo, si una serie de datos se colocan en orden de

magnitud, el valor medio que divide al conjunto de datos en dos
partes iguales es la mediana. Aquellos valores que dividen a los
datos en cuatro partes iguales representados por Q 1, Q2 y Q3 se
llaman primero, segundo y tercer cuartil. En igual forma, los
valores que dividen los datos en diez partes iguales se llaman
deciles (D1, D2, ....D9) y los que dividen en cien partes iguales se
llaman percentiles (P1, P2,...P99)
El primer cuartil (Q1) se define como el valor de la variable que

supera al 25% de las observaciones y es superado por el 75% de
las observaciones.
d) MEDIDAS DE DISPERSIÓN:
Las medidas de dispersión son utilizadas para indicar el grado de

uniformidad (homogeneidad) entre los datos de la variable en
estudio. Permiten determinar el grado de desviación (dispersión)
que tienen los datos con respecto a la media o a la mediana. Las
dos más comunes son varianza y desviación estándar.
 Varianza:
Es una medida de variabilidad o dispersión de un grupo de

puntajes. Es una forma estadística de expresar la cantidad de
dispersión en un grupo de puntajes; la magnitud de la dispersión
está en relación directa con la varianza. Las siguientes fórmulas
para datos no agrupados llegan a los mismos resultados.
 = Media aritmética n= muestra total. Puede

obtenerse tambien
5
Para datos agrupados.
S2 =  (Xi -  )2 ni /n
S2 =  f(Xi -  )2 /n
 Desviación Estándar:
Es otra medida del grado en que los puntajes se apartan de la

media. Se define como la raíz cuadrada de la varianza.
La interpretación de la S es especialmente clara cuando se aplica a

una curva de distribución normal o que se aproxima a la normal.
En una distribución de este tipo existe una relación exacta entre la
S y la proporción de casos (ver figura de la curva normal).
 Coeficientes de Correlación:
Un coeficiente de correlación expresa el grado de relación entre

variables. Su valor o magnitud fluctúa de +1 (perfecta correlación
positiva) a -1 (Perfecta correlación negativa). Si X e Y denotan las
dos variables que se consideran, un diagrama de dispersión
muestra la localización de los puntos (X,Y) en un sistema de
coordenadas rectangulares. Si todos los puntos en este diagrama
de dispersión parecen encontrarse cerca de una recta, como en (a)
y (b) la correlación se dice lineal. Si Y tiende a incrementarse
cuando se incrementa X, como en (a) la correlación se dice
positiva o correlación directa. Si Y tiende a disminuir cuando se
incrementa X, como en (b) la correlación se dice negativa o
correlación inversa.
Si todos los puntos parecen estar cerca de una curva, la

correlación se dice no lineal y una ecuación no lineal es la
apropiada para la regresión o estimación, una correlación no lineal
puede ser a veces positiva o negativa. Si no hay ninguna relación
entre las variables (c) se dice que no hay correlación entre ellas, es
decir no están correlacionadas.
6
Asi por ejemplo, la correlación que existe entre inteligencia y

rendimiento es positiva, dado a que los alumnos más inteligentes
tienden a obtener altos rendimientos académicos.
Es importante recordar que mientras mas fuerte sea la correlación

entre dos variables mayor el poder predictivo existente entre ellas.
El término "correlación", se utiliza cuando las variables
involucradas en la relación son de tipo interval(proporcional), es
decir cuantitativas en sentido estricto, pero además la
"correlación", busca mediante la medida de co-variación de
variables, predecir a prtir del conocimiento de una de ellas el
comportamiento de la otra variable. Ver Anexo, Tabla de
Interpretación de Coeficientes.
El que una correlación sea estadísticamente significativa quiere

decir que conocemos la probabilidad de error cuando sabemos que
X e Y correlacionan. Es decir, conocemos el márgen de error en el
sentido de que la relación entre X e Y se deba simplemente a una
casualidad o al azar y no a factores causales estructurales que
asocian a las variables.
 Covarianza:
Se llama covarianza de la variable (X,Y) a la media aritmética de

los productos de las desviaciones de cada variable respecto de la
media.. También se le denomina varianza conjunta o sincronizada
de las
variables X e Y.
La covarianza es la medida más simple de la relación lineal entre
dos variables. Viene dada
7
Una covarianza positiva y alta indica que ambas variables

crecen o decrecen simultáneamente, es decir, presentan una
fuerte correlación. Cuando mayor sea la covarianza, más estrecha
es la relación entre las variables.
Una covarianza alta y negativa indica que cuando una variable

crece, la otra decrece y viceversa, es decir, presentan una fuerte
correlación inversa. Cuanto menor sea la covarianza, puesto que
es negativa, más estrecha es esta relación entre las variables.
La covarianza cero o próxima a cero indica que no existe relación

entre las variables.
PROCESO PRÁCTICO
A continuación les presentamos una data de una Mina de oro ; a la

cual la hemos analizado y estos son los resultados :
Xxxxxxxxxxxxxxxxxxxxxxxxxx
El estudio de la relación entre dos caracteres de una variable

estadística bidimensional es el objeto de la regresión lineal.
La nube de puntos de una distribución bidimensional nos da una
primera idea de la relación existente entre los datos de la misma.
Cuando la nube de puntos del diagrama de dispersión permita
deducir algún tipo de dependencia entre las dos variables X, Y,
concentrándose los puntos alrededor de una cierta línea (línea de
regresión) se plantean dos cuestiones:
A) Definir la línea.
B) Medir el nivel de aproximación de dicha línea.
8
Sí la línea es una recta , el problema es un caso típico de regresión

lineal.

Estadística Nº1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Nº1

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

Estadística, disciplina que estudia cuantitativamente los

En muchas ocasiones no basta con estudiar la descripción de un

La estadística bidimensional estudia fenómenos en los que

La estadística es un potente auxiliar de muchas ciencias y

La estadística está relacionada con el estudio de proceso cuyo

Antes de entrar a describir y ejemplarizar algunas de las

Es el registro de una información, o agrupación de cualquier

Es un símbolo tal como X, Y, H que puede tomar un valor

Es una variable que no puede expresarse numéricamente sino que

 Variable cualitativa no ordenable.

Cuando los sucesos elementales se reagrupan en categorías, pero

c) MEDIDAS DE TENDENCIA CENTRAL:

Las medidas de tendencia central son valores que generalmente

Es un valor que tiende a situarse en el centro del conjunto de

Para el ejemplo: X =  (107+111+111+....) = 7724/64 = 120.69

Es el valor medio o la media aritmética de los valores ordenados

3,4,4,5,6,8,8,8,10 la mediana es 6 ( Número de datos impares)

5,5,7,9,11,12,15,18 la mediana es igual a 1/2(9+11) = 10 (Número

Para nuestro ejemplo modelo: 107,111,111,112,........ 135 (hay 64

Para datos agrupados la fórmula viene dada por:

L1 = Límite real inferior de la clase mediana (clase que contiene la

N = Número de datos (frecuencia total)

( f)1 = Suma de las frecuencias de todas las clases por debajo de

f = Frecuencia de la clase mediana

C = Tamaño del intervalo de la clase mediana

Es el valor que se presenta con la mayor frecuencia en una

2,2,5,9,9,9,10,10,12,18 la moda es 9 (equivalente al 30%)

3,5,8,10,12,15,16 no tiene moda

2,3,4,4,4,5,5,7,7,7 la moda es 4 y 7 (bimodal) (30% cada uno)

Para datos agrupados la fórmula viene dada por:

Lmo = Límite real inferior de la clase modal

d1 = Diferencia (sin considerar signo) entre la frecuencia de la

d2 =Diferencia (sin considerar signo) entre la frecuencia de la clase

W = Amplitud de la clase modal (intervalo de la clase)

Existen otras fórmulas para la variable continua, cuando la

Para nuestro ejemplo:

Lmo = 116.5 (21 es la frecuencia mayor)

Moda = 116.5 + 9/(9+3)* 5 = 120.25

 Cuartiles, Deciles, Percentiles:

Cuando la distribución contiene un número alto de intervalos o de

Así por ejemplo, si una serie de datos se colocan en orden de

El primer cuartil (Q1) se define como el valor de la variable que

Las medidas de dispersión son utilizadas para indicar el grado de

Es una medida de variabilidad o dispersión de un grupo de

 = Media aritmética n= muestra total. Puede

Para datos agrupados.

Es otra medida del grado en que los puntajes se apartan de la

La interpretación de la S es especialmente clara cuando se aplica a

Un coeficiente de correlación expresa el grado de relación entre

Si todos los puntos parecen estar cerca de una curva, la

Asi por ejemplo, la correlación que existe entre inteligencia y

Es importante recordar que mientras mas fuerte sea la correlación

El que una correlación sea estadísticamente significativa quiere

Se llama covarianza de la variable (X,Y) a la media aritmética de

Una covarianza positiva y alta indica que ambas variables

Una covarianza alta y negativa indica que cuando una variable

La covarianza cero o próxima a cero indica que no existe relación

A continuación les presentamos una data de una Mina de oro ; a la

El estudio de la relación entre dos caracteres de una variable

Sí la línea es una recta , el problema es un caso típico de regresión

También podría gustarte