Está en la página 1de 9

Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

ANALISIS UNIDIMENSIONAL

1. INTRODUCCIÓN:

Estadística, disciplina que estudia cuantitativamente los


fenómenos de masa o colectivos, o sea, aquellos fenómenos
cuyo estudio solo puede efectuarse a través de una colección
de observaciones; es decir , La Estadística es una disciplina que
utiliza recursos matemáticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir
conclusiones respecto de ellos.

En muchas ocasiones no basta con estudiar la descripción de un


fenómeno y sus variaciones, es conveniente conocer a qué son
debidas esas variaciones. Puede resultar interesante e incluso
necesario estudiar los cambios producidos en una variable en
relación con otras, o cómo influyen unas variables para que otra
cambie. Cuando se estudian conjuntamente varias variables se
entra en el campo de la estadística multivariable (muchas
variables). Si el estudio se reduce a dos variables, como en este
tema, se llama estadística bidimensional.

La estadística bidimensional estudia fenómenos en los que


intervienen dos variables conjuntamente, buscando la relación que
existe entre ambas. Así, por ejemplo, se puede estudiar la
influencia que tienen los ingresos de una determinada familia en
los gastos que tiene, o cómo influye la velocidad de un cierto
automóvil en su consumo de combustible, o qué relación existe
entre la ley de cabeza de mineral y el costo de ella. Una variable
bidimensional se representa por un par (X, Y), donde X es la
primera variable y toma los valores x1, x2, x3, ...,xn e Y la segunda
y toma los valores, y1, y2, y3, ...,yn .
Sin embargo, al considerar dos variables de una población o
muestra, no podemos afirmar que se trata de una variable
bidimensional porque la relación entre las variables puede no ser
estadística.

2. APLICACIONES DE ESTADÍSTICA:

La estadística es un potente auxiliar de muchas ciencias y


actividades humanas: sociología, psicología, geografía humana,
economía, etc.
Es una herramienta indispensable para la toma de decisiones.
También es ampliamente empleada para mostrar los aspectos
cuantitativos de una situación.

1
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

La estadística está relacionada con el estudio de proceso cuyo


resultado es más o menos imprescindible y con la finalidad de
obtener conclusiones para tomar decisiones razonables de acuerdo
con tales observaciones.
El resultado de estudio de dichos procesos, denominados procesos
aleatorios, puede ser de naturaleza cualitativa o cuantitativa y, en
este último caso, discreta o continúa.
Son muchas las predicciones de tipo sociólogo, o económico, que
pueden hacerse a partir de la aplicación exclusiva de
razonamientos probabilísticos a conjuntos de datos objetivos como
son, por ejemplo, los de naturaleza demográfica.
Las predicciones estadísticas, difícilmente hacen referencia a
sucesos concretos, pero describen con considerable precisión en el
comportamiento global de grandes conjuntos de sucesos
particulares. Son predicciones que, en general, no acostumbran
resultar útiles.

3. CONCEPTOS BÁSICOS:

Antes de entrar a describir y ejemplarizar algunas de las


herramientas bases del presente trabajo, recordemos algunos
conceptos básicos requeridos en el proceso de investigación.

a) DATO:

Es el registro de una información, o agrupación de cualquier


número de observaciones relacionados. Para que los datos sean
útiles, las observaciones necesitan estar organizadas en tal forma
que se puedan identificar tendencias y llegar a conclusiones
lógicas.

b) VARIABLE:

Es un símbolo tal como X, Y, H que puede tomar un valor


cualquiera de un conjunto determinado de ellos, llamado dominio
de la variable. Variable se define también como los elementos o
propiedades que se estudian: Sexo, ingresos, educación, clase
social, etc. Las variables pueden clasificarse en dos tipos,
Cualitativas o Cuantitativas.

 Variable cualitativa.

Es una variable que no puede expresarse numéricamente sino que


tiene naturaleza de categoría, es decir, que genera datos
expresados con palabras denotando cualidades o atributos. Si la
información de la variable que vamos a organizar corresponde a
una variable cualitativa y si los datos generados no implican orden
al enunciarlos, dicha información se reagrupa en categorías.

2
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

 Variable cualitativa no ordenable.

Cuando los sucesos elementales se reagrupan en categorías, pero


no requieren un orden determinado, pero si tiene un límite definido
excluyentes unas de otras.

c) MEDIDAS DE TENDENCIA CENTRAL:

Las medidas de tendencia central son valores que generalmente


tienden a ubicarse hacia el centro de una distribución. Las tres
medidas más frecuentes de tendencia central son media, mediana
y moda.

 Media o Promedio.

Es un valor que tiende a situarse en el centro del conjunto de


datos ordenados segun su magnitud. Es equivalente a dividir la
suma de todos los puntajes, entre el número total de éstos, en la
distribución.

Para el ejemplo: X =  (107+111+111+....) = 7724/64 = 120.69

 Mediana:

Es el valor medio o la media aritmética de los valores ordenados


en orden de magnitud. Un 50% de los puntajes quedan encima de
la mediana, y 50% por debajo. Si los puntajes suman un número
par, la mediana es el promedio de los dos puntajes centrales, y por
lo tanto ninguno puede atribuírsela. Si embargo si la suma de los
puntajes es impar, la mediana sólo es el puntaje central.

Ejemplo:

3,4,4,5,6,8,8,8,10 la mediana es 6 ( Número de datos impares)

5,5,7,9,11,12,15,18 la mediana es igual a 1/2(9+11) = 10 (Número


de datos pares)

Para nuestro ejemplo modelo: 107,111,111,112,........ 135 (hay 64


datos) (121 +121)/2 = 121

Para datos agrupados la fórmula viene dada por:

3
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

Mediana =

L1 = Límite real inferior de la clase mediana (clase que contiene la


mediana)

N = Número de datos (frecuencia total)

( f)1 = Suma de las frecuencias de todas las clases por debajo de


la clase mediana

f = Frecuencia de la clase mediana

C = Tamaño del intervalo de la clase mediana

 Moda:

Es el valor que se presenta con la mayor frecuencia en una


distribución.

2,2,5,9,9,9,10,10,12,18 la moda es 9 (equivalente al 30%)

3,5,8,10,12,15,16 no tiene moda

2,3,4,4,4,5,5,7,7,7 la moda es 4 y 7 (bimodal) (30% cada uno)

Para datos agrupados la fórmula viene dada por:

Lmo = Límite real inferior de la clase modal

d1 = Diferencia (sin considerar signo) entre la frecuencia de la


clase modal y la frecuencia de la clase precedente

d2 =Diferencia (sin considerar signo) entre la frecuencia de la clase


modal y la frecuencia de la clase siguiente.

W = Amplitud de la clase modal (intervalo de la clase)

Existen otras fórmulas para la variable continua, cuando la


amplitud es constante.

Para nuestro ejemplo:

Lmo = 116.5 (21 es la frecuencia mayor)

4
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

d1 = [21 - 12] = 9

d2 = [21 – 18] = 3

W=5

Moda = 116.5 + 9/(9+3)* 5 = 120.25

 Cuartiles, Deciles, Percentiles:

Cuando la distribución contiene un número alto de intervalos o de


marcas de clase y se requiere obtener un promedio de una parte
de ella, se puede dividir la distribución en cuatro, diez o en cien
partes. En el primer caso se habla de Cuartiles, en el segundo
Deciles y en el último Percentiles.

Así por ejemplo, si una serie de datos se colocan en orden de


magnitud, el valor medio que divide al conjunto de datos en dos
partes iguales es la mediana. Aquellos valores que dividen a los
datos en cuatro partes iguales representados por Q 1, Q2 y Q3 se
llaman primero, segundo y tercer cuartil. En igual forma, los
valores que dividen los datos en diez partes iguales se llaman
deciles (D1, D2, ....D9) y los que dividen en cien partes iguales se
llaman percentiles (P1, P2,...P99)

El primer cuartil (Q1) se define como el valor de la variable que


supera al 25% de las observaciones y es superado por el 75% de
las observaciones.

d) MEDIDAS DE DISPERSIÓN:

Las medidas de dispersión son utilizadas para indicar el grado de


uniformidad (homogeneidad) entre los datos de la variable en
estudio. Permiten determinar el grado de desviación (dispersión)
que tienen los datos con respecto a la media o a la mediana. Las
dos más comunes son varianza y desviación estándar.

 Varianza:

Es una medida de variabilidad o dispersión de un grupo de


puntajes. Es una forma estadística de expresar la cantidad de
dispersión en un grupo de puntajes; la magnitud de la dispersión
está en relación directa con la varianza. Las siguientes fórmulas
para datos no agrupados llegan a los mismos resultados.

 = Media aritmética n= muestra total. Puede


obtenerse tambien

5
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

Para datos agrupados.

S2 =  (Xi -  )2 ni /n

S2 =  f(Xi -  )2 /n

 Desviación Estándar:

Es otra medida del grado en que los puntajes se apartan de la


media. Se define como la raíz cuadrada de la varianza.

La interpretación de la S es especialmente clara cuando se aplica a


una curva de distribución normal o que se aproxima a la normal.
En una distribución de este tipo existe una relación exacta entre la
S y la proporción de casos (ver figura de la curva normal).

 Coeficientes de Correlación:

Un coeficiente de correlación expresa el grado de relación entre


variables. Su valor o magnitud fluctúa de +1 (perfecta correlación
positiva) a -1 (Perfecta correlación negativa). Si X e Y denotan las
dos variables que se consideran, un diagrama de dispersión
muestra la localización de los puntos (X,Y) en un sistema de
coordenadas rectangulares. Si todos los puntos en este diagrama
de dispersión parecen encontrarse cerca de una recta, como en (a)
y (b) la correlación se dice lineal. Si Y tiende a incrementarse
cuando se incrementa X, como en (a) la correlación se dice
positiva o correlación directa. Si Y tiende a disminuir cuando se
incrementa X, como en (b) la correlación se dice negativa o
correlación inversa.

Si todos los puntos parecen estar cerca de una curva, la


correlación se dice no lineal y una ecuación no lineal es la
apropiada para la regresión o estimación, una correlación no lineal
puede ser a veces positiva o negativa. Si no hay ninguna relación
entre las variables (c) se dice que no hay correlación entre ellas, es
decir no están correlacionadas.

6
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

Asi por ejemplo, la correlación que existe entre inteligencia y


rendimiento es positiva, dado a que los alumnos más inteligentes
tienden a obtener altos rendimientos académicos.

Es importante recordar que mientras mas fuerte sea la correlación


entre dos variables mayor el poder predictivo existente entre ellas.
El término "correlación", se utiliza cuando las variables
involucradas en la relación son de tipo interval(proporcional), es
decir cuantitativas en sentido estricto, pero además la
"correlación", busca mediante la medida de co-variación de
variables, predecir a prtir del conocimiento de una de ellas el
comportamiento de la otra variable. Ver Anexo, Tabla de
Interpretación de Coeficientes.

El que una correlación sea estadísticamente significativa quiere


decir que conocemos la probabilidad de error cuando sabemos que
X e Y correlacionan. Es decir, conocemos el márgen de error en el
sentido de que la relación entre X e Y se deba simplemente a una
casualidad o al azar y no a factores causales estructurales que
asocian a las variables.

 Covarianza:

Se llama covarianza de la variable (X,Y) a la media aritmética de


los productos de las desviaciones de cada variable respecto de la
media.. También se le denomina varianza conjunta o sincronizada
de las
variables X e Y.
La covarianza es la medida más simple de la relación lineal entre
dos variables. Viene dada

7
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

Una covarianza positiva y alta indica que ambas variables


crecen o decrecen simultáneamente, es decir, presentan una
fuerte correlación. Cuando mayor sea la covarianza, más estrecha
es la relación entre las variables.

Una covarianza alta y negativa indica que cuando una variable


crece, la otra decrece y viceversa, es decir, presentan una fuerte
correlación inversa. Cuanto menor sea la covarianza, puesto que
es negativa, más estrecha es esta relación entre las variables.

La covarianza cero o próxima a cero indica que no existe relación


entre las variables.

PROCESO PRÁCTICO

A continuación les presentamos una data de una Mina de oro ; a la


cual la hemos analizado y estos son los resultados :

Xxxxxxxxxxxxxxxxxxxxxxxxxx

El estudio de la relación entre dos caracteres de una variable


estadística bidimensional es el objeto de la regresión lineal.
La nube de puntos de una distribución bidimensional nos da una
primera idea de la relación existente entre los datos de la misma.
Cuando la nube de puntos del diagrama de dispersión permita
deducir algún tipo de dependencia entre las dos variables X, Y,
concentrándose los puntos alrededor de una cierta línea (línea de
regresión) se plantean dos cuestiones:
A) Definir la línea.
B) Medir el nivel de aproximación de dicha línea.

8
Universidad Nacional Jorge Basadre Grohmann-Tacna Estadística

Sí la línea es una recta , el problema es un caso típico de regresión


lineal.

También podría gustarte