Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PRESENTADA POR:
TEMA
Resumen------------------------------------------------------------- 3
Introducción ----------------------------- ---------------------------- 5
1. Aspectos generales ------------------------------------------- 6
1.1 Definición de conceptos ------------------------------- 6
1.2 Enfoques de valuación inmobiliaria ------------------ 10
1.3 Enfoque de mercado ------------------------------------ 10
2. Principios de Estadística ------------------------------------- 13
2.1 Conceptos básicos ------------------------ -------------- 14
2.2 Recolección de datos ----------------------------------- 16
2.3 Organización de datos ----------------------------------- 20
2.4 Análisis de datos …..----------------------------------- 23
2.5 Tamaño de la muestra ----------------------------------- 29
2.6 Regresión y Correlación -------------------------------- 36
3. Aplicación del método ----------------------------------------- 49
CONC LUS IONES
BIBLIOGRAFIA
RESUMEN
La estadística está presente en casi todos los aspectos de la vida moderna, la
utilizan los políticos para conocer las preferencias del electorado, los ingenieros para llevar
el control de calidad en una línea de producción, los economistas para ver el rumbo de la
economía de un país, los científicos para estimar resultados de un experimento. En
cualquiera de los ejemplos anteriores, alguien quiere conocer una característica de algo. En
la mayoría de los casos éstas características que queremos conocer no se pueden
examinar en su totalidad porque su número es muy grande y verificarlas una por una, sería
muy tardado y costoso; lo que se hace es tomar una parte de ese total, examinarla, sacar
conclusiones de la parte examinada y extender esas conclusiones hacia el total no
examinado. Esto nos lleva a dos áreas distinta: una de recabar, clasificar y ordenar los
datos, y otra de hacer un análisis y establecer conclusiones a partir de los datos ordenados,
o sea, a la Estadística Descriptiva y la Estadística Inferencial.
En el campo de la valuación, se ha dado mucha importancia a la Estadística Inferencial
para determinar valores de bienes, a través de modelos de regresión, pero alimentar con
los datos adecuados estos modelos, para generar resultados confiables, se deja a un lado
en la mayoría de los casos y este es un tema en el que se puede encontrar ayuda en la
Estadística Descriptiva.
Uno de los temas más importantes en la recolección de datos para alimentar un
modelo estadístico es el tamaño de la muestra analizada. La determinación del tamaño de
la muestra no es algo sencillo, ya que en la mayoría de los casos se requiere información
poblacional con la que no se cuenta. La estadística nos proporciona algunas herramientas y
una estructura para auxiliarnos en este proceso.
Para determinar el tamaño de la muestra mencionado, se necesita determinar el
nivel de confianza, el error máximo y la desviación estándar de la población de acuerdo a la
siguiente fórmula:
2
z
n
E
OBJETIVO
DEFICNICION DE CONCEPTOS
Concepto de valor
El valor ha existido como un concepto desde que la humanidad ha
creado capital y riqueza; ha sido una medida consistentemente usada por
quienes tienen la libertad de poseer diversos bienes y preservar e
incrementar su patrimon io.
El dueño de un bien le asigna valor a su posesión; también lo otorga
quien presta o recibe un servicio. El valor en sí, se manifiesta a través de los
distintos conceptos que de él se tienen en los diferentes sistemas
económicos, sociales o religiosos. Se puede decir que es el grado de
deseabilidad que se tiene de algo.
Desde el punto de vista económico, valor es el grado de satisfacción
que los bienes y servicios de naturaleza tangible o intangible proporcionan a
los grupos o individuos. Pero existen dos factores que afectan este concepto:
el tiempo y el riesgo. El paso del tiempo afecta al valor porque las
condiciones cambian y esto puede afectar la posición de un bien en la escala
de valor económico y la deseabilidad que se tiene de él. También el ri esgo lo
afecta, ya que las esperanzas sobre las condiciones futuras determinan la
confianza de que estará disponible o de que tendrá mayor o menor valor; el
riesgo será distinto para bienes o servicios de distinta naturaleza.
A continuación se recordarán a lgunas definiciones de valores:
VALOR DE USO: Es el valor que tiene un bien de acuerdo con su función, implica un
sentido de mérito o de posesión; por ejemplo valor sentimental, valor histórico, valor
potencial, valor de inversión, etc.
VALOR DE LIQUIDACIÓN EN OBRA: El importe total de dinero que se espera obtener por
una planta o instalación industrial en quiebra, normalmente fuera de operación, suponiendo
que toda la planta se venderá completa, en cierto tiempo limitado para llevar a término la
transacción.
VALOR DE RESCATE: La suma de dinero que se espera obtener por concepto de la venta
total de un bien, o de un componente del mismo, que se haya retirado de servicio para
utilizarse en otra parte.
VALOR DE CHATARRA: La suma de dinero que podría obtenerse por un bien si éste fuera
vendido sólo con base al tipo de material del que está compuesto y no para destinarse a un
uso productivo.
Concepto de precio
Concepto de costo
Monto de la erogación realizada para reproducir o reemplazar un bien. El costo no
incluye la utilidad ni los impuestos derivados de la venta.
A medida que la vocación del valuador de bienes, con el paso del tiempo, ha
evolucionado de una ocupación mercantil a una profesión, han surgido y debido ser
aclarados ciertos conceptos.
Hoy el término “bienes” se aplica a las cosas físicas y también a los derechos reales
como la servidumbre y la habitación que recaen sobre bienes inmuebles (que son
considerados como bienes inmuebles por su objeto, según clasificación establecida en el
Código Civil del Estado Libre y Soberano de Puebla arts. 750 fracción XII y, 751).
Como ya se estableció en algún inciso anterior, el valor es el grado de satisfacción
que dan los bienes; para que un bien pueda tener ese grado de deseabilidad y satisfacción,
debe contar con tres características:
a) Utilidad.- Debe de servir para algo, inclusive para satisfacer necesidades
psicológicas.
b) Valor de intercambio.- Debe de existir alguien que desee tener el bien y alguien
que se quiera deshacer a cambio de otra cosa, que puede ser dinero.
c) Escasez.- Siguiendo los principios de economía, un bien que tuviera
disponibilidad ilimitada para cualquier persona, no se le podría asignar un valor
específico.
Definición de valuación
Precio
demanda
oferta
(valor)
Precio de
equilibrio
mercado
Cantidad
En el caso de la valuación de bienes en general, no es común tener esta información
disponible, por lo que se hace uso de ofertas que se tienen en el mercado, pero tomando
en cuenta que existe una diferencia entre el precio ofertado y el precio en el que se cierra la
operación de compraventa; a esta diferencia se le llama factor de comercialización.
Adentrándose en el mercado de maquinaria y equipo, el enfoque de mercado lleva a
calcular el valor del bien estudiado, al cual un comprador estaría dispuesto a cerrar una
transacción con un vendedor, en condiciones de conocimiento del bien y del mercado, y sin
presiones de ningún tipo, o lo que es lo mismo, se estaría conociendo el valor que
determina la oferta y la demanda.
Para establecer dicho valor es necesario un conocimiento del mercado a través de
una investigación. Es común que se haga una recolección de datos, de maquinaria y equipo
que el valuador considere similares al que es objeto de estudio, ya sea por comunicación
directa con los participantes de una operación de compraventa, o por información publicada
en diarios, revistas especializadas, comunicación telefónica o por anuncios en internet. Si
no se encuentran máquinas o equipo con las mismas características, se hace uso de las
técnicas de homologación, que tratan de igualar las características de los comparables que
se investigaron con las de la máquina o equipo valuado, aplicando factores numéricos de
premio o castigo; posteriormente de hace una estimación del valor buscado aplicando la
estadística, ya sea por el cálculo de la media o por una regresión. El problema que se
puede encontrar en esta metodología es que las muestras analizadas por lo general son
muy pequeñas, como es común que se aplique de tres a seis en la práctica.
La propuesta que se hace en este estudio es tener un valor de mercado sustentado
estadísticamente, utilizando un análisis multivariante, haciendo uso de una base de datos
obtenida con una investigación de mercado.
CAPITULO 2
PRINCIPIOS DE ESTADÍSTICA
CONCEPTOS BASICOS
La estadística está presente en casi todos los aspectos de la vida moderna, la utilizan
los políticos para conocer las preferencias del electorado, los ingenieros para llevar el
control de calidad en una línea de producción, los economistas para ver el rumbo de la
economía de un país, los científicos para estimar resultados de un experimento, pero antes
de aplicarla en nuestro estudio, necesitamos definirla y conocer los conceptos básicos que
la fundamentan.
Definición de estadística
Términos fundamentales
1
H i n e s W i l l i a m y o t r o s , P r o b a b i l i d a d y E s t a d í s t i c a p a r a In g e n i e r í a . T r a d . G a b r i e l N a g o r e . 4 t a . e d i c i ó n ,
México: Compañía Editorial Continental, 2005.
que describen una posición o clasificación ordenada, como por puede ser el estado de
conservación de una máquina: excelente, bueno, regular, malo y ruinoso.
DATO. Valor que puede tomar una variable dentro una población o muestra, por
ejemplo 3 años de edad de un vehículo.
EXPERIMENTO. Es una actividad realizada bajo un plan determinado, la cual
produce resultados que se consideran datos. El ejemplo más común es el de los
experimentos de laboratorio en los cuales se manipula una serie de elementos tendientes a
obtener resultados, los cuales son utilizados para sacar conclusiones de situaciones
específicas.
PARAMETRO. Medida que representa a todos los datos de una población. Puede
ser el promedio de metros cuadrados de construcción de las casas habitación de una
población.
Estadístico. Medida que representa a todos los datos de una muestra. Igual que
sucede en el parámetro, puede ser ejemplificada con el promedio de los metros cuadrados
de construcción de una muestra de casas habitación de la población analizada.
RECOLECCION DE DATOS
Aspectos generales
2 Johnson Robert y Patricia Kuby, Estadística Elemental. Lo Esencial. Trad. Hugo Villagomez. México: Thomson Learning, 2004.
Existen dos métodos para la recolección de datos: el estudio experimental y el
estudio observacional.
En el primero, se manipula o controla el entorno y se observa los efectos que se
producen en la variable estudiada. Es importante mencionar que el experimento se
diseña para obtener los datos necesarios para conocer el efecto sobre la variable. Un
ejemplo de este proceso, es la medición que se hace de los efectos que producen los
medicamentos en ratas de laboratorio, cuando se les inyectan diferentes dosis.
En el estudio observacional sucede lo contrario, es decir, no se manipula o controla
el proceso de observación, simplemente se muestrea la población para obtener los datos,
observando sin intervenir. Además, dentro de éste método de recolección de datos,
tenemos cuatro formas principales de hacerlo: entrevista personal, entrevista por teléfono,
cuestionarios autoaplicados y observación directa.
Cuando se puede enlistar cada elemento de una población, estamos hablando de un
censo, pero las observaciones implican tiempo y dinero; con poca información el
investigador no puede obtener buenas estimaciones, mientras que mucha información,
como la que nos da el censo, implica un costo muy elevado, por eso es común efectuar una
encuesta muestral. Al elegir una muestra para realizar una encuesta, donde recolectaremos
los datos de la población estudiada, es necesario elaborar un marco muestral. Un marco es
una lista de unidades de muestreo 3 la cual debe ser igual a la población y sus elementos
solo pueden aparecer una vez.
Una vez que tenemos el marco muestral, debemos determinar el método de
muestreo que se utilizará. Existen muchos métodos para tal fin pero los podemos agrupar
en dos: muestreo de juicio y muestreo probabilístico. En el muestreo de juicio la persona
que lo elabora toma las muestras que considera representativas de la población según su
juicio. En el muestreo probabilístico se seleccionan los elementos en base a la probabilidad
de que tienen de ser elegidos como parte de la muestra, y puede ser con reemplazo o sin
reemplazo; en el primero se toma un elemento para que forme parte de la muestra y antes
de tomar el siguiente, se regresa a la población para que siga formando parte de ella y
pueda, incluso, volver a ser seleccionado. En el muestreo sin reemplazo los elementos se
van separando formando parte de la muestra sin ser devueltos en ningún momento,
haciendo que la probabilidad de que los elementos restantes sean escogidos se
incremente, ya que los elementos en la población van disminuyendo.
3 Scheaffer Richard y otros, Elementos de Muestreo. Gilberto Rendón Sánchez y José Roberto Gómez Aguilar. México: Grupo
Editorial Iberoamérica, 1987.
Dentro de la clasificación de los muestreos probabilísticos, los mas comúnmente
utilizados se describen a continuación.
Los dos factores que más afectan la representatividad que tiene una muestra en una
población son el tamaño de la muestra y la magnitud de la variación de los datos; entre
más grande es la muestra, mayor será la información que se espera obtener de la
población, mientras que la variación de los datos puede ser controlada por medio del
método por el cual se obtienen las observaciones.
El método que se utiliza con mayor frecuencia para obtener una muestra de una
población es el muestreo aleatorio irrestricto y es aquel en el cual cada elemento de la
población tiene la misma probabilidad de ser seleccionado, así como todas las muestras de
tamaño n tienen la misma probabilidad de ser elegidas.
El que se trate de un muestreo aleatorio significa que al seleccionar un elemento, el
siguiente resultado o elemento seleccionado no sea predecible, y pueda ser cualquiera de
la población. La manera de extraer las muestras, para asegurarse que todos los elementos
tengan la misma probabilidad de ser elegidos, es numerarlos y utilizar un generador de
números aleatorios, o tablas igualmente de números aleatorios para elegir los que sean
necesarios.
1
Scheaffer Richard y otros, Elementos de Muestreo. Gilberto Rendón Sánchez y José Roberto Gómez Aguilar. México: Grupo Editorial
Iberoamérica, 1987.
que ya ocurrió de manera natural, por ejemplo, si suponemos que la población a estudiar
es el total de casas habitación unifamiliares del municipio de Puebla, los estratos que
podrían existir de manera natural son las casas de lujo, de semi-lujo, las de nivel medio, las
de interés social y las populares; una vez seleccionados los estratos, se resumen por
separado y luego se combinan para obtener conclusiones acerca de toda la población.
Este tipo de muestreo presenta tres ventajas fundamentales: primero, que la
variación de los datos de la muestra proporcional es menor a la que obtenemos por el
muestreo irrestricto aleatorio, porque la variación de los datos dentro de cada estrato es
usualmente menor que la de toda la población. En segundo lugar, el costo de recolectar y
analizar datos se hace mas pequeño en muestras separadas que en una población grande,
y por último, se pueden hacer estimaciones separadas por estrato sin tener que hacer otra
muestra.
Muestreo sistemático
En el muestreo sistemático se ordenan en forma de lista los elementos de la
población a estudiar, después se elige un intervalo k entre dichos elementos,
posteriormente se elige aleatoriamente un elementos y a partir de éste se selecciona todo
k-ésimo elemento del marco muestral. Este método es fácil de describir y ejecutar, y en
general se extiende más uniformemente sobre toda la población y puede proporcionar más
información acerca de la población que una cantidad equivalente de datos contenida en
una muestra irrestricta aleatoria, pero tiene el inconveniente de no dar resultados aleatorios
cuando el marco muestral sea repetitivo o de naturaleza cíclica.
1
Scheaffer Richard y otros, Elementos de Muestreo. Gilberto Rendón Sánchez y José Roberto Gómez Aguilar. México: Grupo Editorial
Iberoamérica, 1987.
ellas simplificaría el proceso; se establecería un marco que liste las manzanas de la unidad
y se podría medir el ingreso de las familias dentro de las manzanas.
Es conveniente utilizar el muestreo por conglomerados cuando no se encuentra
disponible o sea muy costoso obtener un marco muestral que liste todos los elementos de
una población. También lo podemos utilizar cuando el costo de las observaciones
realizadas es directamente proporcional a la distancia que separa los elementos. Otro
factor importante a tomarse en cuenta es que si los elementos del conglomerado son muy
diferentes entre sí, una muestra que contenga pocos conglomerados grandes pueden
producir una estimación muy buena de un parámetro poblacional. De aquí podemos sacar
la principal diferencia entre la construcción de estratos y la de conglomerados: Los estratos
pueden ser tan homogéneos entre ellos como sea posible, pero un estrato debe diferir tanto
como sea posible de otro respecto a la característica que está siendo medida. En cambio,
los conglomerados, deben ser tan heterogéneos entre ellos como sea posible y similar a
otro para poder aprovechar las ventajas de los costos de muestreo.
Una variante del muestreo por conglomerados es el muestro por conglomerados en
dos etapas, el cual se obtiene seleccionando una muestra aleatoria de conglomerados y
cuando se tiene ésta, se selecciona una muestra aleatoria de los elementos de cada
conglomerado muestreado.
ORGANIZACIÓN DE DATOS
Una vez que recolectamos datos de una población mediante una muestra,
necesitamos organizarlos para poder obtener conclusiones válidas de ellos. La manera
más común para hacerlo es mediante distribución de frecuencias y mediante gráficas.
Gráficas de pastel
Las gráficas de pastel (diagramas de pay) son aquellas que muestran la cantidad de
datos que pertenecen a una categoría como una parte proporcional de un círculo y suelen
utilizarse para describir datos cualitativos. Por ejemplo:
Tipo de casas
2% 4%
7% Popular
22%
Interés social
Media
Semi-lujo
65% Lujo
Gráficas de barras
Las gráficas de barras son aquellas que muestran la cantidad de datos que
pertenecen a una categoría como áreas de rectángulos de tamaños proporcionales y, al
igual que las de pastel, suelen utilizarse para describir datos cualitativos. Por ejemplo:
40
35
Número de casas
30
25
20
15
10
5
0
Popular Interés Media Semi-lujo Lujo
social
Tipo de casa
Gráficas de puntos
Presenta los datos de una muestra mediante la representación de cada porción de
datos con un punto ubicado a lo largo de una escala. Esta escala puede ser vertical u
horizontal. La frecuencia de los valores está representada a lo largo de la otra escala1.
Estas gráficas suelen utilizarse en datos cuantitativos. Por Ejemplo:
Superficie de Costrucción
350
300
Métros cuadrados
250
200
150
100
50
0
0 5 10 15 20 25
Núm ero de dato
Distribución de frecuencias
Acabamos de ver cómo los datos se pueden representar de una manera gráfica para
facilitarnos su interpretación, pero la manera más efectiva de manejarlos es a través de
tablas de distribución de frecuencias.
La frecuencia es el número de veces que un valor numérico aparece en la muestra.
La distribución de frecuencias es un listado que asocia cada valor de una variable
con su frecuencia.
Para obtener la distribución de frecuencias de una muestra primero es necesario
listar el total de los datos en orden ascendente; después determinamos el rango de los
datos, es decir, la diferencia entre el mayor y el menor de ellos. Luego hay que establecer
el número de intervalos de clase, que son los intervalos contenidos en el rango en los
cuales lo queremos dividir. Dicho número de intervalos nos da el ancho de clase, el cual lo
podemos definir como la diferencia entre el límite superior y el límite inferior de clase. Estos
límites no son mas que los valores numéricos máximo y mínimo en que deben estar
contenidos los datos para pertenecer a esa clase.
ANALSIS DE DATOS
Como vimos anteriormente, la estadística estudia las características de una muestra
para hacer inferencias de las características de una población. Dichas características de las
poblaciones se estudian mediante indicadores de aspectos particulares. Estos indicadores
son llamados parámetros cuando se refieren a poblaciones y estadísticos cuando hacen
referencia a muestras. Una vez que tenemos ordenados nuestros datos en distribuciones
de frecuencias, existen dos tipos de indicadores para empezar a estudiar nuestros dados:
los de tendencia central y los de dispersión.
Media
La medida de tendencia central más utilizada es la media aritmética. Debido a que,
por lo general consideramos datos que se obtienen de una muestra, nos referimos a la
media aritmética como la media muestral; es común escuchar que representa el promedio
de los valores numéricos de los datos y se calcula dividiendo la suma de todos los valores
entre el número de datos. Sin embargo, la media difiere del promedio al involucrar
conceptos de probabilidad. De una manera simple, diremos que la media puede ser
definida como la suma de todos los valores de una población o muestra, multiplicando cada
uno de éstos valores con su probabilidad de ocurrencia, pero para efectos prácticos la
manejaremos como un promedio. Cuando hablamos de la media de una población, la
representamos por la letra griega (miu minúscula) y cuando hablamos de la media de una
muestra la representamos con x . Si las observaciones en una muestra tamaño n son
x1,x2,...,xn, la media muestral es:
- x
_
_+
1
__x
2
_+
_
_._
.._
+
_x
_n
_
x
n
o lo que es lo mismo:
-
i =1
x
i
x
n
la media de estos datos sigue siendo una medida de tendencia central, pero no implica
necesariamente que la mayoría de las observaciones estarán alrededor de ella. Si
consideramos que las observaciones tienen una unidad de masa y peso, la media muestral
es solo el centro de masa de los datos y esto implica que el histograma se equilibrará, en
forma de balanza, si se apoya en la media muestral.
Cuando calculamos el valor promedio de las observaciones de una población finita,
lo llamamos media de la población y lo calculamos de la misma manera:
x
N
N
x
i=1
x i
x((n+1)/2) n impar
~
x
x(n/2)+x((n/2)+1) n par
2
La mediana tiene la ventaja de no estar muy influenciada por los valores extremo.
Moda
Medidas de dispersión
90 100 110 120 130 140 150 160 170 180 190 200 210 220
muestra 1
muestra 2
Las medidas de dispersión son aquellas que miden cómo se agrupan los datos en
una población o en una muestra. Asimismo, podemos ver el agrupamiento de todo el
conjunto de datos calculando el rango, o el agrupamiento de los datos alrededor de la
media calculando la desviación estándar y la varianza.
Rango
Varianza
s2 ____________
n-1
n
i =1
-
(x -x)
i
n 6
i =1
-
(x -x)
i
i =1
2
(x -155) i
2
s2 158
n -1 6-1
n 6
i =1
-
(x -x)i
i =1
2
(x -155) i
2
s2 1502
n -1 6-1
N
i=1
(x -) i
2
N
Desviación estándar
Es la raíz cuadrada de la varianza de un grupo de datos:
s s2
La desviación estándar nos da una idea más clara de la dispersión de los valores
alrededor de la media, ya que está expresada en las mismas unidades de medida que los
datos, es decir, si tenemos una muestra que expresa los precios de venta de un grupo de
automóviles en pesos, la varianza estará dada en pesos cuadrados, lo cual no tiene mucho
sentido al hacer un análisis; por otro lado, la desviación estándar, estará dada un pesos y
nos será de más utilidad al visualizar los datos.
Una aplicación muy útil de la desviación estándar está dada en el Teorema de
Chebyshev:
La probabilidad de que cualquier variable aleatoria x caiga dentro de k desviaciones
estándar de la media es al menos (1-(1/k2)).1
Esto quiere decir que a menos de dos desviaciones estándar de la media (k=2)
siempre se encontrarán por lo menos el 75% de los datos. Si se considera el intervalo de
tres desviaciones estándar a cada lado de la media, se encontrarán al menos el 89% de los
datos.
TAMAÑO DE LA MUESTRA
1
Walpole E. Ronald y Raymond H. Myers, Probabilidad y Estadística para Ingenieros. Trad. Luis Fernando Romero Sánchez. 2ª. Edición,
México: nueva editorial interamericana, 1983.
Variabilidad de la muestra.
Para hacer inferencias sobre una población debemos analizar con detenimiento los
resultados muestrales. De una muestra se obtiene una media muestral x , pero no es de
ro debe ser próximo para
que el resultado sea aceptable. De la misma manera, si tomamos una segunda muestra de
la población, tampoco debemos esperar que su media muestral sea idéntica a la primera
media muestral tomada, pero también debe aproximarse al primer valor tomado y a la
media poblacional. De aquí nos surge la duda de cómo saber cuál es un valor próximo;
para esto necesitamos una distribución muestral: Una distribución muestral de un
estadístico muestral, es la distribución de valores de un estadístico muestral obtenido de muestras
repetidas, todas del mismo tamaño y extraídas de la misma población1. Esto quiere decir, que si
tenemos una población cualquiera, y obtenemos varias muestras iguales (de manera
aleatoria) podemos establecer una distribución muestral, ya sea representada por una
distribución de frecuencias o en forma de histograma, de algún estadístico muestral, por
ejemplo, podemos establecer la distribución muestral de las medias x de todas las
muestras tomadas.
Si de cualquier población con media y desviación estándar , se toman todas las
posibles muestras aleatorias, cada una de tamaño n, la distribución muestral de las medias
muestrales tiene una media x igual a y una desviación estándar x igual a /(n)1/2; esta
desviación estándar de la media muesteral se llama error estándar y representa la
desviación o dispersión que presentan todas las medias muestrales respecto a la media de
la distribución de éstas. Además, si la población muestreada tiene una distribución normal2,
entonces la distribución muestral de x también es normal para muestras de todos
tamaños. Por otro lado, el Teorema del Límite Central nos dice: La distribución muestral de
medias muestrales se vuelve normal a medida que aumenta el tamaño de la muestra3. No
existe una regla firme que defina a las muestras suficientemente grandes, pero en la
práctica hablamos de muestras de más de 30 elementos.
Podemos resumir lo anterior afirmando que para describir la distribución muestral
necesitamos lo siguiente:
1 Johnson Robert y Patricia Kuby, Estadística Elemental. Lo Esencial. Trad. Hugo Villagomez. México: Thomson Learning, 2004.
2 Distribución de probabilidad continua en forma de montículo o campana, simétrica, donde el área total bajo la curva es igual a 1.
3 Johnson Robert y ...
- La ubicación del centro (la media): x =
- La medida de dispersión que indica cuan esparcidos están los datos
(desviación estándar): /(n)1/2
- Una indicación de cómo está distribuida: Si la población es normal, la
distribución de las medias muestrales es normal; el teorema del límite
central establece que, aunque la población no sea normal, la distribución
de las medias muesteales será aproximadamente normal, cuando la
muestra es suficientemente grande.
Cuando la distribución de las medias muestrales está distribuida normalmente, o es
aproximadamente normal, es posible hacer estimaciones de probabilidad con la ayuda
de la distribución normal estándar.
Confiabilidad de la muestra
Todas las muestras que tomemos no generan el mismo valor de x ( ó s). El punto
importante es que x variará de muestra a muestra. Es razonable pensar que la variación
en x será más grande a medida que la varianza de la población, sea más grande.
También, a medida que aumenta el tamaño de la muestra, la variación en x disminuirá.
Cuando la muestra es pequeña, se necesitan solo uno o dos valores extremos para afectar
sustancialmente la media muestral generando así una x relativamente grande o pequeña.
A medida que aumenta el tamaño de la muestra, estos valores extremos tendrán un menor
impacto cuando aparezcan, porque serán promediados con más valores. La variación en x
es medida por su error estándar x .
Si tenemos una variable x, con una distribución de probabilidad desconocida; la
media de la muestra, x , también tiene una distribución de probabilidad, la cual diremos que
es normal, por el teorema del límite central. Esto indica que x , normalmente se acerca a y
que tiene iguales probabilidades de ser más grande o más pequeña. El área bajo la curva
queda dividida así:
El área corresponde a la probabilidad, es decir, el área bajo la curva entre dos
x esté entre esos dos puntos. Por ejemplo, en la siguiente
puntos es la probabilidad de que
figura aparece el 95% del área; esto quiere decir que la probabilidad de que x se
encuentre dentro de 2 x de la media de la población , es 0.95.
Para visualizar el concepto de error estándar, vemos en la figura que existe un 95%
de probabilidad de que x caiga dentro de +/- dos errores estándar de la media de la
población. Esta figura se denomina distribución muestral, puesto que indica la probabilidad
de obtener una media muestral particular. El error estándar de x disminuye a medida que
el tamaño de la muestra aumenta; por consiguiente, con una muestra grande, x tenderá a
estar más cerca de , y la distribución de x cambiará con ello.
Estimación de intervalo
El tamaño del intervalo dependerá de qué tan confiados queremos estar de que el
intervalo contenga a la media de la población verdadera, la estimación de este intervalo
sería:
En este caso, el intervalo es más pequeño, pero tenemos menos confianza de que
incluya a la media poblacional verdadera.
Si la desviación estándar de la población ( x = ) no es conocida, es necesario
estimarla con la desviación estándar de la muestra, s. Por consiguiente, la estimación del
intervalo, por ejemplo, del 95.44% sería:
donde
- z(/2) = Coeficiente de confianza. Es el número de múltiplos de error
necesarios para formular una estimación por intervalo del ancho correcto
para tener un nivel de confianza de 1-parte central de la curva normal).
El término /2 se refiere al área a cada lado de la curva normal fuera del
intervalo de confianza (el valor de z(/2) se obtiene de las tablas de la
distribución normal estándar).
desviación estándar de la población (se usa s si es desconocida).
n = tamaño de la muestra.
El tamaño de la muestra
x E z(/2)/n1/2
2
z
n
E
REGRESION Y CORRELACION
Hasta ahora solo hemos visto problemas donde se involucra una variable, pero
existen muchas situaciones donde es necesario analizar de una manera combinada dos
variables, es decir un análisis de datos bivariados. Cada una de estas dos variables puede
ser cuantitativa o cualitativa, lo que resulta en tres posibles combinaciones:
Dos variables cualitativas. En esta categoría los datos se agrupan en tablas de
contingencia o cruzadas, donde se presenta la frecuencia para cada categoría cruzada de
las dos variables junto con los totales por renglón y por columna, denominados totales
marginales; el total de los totales marginales es igual al tamaño de la muestra.
Una variable cualitativa y una cuantitativa. En este caso los valores cuantitativos se
consideran muestras ajenas, cada una identificada por niveles de la variable cuantitativa y
los resultados se presentan uno junto al otro para efectos de comparación. Se pueden
aplicar histogramas para visualizar los datos.
Dos variables cuantitativas. Cuando esto sucede, los datos se expresan como pares
ordenados (x,y), donde x es la variables de entrada o variable independiente, y y es la
variable de salida o variable dependiente; a cada valor de x le corresponde un valor de y
que proviene de la misma fuente de datos. En este caso los datos se pueden representar
gráficamente mediante un diagrama de dispersión, en el cual la variable independiente x se
grafica en el eje coordenado horizontal, y la variable dependiente y en el eje vertical. Por
ejemplo:
Máquina 1 2 3 4 5 6 7
Característica 1 150 250 180 160 220 280 300
Característica 2 180 280 220 200 320 350 380
400
300
200
CONSTRUC
100
140 160 180 200 220 240 260 280 300 320
TERRENO
Correlación lineal
S
xy
rxy
(S
xxS
yy)1/2
donde Sxy representa la suma de los cuadrados de las diferencias entre (x- x ) y (y- y ); Sxx es la
suma de los cuadrados de las diferencias de (x- x ) y Syy es la suma de los cuadrados de las
diferencias de (x- x ).
n 2
n n x
i
S
xy
i=
1
(x
i-
-)(yi-y)
x
-
Sxx
i =1
xi 2 -
i =1
n
n 2
n yi
Syy
i =1
yi
2
- i =1
n
1
Hines Willian W. y otros, Probabilidad y Estadística para Ingeniería. Trad. Gabriel Nagore. 4ta. edición, México: Compañía Edtorial
Continenta, 2005.
El ejemplo más simple de una aproximación por mínimos cuadrados es el ajuste de
una línea recta a un conjunto de pares de datos observados: (x1,y1), (x2,y2),...,(xn,yn). La
ecuación de la línea recta está dada por
yest. = a + bx
El criterio de mínimos cuadrados busca encontrar los valores de a y b, para poder
estimar el valor de y, dado un valor de x. En la siguiente gráfica, representamos los valores
del mismo ejemplo utilizado anteriormente, junto con la recta a la cual se aproximan estos
valores
400
300
(y-yest.)
200
CONSTRUC
100
140 160 180 200 220 240 260 280 300 320
TERRENO
n
Q
i=
1
(y
i-a-b
x
2
i.)
Para minimizar este valor obtenemos su derivada y la igualamos a cero, pero como
Q está en función de a y de b, calculamos la derivada parcial con respecto a cada una de
las variables:
n n
cQ 2
(y - a - bx )
i i.
2 (y - a - bx )(-1) = 0
i i.
ca i =1 i =1
n
cQ n
2
(y - a - bx )
i i. 2 (y - a - bx )(-x ) = 0
i i. i
cb i =1 i =1
n n
n+b x
a
i=
1
i
i=
1
y i
n n n
a
i =1
x + b
i
i =1
x
(x y)
i
2
i i
i =1
Máquina (n=7) 1 2 3 4 5 6 7
Característica 1 (x) 150 250 180 160 220 280 300 1540
sustituyendo,
7a + 1540b = 1930
1540a + 359800b = 451000
resolviendo tenemos:
a = -0.857 b = 1.257
por lo tanto
yest. = -0.857 + 1.257x
esto quiere decir que la recta a la cual se ajustan los datos corta al eje de las ordenadas en
el valor –0.857 y tiene una pendiente positiva de 1.257.
Uno de los objetivos más importantes por los que se obtiene una ecuación de regresión es
para hacer predicciones. Volviendo a nuestro ejemplo, supongamos que deseamos
conocer el valor de la característica 2 una máquina que tiene valor de característica 1 de
175. Sustituyendo este valor en x, obtenemos:
yest. = -0.857 + 1.257(175) = 219.12
yest=a+bx+cx2
por lo tanto
n
Q
i=
1
(
yi-a
-b
x.-
i c2
x2
i)
y para encontrar el mínimo derivamos parcialmente con respecto a las tres variables
resultantes a, b y c, resolviendo y simplificando obtendremos un sistema de tres
ecuaciones con tres variables cuya solución nos dará los valores de los coeficientes para
obtener yest. en la ecuación de ajuste inicial.
n n n
an + b x + cx
i
i =1
y i
2
i
i =1 i =1
n n n
n
x + bx
2 3
a i i + c x
i (x y) i i
i =1 i =1 i =1 i =1
n n n n
a
i =1
x + b x
i
2
i =1
i
3
+ c
x
i 4
i =1
(x y )i
2
i
i =1
Análisis Multivariante
n
+
i=
1
jx
ij +
i
i = 1,2,...,n
2
k
n
Q
i =1
yi - -
j= 1
x j ij
La función Q se minimizará respecto de ,..., k
n
cQ ^
-2 yi - ^ - j xij xij 0
cj ^ ^ ^
k
i =1 j= 1
donde j=1,2,...,k.
Al resolver y simplificar obtenemos las ecuaciones normales de mínimos cuadrados, las
cuales anotaremos en forma matricial para visualizarlas más fácil:
n n n n
n x i1 x i2 ...
i =1
x ik
^
i =1
y i
i =1 i =1
n n n n
n
^
x i1 x2i 1 c x xi 1 i2 ... x x i 1 ik x y i1 i
i =1 i =1 i =1 i =1 i =1
...
...
...
...
...
...
n n n n n
i =1
x ik
i =1
x ik xi 1
x ik xi 2 ...
i =1
x2ik ^k
i =1
x ik yi
i =1
7
7
^
7 x i1 x i2 y i
i =1 i =1 i =1
7
7
7 7
^
x i1 x2i 1 x x i 1 i2 x yi1 i
i =1 i =1 i =1 i =1
7 7
7 7
x i2 x x i 1 i2 x2i 2 ^ k
x yi2 i
i =1 i =1 i =1 i =1
2 = 6030.88
Ahora supongamos que queremos conocer el precio de una máquina que tiene un valor de
200 de la característica 1 y con 250 de la característica 2. Si sustituimos estos dos valores
en x1 y en x2 de la ecuación anterior tendremos un valor estimado del precio de venta:
yest. = 112845.5 – 710.725(200) + 6039.88 (250)
yest. = 112845.5 – 142145 + 1509970 = 1480670.5
Es posible utilizar algunas técnicas para medir la eficiencia del modelo. El coeficiente
de determinación múltiple r2 se expresa como:
2
S
CR S
CE
r 1-
S
y
y S
y
y
donde SCR es la suma de los cuadrados de la regresión, SCE es la suma de los cuadrados del
error y Syy está definido por:
n 2
n y
i
Syy
i =1
y i
2
- i =1
n
Es posible que r2 no de un valor bueno dado que al añadir una variable al modelo
siempre aumentará su valor, independientemente que la variable sea estadísticamente
significativa o no. Es por eso que algunos analistas prefieren el coeficiente ajustado de
regresión múltiple (donde p = número de términos de la ecuación):
2
S
CE/(
n-p
)
ra
ju 1-
S
yy/(
n-1
)
lo que da como resultado una muestra a analizar de 26.24 comparables. Se tomarán para
la regresión los 30 que se tenían porque cumplen con la muestra mínima y se realizará un
análisis multuvariante con la variable precio con variable dependiente y las variables edad (
a partir de año) y kilómetros como variables independientes:
a
Coeficientes
Los resultado indican que la variable edad no tuvo influencia sobre el precio por lo que
se retiró del modelo y la variable kilometraje muestra una relación inversa con precio, por lo
que el modelo queda de la siguiente manera:
Hines Willian W. y otros. Probabilidad y Estadística para Ingeniería. Trad. Gabriel Nagore.
4ta. edición, México: Compañía Edtorial Continenta, 2005.
Johson, Robert y Patricia Kuby. Etadística Elemental. Lo Esencial. Trad. Hugo Villagomez.
México: Thomson Learning, 2004.