next up previous
Next: 2 Modelos jerárquicos lineales Up: 1 Estructura general Previous: 1 Intercambiabilidad

2 Análisis

El problema básico al analizar un modelo jerárquico es que la distribución inicial de los parámetros no está completamente especificada, sino que depende de un hiperparámetro que a su vez tiene una distribución inicial propia. En otras palabras, el problema consiste en hacer inferencias sobre las características individuales $\bmath{\theta}_1,\ldots,\bmath{\theta}_k$, así como sobre la característica poblacional $\bmath{\phi}$. La distribución inicial apropiada es entonces

\begin{displaymath}
p(\bmath{\theta},\bmath{\phi}) =
p(\bmath{\theta}\vert\bmath{\phi}) \, p(\bmath{\phi}).
\end{displaymath}

La distribución final correspondiente es

\begin{eqnarray*}
p(\bmath{\theta},\bmath{\phi}\vert\bmath{x}) & \propto &
p(\b...
...h{\phi}) \, p(\bmath{\phi}) \,
p(\bmath{x}\vert\bmath{\theta}),
\end{eqnarray*}



donde la última igualdad se debe a que la distribución de las observaciones sólo depende de $\bmath{\theta}$; el hiperparámetro $\bmath{\phi}$ afecta a $\bmath{x}$ sólo a través de $\bmath{\theta}$. Dicho de otra forma, $\bmath{x}$ y $\bmath{\phi}$ son condicionalmente independientes dado $\bmath{\theta}$. La distribución final puede reescribirse como

\begin{displaymath}
p(\bmath{\theta},\bmath{\phi}\vert\bmath{x}) =
p(\bmath{\th...
...ert\bmath{\phi},\bmath{x}) \,
p(\bmath{\phi}\vert\bmath{x}),
\end{displaymath}

donde

\begin{displaymath}
p(\bmath{\theta}\vert\bmath{\phi},\bmath{x}) =
\frac{p(\bma...
...\bmath{x}\vert\bmath{\theta})}
{p(\bmath{x}\vert\bmath{\phi})}
\end{displaymath}

y
\begin{displaymath}
p(\bmath{\phi}\vert\bmath{x}) \propto p(\bmath{\phi}) \, p(\bmath{x}\vert\bmath{\phi}),
\end{displaymath} (6)

con

\begin{displaymath}
p(\bmath{x}\vert\bmath{\phi}) =
\int p(\bmath{x}\vert\bmath...
...ta}) \, p(\bmath{\theta}\vert\bmath{\phi}) \,
d\bmath{\theta}.
\end{displaymath}

Por otra parte, la distribución marginal final de los parámetros está dada por

\begin{displaymath}
p(\bmath{\theta}\vert\bmath{x}) \propto
\int p(\bmath{x}\ve...
...\theta}\vert\bmath{\phi}) \,
p(\bmath{\phi}) \, d\bmath{\phi}.
\end{displaymath} (7)

Las inferencias acerca de $\bmath{\phi}$ y $\bmath{\theta}$ deben de basarse en (8) y (9), respectivamente.

En general no es posible calcular estas distribuciones de manera analítica. Afortunadamente, existen técnicas de simulación que permiten analizar este tipo de modelos incluso en casos donde el número de parámetros es relativamente grande. Específicamente, los métodos de Monte Carlo vía cadenas de Markov (ver, por ejemplo, Gilks, Richardson y Spiegelhalter, 1996) han demostrado ser muy útiles en el análisis de los modelos jerárquicos.

Bajo ciertas condiciones, es posible realizar un análisis aproximado relativamente sencillo. Si $p(\bmath{\phi}\vert\bmath{x})$ está razonablemente concentrada alrededor de su moda, $\hat{\bmath{\phi}}_*$, entonces

\begin{displaymath}
p(\bmath{\theta}\vert\bmath{x}) \approx
p(\bmath{\theta}\vert\hat{\bmath{\phi}}_*,\bmath{x}),
\end{displaymath}

en cuyo caso los parámetros $\bmath{\theta}_i$ son aproximadamente independientes a posteriori. En particular, la distribución marginal final de cada uno de estos parámetros se puede aproximar a través de

\begin{displaymath}
\hat{p}(\bmath{\theta}_i\vert\bmath{x}) \propto
p(\bmath{\t...
...rt\hat{\bmath{\phi}}_*) \,
p(\bmath{x}\vert\bmath{\theta}_i).
\end{displaymath}

En otras palabras, es como si utilizáramos los datos para estimar el valor de $\bmath{\phi}$ y entonces aplicáramos el Teorema de Bayes de la manera usual en los dos primeros niveles de la jerarquía, tomando $\bmath{\phi} = \hat{\bmath{\phi}}_*$. Este tipo de aproximaciones da lugar a lo que comúnmente se conoce como Métodos Empíricos Bayesianos. Un problema de estos métodos es que en general no toman en cuenta la incertidumbre acerca de $\bmath{\phi}$. El lector interesado puede consultar el libro de Carlin y Louis (1996).

Predicción

Un modelo jerárquico está caracterizado por los parámetros $\bmath{\theta}_1,\ldots,\bmath{\theta}_k$ y el hiperparámetro $\bmath{\phi}$. En general, hay dos distribuciones predictivas que podrían ser de interés: (i) la distribución de una observación futura $X_{j*}$ correspondiente a uno de los parámetros $\bmath{\theta}_j$ existentes; y (ii) la distribución de una observación $X_{**}$ correspondiente a una futura $\bmath{\theta}_*$ que proviene de la misma población que dio lugar a los parámetros $\bmath{\theta}_i$.

Como en el caso de la distribución final, en general estas distribuciones predictivas no pueden encontrarse analíticamente pero pueden ser analizadas a través de métodos de simulación.

A continuación discutiremos con cierto detalle un modelo particular ampliamente utilizado en la práctica y que puede analizarse sin necesidad de métodos numéricos sofisticados.


next up previous
Next: 2 Modelos jerárquicos lineales Up: 1 Estructura general Previous: 1 Intercambiabilidad