Modelo de recuperación Probabilístico


El criterio para recuperar un determinado documento o no es el cálculo de la probabilidad de que éste sea relevante para una pregunta dada. Para ello es preciso determinar las propiedades que definen el conjunto de documentos relevantes.


El modelo probabilístico parte de la presencia o ausencia de los términos de la consulta en los documentos de la colección. Por tanto se trata de un modelo binario. Utiliza índices de los términos descriptores con pesos definidos previamente. De esta manera se consigue que el sistema efectúe la recuperación incidiendo sobre todo en los mejores descriptores de entre los empleados por el usuario en la consulta, minimizando la importancia de los peores.


En base a los pesos comentados anteriormente, el modelo probabilístico es capaz de calcular el grado de relevancia entre cada documento para una consulta dada. De esta manera permite ordenar los documentos de la colección en orden descendente de probabilidad de relevancia en relación a la consulta, superando así la gran deficiencia del modelo booleano, pesar de seguir siendo un modelo binario.


Ahora bien, el modelo probabilístico necesita una hipótesis inicial para establecer los documentos relevantes y el peso de sus descriptores. Además, no tiene en cuenta la frecuencia de los términos índice y supone que estos son independientes entre sí. Por ello la estimación de las probabilidades iniciales sigue siendo una de las áreas más activas entre sus especialistas.