Modelos basados en el lenguaje
En la actualidad están en desarrollo modelos basados en el procesamiento del lenguaje natural, en los cuales una base de conocimientos intentaría interpretar documentos textuales y generar listas de descriptores de forma automática.
El lenguaje natural es demasiado ambiguo para que el contenido de los documentos sea extraído de forma automática. Para solucionarlo se han creado lenguajes documentales de representación del conocimiento (lenguajes controlados, taxonomías, tesauros, ontologías, etc.).
De la misma forma, para describir el contenido de los documentos Web se han desarrollado diferentes estrategias: metadatos, lenguajes semánticos (XML, RDF, OWL) para indizar los documentos y representar el conocimiento que contienen, etc.
Hoy es fácil recuperar información de forma precisa utilizando lenguajes para representar el contenido semántico de los documentos y soportar las inferencias lógicas. Sin embargo, la mayor parte de los documentos contenidos en la Web carecen de una estructuración semántica.