Ver Mensaje Individual
  #12  
Antiguo 11-09-2012
Avatar de elaguna
elaguna elaguna is offline
Miembro
 
Registrado: abr 2009
Ubicación: México
Posts: 51
Reputación: 16
elaguna Va por buen camino
Cita:
Empezado por mamcx Ver Mensaje
Este paso se puede mejorar considerablemente.

Primero, si ya tienes resuelto como extraer el texto de los documentos de word, que por mucho es el paso MAS dificil, entonces lo puedes colocar en un campo TEXT de la BD de postgres.

Una vez alli, montas una busqueda de texto completo:

http://www.postgresql.org/docs/9.1/s...extsearch.html

Y obtendras resultados es milisegundos (con los indices adecuados, que te lo explica la documentacion) y busquedas tipo google.

El resto es mantener actualizado el cache del contenido que metes en la BD (recuerda, es el texto de word, NO el archivo). Para eso, puedes usar una comparación de timestamp + tamaño de archivo y/o MD5 de estos + un detector de que el archivo ha cambiado.

Interesante y práctico, lo voy a probar y les comento. Lo único aquí sería la cantidad de texto que entraría en el campo text, pero veremos qué pasa.

Con la sugerencia del compañero D-MO, está muy interesante el proceso, sólo que los equipos clientes son todo Microsoft y los usuarios no tienen tiempo (ni ganas!!) de aprender como cambiar el formato de su archivo de .odt a .docx, aparte de que algunas cosas tales como texto resaltado, comentarios y otras cosas se manejan distinto de un formato a otro. Pero para documentos más sencillos funciona perfectamente.

Cuando hago la búsqueda directa en .docx se tarda unos minutos, pero al hacer la conversión, aún cuando se está realizando en el servidor Linux se tarda un poco más. Pero muy interesante el método.

Gracias a todos.
__________________
No lo intentes!. Hazlo o no lo hagas, pero no lo intentes !!! (Yoda)
Responder Con Cita