Club Delphi  
    FTP   CCD     Buscar   Trucos   Trabajo   Foros

Retroceder   Foros Club Delphi > Principal > Varios
Registrarse FAQ Miembros Calendario Guía de estilo Temas de Hoy

Grupo de Teaming del ClubDelphi

Respuesta
 
Herramientas Buscar en Tema Desplegado
  #1  
Antiguo 07-11-2008
Avatar de PaFernan99
PaFernan99 PaFernan99 is offline
Miembro
 
Registrado: mar 2004
Ubicación: La Plata, Buenos Aires, Argentina
Posts: 79
Poder: 21
PaFernan99 Va por buen camino
BD muy grandes ¿Qué criterio usar?

Hola gente!
Estoy trabajando en un sistema de administración documental, donde se manejan imágenes escaneadas con un tamaño total que superan los 50 GB (entre texto e imágen).
El sistema deberá ser multiusuario y web. Supongo que las mejores opciones para desarrollarlo serían con Java, Visual Studio o alguna de las versiones de Delphi .Net.

Las dudas que se me plantean con este problema son las siguientes:

¿Qué motor es es que más me conviene usar?

¿Conviene (o posible), guardar las imágenes en la BD?

Suponiendo que cada colección documental esté en un promedio de 50 GB, y tenga alrededor de 9 colecciones ¿Conviene tener una BD para cada colección o es preferible tener una sola BD para todas, ya que debo realizar búsquedas cruzadas entre las colecciones ?


¿Suponiendo que el texto escaneado esté entre 1 GB y 2 GB (creo que exagerando un poco), cuál es el tipo de campo que debo usar para lograr la mejor performance de búsqueda?

Creo que por ahora es sólo eso. Seguramente se me plantearán más dudas todavía.

Muchas gracias y saludos!
Responder Con Cita
  #2  
Antiguo 07-11-2008
[coso] coso is offline
Miembro Premium
 
Registrado: may 2008
Ubicación: Girona
Posts: 1.678
Poder: 0
coso Va por buen camino
Hola, no se si te valdria mas la pena crearte tu propio sistema, dejando las imagenes en archivos comprimidos tal cual y de igual manera el texto, mientras que en la base de datos tansolo poner las referencias a estos archivos. Podrias, por ejemplo, por cada entrada de la base de datos tener un directorio y dentro de este la información en archivos mas optimizados segun el tipo de dato. saludos.
Responder Con Cita
  #3  
Antiguo 07-11-2008
Avatar de Delphius
[Delphius] Delphius is offline
Miembro Premium
 
Registrado: jul 2004
Ubicación: Salta, Argentina
Posts: 5.582
Poder: 25
Delphius Va camino a la fama
Hola PaFernan99,
Estoy con coso, no creo que sea tan viable empezar un sistema de cero. A menos que sea demasiado a la medida, y tengas los recursos, el presupuesto y el tiempo necesario me parece que es mejor buscar algo ya hecho.
¿Es para ti el sistema? ¿Para un cliente en particular? O por el contrario... ¿Un desarrollo genérico y con posibilidad de licenciamiento a muchas empresas?

Aqui en Salta, PLUMADA ofrece un servicio de gestión y resguardo de información tanto física como digital. ¿No hay una empresa así por allí?
Eso si, los servicios de PLUMADA no son tan baratitos que digamos.

Saludos,
__________________
Delphius
[Guia de estilo][Buscar]
Responder Con Cita
  #4  
Antiguo 07-11-2008
[coso] coso is offline
Miembro Premium
 
Registrado: may 2008
Ubicación: Girona
Posts: 1.678
Poder: 0
coso Va por buen camino
Cita:
Estoy con coso, no creo que sea tan viable empezar un sistema de cero
no,no, si yo decia lo contrario
Responder Con Cita
  #5  
Antiguo 07-11-2008
Avatar de Delphius
[Delphius] Delphius is offline
Miembro Premium
 
Registrado: jul 2004
Ubicación: Salta, Argentina
Posts: 5.582
Poder: 25
Delphius Va camino a la fama
Cita:
Empezado por coso Ver Mensaje
no,no, si yo decia lo contrario
Juraría haber leído un "Pero" entre "...tu propio sistema," y "dejando las imágenes..."

No más digo que tal vez lo mejor, como una opción o alternativa a contemplar es emplear algo ya hecho. En este caso, yo di el ejemplo de PLUMADA, que ofrece el servicio de resguardo y gestión de documentos físicos y digitales (que no es lo único que hace).

En fin, ya nos dirá PaFernan99 que es lo que se está buscando.

Saludos,
__________________
Delphius
[Guia de estilo][Buscar]
Responder Con Cita
  #6  
Antiguo 07-11-2008
[coso] coso is offline
Miembro Premium
 
Registrado: may 2008
Ubicación: Girona
Posts: 1.678
Poder: 0
coso Va por buen camino
No no, mi idea era que creara un sistema de carpetas, correspondiendo cada directorio a una entrada en la base de datos. Si pone imagenes de 10Gb y cosas por el estilo (por otra parte, que lo veo muy exagerado) lo mejor seria trabajar con el formato nativo de las imagenes, ya que tendran su propio tipo de compresion, etc...si se pone raw data en la base de datos, quiza cada entrada te ocupa ...no se...230 Gb. Hacer un browse a una base de datos asi seria lentisimo. Te recomiendo otra vez eso mismo: usar en tu bd tansolo las referencias a los archivos, y crear un sistema fijo de directorios,etc...cargando y haciendo previews segun necesites. De todas maneras, si se opta por un alojamiento externo, la velocidad de subida y bajada de red tendra que ser mas que aceptable para que tu programa no se vaya estancando cada segundo.
Responder Con Cita
  #7  
Antiguo 07-11-2008
Avatar de Delphius
[Delphius] Delphius is offline
Miembro Premium
 
Registrado: jul 2004
Ubicación: Salta, Argentina
Posts: 5.582
Poder: 25
Delphius Va camino a la fama
Cita:
Empezado por coso Ver Mensaje
No no, mi idea era que creara un sistema de carpetas, correspondiendo cada directorio a una entrada en la base de datos. Si pone imagenes de 10Gb y cosas por el estilo (por otra parte, que lo veo muy exagerado) lo mejor seria trabajar con el formato nativo de las imagenes, ya que tendran su propio tipo de compresion, etc...si se pone raw data en la base de datos, quiza cada entrada te ocupa ...no se...230 Gb. Hacer un browse a una base de datos asi seria lentisimo. Te recomiendo otra vez eso mismo: usar en tu bd tansolo las referencias a los archivos, y crear un sistema fijo de directorios,etc...cargando y haciendo previews segun necesites. De todas maneras, si se opta por un alojamiento externo, la velocidad de subida y bajada de red tendra que ser mas que aceptable para que tu programa no se vaya estancando cada segundo.
Ha, ahora entiendo.
En este punto si estamos de acuerdo. No es viable estar guardando en la base de datos imágenes o documentos que pesen tanto... En este caso creo que lo mejor es tener la ruta guardada, y en un/os directorio/s específico las imágenes y documentos.

Ahora que leo bien lo que nos aportó PaFernan99, no se si los servicios de PLUMADA sean tan orientados a la web

Saludos,
__________________
Delphius
[Guia de estilo][Buscar]
Responder Con Cita
  #8  
Antiguo 07-11-2008
Avatar de PaFernan99
PaFernan99 PaFernan99 is offline
Miembro
 
Registrado: mar 2004
Ubicación: La Plata, Buenos Aires, Argentina
Posts: 79
Poder: 21
PaFernan99 Va por buen camino
Hola coso y Delphius!
Gracias por vuestras opiniones.
Con respecto a lo que decías Delphius, desarrollar el sistema no solo es viable, sino imprescindible. Estoy trabajando en un archivo documental muy importante en cuando a volumen (el más importante de sudamérica, está aca en Argentina ).
Tu propuesta es valedera, coso, ya que actualmente tienen un sistema funcionando así, pero que fue desarrollado a principios del 2000, y les ha quedado muy chico (8 de las 9 colecciones quedaron afuera).
Utilizan un motor SQL server.
¿Tu sugerencia es que haga las búsquedas en los archivos de texto directamente, o utilice la BD para almacenar el texto, realizar las búsquedas sobre este y recuperar las imágenes por medio de la referencia?
Olvidemonos ya de cargar las imágenes en la BD, eso queda descartado.

Gracias por la ayuda!
Responder Con Cita
  #9  
Antiguo 07-11-2008
[coso] coso is offline
Miembro Premium
 
Registrado: may 2008
Ubicación: Girona
Posts: 1.678
Poder: 0
coso Va por buen camino
Bueno, quiza seria mejor usar la bd unicamente para referenciar los archivos (aunque de la manera que hablas, con solo 9 "colecciones", tampoco haria mucha falta usar una base de datos). En cuanto a buscar texto dentro de cada coleccion, etc, usaria mas bien codigo propio, o bien llamando a programas externos (por ejemplo, crear un grep.exe o usar alguno existente, pues es algo antiguo y los hay de muy muy buenos) que escanearan los archivos, recogiendo su resultado y que lo mostrase tu programa

Última edición por coso fecha: 07-11-2008 a las 17:08:47.
Responder Con Cita
  #10  
Antiguo 07-11-2008
Avatar de mamcx
mamcx mamcx is offline
Moderador
 
Registrado: sep 2004
Ubicación: Medellín - Colombia
Posts: 3.911
Poder: 25
mamcx Tiene un aura espectacularmamcx Tiene un aura espectacularmamcx Tiene un aura espectacular
Y que contiene cada coleccion? Se les hace OCR a las imagenes? Que es lo que se busca?
__________________
El malabarista.
Responder Con Cita
  #11  
Antiguo 07-11-2008
Avatar de duilioisola
[duilioisola] duilioisola is offline
Miembro Premium
 
Registrado: ago 2007
Ubicación: Barcelona, España
Posts: 1.734
Poder: 20
duilioisola Es un diamante en brutoduilioisola Es un diamante en brutoduilioisola Es un diamante en bruto
A mi me falta información para poder decidir sobre este tema:
- Cada colección tiene 50GB de qué? (qué tipo de imagen, texto, video, audio, etc.)

- Esa colección es un solo archivo o está separado en miles de archivos (imágenes, textos, etc.)

Si son miles de archivos, podrás utilizar la base de datos para buscarlos, si son solo 9 archivos, no vale la pena.

Cuando quieras seleccionar algo que haz encontrado, y quieras traértelo,
- ¿Te traerás 50GB?
- ¿Te traerás 1 o 2 GB de texto?
- ¿Te traerás pocos megas de una imagen o un archivo?
- ¿Te traerás solo el nombre y la descripción del archivo?

Una base de datos, con un campo blob que tenga que traerse mas de 100MB supongo que será muy lento.

También te puedes hacer un diccionario en una base de datos que te dijera que palabra de más de 4 letras está en qué archivo y así poder hacer búsquedas.

Todo esto, también hay que pensarlo en cuanto a velocidad de subida/bajada.
- Si es a travez de internet y tienes que bajar una colección serán 50GB.
- Si es a travez de internet y tienes que bajar un texto serán 1-2GB.
- Si es a travez de internet y tienes que bajar parte de un texto.
Responder Con Cita
  #12  
Antiguo 07-11-2008
Avatar de Lepe
[Lepe] Lepe is offline
Miembro Premium
 
Registrado: may 2003
Posts: 7.424
Poder: 29
Lepe Va por buen camino
Ejem, un punto de vista diferente: Los campos Blob no se guardan como un campo más del registro. En realidad, en el registro se guarda un IDBlob, el blob físico por tanto, quedará en otra parte del archivo. Por ello la "eficiencia" no tiene nada que ver con la longitud del campo Blob.

Incrustar imágenes en la BBDD está justificado para no lidiar con rutas que algún avispado, pueda cambiar el nombre del archivo/carpeta.

Dejar los archivos fuera está justificado para no lidiar con un sólo archivo de 500 GB, por ejemplo.

Para más información consultar el buscador, ya hay discusiones suficientes como para empezar otra, además veo que PaFernan99 ya tomó una decisión al respecto.

Volviendo al tema: yo opino de forma distinta a coso. Yo Incluiría todos los textos dentro de la BBDD; fuera de ella sólo los archivos de gran tamaño. Esto te permite:
- hacer búsquedas flexibles sin necesidad de herramientas externas.
- Unir la información de varias tablas (muy posiblemente distintos archivos) haciendo la búsqueda más compacta y eficiente.
- filtros muy especializados.
- etc.

En cuanto al texto no lo tengo claro, dices que la imagen escaneada es de 1 GB pero, ¿tienes posibilidad de pasarlo al bloc de notas y guardarlo para saber el tamaño real del texto?

Si son grandes descripciones o artículos de revista, te sería de gran utilidad guardar palabras de referencia para las búsquedas (algo así como los tags de las páginas web o Youtube), en lugar de buscar en el texto del artículo, buscas en esas referencias. Sin duda acortaría las búsquedas muchísimo.

OFFTOPIC: coso, yo sólo tengo 9 propiedades... no es mucho, algunas son: BP, CARREFOUR, EL CORTE INGLÉS, GM, SPAINAIR... ¿tendré volumen de información que guardar .

Saludos
__________________
Si usted entendió mi comentario, contácteme y gustosamente,
se lo volveré a explicar hasta que no lo entienda, Gracias.
Responder Con Cita
  #13  
Antiguo 07-11-2008
[coso] coso is offline
Miembro Premium
 
Registrado: may 2008
Ubicación: Girona
Posts: 1.678
Poder: 0
coso Va por buen camino
bueno, la polemica esta servida:

se guarda el id y el raw data, si tienes una imagen jpeg de 25 gb comprimida y la guardas tipo raw (o sea el estilo BLOB habitual, a no ser que quieras trabajar un poco) probablemente te crecera a unos 125 gb. Creo que es mejor dejarlo en formato jpg, no?

Cita:
Volviendo al tema: yo opino de forma distinta a coso. Yo Incluiría todos los textos dentro de la BBDD; fuera de ella sólo los archivos de gran tamaño. Esto te permite:
- hacer búsquedas flexibles sin necesidad de herramientas externas.
si bien sql esta muy bien para buscar texto en bases de datos, lo que tardara muchisimo es cargar y descargar todos estos datos a memoria para luego buscar en ellos. quiza seria mejor buscar directamente a disco no? 50 gb de texto el so pasara a memoria cache y, al final, sera lo mismo que buscar desde disco directamente.

Cita:
- Unir la información de varias tablas (muy posiblemente distintos archivos) haciendo la búsqueda más compacta y eficiente.
50gb + 50gb = 100gb...no creo que la busqueda fuese mas compacta y eficiente.

Cita:
- filtros muy especializados.
si miras lo que le propuse (grep.exe) veras que no es mas que un antecedente de lo que ahora se usa para filtros y busquedas.

Cita:
En cuanto al texto no lo tengo claro, dices que la imagen escaneada es de 1 GB pero, ¿tienes posibilidad de pasarlo al bloc de notas y guardarlo para saber el tamaño real del texto?
el bloc de notas no te carga 1gb de datos

Cita:
OFFTOPIC: coso, yo sólo tengo 9 propiedades... no es mucho, algunas son: BP, CARREFOUR, EL CORTE INGLÉS, GM, SPAINAIR... ¿tendré volumen de información que guardar
claro que tendras volumen, lo que no tendras son entradas para la bd. En tu caso asi haria un sistema de carpetas y en ellas poner toda la información necesaria, y en la base de datos tansolo poner las referencias a estas carpetas y a los archivos. Aunque, si se que van a ser pocas las entradas, puedo saltarme directamente el paso de la base de datos y que la aplicacion mirara, por ejemplo, el numero de carpetas que existe y sacar la información necesaria de ellas directamente : en vez de un dbgrid, usaria un ttreeview, para que lo entiendas.

Última edición por coso fecha: 07-11-2008 a las 17:50:06.
Responder Con Cita
  #14  
Antiguo 07-11-2008
Avatar de Lepe
[Lepe] Lepe is offline
Miembro Premium
 
Registrado: may 2003
Posts: 7.424
Poder: 29
Lepe Va por buen camino
Cita:
Empezado por coso Ver Mensaje
bueno, la polemica esta servida:
No, no lo está porque no estoy por la labor de crear polémica .
Cita:
Empezado por coso Ver Mensaje
el bloc de notas no te carga 1gb de datos
[/quote]

Me refería a cuanto ocupa en modo texto ese giga escaneado en forma bitmap.

Saludos
__________________
Si usted entendió mi comentario, contácteme y gustosamente,
se lo volveré a explicar hasta que no lo entienda, Gracias.
Responder Con Cita
  #15  
Antiguo 08-11-2008
[coso] coso is offline
Miembro Premium
 
Registrado: may 2008
Ubicación: Girona
Posts: 1.678
Poder: 0
coso Va por buen camino
Cita:
OFFTOPIC: coso, yo sólo tengo 9 propiedades... no es mucho, algunas son: BP, CARREFOUR, EL CORTE INGLÉS, GM, SPAINAIR
ya te gustaria a ti ser propietario de BP, GM, SPANAIR...

Última edición por coso fecha: 08-11-2008 a las 00:17:16.
Responder Con Cita
  #16  
Antiguo 08-11-2008
Avatar de Lepe
[Lepe] Lepe is offline
Miembro Premium
 
Registrado: may 2003
Posts: 7.424
Poder: 29
Lepe Va por buen camino
Cita:
Empezado por coso Ver Mensaje
ya te gustaria a ti ser propietario de BP, GM, SPANAIR...
Buena respuesta .

Volvamos al topic, según algunos compañeros faltan datos (estoy de acuerdo), si fuera posible concretar un poco más, quizás tengan algún As escondido debajo de la manga.

Saludos
__________________
Si usted entendió mi comentario, contácteme y gustosamente,
se lo volveré a explicar hasta que no lo entienda, Gracias.
Responder Con Cita
  #17  
Antiguo 12-11-2008
Avatar de PaFernan99
PaFernan99 PaFernan99 is offline
Miembro
 
Registrado: mar 2004
Ubicación: La Plata, Buenos Aires, Argentina
Posts: 79
Poder: 21
PaFernan99 Va por buen camino
Red face Perdón por la tardanza...

Perdón por la tardanza pero estuve fuera unos días.
En las próximas horas voy a revisar leer este topic y a responder a las preguntas realizadas para profundizar mas en este tema.
En este momento no me es posible...

Saludos y mil gracias a todos!
Responder Con Cita
  #18  
Antiguo 13-11-2008
Avatar de Neftali [Germán.Estévez]
Neftali [Germán.Estévez] Neftali [Germán.Estévez] is offline
[becario]
 
Registrado: jul 2004
Ubicación: Barcelona - España
Posts: 18.286
Poder: 10
Neftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en bruto
Bueno, ahora mismo estoy evaluando la implantación de un sistema de Gestión Documental; Con otras características y más pequeño, pero al final un sistema documental, así que el temame interesa. En nuestro caso, no lo vamos a implementar, pero tal vez sí tengamos que hacer módulos de integración.

Cita:
Empezado por PaFernan99 Ver Mensaje
¿Qué motor es es que más me conviene usar?
¿Conviene (o posible), guardar las imágenes en la BD?
¿Conviene tener una BD para cada colección o es preferible tener una sola BD para todas, ya que debo realizar búsquedas cruzadas entre las colecciones ?
¿Suponiendo que el texto escaneado esté entre 1 GB y 2 GB (creo que exagerando un poco), cuál es el tipo de campo que debo usar para lograr la mejor performance de búsqueda?
Bueno, en cuanto a Base de Datos yo tiraría hacia SQL Server.
El tema de las imágenes, yo recomendaría fuera.
Si Suponemos que todo el peso de las imágenes va a estar fuera de la Base de Datos, yo optaría por tener todas las colecciones en la misma DB.

El tema del texto, no me queda claro cómo lo vas a hacer. No se si quieres escanear TODOS los documentos y guardar TODAS las palabras para luego poder buscar o escanear documentos y guardar lo que serían TAG's asociados a cada documento para luego poder buscar por esos TAG's. Dependiendo de lo que necesites tal vez sea mejor tirar por un sitio o por otro.
Nuestro caso es el segundo. Escaneamos documentos a PDF y se guardan (se deben guardar) algunas referencias a ese documento para después buscar. En este caso, los documentos van fuera (PDF firmado) y las palabras se guardan dentro. Otras opciones, aunque no las he evaluado odavía son motores de búsqueda externos que permiten buscar dentro de documentos escaneados en PDF.
__________________
Germán Estévez => Web/Blog
Guía de estilo, Guía alternativa
Utiliza TAG's en tus mensajes.
Contactar con el Clubdelphi

P.D: Más tiempo dedicado a la pregunta=Mejores respuestas.
Responder Con Cita
  #19  
Antiguo 13-11-2008
Avatar de Neftali [Germán.Estévez]
Neftali [Germán.Estévez] Neftali [Germán.Estévez] is offline
[becario]
 
Registrado: jul 2004
Ubicación: Barcelona - España
Posts: 18.286
Poder: 10
Neftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en brutoNeftali [Germán.Estévez] Es un diamante en bruto
Cita:
Empezado por coso Ver Mensaje
Si pone imagenes de 10Gb...
Cita:
Empezado por Lepe Ver Mensaje
En cuanto al texto no lo tengo claro, dices que la imagen escaneada es de 1 GB pero, ¿tienes posibilidad de pasarlo al bloc de notas y guardarlo para saber el tamaño real del texto?
Creo que cuando habla de esos tamaños, se refiere a todas las imágenes (50 GB) y a todos los textos (2 GB), no que una imagen ocupe eso y un texto ocupe eso.
Tal vez deba aclararlo.

Una imagen de 25 GB debe ser la luna escaneada palmo a palmo...
Podría ser una foto de 40x30 metros escaneada a 5 Megapixels.
__________________
Germán Estévez => Web/Blog
Guía de estilo, Guía alternativa
Utiliza TAG's en tus mensajes.
Contactar con el Clubdelphi

P.D: Más tiempo dedicado a la pregunta=Mejores respuestas.

Última edición por Neftali [Germán.Estévez] fecha: 13-11-2008 a las 12:11:35.
Responder Con Cita
  #20  
Antiguo 13-11-2008
[coso] coso is offline
Miembro Premium
 
Registrado: may 2008
Ubicación: Girona
Posts: 1.678
Poder: 0
coso Va por buen camino
si, ahora mismo estaba releyendo y lo seguia encontrando exagerado...hasta que vi la palabra total voy a tener que graduarme las gafas
Responder Con Cita
Respuesta



Normas de Publicación
no Puedes crear nuevos temas
no Puedes responder a temas
no Puedes adjuntar archivos
no Puedes editar tus mensajes

El código vB está habilitado
Las caritas están habilitado
Código [IMG] está habilitado
Código HTML está deshabilitado
Saltar a Foro

Temas Similares
Tema Autor Foro Respuestas Último mensaje
Propiedad tableName,al criterio look SQL 2 16-10-2007 01:54:32
Busquedas por cualquier criterio, sin especificar ninguno Wonni SQL 15 14-03-2007 19:30:13
Una jábega de cantamañanas se pasa por el forro, cuando le conviene, el criterio.. marcoszorrilla La Taberna 4 02-01-2007 11:15:25
Grandes frases de grandes personas Nuria Humor 7 18-04-2004 05:40:17
tablas grandes Giniromero Firebird e Interbase 4 14-04-2004 18:18:48


La franja horaria es GMT +2. Ahora son las 13:16:24.


Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi
Copyright 1996-2007 Club Delphi