Foros Club Delphi

Foros Club Delphi (https://www.clubdelphi.com/foros/index.php)
-   SQL (https://www.clubdelphi.com/foros/forumdisplay.php?f=6)
-   -   Búsquedas por aproximación (https://www.clubdelphi.com/foros/showthread.php?t=50441)

danilo_candales 17-11-2007 17:54:03

Búsquedas por aproximación
 
Por acá de nuevo.
Ya en otro hilo me ayudaron a desarrollar la sentencia SQL apropiada para sacar registros de una BD que cumplen determinada condición.

Ahora el requerimiento es otro y aunque le he investigado, si me dan un norte y me ayudan a ajustar la brújula se los agradeceré infinitamente.

El asunto ahora es búsquedas con porcentaje de aproximación o algo así. Mejor lo muestro con un ejemplo: Si en una tabla tengo nombres y está registrado "Carlos" y le digo que me localice a "Karlos" debe encontrarse.

No sé si me expliuqué. Por cierto. Uso SQL Server 2005 y Delphi 7. Anque me imagino que esto como debe salir es con TSQL, por eso lo puse en este foro de SQL.

Gracias anticipadas a todos.

Héctor Randolph 17-11-2007 18:59:53

Cita:

Empezado por danilo_candales
Ahora el requerimiento es otro y aunque le he investigado, si me dan un norte y me ayudan a ajustar la brújula se los agradeceré infinitamente.

Bueno, yo puedo darte un norte.

Busca información acerca de distancia de edición, puede servirte el algoritmo de Levenshtein. Esto te permite determinar que tan lejos se encuentra una palabra de otra. Es decir, en el ejemplo que pones "Karlos" es muy parecido a "Carlos" porque su distancia de edición es 1. En el truco 424 del club escribí algo al respecto. Busca alguna implementación del algoritmo para SQL Server por ejemplo: http://www.sqlteam.com/forums/topic.asp?TOPIC_ID=51540


Sin embargo, el algoritmo es lento para palabras muy largas, necesitas hacer algo para que la búsqueda sea eficiente. En realidad, todo depende de que tan grande sea el conjunto de datos que estás atacando. El truco está en reducir el número de comparaciones que debes hacer para encontrar las palabras cercanas. Por ejemplo, si escribo "Karlos" y deseo buscar los registros que tienen nombres parecidos a este, puedo descartar palabras cuya longitud sea mayor o igual a 10 por decir algo. De ante mano sé que no están dentro del rango de la búsqueda. Tal vez debas crear tablas auxiliares o clases de equivalencia o poner algunas reglas adicionales.

Saludos

danilo_candales 24-11-2007 02:32:39

Para darle seguimiento a esto.

Primeramente, muchísimas gracias Héctor, cada vez la brújula está mejor afinada. Te cuento que después de varias pruebas y validaciones y todo lo demás el algoritmo no me convence, se me hace muy ineficiente, en tiempos me refiero. Los resultados son bastante cercanos a lo que deseo, sobre todo porque puedo establecer parámetros, si es menor/igual a 5 entonces la relevancia es 100% , etc. Pero... muy lento mi amigo, incluso llegó a marcar Time Out la BD....(utilicé la variante TSQL)
Por otra parte, también hice mil pruebas utilizando las funciones SOUNDEX y DIFFERENCE de SQL. Ambas son muy rápidas y confiables, pero.... DIFFERENCE solo devuelve valores enteros del 1 al 4, para establecer una relevancia porcentual está muy amplio el rango....

select Difference('Karlos','Carlos) = 3

Y en casos como este debe ser con una relevancia mayor a 90% y el 3 caería en el rango 50-75.....

Y con SOUNDEX sucede que si la primera letra de la cadena es diferente a la que se busca ya no sirve.

select Soundex('carlos'),soundex('Karlos')

Ej: Soundex('Carlos') = C642 y Soundex('Karlos') = K642.

Con la siguiente sentencia ya no me trae lo que neceito:

select * from Lista where soundex(Nombre) like soundex('Karlos')

En fin, todo este rollo para volver a apelar a ustedes. Si se les ocurre otra idea será bienvenida por loca que parezca (la idea, claro).
Muchas gracias a todos y en particular a Hector nuevamente.

Otro par de ejemplos para si están interesados, comprueben algo.... no se parecen en nada....

select Soundex ('carlos martinex lopez'),soundex('martinex lopez carlos')
select difference ('carlos martinex lopez', 'martinex lopez Carlos')

PD. Testeado en SQL Server 2005. Incluso con la versión express funciona...

danilo_candales 27-11-2007 20:11:24

Solo para reactivar el hilo y ver si alguien me ofrece alguna otra idea.

Gracias mil.

DARK_WARRIOR 06-12-2007 09:48:13

ese problema ya lo tube ase unas semanas y lo resolvi de la siguiete manera

Código Delphi [-]
var
consulta,buscar:string;
x:integer;
begin
buscar:=edit1.Text;
consulta:='select * from tutabla where  campo like "%'+buscar+'%"';
 //el % le dise que busque la subcadena 
query1.SQL.Clear;
query1.SQL.Add(consulta);
query1.Active:=true;
query1.Open;


La franja horaria es GMT +2. Ahora son las 22:49:22.

Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi