Acortador de cadena alfanumérica (simil URL Shortener)
Hola gente de Club Delphi.
Les escribo para consultarle alguna idea/código para "acortar" una cadena alfanumérica en una cadena del mismo tipo pero de menor tamaño. Concretamente, tengo una cadena de 28 caracteres y necesito generar una nueva cadena pero de 8 o 10 caracteres con las siguientes características: - Debe contar con la menor cantidad de colisiones posibles. Es para generar un código unívoco. - Debe poder ser reversible. Cod28 --> CODIFICA --> Cod8, Cod8 --> DECODIFICA --> Cod28. He estado investigando un poco y encontré algoritmos hash como ADLER32, CRC32, etc que te generan cadenas cortas pero no se muy bien como se comporta en cuestión de colisiones. Les agradecería si me pueden orientar sobre alguna forma de resolver esto. Desde ya, muchas gracias. Saludos. |
No es que vaya a aportar algo pero diré una cosa: si es reversible entonces es seguro que no hay colisiones.
// Saludos |
Hola,
Cita:
|
Cuanta sabiduría veo por aquí :rolleyes:
|
Ustedes sabrán disculpar el destello luminoso en sus monitores ;)
// Saludos |
Buscando en google con "hash collisions short string" parece que hay buen material.
Spoiler: Una funcion de hash moderna es suficientemente buena. Lo de las colisiones es algo que te ha pasado con las funciones que usaste? Aqui hay un codigo que chequea colisiones: https://stackoverflow.com/questions/...oid-collisions Asi que puedes hacer la prueba... |
Cita:
|
Cita:
Tal vez se me ha escapado algo (es posible con la edad), pero creo que estás mezclando cosas distintas. Totalmente distintas. * Un "URL Shortener" se basa en que convierte una cadena de 30 caracteres en otra de 5 caracteres (por decir algo), pero usando una tabla auxiliar donde están ambas. De forma, que la forma de obtener "la cadena larga" es ir a la tabla auxiliar y buscar es registro con la pareja: CADENA_CORTA = CADENA_LARGA. * Otra cosa totalmente distinta es "codificar" una CADENA_LARGA de 30 caracteres y obtener una CADENA_CORTA de 5 CARACTERES, teniendo en cuenta además que: a) Eso sea reversible b) Que no existan colosiones. No se si eso es posible, y se acerca más a la teoría de un compresor, que de un codificador. Lo dicho, seguramente se me está escapando algo... También hablas de un algoritmo de CRC (o similares de checksum). También es otra cosa. Un algoritmo de CRC cumple alguna caracteristica de las que comentas, pero no todas. Con un CRC: a) Puedes convertir una CADENA_LARGA (1234567890qwertyuiopadsfg) en una CADENA_CORTA (34253). b) Pero a partir de la CADENA_CORTA (34253), nunca podrás obtener la CADENA_LARGA (1234567890qwertyuiopadsfg). ¿De otra forma para qué serviría tener la larga? Un Saludo. |
Por otro lado lo que ha dicho Román. Estas dos premisas son excluyentes, por lógica:
- Debe contar con la menor cantidad de colisiones posibles. Es para generar un código unívoco. - Debe poder ser reversible. Cod28 --> CODIFICA --> Cod8, Cod8 --> DECODIFICA --> Cod28. Es decir, con una única posible colisión, el código ya no será reversible. |
Aunque si el rango de posibles valores es finito, y se puede calcular, es posible crear una tabla como dice Neftali.
Supongo que importa mas: Cita:
Este es un ejemplo especializado para cadenas cortas: https://ed-von-schleck.github.io/shoco/ Ahora, si como parece, esto es para generar IDs, y pa' rematar son ascendentes -sea que tengan letras o no, lo importante es que tenga un metodo calculable para "ascender al siguiente"- ? Pues la cosa se pone mucho mas facil aun. |
Hola, ante todo agradezco sus respuestas y pido disculpas si mezclé conceptos en mi intento por explicar el problema que necesito resolver. No soy un experto en el tema.
Básicamente, el problema es que tengo una cadena de 28 caracteres que me identifica un proceso y debo convertirla (o comprimirla o codificarla) en otra cadena de menor longitud (8 o 10 caract. aprox.) que tiene que ser impresa en una etiqueta y posteriormente leída e ingresada manualmente por un usuario (sin posib. de utilizar cód. de barra). Imagínense un usuario con la etiqueta en la mano tratando de leer en un espacio reducido y tipeando 28 caracteres. :confused: Por esta razón, les consultaba algún algoritmo en Delphi que simule lo que realiza un "acortador de URL's" para que a partir una dirección genera una nueva mas pequeña. Investigando un poco antes de realizar esta consulta, encontré que existen funciones para realizar checksum como ADLER32 o CRC32 que acortan estas cadenas pero que (a mi entender) no son reversibles por lo tanto no puede utilizarse como clave única. Tomando el comentario de Neftali sobre el principio de funcionamiento de los "acortadores de URL's", como puedo generar un código que identifique una entrada única en esta tabla auxiliar con el código de la nueva URL? Existe algún algoritmo para generar este código? Pensando rápido se me ocurre, por ejemplo utilizando ADLER32, que a partir de una cadena generar el código y verificar que no existe ingresado en esta tabla auxiliar. Si existe, volver a aplicar el algoritmo sobre este código generado y volver a chequear que no exista. Este proceso se repetiría hasta tanto se sigan encontrando coincidencias y llevaríamos un contador de nivel para utilizar en la decodificación. Para decodificar, en teoría, deberíamos aplicar el proceso inverso tantas veces como niveles hayamos registrado. Lo estoy pensando a medida que escribo estas líneas. Voy a intentar implementarlo y les cuento. Nuevamente les agradezco por su tiempo y si tienen alguna otra idea o forma, bienvenida! Saludos. |
Segun tu caso de uso, puedes reusar un acortador de URLS. Solo tienes que crear una tabla que diga HasId=FullId y eso es todo. Si generaste un HashId es porque tienes el FullId, asi que si pasar un valor y no lo encuentras, es porque obviamente nunca fue generado.
|
mamcx, gracias por tu respuesta.
Conoces alguna implementación de un acortador de URL's para Delphi? Estuve buscando en Google pero no pude encontrar nada todavía. Gracias. Saludos |
Estuve investigando un poco y en algunos sitios sugieren usar Base62.
Alguno conoce alguna implementación para Delphi que se pueda utilizar? |
No sabría por donde irá una solución a tu caso, pero al leer en este hilo sobre hash y colisiones recordé algo que me comentó un especialista de seguridad en Twitter: "las colisiones uno las puede evitar... a menos que sea eso lo que busca" y adjuntaba a sus palabras el siguiente enlace.
El paper en cuestión expone justamente eso, demostrando algunas vulnerabilidades (entre otras que se dieron a conocer) de MD5. Así que... hay que pensarlo bien. Saludos, |
Pero en el caso que se plantea, no hay que preocuparse mucho por las colisiones
|
Cita:
Si es el caso, ¿porqué tu mismo has vuelto a meterlo en la bolsa en uno de tus últimos comentarios?: Cita:
Roman tiró la indirecta al comienzo y Neftali apuntó con la linterna. ¡Si no debe haber colisión, y debe ser reversible, entonces no se trata de un algoritmo de reducción hash! Una reversibilidad apunta más hacia un cifrado que otra cosa. El asunto acá es que no hay tal reversibilidad... pasa por tener una forma de referenciar una cadena de menor longitud por otra de mayor. Necesariamente debe intervernir una tabla que haga esa asociación. Generada alguna cadena corta esta se marca como usada. Listo. No más. ¿Que tiene que intervernir acá un "Hashid"? Saludos, |
[delphius], muchas gracias por tu respuesta.
Cita:
Nuevamente, muchas gracias. Saludos. |
Por que necesitas 8 o 10 caracteres? No te bastaria con tener un Id que identifique a cada string? Con un sencillo diccionario<integer, string> de delphi lo solucionarias
|
Cita:
|
La franja horaria es GMT +2. Ahora son las 17:11:33. |
Powered by vBulletin® Version 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Traducción al castellano por el equipo de moderadores del Club Delphi