FTP | CCD | Buscar | Trucos | Trabajo | Foros |
|
Registrarse | FAQ | Miembros | Calendario | Guía de estilo | Temas de Hoy |
|
Herramientas | Buscar en Tema | Desplegado |
#1
|
|||
|
|||
fichero con caracteres en múltiples codificaciones
Hola a todos
Con un fichero CSV de texto plano que descargo desde la web de un proveedor, me esta dando problemas para poder leerlo correctamente. El problema viene porque va codificado en UTF8 pero mezcla algunos caracteres con otra codificación distinta, en particular la ñ y solo algunas veces no siempre, la codifica como UNICODE con el código 0x00F1. Y al intentar leerlo con DELPHI si no uso UTF8, no da error pero entonces no obtengo la representación de los caracteres correcta, y si utilizo UTF8 me da una excepción con el error: No mapping for the Unicode character exists in the target multi-byte code page El código con el que estoy probando a leerlo es este:
y los resultados que obtengo son estos: Código:
1252 (ANSI - Latín I) "Puño Negro: solución sustitucion podrás. GarantÃ*a 2 años; puño-acelerador-derecho-izqu.jpg" 65000 (UTF-7) "Puño Negro: solución sustitucion podrás. GarantÃ*a 2 años; puño-acelerador-derecho-izqu.jpg" 65001 (UTF-8) * Error: No mapping for the Unicode character exists in the target multi-byte code page 1200 (Unicode) "뇃敎牧㩯猠汯捵썩溳猠獵楴畴楣湯†潰牤ꇃ䜠牡湡썴憭㈠愠뇃獯※異濱愭散敬慲潤敤敲档ⵯ穩畱樮杰" Código:
notepad: Puño Negro: solución sustitucion podrás. GarantÃ*a 2 años; puño-acelerador-derecho-izqu.jpg notepad++ Puño Negro: solución sustitucion podrás. Garantía 2 años; pucelerador-derecho-izqu.jpg y con otros programas como OPENOFFICE es similar https://www.clubdelphi.com/foros/att...1&d=1563448890 Gracias por vuestra ayuda Un saludo |
#2
|
|||
|
|||
Lo que noto es que en el archivo hay por lo menos dos enconding diferentes: La parte que llega hasta el punto y coma ( tiene enconding UTF-8, y la parte despues del punto y coma tiene encoding ANSI.
|
#3
|
|||
|
|||
Cita:
Si, ese es el problema exactamente. Lo curioso es que la clase TEncondig, que en realidad es la causante de todo este problema, genere la excepción al encontrar esos caracteres, cuando lo lógico seria mostrar algún otro caracter extraño tipo rombo, cuadrado, interrogación, etc. como hacen los navegadores de internet al no codificar correctamente los caracteres. Lo que ocurre es que el fichero lo genera un servidor de terceros y no tengo la posibilidad de cambiar la forma de generarlo. Entonces lo único que me queda es intentar leerlo de la mejor forma posible y en el peor de los casos, omitir los datos que puedan generar algún tipo de error. |
#4
|
||||
|
||||
Si siempre son iguales y lo divide ese punto y coma, divides la cadena en dos partes y lo lees con distinta codificación cada parte
__________________
La otra guía de estilo | Búsquedas avanzadas | Etiquetas para código | Colabora mediante Paypal |
#5
|
|||
|
|||
Cita:
la cadena no es tan simple como el ejemplo, que esta recortado para visualizar de forma fácil donde se genera el problema. De hecho el fichero completo son varios megas de texto con varios miles de lineas y en todo el fichero solo aparece el código problemático dos o tres veces. Indagando un poco, he visto que en los foros de embarcadero ya hablan y explican en mas detalle el origen de este problema: https://forums.embarcadero.com/messa...ssageID=707902 |
#6
|
||||
|
||||
Vaya, eso es de 2015.
Se me ocurre que también puedes hacer una sustitución de las ñ,á,é,í,ó,ú antes de importar las líneas.
__________________
La otra guía de estilo | Búsquedas avanzadas | Etiquetas para código | Colabora mediante Paypal |
#7
|
|||
|
|||
Cita:
Aquí dejo el código que he implementado:
y la forma de utilizarlo es:
Gracias por vuestro tiempo y las soluciones aportadas. Un saludo |
|
|
Temas Similares | ||||
Tema | Autor | Foro | Respuestas | Último mensaje |
Leer fichero con caracteres cirilicos en Delphi 6 | jruinie | Varios | 5 | 06-02-2015 23:29:46 |
Agregar múltiples Campo de una tabla a múltiples TEdit y TdbEdit | novato_erick | Varios | 21 | 21-08-2011 02:18:58 |
como generar ventas multiples (seleccionar multiples items) | userdelphi | Varios | 4 | 30-12-2010 03:52:21 |
Caracteres raros al capturar fichero txt | comba | Varios | 4 | 07-09-2010 18:59:07 |
Comparar cadenas de caracteres sacadas de un fichero | papulo | Varios | 20 | 22-12-2006 15:43:33 |
|