Document Express

 
 
 
Un producto de:

Calidad, accesibilidad y visualización eficaz en todo tipo de redes

DocumentExpress con DjVu es un pack de aplicaciones para crear documentos color en alta resolución, optimizados para su publicación mediante un formato abierto llamado DjVu o en PDF comprimidos. Con factores de compresión que habitualmente oscilan entre 300:1 y 1.000:1, los documentos color en alta resolución vuelven a ser utilizables, vuelven a estar vivos. Imagine lo siguiente: una hoja DIN-A4 escaneada a todo color a 300dpi y almacenada en DjVu ocupa sólamente unos 50KB (el tamaño habitual de una página web).

Los documentos DjVu son los más pequeños del mercado, hasta 1.000 veces más pequeños que los archivos TIFF, de 10 a 100 inferiores que los ficheros JPEG o PDF, en función de como fueron creados.

Caminova Inc. fruto de su innovación ha aplicado la misma tecnología en documentos PDF estándares, obteniendo High Compression PDF, compresión de documentos PDF a partir de segmentación DjVu.

Ventajas:

  • Segmentación en capas
  • Las tecnologías de compresión de imágenes "monolíticas" como JPEG no son apropiadas para documentos en color. Representar digitalmente un documento en color, fiel al original, requiere alta resolución (un mínimo de 300dpi), con lo cual una página DIN-A4 genera un archivo superior a los 20MB. Para comprimir este archivo a un tamaño manejable con tecnologías como JPEG, el camino es aplicar factores de compresión medios o altos, que comprometen seriamente la legibilidad de los textos y la fidelidad al documento original.

    La respuesta de DjVu es radicalmente mejor: ¿porqué usar una resolución de 300dpi para los elementos gráficos de la imagen cuando, en realidad, sería suficiente una resolución menor? ¿Porqué aplicar una técnica creada para comprimir color para comprimir texto, si el texto normalmente es bitonal (blanco y negro)?. En definitiva, la revolucionaria respuesta de DjVu es segmentar (separar) el documento en distintas capas que serán comprimidas independientemente, con tratamientos específicos para cada tipo de elemento.

  • Alta compresión también para documentos PDF
  • High Compression PDF (HC-PDF) es una tecnología que comprime un archivo PDF proveniente de digitalización mediante escáneres o impresoras multifunción. Caminova ha aplicado la tecnología de compresión de DjVu para generar HC-PDF, de este modo podemos beneficiarnos de las características de DjVu sin necesidad de instalar un plugin o tener un visor de documentos específico para DjVu. HC-PDF se ajusta a todos los estándares ISO de PDF, por lo que se puede ver a través de cualquier lector estándar de PDF.
  • El tamaño importa, sobretodo en documentos digitalizados
  • Una comparación de tamaños de ficheros obtenidos nos dará una visión de los beneficios de la compresión. Como ejemplo tomamos un documento A4 a color en 300 dpi habitual. Los resultados que obtenemos son los siguientes:

    Formato de ficheroNº de páginasTamaño
    Jpeg File (Page1) (Page2)21.236 KB (Page1: 527 KB) (Page2: 709 KB)
    DJVu263 KB
    Caminova HC-PDF269 KB
    Adobe PDF Adaptive Compression2301 KB

    Como norma general el tamaño de los ficheros DjVu y HC-PDF reduce en un 95% el tamaño de JPEG, y un 80% respecto Adobe Adaptative Compression.

  • OCR, indexación y búsqueda de texto
  • El tratamiento OCR de documentos escaneados es crítico para la búsqueda de palabras clave, su indexación y recuperación. Aquí, de nuevo, el enfoque de DjVu es innovador y garantiza resultados óptimos:

    La información necesaria para OCR se almacena en una capa DjVu separada, no visible, que llamaremos "capa de texto oculto". Esta capa puede ser exportada e importada bidireccionalmente a XML, con lo cual se facilita directamente su integración con los motores de búsqueda e indexación existentes. Esta capacidad abre todas las posibilidades de búsqueda de palabras clave para los sistemas de gestión documental y de contenidos.

    Gracias a la excelente tecnología de segmentación de DocumentExpress con DjVu, los resultados del OCR suelen ser superiores a las soluciones alternativas especialmente en documentos color. La segmentación gestiona texto en color, texto sobre imagen, sobre dibujos, en negativo, básicamente cualquier texto. El resultado es la separación y extracción del texto en una capa bitonal nítida, que permite obtener resultados OCR de alta calidad. Esta posibilidad contrasta con otros productos que solamente pueden tratar texto en blanco y negro.