Google indexa con tecnologÃa OCR contenidos de documentos PDF de textos escaneados
La mayorÃa de los documentos con textos en formato PDF que hay en la WWW son generados a partir editores de texto, con lo que cualquiera (un usuario con un programa como ‘Adobe Reader’ o Evince, o el propio robot de Google) puede extraer de manera muy fácil los contenidos.
Pero un porcentaje de estos ficheros PDF son imágenes escaneadas de otros documentos, con lo que ya no podemos extraer el texto con nuestro lector PDF. Pero el robot de Google, gracias a su tecnologÃa OCR propia, ya es cap…
