Bienvenido, Invitado
Nombre de Usuario: Contraseña: Recordarme
  • Página:
  • 1

TEMA: Cómo obtener un texto a partir de una imagen

Cómo obtener un texto a partir de una imagen 18 Feb 2013 02:51 #12057

  • Conrado
  • Avatar de Conrado
  • DESCONECTADO
  • Escolástico
  • Mensajes: 5941
  • Gracias recibidas 4773
Abro este hilo a raíz de una pregunta que se me ha efectuado. Supongo que muchos de vosotros os hacéis resúmenes de vuestras asignaturas. La manera más sencilla y común (pero no la más rápida) es ir copiando directamente de los libros lo que interesa. Pero hoy en día existen -en realidad desde ya hace mucho tiempo- unos programas de reconocimiento óptico de caracteres que pueden picar el texto por nosotros, facilitándonos así la tarea. En unos pocos minutos podemos tener todo el texto de un libro en formato Word para, sobre él, hacer nuestros resúmenes. Así lo hago yo en algunas asignaturas. A continuación os explico mi método.

OCR son las siglas de Optical Character Recognition; es decir, reconocimiento óptico de caracteres. Los programas de OCR pasan a texto editable el texto que contiene una foto o un PDF. El texto de una foto en JPG no es editable. Aunque veamos texto se trata en realidad de una imagen cuyo texto no se puede editar directamente. Normalmente los programas de OCR se utilizan más para pasar de JPG a texto que para pasar de PDF a texto porque en este último formato se puede hacer con herramientas como el Adobe Acrobat (no el Reader, sino el Acrobat completo).

Yo utilizo este software de OCR porque me ha salido muuy, muy barato y porque creo que es el mejor.

También vas a necesitar un programa de retoque fotográfico para eliminar las impurezas de las imágenes. Yo utilizo el que me venía con el escáner. Sólo se utilizan las opciones más básicas: mejorar el brillo y el contraste y editar (cortar y pegar para eliminar las partes de la foto que no forman parte del texto que deseamos obtener). Así es que los conocimientos que hacen falta para hacer todo esto son muy básicos.

Pues bien, antes de nada debes contar un escáner A4. Hay para todos los gustos y bolsillos. Yo tengo este desde hace tres años y estoy bastante contento. La tapa se abre completamente hacia un lado para poder escanear libros con relativa comodidad y el cristal es bastante resistente. También puede funcionar verticalmente con una peana que lleva incorporada. Los escáneres de tamaño A3 son todavía muy caros.

Los pasos a seguir son los siguientes:

1º. Para pasar una o varias imágenes a texto editable primero has de obtener las imágenes; es decir, tienes que escanear el texto. Lo ideal es poder escanear dos páginas por pasada. Pero eso depende del formato del libro. El libro de Nietzsche de Sánchez Meca es muy cómodo de escanear porque cabe perfectamente en el escáner y porque es de tapa blanda. Los libros de tapa dura tienen el problema de que los márgenes interiores a veces no salen bien si no se aprieta un poco el libro contra el cristal. Pero claro, tampoco puedes hacer mucha fuerza porque entonces el cristal se rompe.

2º. Una vez tienes escaneadas todas las páginas del libro que te interesen hay que arreglar un poco las imágenes con un software de retoque fotográfico. A ver, no hay que alarmarse, se trata sólo de eliminar las "impurezas" para que el software reconozca el 99,9% del texto, lo que nos ahorrará después una ingente labor de edición con el Word (conviene no pasarle al software de OCR mas que lo que realmente deseemos que nos reconozca, y aquí es donde entra en juego el retoque fotográfico de las imágenes). Por impurezas se entiende: imágenes (el programa las deja tal cual), sombras de bordes, encabezados y números de páginas..., y todo aquello en lo que no estamos interesados. Cuanto más limpio y claro esté el texto de la foto mejor. Menos faena tendremos después con el Word. Al software de OCR cuanto más clara y nítida sea la imagen que se le pase mucho mejor. Aun así el reconocimiento nunca es perfecto, pero si se hace bien tan sólo hay que corregir algún nombre propio y poco más. Además el software detecta automáticamente el idioma del texto y tiene sus propio corrector ortográfico.

Este es el motivo por el cual yo procuro conseguir las lecturas de los libros originales antes de esperar a obtener las que cuelgan los profesores en alF. Las que cuelgan los profesores suelen estar llenas de sombras, impurezas y subrayados que dificultarían un buen reconocimiento óptico. En cambio, si yo saco los libros de la biblioteca (procurando que no estén subrayados, porque hay quien no respeta el material ajeno) y los escaneo, me aseguro un unas imágenes perfectas para ser reconocidas. Por ejemplo, yo ya tengo escaneadas todas las lecturas de la optativa de Filosofía de la historia. Así no necesito esperar a matricularme y a que el profesor cuelgue los PDF's, que a buen seguro están subrayados, con sombras y otras imperfecciones que harían imposible el reconocimiento óptico. Obviamente, esto es posible porque vivo a 20 minutos de una biblioteca de filosofía, donde tengo acceso a la ingente bibliografía que allí disponen (y también a las bibliotecas municipales de toda Cataluña mediante el préstamo interbibliotecario).

3º. El software es muy rápido en el reconocimiento del texto (depende de la velocidad del ordenador, pero cualquier computadora con menos de 5 ó 6 años de antigüedad lo hace con bastante celeridad). Lo que obtenemos finalmente con el software de OCR es un documento de Word con el texto de todas esas imágenes que hemos escaneado YA ESCRITO y, ahora sí, editable para hacer lo que nos dé la gana. El documento, tal y como el programa de OCR nos lo ofrece, puede que no tenga el aspecto que deseemos (el software procura respetar márgenes, tipo de letra y tamaño de papel de la imagen original). Pero entonces es muy rápido editarlo todo con el Word para cambiar tipo de letra, tamaño de papel, márgenes, guiones,... etc.

Ahora lo único que resta es corregir las erratas (el software no es perfecto). Y aquí es donde se nota aquello que comentaba de la nitidez de las imagenes. Si las imágenes escaneadas son buenas y de suficiente resolución, el reconocimiento es casi perfecto y no hay casi nada que corregir con el Word. De lo contrario no vale la pena molestarse en hacer todo esto porque el texto resultante estaría lleno de erratas. Y nos llevaría más tiempo corregir todas esas erratas que picar el texto directamente.

4º. Y una vez ya lo tenemos en Word editado y corregido, ya lo podemos imprimir y leer cómodamente en formato A4 y con el tamaño de letra que queramos. Yo suelo imprimir el resultado final, sin quitar nada, y luego ya sobre el papel voy haciendo mis correcciones: eliminar párrafos... etc. Después lo vuelvo a editar y ya está el resumen definitivo. Suelo editarlo un par de veces antes de dejar la versión definitiva.

Todo esto puede parecer muy laborioso, pero os aseguro que cuando ya se tiene práctica todo es muy mecánico y rápido. Las doscientas páginas del libro de Sánchez Meca puedo tenerlas en Word editables en un par de horas. ¿Os imagináis lo que se tardaría en picar todo el texto por muchas pulsaciones que uno tuviera?
David Feltrer Bailén Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla
Graduado en Filosofía (UNED - febrero de 2016)
Estudiante del Máster en Filosofía Teórica y Práctica (UNED - octubre de 2018)
Estudiante del Grado en Geografía e Historia (UNED)
Última Edición: 18 Feb 2013 02:52 por Conrado.
El administrador ha desactivado la escritura pública.

Re: Cómo obtener un texto a partir de una imagen 18 Feb 2013 12:03 #12069

  • MarFil
  • Avatar de MarFil
  • DESCONECTADO
  • Presocrático
  • Mensajes: 72
  • Gracias recibidas 44
Muchísimas gracias, Conrado, por tus explicaciones tan detalladas y exhaustivas. Lo leeré con calma para tomar buena nota de todo y aplicarlo, así mi trabajo será más liviano. Lo cierto es que escribo bastante deprisa, pero uff...; otras veces, descargo apuntes colgados y los retoco. Tu sistema me resulta más eficaz y rápido.

Iré compartiendo mis apuntes, a medida que vaya elaborándolos.

Muy agradecida, de nuevo.
Mar
Alumna de Grado en Filosofía - UNED
Alumna de Máster Internacional de Ética y Política Públicas - RCU María Cristina

"Lo más aborrecible es que se gobierne olvidando el bienestar de la gente" Confucio (Los Cuatro Grandes Libros)
El administrador ha desactivado la escritura pública.

Re: Cómo obtener un texto a partir de una imagen 18 Feb 2013 16:31 #12073

  • Conrado
  • Avatar de Conrado
  • DESCONECTADO
  • Escolástico
  • Mensajes: 5941
  • Gracias recibidas 4773
De nada, si tienes más dudas podemos intentar resolverlas por aquí. :cheer:

Saludos
David Feltrer Bailén Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla
Graduado en Filosofía (UNED - febrero de 2016)
Estudiante del Máster en Filosofía Teórica y Práctica (UNED - octubre de 2018)
Estudiante del Grado en Geografía e Historia (UNED)
El administrador ha desactivado la escritura pública.
Los siguientes usuarios han agradecido: Ramón Cobra, MarFil

Re: Cómo obtener un texto a partir de una imagen 20 Feb 2013 01:29 #12121

  • Moni
  • Avatar de Moni
  • DESCONECTADO
  • Escolástico
  • 'Sé virtuoso y te tendrán por excéntrico'.
  • Mensajes: 2065
  • Gracias recibidas 1817
Todo esto está muy bien, Conrado, pero a mí no me acaba de convencer del todo con todos mis respetos. Me explico, lo que se pretende, fundamentalmente, es preservar el texto original (subrayados, anotaciones, etc.). Tarea, por otra parte, muy loable, a mí también me parece todo un sacrilegio escribir en un libro, los cuido al máximo y los intento mantener impolutos.

Pero realmente sigues teniendo el mismo temario sin reducción alguna. Y sobre este nuevo temario, que sigue siendo igual al original, comentas que ya haces las tareas pertinentes que cada uno considera oportunas para el proceso de estudio.

Considero más interesante los programas de reconocimiento de voz que hay en el mercado. Te evitas los escaneos y demás tareas, y conviertes a documento Word el texto ya reducido por ti previamente (si quieres).

No sé si habré entendido correctamente tu tarea.
Moni Matas - Degree English University of Cambridge & Alumna de Filosofía (UNED).
Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla
'Gobierna tu mente, o ella te gobernará a ti'. Horacio (65 ac-8 ac)
'The trouble with the world is the stupid are cocksure and the intelligent are full of doubt'. Bertrand Russell (1872-1970)
Última Edición: 20 Feb 2013 02:48 por Moni.
El administrador ha desactivado la escritura pública.

Re: Cómo obtener un texto a partir de una imagen 20 Feb 2013 02:31 #12123

  • Conrado
  • Avatar de Conrado
  • DESCONECTADO
  • Escolástico
  • Mensajes: 5941
  • Gracias recibidas 4773
Moni escribió:
Pero realmente sigues teniendo el mismo temario sin reducción alguna.
Así es, pero con la ventaja de poderlo editar en Word, lo que facilita mucho la tarea de resumen. Y, sobre todo, puedes cambiar el tipo y tamaño de la letra, y eso también es muy importante para mí. No es lo mismo estar 5h delante de un texto con Times New Roman 10 (o incluso menos) que delante del mismo texto en A4 con Tahoma 14.

Los programas de reconocimiento de voz, a pesar de que han mejorado mucho desde aquel "viejo" IBM Via Voice, siguen siendo bastante deficientes (creo que el mejor es este). Además, en ellos no conservas la tipografía del texto original (cursivas..., etc.) con demasiada facilidad.

Pero bueno, cada maestrillo tiene su librillo o eso dicen.

Por cierto, tengo ya todo lo de Nietzsche en Word, formato A4, márgenes 1,5 y Tahoma 14 (con ese formato 107 páginas en total (4€ de copistería) teniendo en cuenta que la letra es inmensa). Si hubiera tenido que picarlo aún no habría terminado. Ahora sólo resta efectuar las modificaciones pertinentes sobre el mismo texto pero con el nuevo y más cómodo formato de lectura y trabajo. Y de paso mantengo intacto el libro original (que cuesta 24€, pero imagínate con libros de 50€ o más o simplemente agotados).

Este método no es siempre interesante. Pero para asignaturas de tipo Filosofía de la Religión, Ética, Filosofía Política..., etc. sí va muy bien. Por lo menos a mí me está dando buenos resultados.
David Feltrer Bailén Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla
Graduado en Filosofía (UNED - febrero de 2016)
Estudiante del Máster en Filosofía Teórica y Práctica (UNED - octubre de 2018)
Estudiante del Grado en Geografía e Historia (UNED)
El administrador ha desactivado la escritura pública.
Los siguientes usuarios han agradecido: pulpo

Re: Cómo obtener un texto a partir de una imagen 20 Feb 2013 03:04 #12124

  • Moni
  • Avatar de Moni
  • DESCONECTADO
  • Escolástico
  • 'Sé virtuoso y te tendrán por excéntrico'.
  • Mensajes: 2065
  • Gracias recibidas 1817
Conrado escribió:
Yo suelo imprimir el resultado final, sin quitar nada, y luego ya sobre el papel voy haciendo mis correcciones: eliminar párrafos... etc. Después lo vuelvo a editar y ya está el resumen definitivo. Suelo editarlo un par de veces antes de dejar la versión definitiva.
Entonces, aquí entiendo que:

- Realizas una primera impresión (del texto íntegro). Resumes, anotas, subrayas, etc.
- Vuelves a editar y realizas una segunda impresión (al menos).

¿No es todo esto muy laborioso, Conrado? No sé, pregunto. :huh:
Moni Matas - Degree English University of Cambridge & Alumna de Filosofía (UNED).
Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla
'Gobierna tu mente, o ella te gobernará a ti'. Horacio (65 ac-8 ac)
'The trouble with the world is the stupid are cocksure and the intelligent are full of doubt'. Bertrand Russell (1872-1970)
El administrador ha desactivado la escritura pública.

Re: Cómo obtener un texto a partir de una imagen 20 Feb 2013 12:51 #12133

  • Conrado
  • Avatar de Conrado
  • DESCONECTADO
  • Escolástico
  • Mensajes: 5941
  • Gracias recibidas 4773
Sí lo que es en general. Pero a mí me compensa. Las impresiones las efectúo en la facultad. En menos de un minuto la fotocopiadora-impresora "escupe" más de 100 páginas. En realidad la parte más laboriosa es la de edición del texto: leérselo y quitar lo prescindible.

Siempre es muy laborioso hacer resúmenes. Aquí no hay fórmulas mágicas, sólo fórmulas diferentes.
David Feltrer Bailén Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla
Graduado en Filosofía (UNED - febrero de 2016)
Estudiante del Máster en Filosofía Teórica y Práctica (UNED - octubre de 2018)
Estudiante del Grado en Geografía e Historia (UNED)
Última Edición: 20 Feb 2013 12:52 por Conrado.
El administrador ha desactivado la escritura pública.

Re: Cómo obtener un texto a partir de una imagen 20 Feb 2013 16:00 #12145

  • Moni
  • Avatar de Moni
  • DESCONECTADO
  • Escolástico
  • 'Sé virtuoso y te tendrán por excéntrico'.
  • Mensajes: 2065
  • Gracias recibidas 1817
Conrado escribió:
Siempre es muy laborioso hacer resúmenes. Aquí no hay fórmulas mágicas, sólo fórmulas diferentes.
Si a mí personalmente tu método me parece correcto, Conrado. Además, en el colegio disponemos de varias fotocopiadoras digitales que tienen una productividad sorprendente por minuto, entonces por ahí no habría problema. Lo que estoy intentando desde hace tiempo es simplificar este proceso del estudio, para optimizar mi tiempo al máximo.

Aunque, como bien dices, lo de hacer resúmenes no tiene más vueltas. :huh:
Moni Matas - Degree English University of Cambridge & Alumna de Filosofía (UNED).
Esta dirección electrónica esta protegida contra spam bots. Necesita activar JavaScript para visualizarla
'Gobierna tu mente, o ella te gobernará a ti'. Horacio (65 ac-8 ac)
'The trouble with the world is the stupid are cocksure and the intelligent are full of doubt'. Bertrand Russell (1872-1970)
El administrador ha desactivado la escritura pública.
  • Página:
  • 1
Tiempo de carga de la página: 0.209 segundos