Reconocimiento de texto en imagenes

Hace mucho tiempo se me ocurrio crear un sistema para detectar texto en una imagen, un sistema como este tiene muchas utilidades, para uso comun algunas son :

  • Convertir pdf a texto
  • Indexacion de fotos basado en textos que aparecen en ellas
  • Convertir las firmas digitales de un email a texto para extraer los datos de contacto
  • Lectura de subtitulos embebidos en videos
  • conversion de libros a archivos digitales

y muchos otros usos pero el mas comun de este tipo de sistemas en internet es romper la seguridad de formularios de registro, el odiadisimo “captcha” es el objetivo de ataque principal,  el captcha es el sistema de seguridad más utilizado para evitar que se generen registros de usuarios fantasmas en foros o sitios web la idea basica es crear imagenes con texto al azar que posteriormente el usuario necesitara leer e ingresar en un campo de la forma de registro de X sitio web comprobando que es un “humano” evitando con esto que alguien ( supervillanos programadores  como yo :D    ) cree un sistema que genere registros de forma automatica los denominados “bots” para publicar spam en foros o blogs.

Ya que el captcha es una imagen con texto el sistema de reconocimiento de texto permite romper esta seguridad de forma parcial con cierto grado de exactitud porque cada dia los captchas tienen una mayor deformacion del texto mostrado (casi incomprensible para los mismos usuarios).

Asi que el objetivo de crear un sistema que detecte texto en imagenes no es utilizarlo para el mal, es para tener una herramienta que me ayude a crear sistemas implementando estandares que mejoren la calidad y seguridad de los sistemas que desarrollo, en este caso crear unidades de prueba de ataques contra captchas.

Este ejemplo es una prueba del concepto :

Leave a Reply

© 2012 Motion.com.mx All rights reserved. Especialistas en web y social media