En OCR, ¿cómo debo lidiar con el texto deformado en los lados de los objetos ovalados?

Jan 06 2021

Considere una imagen que contiene una lata (o una botella, o cualquier objeto ovalado similar), que tiene textos por todas partes. En la imagen de abajo, tengo muchas botellas, pero puedes asumir que cada imagen solo contiene uno de esos objetos.

Como podemos ver, en cada lata, el texto puede fluir de izquierda a derecha, y cualquier sistema de OCR puede perder el texto en los lados izquierdo y derecho de la lata, ya que no están alineados con el ángulo de la cámara.

Entonces, ¿hay alguna solución para esto, como preprocesar de cierta manera, para que podamos leer el texto o convertir este objeto redondo en uno recto? (Si hay algún programa de Python que pueda resolver este problema, ¿podría compartirlo conmigo?)

Respuestas

2 BrianO'Donnell Jan 08 2021 at 01:25

Hay muchos artículos sobre esto, pero el siguiente es un buen comienzo:

  • Cómo desenvolver etiquetas de vino mediante programación . El autor incluye código fuente en Python.

Mencionaste que no quieres hacer una vista panorámica pero eso tiene más de un significado. Si supongo que quiere decir que no desea girar la lata mientras toma varias fotos, o que no desea tomar varias fotos desde diferentes ángulos, puede probar una lente pericéntrica . Esto requeriría algún procesamiento de imagen para desenvolverlo. Se necesita más resolución ya que la envoltura es mucho más severa. Sin embargo, la ventaja es que tendrá una sola imagen de la superficie cilíndrica completa y no perderá ninguna característica o texto.