OCR (Optical Character Recognition)

O termo OCR (sigla da expressão inglesa Optical Character Recognition) designa um processo pelo qual caracteres impressos numa página são convertidos em caracteres digitais processáveis por computador.

O termo OCR (sigla da expressão inglesa Optical Character Recognition) designa um processo pelo qual caracteres impressos numa página são convertidos em caracteres digitais processáveis por computador.

Esta tecnologia é o que permite digitalizar um documento em papel que o utilizador perdeu no seu disco rígido, mas que felizmente está impresso. Quando uma página de texto é digitalizada num computador sem o software OCR, o que o computador vê é um monte de bits gráficos, ou uma imagem. Em outras palavras, ele não tem nenhuma ideia que há um texto na página, muito menos o que diz no texto. No entanto, um programa de OCR pode converter os caracteres na página num documento de texto que pode ser lido por um programa de processamento de texto. Os programas de OCR mais avançados podem até mesmo manter a formatação do documento na conversão.

A TECNOLOGIA

Existem dois elementos essenciais para a tecnologia OCR: digitalização e reconhecimento. Durante o processo de captura de imagem (ou digitalização), uma versão eletrónica do documento original é produzido na forma de uma imagem bitmap e é salvo como um arquivo TIFF (Tagged-Imagem File Format).

O processo de OCR subsequente de transformar essa imagem em texto que se possa editar no computador envolve cinco processos distintos: identificação de blocos de texto e imagem na imagem digitalizada, reconhecimento de caracteres, identificação ou reconhecimento de palavras, correção, e formatação de saída. O essencial deste processo é que o software OCR está a tentar reconhecer o texto em algum padrão discernível, comparando-a com dicionários internos, e depois salva o ficheiro final num formato que pode ser editado pelo utilizador final.

APLICAÇÕES DE OCR

Desde a década de 1950, que as aplicações comerciais e governamentais com tecnologia OCR abundavam. A empresa Reader’s Digest detém a distinção de ser a primeira empresa a instalar um leitor de OCR para fins de produtividade. Ele foi usado para converter relatórios de vendas datilografadas em cartões perfurados para download no departamento de assinaturas da revista.

O governo dos EUA tem utilizado a tecnologia OCR nos sistema de correios por cerca de três décadas para automatizar o processo de tratamento do correio e melhorar a sua eficiência. Existem locais de processamento dos Correios com leitores de caracteres ópticos em todo os Estados Unidos da América. Estes leitores de OCR podem capturar um endereço em qualquer lugar num rosto de envelope e até mesmo identificar corretamente erros de ortografia, e assegurar uma rota precisa.

Além das aplicações comerciais da tecnologia OCR, há o uso da tecnologia na área social ou educacional. As aplicações da tecnologia OCR com cegos e deficientes visuais permite a digitalização de texto impresso e o seu reconhecimento como é habitual, mas, em seguida, adiciona a capacidade de ter um sintetizador, de modo que o texto reconhecido possa ser falado numa voz sintética.

Por último e, inevitavelmente, a tecnologia OCR tem as suas aplicações para um utilizador do PC como um meio de aumentar a produtividade, e permitir a modificação e reutilização da informação existente. Os cartões de visita, artigos de revistas e documentos formais, todos podem ser digitalizados e reconhecidos para eliminar a necessidade de escrever esta informação manualmente.

Elementos dinamizadores da tecnologia OCR

O que impulsiona o desenvolvimento da tecnologia OCR são os requisitos de precisão e velocidade. Ao considerar o uso de um software OCR deve inevitavelmente ser comparado com a alternativa – a escrita de informação manualmente num documento. O software OCR tornou-se cada vez mais sofisticado na sua capacidade de reconhecer o texto, garantindo assim, uma precisão maior. O que foram dificuldades no passado, tais como a complexidade de digitação e formatação, (por exemplo, negrito, itálico, tamanho da fonte e tabelas) estão a ser ultrapassadas com o reconhecimento e recursos que a maioria do software inclui agora. No entanto, as taxas de precisão são apenas de 90 porcento, e ainda necessita de limpeza na fase pós-OCR.

Finalmente, a velocidade de digitalização também é um fator. Quanto mais rápido for a velocidade de digitalização, mais erros de reconhecimento terá. A sofisticação contínua da tecnologia de digitalização é essencial para o crescimento da tecnologia OCR.

POLÍTICA que impulsiona a tecnologia OCR

Uma das maneiras que a indústria procurou para garantir a precisão no processo de OCR foi o estabelecimento de padronização dos tipos de letra. Em 1966, um conjunto de caracteres padrão foi adotado pela maioria dos fabricantes de equipamentos de leitura óptica. Jacob Rabinow, um pioneiro no OCR, foi um grande defensor da padronização de tudo, desde o tipo e tamanho do papel digitalizado, para a qualidade da impressão, formato e o tipo de letra. Tudo isso, acreditava ele, faria com que os dispositivos OCR fossem mais simples. Embora essas ideias possam ser aplicáveis à utilização comercial de OCR, é quase impossível de controlar no ambiente de PC, onde um utilizador final pode querer digitalizar qualquer coisa desde um cartão de visita a um livro. E, de fato, como os desenvolvedores e fabricantes de OCR afastam-se de sistemas de OCR personalizados para grandes empresas e aproximam-se das empresas menores e produtos padronizados. Será o consumidor que irá impulsionar a evolução da tecnologia tornando-se uma ferramenta de produtividade mais generalizada.

849 Visualizações 1 Total
849 Visualizações

A Knoow é uma enciclopédia colaborativa e em permamente adaptação e melhoria. Se detetou alguma falha em algum dos nossos verbetes, pedimos que nos informe para o mail geral@knoow.net para que possamos verificar. Ajude-nos a melhorar.