Gerador de Training Data para OpenCV

Aplicativo para Gerar Training Data para Reconhecimento de Textos e Símbolos de Xadrez

1. Introdução

O objetivo deste aplicativo é gerar dados de treinamento (training data) para modelos de reconhecimento de textos e símbolos de xadrez, utilizando fotos no formato JPG ou TIFF. O aplicativo permitirá a criação de imagens realistas com textos (notação algébrica) e símbolos de peças de xadrez, além de gerar anotações (bounding boxes e labels) para treinamento de modelos de visão computacional, como OpenCV, TensorFlow ou PyTorch.

2. Funcionalidades Principais

2.1 Geração de Textos e Símbolos

Notação Algébrica: Geração de textos como "e4", "Nf3", "O-O".
Símbolos de Peças: Inclusão de símbolos como ♔, ♕, ♖, ♗, ♘, ♙.
Fontes e Estilos: Escolha de diferentes fontes, tamanhos e cores.

2.2 Personalização de Imagens

Fundo: Escolha entre fundo sólido ou fotos de tabuleiros de xadrez.
Posicionamento: Posicionamento manual ou automático de textos e símbolos.
Efeitos Realistas: Aplicação de brilho, contraste, ruído, desfoque e distorções.

2.3 Geração de Anotações

Bounding Boxes: Geração automática de caixas delimitadoras ao redor de textos e símbolos.
Labels: Associação de cada bounding box ao texto ou símbolo correspondente.
Formatos de Exportação: JSON (COCO format), XML (Pascal VOC), CSV.

2.4 Geração em Massa

Variações Automáticas: Geração de centenas ou milhares de imagens com variações de fontes, tamanhos, cores e efeitos.
Pré-visualização: Visualização em tempo real das imagens geradas.

2.5 Exportação de Dados

Imagens: Exportação em formatos como JPG, PNG ou TIFF.
Anotações: Exportação em formatos compatíveis com ferramentas de treinamento.

3. Tecnologias e Ferramentas

3.1 Linguagens de Programação

Python: Ideal para integração com OpenCV, Pillow e bibliotecas de machine learning.
C++: Para maior desempenho e integração direta com OpenCV.

3.2 Bibliotecas

OpenCV: Manipulação de imagens e aplicação de efeitos.
Pillow (PIL): Adição de textos e símbolos às imagens.
NumPy: Operações numéricas e geração de ruído.
Albumentations: Aumentação de dados (data augmentation) avançado.

3.3 Interface Gráfica

Tkinter: Interface gráfica simples em Python.
PyQt/PySide: Interface mais robusta e profissional.
Streamlit: Interface web simples.

4. Exemplo de Fluxo de Trabalho

Interface do Usuário: O usuário seleciona fontes, símbolos, cores e posições.
Geração de Imagens: O aplicativo gera imagens com textos e símbolos sobrepostos.
Geração de Anotações: O aplicativo calcula bounding boxes e gera labels para cada texto e símbolo.
Exportação: O usuário exporta as imagens e anotações em formatos adequados para treinamento.

5. Exemplo de Código Básico

Aqui está um exemplo simples em Python usando Tkinter para a interface gráfica e OpenCV/Pillow para geração de imagens:


import tkinter as tk
from tkinter import filedialog
from PIL import Image, ImageDraw, ImageFont
import numpy as np
import cv2
import json

class TrainingDataApp:
    def __init__(self, root):
        self.root = root
        self.root.title("Gerador de Training Data para OpenCV")
        
        # Interface
        self.label = tk.Label(root, text="Texto/Símbolo:")
        self.label.pack()
        
        self.text_entry = tk.Entry(root)
        self.text_entry.pack()
        
        self.generate_button = tk.Button(root, text="Gerar Imagem", command=self.generate_image)
        self.generate_button.pack()
        
        self.export_button = tk.Button(root, text="Exportar Dados", command=self.export_data)
        self.export_button.pack()
        
        # Variáveis
        self.image = None
        self.annotations = []

    def generate_image(self):
        # Cria uma imagem de fundo
        background = Image.new("RGB", (640, 480), (255, 255, 255))
        draw = ImageDraw.Draw(background)
        
        # Adiciona texto/símbolo
        text = self.text_entry.get()
        font = ImageFont.truetype("arial.ttf", 40)
        draw.text((50, 50), text, font=font, fill=(0, 0, 0))
        
        # Converte para OpenCV
        self.image = np.array(background)
        
        # Salva anotações
        self.annotations = [{
            "text": text,
            "bbox": [50, 50, 50 + font.getsize(text)[0], 50 + font.getsize(text)[1]]
        }]
        
        # Mostra a imagem
        cv2.imshow("Imagem Gerada", self.image)
        cv2.waitKey(0)

    def export_data(self):
        if self.image is None:
            return
        
        # Salva a imagem
        image_path = filedialog.asksaveasfilename(defaultextension=".jpg")
        cv2.imwrite(image_path, self.image)
        
        # Salva as anotações
        annotations_path = image_path.replace(".jpg", ".json")
        with open(annotations_path, "w") as f:
            json.dump(self.annotations, f)
        
        print(f"Dados exportados: {image_path}, {annotations_path}")

# Inicia o aplicativo
root = tk.Tk()
app = TrainingDataApp(root)
root.mainloop()

6. Próximos Passos

Aprimorar a Interface: Adicionar mais controles para fontes, cores, efeitos, etc.
Geração em Massa: Implementar uma função para gerar várias imagens de uma vez.
Integração com OpenCV: Adicionar funcionalidades de pré-processamento de imagens diretamente no aplicativo.
Testes e Validação: Testar o aplicativo com diferentes cenários e ajustar conforme necessário.

7. Como Salvar em PDF ou HTML

Para salvar este conteúdo como PDF, você pode usar a função de impressão do navegador e escolher "Salvar como PDF". Para salvar como HTML, basta copiar este código e salvar em um arquivo com a extensão .html.

Meus Estudos de Programação - Insights

quarta-feira, 12 de março de 2025

Reconhecimento de Textos e Símbolos de Xadrez