Transferência de aprendizado em imagens em escala de cinza: como ajustar modelos pré-treinados em conjuntos de dados em preto e branco
À medida que o campo de Deep Learning continua a amadurecer, neste momento é amplamente aceito que o aprendizado de transferência é a chave para alcançar rapidamente bons resultados com visão computacional, especialmente quando se trata de pequenos conjuntos de dados. Embora a diferença que começar com um modelo pré-treinado faça depender parcialmente de quão semelhante o novo conjunto de dados é aos dados de treinamento originais, pode-se argumentar que é quase sempre vantajoso começar com um modelo pré-treinado.
Apesar de um número cada vez maior de modelos pré-treinados disponíveis para tarefas de classificação de imagens, no momento da escrita, a maioria deles é treinada em alguma versão do conjunto de dados ImageNet ; que contém imagens coloridas. Embora isso geralmente seja o que procuramos, em alguns domínios - como fabricação e imagens médicas - não é incomum encontrar conjuntos de dados de imagens em preto e branco.
Como a diferença entre uma imagem colorida e uma imagem em preto e branco é trivial para nós, humanos, você seria perdoado por pensar que um modelo pré-treinado de ajuste fino deveria funcionar fora da caixa, mas isso raramente é o caso. Portanto, especialmente se você tiver um conhecimento limitado em processamento de imagens, pode ser difícil saber qual é a melhor abordagem nessas situações,
Neste artigo, tentaremos desmistificar todas as considerações necessárias ao ajustar com imagens em preto e branco explorando a diferença entre imagens RGB e em tons de cinza e como esses formatos afetam as operações de processamento feitas por modelos de rede neural convolucional, antes de demonstrar como usar imagens em tons de cinza com modelos pré-treinados. Terminaremos examinando o desempenho das diferentes abordagens exploradas em alguns conjuntos de dados de código aberto e comparando isso com o treinamento do zero em imagens em escala de cinza.
Qual é a diferença entre imagens RGB e em tons de cinza?
Embora as imagens coloridas e em tons de cinza possam ser muito semelhantes a nós, como um computador só vê uma imagem como uma matriz de números, isso pode fazer uma enorme diferença na forma como uma imagem é interpretada! Portanto, para entender completamente por que as imagens em tons de cinza podem representar um desafio para redes pré-treinadas, devemos primeiro examinar as diferenças em como as imagens coloridas e em tons de cinza são interpretadas por um computador.
Como exemplo, vamos usar uma imagem do conjunto de dados beans .
Imagens RGB
Muitas vezes, quando trabalhamos com imagens coloridas em deep learning, elas são representadas no formato RGB. Em um nível alto, RGB é um modelo de cor aditiva onde cada cor é representada por uma combinação de valores de vermelho, verde e azul; estes são normalmente armazenados como 'canais' separados, de modo que uma imagem RGB é muitas vezes referida como uma imagem de 3 canais.
Podemos verificar o modo — uma string que define o tipo e a profundidade de um pixel na imagem, conforme descrito aqui - da imagem, bem como inspecionar os canais disponíveis, usando PIL conforme demonstrado abaixo.
Isso confirma que o PIL reconheceu isso como uma imagem RGB. Portanto, para cada pixel, os valores armazenados nesses canais - conhecidos como intensidades - formam um componente da cor geral.
Esses componentes podem ser representados de diferentes maneiras:
- Mais comumente, os valores dos componentes são armazenados como números inteiros sem sinal no intervalo de 0 a 255; o intervalo que um único byte de 8 bits pode oferecer.
- Nas representações de ponto flutuante, os valores podem ser representados de 0 a 1, com qualquer valor fracionário entre eles.
- Cada valor de componente de cor também pode ser escrito como uma porcentagem, de 0% a 100%.
Inspecionando o formato do array, podemos ver que a imagem possui 3 canais, o que está de acordo com nossas expectativas:
Para converter nosso array de imagens em uma representação de ponto flutuante, podemos especificar explicitamente o valor dtype
do array no momento da criação. Vamos ver o que acontece quando convertemos e plotamos nossa imagem.
Oh não!
A partir da mensagem de aviso, que pode ser confirmada pela inspeção dos dados, podemos ver que a razão pela qual a imagem não está sendo exibida corretamente porque os dados de entrada não estão no intervalo correto para representação de ponto flutuante. Para corrigir isso, vamos dividir cada elemento do array por 255; que deve garantir que cada elemento esteja no intervalo [0, 1].
Plotando nosso array normalizado, podemos ver que a imagem agora está sendo exibida corretamente!
Entendendo as intensidades dos componentes
Ajustando a intensidade de cada componente, podemos representar uma ampla gama de cores usando o modelo RGB.
Quando a intensidade de 0% para cada componente é combinada, nenhuma luz é gerada, então isso cria preto (a cor mais escura possível).
Quando as intensidades para todos os componentes são iguais, o resultado é um tom de cinza, que é mais escuro ou mais claro dependendo da magnitude da intensidade.
Quando um dos componentes tem uma intensidade mais forte que os outros, a cor resultante fica mais próxima da cor primária com o componente mais forte (vermelho, verde ou azul):
Quando a intensidade de 100% para cada componente é combinada, isso cria o branco (a cor mais clara possível).
Embora isso tenha fornecido uma visão geral das imagens RGB, mais detalhes sobre o modelo de cores RGB podem ser encontrados aqui .
Imagens em escala de cinza
Agora que examinamos como podemos representar imagens coloridas usando o modelo de cores RGB, vamos investigar como as imagens em escala de cinza diferem disso.
Uma imagem em escala de cinza é simplesmente aquela em que as únicas cores representadas são diferentes tons de cinza. Embora muitas vezes nos refiramos a essas imagens como “preto e branco” nas conversas cotidianas, uma verdadeira “imagem em preto e branco” consistiria apenas nessas duas cores distintas, o que muito raramente é o caso; tornando 'escala de cinza' o termo mais preciso.
Como não há informações de cor para representar para uma imagem em escala de cinza, menos informações precisam ser armazenadas para cada pixel e um modelo de cor aditiva não é necessário! Para imagens em tons de cinza, a única informação que precisamos é um valor único para representar a intensidade de cada pixel; quanto maior este valor, mais claro é o tom de cinza. Como tal, as imagens em tons de cinza geralmente consistem em um único canal, onde cada intensidade de pixel é apenas um único número variando de 0 a 255.
Para explorar isso ainda mais, podemos usar o PIL para converter nossa imagem em escala de cinza, conforme demonstrado abaixo.
Como antes, podemos inspecionar os canais de modo e imagem usando PIL.
Da documentação do PIL , podemos ver que L
se refere a uma imagem em escala de cinza de um único canal. Mais uma vez, podemos confirmar isso convertendo esta imagem em uma matriz e inspecionando a forma.
Observe que, como temos apenas um canal, a dimensão do canal é totalmente descartada por padrão; o que pode causar um problema para algumas estruturas de aprendizado profundo. Podemos adicionar explicitamente o eixo do canal usando a expand_dims
função de NumPy.
No PyTorch, podemos fazer a mesma coisa usando o unsqueeze
método, conforme demonstrado abaixo:
Por que isso afeta modelos pré-treinados?
Após observar as diferenças entre imagens RGB e em tons de cinza, podemos estar começando a entender como essas representações podem representar um problema para um modelo; especialmente se o modelo foi pré-treinado em um conjunto de dados de imagens que estão em um formato diferente daqueles em que estamos treinando atualmente.
Atualmente, a maioria dos modelos pré-treinados disponíveis foram treinados em uma versão do conjunto de dados ImageNet, que contém imagens coloridas em formato RGB. Portanto, se estivermos ajustando imagens em escala de cinza, a entrada que estamos fornecendo ao nosso modelo pré-treinado é substancialmente diferente de qualquer entrada que tenha encontrado anteriormente!
Como, no momento em que escrevo, as redes neurais convolucionais (CNNs) são os modelos pré-treinados mais comumente usados para tarefas de visão, restringiremos nosso foco a entender como as CNNs são afetadas pelo número de canais em uma imagem; outras arquiteturas estão fora do escopo deste artigo! Aqui, vamos assumir a familiaridade com as CNNs e como funcionam as convoluções - pois existem excelentes recursos que cobrem esses tópicos em detalhes - e focar em como esse processo será afetado pela alteração do número de canais de entrada.
Para nossos propósitos, a principal informação a ter em mente é que o bloco de construção central de uma CNN é uma camada convolucional, que podemos pensar como um processo que aplica um conjunto de filtros (também conhecidos como kernels) - onde um filtro é apenas uma pequena matriz, geralmente 3x3 — como uma janela deslizante em uma imagem; realizando uma multiplicação elemento a elemento antes de somar os resultados. Uma ótima ferramenta para entender exatamente como isso funciona pode ser encontrada aqui .
Como o número de canais afeta os filtros?
Na visão computacional pré-aprendizagem profunda, os filtros foram criados manualmente para determinados fins, como detecção de bordas, desfoque etc. Como exemplo, vamos considerar um filtro 3×3 feito à mão para detectar linhas horizontais:
Whilst the same filter ‘weights’ are used across the whole image during the sliding window operation, these weights are not shared across channels; meaning that a filter must always have the same number of channels as the input. Therefore, any filter that we would like to apply to a 3 channel RGB image, must also have 3 channels! The number of channels that a filter has is sometimes referred to as the ‘depth’.
Considering the horizontal line filter that we defined above, in order to apply this to a 3 channel image, we would need to increase the depth of this filter, such that it would be 3x3x3. As we would like the same behaviour for each channel, in this case, we can simply duplicate our 3x3 filter across the channel axis.
We can do this as demonstrated below:
Agora que a profundidade do filtro é compatível com o número de canais, podemos aplicar este filtro a uma imagem de 3 canais!
Para fazer isso, para cada canal, multiplicamos os elementos da nossa porção de janela deslizante da imagem pelos elementos do filtro correspondente; que resultará em uma matriz 3x3 que representa as características correspondentes à posição atual do filtro para cada canal. Essas matrizes podem então ser somadas para obter a porção correspondente do nosso mapa de características de saída.
Este processo é ilustrado abaixo:
Podemos repetir esse processo, movendo a posição do filtro pela imagem, para obter o mapa de características de saída completo. Observe que, independentemente do número de canais da imagem de entrada, como os recursos de cada canal são somados, o mapa de recursos sempre terá uma profundidade de 1.
Redes Neurais Convolucionais
Agora que exploramos como um filtro definido manualmente pode ser aplicado a uma imagem de 3 canais, neste ponto, você pode estar se perguntando: onde as CNNs entram nisso?
Uma das principais ideias por trás das CNNs é que, em vez de ter especialistas definindo filtros manualmente, esses filtros podem ser inicializados aleatoriamente e confiamos no processo de otimização para garantir que eles aprendam a detectar recursos significativos durante o treinamento; as visualizações dos tipos de filtros aprendidos pelas CNNs são exploradas aqui . Portanto, exceto por esses filtros serem aprendidos em vez de definidos, o processo geral é basicamente o mesmo!
Dentro de uma CNN, cada camada convolucional contém os parâmetros correspondentes aos filtros que serão aprendidos; o número de filtros aleatórios inicializados é um hiperparâmetro que podemos especificar. Como vimos no exemplo acima, cada filtro resultará na criação de um mapa de recursos de canal único, portanto, o número de filtros inicializados pela camada convolucional determinará o número de canais de saída.
Como exemplo, suponha que temos uma imagem de canal único e gostaríamos de criar uma camada convolucional que aprende um único filtro 3x3. Podemos especificar isso conforme demonstrado abaixo:
Aqui, esperamos que as dimensões do filtro sejam as mesmas do filtro de linha horizontal de canal único que definimos anteriormente. Vamos confirmar isso inspecionando o atributo 'peso' desta camada:
Lembrando que o PyTorch armazena primeiro o número de canais por padrão, e observando que uma dimensão de lote foi adicionada para fins computacionais, podemos ver que a camada inicializou um filtro 3x3, como seria de esperar!
Agora, vamos criar outra camada convolucional, desta vez especificando que temos 3 canais de entrada — para poder manipular uma imagem RGB — e inspecionar os pesos.
Da mesma forma que quando estendemos nosso filtro definido manualmente, o filtro inicializado agora tem a mesma profundidade que o número de canais de entrada; que dá as dimensões de 3x3x3.
No entanto, quando estendemos nosso filtro definido manualmente, simplesmente duplicamos os mesmos pesos. Aqui, a principal diferença é que os pesos 3x3 para cada canal serão diferentes; permitindo que a rede detecte recursos diferentes para cada canal. Portanto, cada kernel aprende recursos baseados e específicos para cada canal da imagem de entrada!
Podemos confirmar isso inspecionando os pesos diretamente, conforme mostrado abaixo:
A partir disso, podemos ver que os pesos são diferentes para o filtro 3x3 que será aplicado em cada canal.
Embora seja fácil ajustar as dimensões do filtro inicializado com base em nossa entrada ao criar uma nova camada convolucional, isso se torna mais difícil quando começamos a considerar arquiteturas pré-treinadas.
Como exemplo, vamos examinar a primeira camada convolucional de um modelo Resnet-RS50 , que foi pré-treinado no ImageNet, da biblioteca PyTorch Image models (timm) ; se você não estiver familiarizado com os modelos de imagem do PyTorch e quiser saber mais, explorei anteriormente alguns dos recursos desta biblioteca aqui .
Como este modelo foi treinado em imagens RGB, podemos ver que cada filtro está esperando uma entrada de 3 canais. Portanto, se tentássemos usar esse modelo em imagens em escala de cinza com um único canal, isso simplesmente não funcionaria, pois estamos perdendo informações vitais; os filtros estariam tentando detectar recursos em canais que não existem!
Além disso, em nossos exemplos anteriores, consideramos camadas convolucionais que aprenderiam um único filtro; o que raramente acontece na prática. Normalmente, gostaríamos que cada camada convolucional tivesse vários filtros, para que cada um deles pudesse se especializar em identificar diferentes recursos da entrada. Dependendo da tarefa, alguns podem aprender a detectar bordas horizontais, outros a detectar bordas verticais, etc. Esses recursos podem ser combinados por camadas posteriores, permitindo que o modelo aprenda representações de recursos cada vez mais complexas. Aqui, podemos ver que a camada convolucional do modelo ResNet-RS50 tem 32 canais de saída, o que significa que aprendeu 32 filtros diferentes, cada um exigindo uma entrada de 3 canais!
Como usar imagens em tons de cinza com modelos pré-treinados
Agora que entendemos por que as imagens em tons de cinza, com um número reduzido de canais, são incompatíveis com modelos pré-treinados treinados em imagens RGB, vamos explorar algumas das maneiras de superar isso!
Na minha experiência, tendem a haver duas abordagens principais que são comumente usadas:
- Adicionando canais adicionais a cada imagem em tons de cinza
- Modificando a primeira camada convolucional da rede pré-treinada
Adicionando canais adicionais a imagens em tons de cinza
Indiscutivelmente, a abordagem mais simples para usar imagens em escala de cinza com um modelo pré-treinado é evitar a modificação do modelo; em vez disso, duplicando o canal existente para que cada imagem tenha 3 canais. Usando a mesma imagem em escala de cinza que vimos anteriormente, vamos explorar como podemos fazer isso.
Usando NumPy
Primeiro, precisamos converter nossa imagem em um array NumPy:
Como observamos anteriormente, como nossa imagem possui apenas um único canal, o eixo do canal não foi criado. Mais uma vez, podemos usar a expand_dims
função para adicionar isso.
Agora que criamos um eixo adicional para a dimensão do canal, tudo o que precisamos fazer é repetir nossos dados nesse eixo; para o qual podemos usar o repeat
método, conforme demonstrado abaixo.
Por conveniência, vamos resumir essas etapas em uma função, para que possamos repetir esse processo facilmente, se necessário:
def expand_greyscale_image_channels(grey_pil_image):
grey_image_arr = np.array(grey_image)
grey_image_arr = np.expand_dims(grey_image_arr, -1)
grey_image_arr_3_channel = grey_image_arr.repeat(3, axis=-1)
return grey_image_arr_3_channel
Usando PyTorch
If we are doing Deep Learning, it may be more useful to explore how we can do this conversion using PyTorch directly, rather than using NumPy as an intermediary. Whilst we could perform a similar set of steps as above on a PyTorch tensor, it is likely that we will want to perform additional transformations on our image — such as the data augmentation operations defined in TorchVision — as part of the training process. As we would like the 3-channel conversion to take place at the start of our augmentation pipeline, and some subsequent transforms may expect a PIL image, manipulating a tensor directly may not be the best approach here.
Thankfully, although somewhat counterintuitively, we can use the existing Grayscale transformation included in TorchVision to do this conversion for us! Whilst this transform expects either a torch tensor or a PIL image, as we would like this to be the first step in our pipeline, let’s use a PIL image here.
By default, this transform converts an RGB image to a single channel greyscale image, but we can modify this behaviour by using the num_output_channels
argument, as demonstrated below.
Now, let’s see what happens if we apply this transform to our greyscale image.
At first glance, it doesn’t look although anything has changed. However, we can confirm the transform has worked as intended by inspecting the channels and mode of the PIL image.
As the additional channels have been added, we can see that PIL now refers to this image as an RGB image; which is what we wanted!
Therefore, the only modification required to a training script to use greyscale images, with this approach, would be to prepend this transform to the augmentation pipeline, as demonstrated below.
Modifying the first convolutional layer of the pretrained network
Whilst it can be convenient to expand a single channel image to 3 channels, as demonstrated above, a potential drawback of this is that additional resources are required to store and process the additional channels; which don’t provide any new information in this case!
A different approach is to modify the model to accommodate the different input which, in most cases, requires modifying the first convolutional layer. Whilst we could replace the whole layer with a new one, this would mean discarding some of the model’s learned weights and — unless we freeze the subsequent layers and train the new layer in isolation to begin with, which requires additional effort — the outputs coming from these new, randomly initialised weights may negatively disrupt some of the later layers.
Alternatively, recalling that each filter within a convolutional layer has separate channels, we can sum these together along the channel axis. Let’s explore how we can do this below. Once again, we shall use a Resnet-RS50 model from PyTorch Image models.
First, let’s create our pretrained model:
As we would expect, based on our earlier exploration of filters and channels, if we attempt to use this model on a single channel image out-of-the-box we observe the following error.
Let’s fix this by adjusting the weight of the first convolutional layer. For this model, we can access this as demonstrated below, but this will vary depending on the model used!
First, let’s update the in_channels
attribute for this layer to reflect our change. This doesn't actually modify the weights, but will update the overview seen when printing the model as well as ensuring that we would be able to save and load the model correctly.
Now, let’s perform the actual weight update. We can do this using the sum
method, ensuring that the keepdim
argument is set to True
to preserve the dimensions. The only 'gotcha' to watch out for is that, as a new tensor is created as a result of the sum
operation, we have to wrap this new tensor in nn.Parameter
; so that the new weights will be automatically added to the model's parameters.
Now, using this model with a single channel image, we can see that the correct shape has been returned!
Using timm
Whilst we could perform the above steps manually on any PyTorch model, timm already contains the functionality to do this for us! To modify a timm model in this way, we can use the in_chans
argument when creating a model as demonstrated below.
Comparing performance on open source datasets
Agora que investigamos duas maneiras de usar imagens em escala de cinza com modelos pré-treinados, você pode estar se perguntando qual usar; ou se é melhor simplesmente treinar o modelo do zero nas imagens em escala de cinza!
No entanto, devido às combinações quase ilimitadas de modelos, otimizadores, agendadores e políticas de treinamento que podem ser usadas, bem como diferenças nos conjuntos de dados, é extremamente difícil estabelecer uma regra geral para isso; é provável que a 'melhor' abordagem possa variar dependendo da tarefa específica que você está investigando!
Apesar disso, para ter uma ideia aproximada de como as abordagens funcionaram, decidi treinar uma das minhas combinações favoritas de otimizador de modelo e agendador em três conjuntos de dados de código aberto para ver como as diferentes abordagens se comparavam. Embora seja provável que a mudança da política de treinamento possa afetar o desempenho de diferentes abordagens, por simplicidade, o processo de treinamento foi mantido relativamente consistente; baseado em práticas que eu descobri que funcionam bem.
Configuração do experimento
Para todas as execuções de experimentos, o seguinte foi mantido consistente:
- Modelo : ResNet-RS50
- Otimizador : AdamW
- Agendador LR : Decaimento do cosseno
- Aumento de dados : as imagens foram redimensionadas para 224, o flip horizontal foi usado durante o treinamento
- LR inicial : 0,001
- Número máximo de épocas : 60
Os conjuntos de dados usados foram:
- Feijão : Feijão é um conjunto de dados de imagens de feijão tiradas em campo usando câmeras de smartphones. É composto por 3 classes, 2 classes de doenças e a classe saudável.
- Pedra, papéis e tesoura (RPS) : Imagens de mãos jogando pedra, papel e tesoura.
- Oxford Pets : Um conjunto de dados de animais de estimação de 37 categorias com cerca de 200 imagens para cada classe.
- RGB : ajuste o modelo usando imagens RGB para atuar como uma linha de base.
- Escala de cinza com 3 canais : as imagens em escala de cinza foram convertidas para o formato de 3 canais.
- Escala de cinza com 1 canal : a primeira camada do modelo foi convertida para aceitar uma imagem de canal único.
- Ajuste fino: usando um modelo pré-treinado, primeiro treine a camada final do modelo, antes de descongelar e treinar todo o modelo. Após o descongelamento, a taxa de aprendizado é reduzida por um fator de 10.
- Ajuste fino do modelo inteiro : treine todo o modelo pré-treinado, sem congelar nenhuma camada.
- Do zero : treine o modelo do zero
- PyTorch: 1.10.0
- Acelerado por PyTorch: 0.1.22
- tempo: 0,5,4
- torquímetro: 0.7.1
- pandas: 1.4.1
Os resultados dessas corridas são apresentados na tabela abaixo.
A partir desses experimentos, minhas principais observações são:
- Parece ser mais fácil obter bons resultados usando um modelo pré-treinado e adaptá-lo para usar imagens em escala de cinza, em vez de treinar do zero.
- A melhor abordagem nesses conjuntos de dados parece ser modificar o número de canais na imagem em vez de modificar o modelo.
Felizmente, isso forneceu uma visão geral razoavelmente abrangente de como ajustar modelos pré-treinados em imagens em escala de cinza, bem como uma compreensão de por que são necessárias considerações adicionais.
Chris Hughes está no LinkedIn .
Referências
- ImageNet (image-net.org)
- Modelo de cores RGB — Wikipedia
- Conceitos — Travesseiro (PIL Fork) 9.1.0.dev0 documentação
- fastbook/13_convolutions.ipynb em master · fastai/fastbook (github.com)
- deeplizard — Demonstração de Convolução
- LNCS 8689 — Visualizando e Entendendo Redes Convolucionais (nyu.edu)
- Revisitando ResNets: Treinamento aprimorado e estratégias de dimensionamento (arxiv.org)
- rwightman/pytorch-image-models: modelos de imagem PyTorch, scripts, pesos pré-treinados — ResNet, ResNeXT, EfficientNet, EfficientNetV2, NFNet, Vision Transformer, MixNet, MobileNet-V3/V2, RegNet, DPN, CSPNet e mais (github.com )
- Introdução aos modelos de imagem do PyTorch (timm): um guia do praticante | por Chris Hughes | fevereiro de 2022 | Em direção à ciência de dados
- Chris-hughes10/pytorch-accelerated: Uma biblioteca leve projetada para acelerar o processo de treinamento de modelos PyTorch, fornecendo um loop de treinamento mínimo, mas extensível, flexível o suficiente para lidar com a maioria dos casos de uso e capaz de utilizar diferentes opções de hardware sem alterações de código necessárias. Documentos: https://pytorch-accelerated.readthedocs.io/en/latest/ (github.com)
- Beans Dataset, AI-Lab-Makerere/ibean: repositório de dados para o projeto ibean do AIR lab. (github. com) . Licença MIT, use sem restrições.
- Conjunto de dados Rock, Paper, Scissors, Laurence Moroney Datasets for Machine Learning — Laurence Moroney — The AI Guy. Licença CC By 2.0, livre para compartilhar e adaptar para todos os usos, comerciais ou não comerciais
- Oxford Pets Dataset, Visual Geometry Group — Universidade de Oxford . Licença Creative Commons Attribution-ShareAlike 4.0 International , incluindo fins comerciais e de pesquisa.