Explicado a IA Generativa

Como funcionam os poderosos sistemas de IA generativa, como o ChatGPT, e o que os torna diferentes de outros tipos de inteligência artificial?

O que as pessoas querem dizer quando falam em “IA generativa” e por que esses sistemas parecem estar entrando em praticamente todas as aplicações imagináveis? Os especialistas em IA do MIT ajudam a analisar os meandros dessa tecnologia cada vez mais popular e onipresente.

Uma rápida olhada nas manchetes faz parecer que a inteligência artificial generativa está em toda parte atualmente. Na verdade, algumas dessas manchetes podem ter sido escritas por IA generativa, como o ChatGPT da OpenAI, um chatbot que demonstrou uma capacidade incrível de produzir texto que parece ter sido escrito por um ser humano.

Mas o que as pessoas realmente querem dizer quando falam em “IA generativa”?

Antes do boom da IA generativa dos últimos anos, quando as pessoas falavam sobre IA, normalmente falavam de modelos de aprendizagem automática que podem aprender a fazer previsões com base em dados. Por exemplo, esses modelos são treinados, utilizando milhões de exemplos, para prever se um determinado raio X mostra sinais de um tumor ou se um determinado mutuário tem probabilidade de não pagar um empréstimo.

A IA generativa pode ser considerada um modelo de aprendizado de máquina treinado para criar novos dados, em vez de fazer uma previsão sobre um conjunto de dados específico. Um sistema de IA generativo é aquele que aprende a gerar mais objetos que se parecem com os dados nos quais foi treinado.

Quando se trata do maquinário real subjacente à IA generativa e a outros tipos de IA, as distinções podem ser um pouco confusas. Muitas vezes, os mesmos algoritmos podem ser usados para ambos”, diz Phillip Isola, professor associado de engenharia elétrica e ciência da computação no MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL).

E apesar do entusiasmo que surgiu com o lançamento do ChatGPT e seus equivalentes, a tecnologia em si não é totalmente nova. Esses poderosos modelos de aprendizado de máquina baseiam-se em pesquisas e avanços computacionais que remontam a mais de 50 anos.

Um aumento na complexidade

Um dos primeiros exemplos de IA generativa é um modelo muito mais simples conhecido como cadeia de Markov. A técnica leva o nome de Andrey Markov, um matemático russo que em 1906 introduziu este método estatístico para modelar o comportamento de processos aleatórios. No aprendizado de máquina, os modelos de Markov têm sido usados há muito tempo para tarefas de previsão da próxima palavra, como a função de preenchimento automático em um programa de e-mail.

Na previsão de texto, um modelo de Markov gera a próxima palavra em uma frase observando a palavra anterior ou algumas palavras anteriores. Mas como esses modelos simples só podem olhar para trás até certo ponto, eles não são bons para gerar textos plausíveis, diz Tommi Jaakkola, professor Thomas Siebel de Engenharia Elétrica e Ciência da Computação no MIT, que também é membro do CSAIL e do Institute for Dados, Sistemas e Sociedade (IDSS).

Já estávamos gerando coisas muito antes da última década, mas a principal distinção aqui está em termos da complexidade dos objetos que podemos gerar e da escala em que podemos treinar esses modelos”, explica ele.

Há apenas alguns anos, os pesquisadores tendiam a se concentrar em encontrar um algoritmo de aprendizado de máquina que fizesse o melhor uso de um conjunto de dados específico. Mas esse foco mudou um pouco, e muitos investigadores estão agora utilizando conjuntos de dados maiores, talvez com centenas de milhões ou mesmo milhares de milhões de pontos de dados, para treinar modelos que podem alcançar resultados impressionantes.

Os modelos básicos subjacentes ao ChatGPT e sistemas semelhantes funcionam da mesma maneira que um modelo de Markov. Mas uma grande diferença é que o ChatGPT é muito maior e mais complexo, com bilhões de parâmetros. E foi treinado com base numa enorme quantidade de dados – neste caso, grande parte do texto disponível publicamente na Internet.

Neste enorme corpus de texto, palavras e frases aparecem em sequências com certas dependências. Essa recorrência ajuda o modelo a entender como cortar o texto em pedaços estatísticos que tenham alguma previsibilidade. Ele aprende os padrões desses blocos de texto e usa esse conhecimento para propor o que pode vir a seguir.

Arquiteturas mais poderosas

Embora conjuntos de dados maiores tenham sido um catalisador que levou ao boom da IA generativa, uma variedade de avanços importantes na pesquisa também levou a arquiteturas de aprendizagem profunda mais complexas.

Em 2014, uma arquitetura de aprendizado de máquina conhecida como rede adversária generativa (GAN) foi proposta por pesquisadores da Universidade de Montreal. As GANs usam dois modelos que funcionam em conjunto: um aprende a gerar uma saída alvo (como uma imagem) e o outro aprende a discriminar dados verdadeiros da saída do gerador. O gerador tenta enganar o discriminador e, no processo, aprende a obter resultados mais realistas. O gerador de imagens StyleGAN é baseado nesses tipos de modelos.

Os modelos de difusão foram introduzidos um ano depois por pesquisadores da Universidade de Stanford e da Universidade da Califórnia em Berkeley. Ao refinar iterativamente seus resultados, esses modelos aprendem a gerar novas amostras de dados que se assemelham a amostras em um conjunto de dados de treinamento e têm sido usados para criar imagens de aparência realista. Um modelo de difusão está no centro do sistema de geração de texto para imagem Stable Diffusion.

Em 2017, pesquisadores do Google introduziram a arquitetura do transformador, que tem sido usada para desenvolver grandes modelos de linguagem, como aqueles que alimentam o ChatGPT. No processamento de linguagem natural, um transformador codifica cada palavra em um corpus de texto como um token e, em seguida, gera um mapa de atenção, que captura os relacionamentos de cada token com todos os outros tokens. Este mapa de atenção ajuda o transformador a compreender o contexto ao gerar um novo texto.

Estas são apenas algumas das muitas abordagens que podem ser usadas para IA generativa.

Uma gama de aplicações

O que todas essas abordagens têm em comum é que convertem entradas em um conjunto de tokens, que são representações numéricas de blocos de dados. Contanto que seus dados possam ser convertidos nesse formato de token padrão, então, em teoria, você poderia aplicar esses métodos para gerar novos dados semelhantes.

Sua milhagem pode variar, dependendo do nível de ruído dos seus dados e da dificuldade de extração do sinal, mas está realmente se aproximando da maneira como uma CPU de uso geral pode receber qualquer tipo de dados e começar a processá-los de forma unificada”, diz Isola.

Isso abre uma enorme variedade de aplicações para IA generativa.

Por exemplo, o grupo de Isola está utilizando IA generativa para criar dados de imagens sintéticas que poderiam ser utilizados para treinar outro sistema inteligente, por exemplo, ensinando um modelo de visão computacional a reconhecer objetos.

O grupo de Jaakkola está usando IA generativa para projetar novas estruturas proteicas ou estruturas cristalinas válidas que especifiquem novos materiais. Da mesma forma que um modelo generativo aprende as dependências da linguagem, se em vez disso forem mostradas estruturas cristalinas, ele pode aprender as relações que tornam as estruturas estáveis e realizáveis, explica ele.

Mas embora os modelos generativos possam alcançar resultados incríveis, eles não são a melhor escolha para todos os tipos de dados. Para tarefas que envolvem fazer previsões sobre dados estruturados, como os dados tabulares em uma planilha, os modelos generativos de IA tendem a ser superados pelos métodos tradicionais de aprendizado de máquina, diz Devavrat Shah, professor Andrew e Erna Viterbi em Engenharia Elétrica e Ciência da Computação no MIT. e membro do IDSS e do Laboratório de Sistemas de Informação e Decisão.

O maior valor que eles têm, na minha opinião, é se tornarem uma interface incrível para máquinas que sejam amigáveis ao ser humano. Anteriormente, os humanos tinham que falar com as máquinas na linguagem das máquinas para fazer as coisas acontecerem. Agora, esta interface descobriu como falar tanto com humanos quanto com máquinas”, diz Shah.

Levantando bandeiras vermelhas

Os chatbots generativos de IA agora estão sendo utilizados em call centers para responder a questões de clientes humanos, mas esta aplicação sublinha um potencial sinal de alerta na implementação destes modelos: o deslocamento de trabalhadores.

Além disso, a IA generativa pode herdar e proliferar vieses que existem nos dados de treino ou amplificar o discurso de ódio e as declarações falsas. Os modelos têm a capacidade de plagiar e podem gerar conteúdo que parece ter sido produzido por um criador humano específico, levantando potenciais problemas de direitos autorais.

Por outro lado, Shah propõe que a IA generativa poderia capacitar os artistas, que poderiam usar ferramentas generativas para ajudá-los a criar conteúdos criativos que, de outra forma, não teriam meios para produzir.

No futuro, ele vê a IA generativa mudando a economia em muitas disciplinas.

Uma direção futura promissora que Isola vê para a IA generativa é seu uso para fabricação. Em vez de um modelo fazer a imagem de uma cadeira, talvez pudesse gerar um design para uma cadeira que pudesse ser produzida.

Ele também vê usos futuros para sistemas generativos de IA no desenvolvimento de agentes de IA mais geralmente inteligentes.

Existem diferenças na forma como estes modelos funcionam e como pensamos que o cérebro humano funciona, mas penso que também existem semelhanças. Temos a capacidade de pensar e sonhar mentalmente, de apresentar ideias ou planos interessantes, e acho que a IA generativa é uma das ferramentas que capacitará os agentes para fazer isso também”, diz Isola.

Referência

Texto traduzido e levemente adaptado de “Explained: Generative AI” por Adam Zewe | MIT News, Novembro 2023

Observação: Este texto foi mantido o mais fiel possível ao original, para uso na disciplina Fundamentos de Inteligência Artificial que ministro na pós-graduação da ESPM em São Paulo – aproveitei para compartilhá-lo com os leitores deste blog.

Artigos relacionados