Blocos de Construção da Inteligência Artificial

Num campo de conhecimentos tão amplo quanto a Inteligência Artificial (IA), é importante, antes de nos aprofundarmos no tema, adquirir literacia buscando uma visão do todo, com várias perspectivas e abordagens de diversas fontes. Assim, estou publicando este post, para complementar o entendimento que procurei passar em posts anteriores, como: introdução à computação cognitivaas 4 ondas da inteligência artificial e Os 7 Padrões da Inteligência Artificial.

Vejamos então uma imagem resumo sobre os 10 blocos de construção da inteligência artificial proposto por consultores da Boston Consulting Group (BCG), seguidos das respectivas descrições.

Blocos relativos à Dados

1 – Visão de máquina é a classificação e rastreamento de objetos do mundo real com base em sinais visuais, raios-x, laser ou outros sinais. O reconhecimento óptico de caracteres foi um sucesso inicial da visão de máquina, mas decifrar texto manuscrito continua sendo um trabalho em andamento.

A qualidade da visão da máquina depende da rotulagem humana de uma grande quantidade de imagens de referência. A maneira mais simples de as máquinas começarem a aprender é através do acesso a esses dados rotulados. Nos próximos cinco anos, a visão computacional baseada em vídeo poderá reconhecer ações e prever movimentos – por exemplo, em sistemas de vigilância.

2 – O reconhecimento de fala envolve a transformação de sinais auditivos em texto. Em um ambiente relativamente silencioso, aplicativos como Siri e Alexa podem identificar a maioria das palavras em um vocabulário geral. À medida que o vocabulário se torna mais específico, tornam-se necessários programas personalizados, como o PowerScribe da Nuance para radiologistas. Ainda estamos a alguns anos de produzir um assistente virtual que pode fazer anotações precisas em ambientes ruidosos com muitas pessoas falando ao mesmo tempo.

3 – O processamento em linguagem natural (PLN) é a análise semântica e a interpretação do texto. Esse recurso reconhece spam, notícias falsas e até sentimentos como felicidade, tristeza e agressão. Hoje, o PLN pode fornecer resumos básicos de texto e, em alguns casos, inferir a intenção. Por exemplo, os chatbots tentam categorizar os chamadores com base no que eles percebem ser a intenção dos chamadores. É provável que o PLN melhore significativamente nos próximos anos, mas uma compreensão completa de textos complexos continua sendo um dos santos graal da inteligência artificial.

Blocos de Processamento

4 – O processamento de informações abrange todos os métodos de pesquisa, extração de conhecimento e processamento de texto não estruturado com o objetivo de fornecer respostas às consultas. Intimamente relacionado para o PLN, esse componente envolve pesquisar bilhões de documentos ou construir gráficos de conhecimento rudimentares que identificam relacionamentos no texto, além de poder envolver raciocínio semântico.

5 – Aprender com dados é essencialmente aprendizado de máquina – a capacidade de prever valores ou classificar informações com base em dados históricos. Embora o aprendizado de máquina seja um elemento em outros componentes, como visão de máquina e PLN, também é um elemento essencial. É a base de sistemas como as recomendações de filmes da Netflix, programas de segurança cibernética que empregam detecção de anomalias e modelos de regressão padrão para prever a rotatividade de clientes.

Um desafio em aplicativos de negócios envolve a remoção do viés humano dos dados. Sistemas projetados para identificar fraudes, prever crimes ou calcular pontuações de crédito, por exemplo, codificam os preconceitos implícitos de agentes, policiais e funcionários de bancos. A limpeza dos dados pode ser um desafio.

Finalmente, muitos modelos de aprendizado de máquina hoje são inerentemente caixas pretas. Os cientistas de dados podem precisar projetar transparência nesses sistemas, especialmente em ambientes regulamentados, mesmo que isso envolva algumas compensações no desempenho. Devido à intensa pesquisa em andamento nesse campo, é provável que a transparência melhore nos próximos cinco anos.

6 – Agentes de planejamento e exploração podem ajudar a identificar a melhor sequência de ações para atingir uma meta. Os carros autônomos dependem muito desse componente básico da navegação. Identificar a melhor sequência de ações se torna muito mais difícil à medida que agentes e ações adicionais entram em cena. Um subcampo de rápido crescimento, o aprendizado por reforço, enfatiza o recebimento de uma dica ou recompensa ocasional, em vez de instruções explícitas. O aprendizado por reforço foi fundamental para o sucesso do Google DeepMind no jogo Go e está intimamente associado à maneira como o cérebro humano aprende por tentativa e erro.

Blocos com foco em Ação

7 – A geração de imagens é o oposto da visão de máquina; cria imagens com base em modelos. Ainda em sua infância, esse bloco de construção pode concluir imagens nas quais o plano de fundo está ausente, por exemplo, ou pode alterar uma fotografia para renderizá-la no estilo de, digamos, Vincent van Gogh. A geração de imagens é o mecanismo por trás das ferramentas de realidade virtual e aumentada, como as máscaras do Snapchat.

8 – A geração de fala abrange a geração de texto com base em dados e a síntese de fala com base em texto. Atualmente, o Alexa exemplifica os recursos da geração de conversão de texto em fala. Esse componente básico está começando a permitir que as organizações jornalísticas automatizem a redação de relatórios básicos de esportes e ganhos, como resumos de jogos e boletins financeiros. Nos próximos cinco anos, a geração da fala provavelmente poderá incorporar ritmo, estresse e entonações que fazem a fala parecer natural. A geração musical também se tornará mais personalizada em breve.

9 – Manipulação e controle se referem a interações com objetos do mundo real. Por exemplo, os robôs já aprendem com humanos no chão de fábrica, mas têm problemas com tarefas novas ou fluidas, como cortar pão ou alimentar idosos. À medida que as empresas lançam dinheiro globalmente nesse campo, os robôs devem se tornar muito melhores na captação de novos itens em armazéns e na exibição de movimentos e flexibilidade fluidos e humanos.

10 – A navegação e o movimento abrangem as maneiras pelas quais os robôs se movem através de um determinado ambiente físico. Carros e drones autônomos se saem razoavelmente bem com suas rodas e rotores, mas andar sobre as pernas – especialmente um único par de pernas – é um desafio muito mais difícil. Os robôs que conseguem subir escadas ou abrir portas com fluidez demorarão mais alguns anos para chegar. Os robôs de quatro patas exigem menos equilíbrio, no entanto, e os modelos atuais já são capazes de navegar em ambientes que são efetivamente inacessíveis aos veículos com rodas.

Considerações finais

Este é apenas mais um dos artigos que considero relevantes para a introdução ao tema Inteligência Artificial, mesmo que não sendo de origem acadêmica e sim de uma empresa consultoria de estratégica.

Se gostou, por favor, compartilhe. Abraço, @neigrando

Sobre mim: aqui, Contato: aqui.

Referência

Este post é uma tradução resumida e adaptada do artigo da Boston Consulting Group (BCG): The Building Blocks Of Artificial Intelligence, escrito por Martin Hecker, Sebastian Steinhäuser, e Patrick Ruwolt, em 2017.

Artigos Relacionados:

Um pensamento sobre “Blocos de Construção da Inteligência Artificial

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s