Imparcialidade da Inteligência Artificial: Como Mitigar o Viés na Era da IA
Nos dias de hoje, a imparcialidade na Inteligência Artificial (IA) é uma preocupação crescente. Modelos de aprendizado de máquina podem reproduzir ou agravar preconceitos existentes, muitas vezes de maneiras que não são detectadas até o lançamento. Então, o que pode ser feito a respeito?
Em 2016, o Fórum Econômico Mundial afirmou que estamos vivenciando a quarta onda da Revolução Industrial: a automação usando sistemas ciberfísicos. Elementos-chave dessa onda incluem inteligência de máquina, governança descentralizada baseada em blockchain e edição genética. Como ocorreu nas ondas anteriores, essas tecnologias reduzem a necessidade de mão de obra humana, mas apresentam novos desafios éticos, especialmente para empresas de desenvolvimento de inteligência artificial e seus clientes.
O objetivo deste artigo é revisar ideias recentes sobre a detecção e mitigação de viés indesejado em modelos de aprendizado de máquina. Discutiremos diretrizes recentemente criadas em torno da IA confiável, revisaremos exemplos de viés de IA decorrentes tanto da escolha do modelo quanto do viés social subjacente, sugeriremos práticas comerciais e técnicas para detectar e mitigar IA tendenciosa, e discutiremos obrigações legais conforme existem atualmente no GDPR e como podem se desenvolver no futuro.
Humanos: A Fonte Suprema de Viés no Aprendizado de Máquina
Todos os modelos são criados por humanos e refletem os preconceitos humanos. Modelos de aprendizado de máquina podem refletir os preconceitos das equipes organizacionais, dos designers dessas equipes, dos cientistas de dados que implementam os modelos e dos engenheiros de dados que coletam os dados. Naturalmente, eles também refletem o viés inerente aos próprios dados. Assim como esperamos um nível de confiabilidade dos tomadores de decisão humanos, devemos esperar e fornecer um nível de confiabilidade de nossos modelos.
Um modelo confiável ainda conterá muitos viéses, porque o viés (em seu sentido mais amplo) é a espinha dorsal do aprendizado de máquina. Um modelo de previsão de câncer de mama preverá corretamente que pacientes com histórico de câncer de mama têm viés para um resultado positivo. Dependendo do design, ele pode aprender que as mulheres têm viés para um resultado positivo. O modelo final pode ter diferentes níveis de precisão para mulheres e homens, e ser tendencioso dessa maneira. A pergunta chave a fazer não é “Meu modelo é tendencioso?”, porque a resposta será sempre sim.
Buscando por melhores perguntas, o Grupo de Especialistas de Alto Nível sobre Inteligência Artificial da União Europeia produziu diretrizes aplicáveis à construção de modelos. Em geral, os modelos de aprendizado de máquina devem ser:
- Legais – respeitar todas as leis e regulamentos aplicáveis
- Éticos – respeitar princípios éticos e valores
- Robustos – tanto do ponto de vista técnico quanto levando em consideração seu ambiente social
Esses requisitos curtos, e sua forma mais longa, incluem e vão além das questões de viés, servindo como uma lista de verificação para engenheiros e equipes. Podemos desenvolver sistemas de IA mais confiáveis examinando os viéses dentro de nossos modelos que podem ser ilegais, antiéticos ou não robustos, no contexto do enunciado do problema e do domínio.
Casos Históricos de Viés de IA
Abaixo estão três modelos históricos com confiabilidade duvidosa, devido ao viés de IA que é ilegal, antiético ou não robusto. O primeiro e mais famoso caso, o modelo COMPAS, mostra como até mesmo os modelos mais simples podem discriminar de maneira antiética com base na raça. O segundo caso ilustra uma falha na maioria dos modelos de processamento de linguagem natural (PLN): eles não são robustos a preconceitos raciais, sexuais e outros. O último caso, a Ferramenta de Triagem da Família Allegheny, mostra um exemplo de um modelo fundamentalmente defeituoso devido a dados tendenciosos e algumas melhores práticas na mitigação desses defeitos.
COMPAS
O exemplo canônico de IA tendenciosa e não confiável é o sistema COMPAS, usado na Flórida e em outros estados dos EUA. O sistema COMPAS usava um modelo de regressão para prever se um perpetrador tinha probabilidade de reincidir ou não. Embora otimizado para precisão geral, o modelo previu o dobro do número de falsos positivos para reincidência para etnias afro-americanas do que para etnias caucasianas.
O exemplo do COMPAS mostra como o viés indesejado pode se infiltrar em nossos modelos, não importa o quão confortável seja nossa metodologia. Do ponto de vista técnico, a abordagem adotada para os dados do COMPAS era extremamente comum, embora os dados subjacentes da pesquisa contivessem perguntas com relevância questionável. Um pequeno modelo supervisionado foi treinado em um conjunto de dados com um pequeno número de características. (Na minha prática, segui um procedimento técnico semelhante dezenas de vezes, como provavelmente é o caso de qualquer cientista de dados ou engenheiro de ML.) No entanto, escolhas de design comuns produziram um modelo que continha um viés indesejado e discriminatório com base na raça.
O maior problema no caso COMPAS não estava na escolha simples do modelo, ou mesmo que os dados estavam defeituosos. Pelo contrário, a equipe COMPAS deixou de considerar que o domínio (sentenciamento), a pergunta (detecção de reincidência) e as respostas (pontuações de reincidência) são conhecidos por envolver disparidades em eixos raciais, sexuais e outros, mesmo quando algoritmos não estão envolvidos. Se a equipe tivesse procurado por viés, teria encontrado. Com essa conscientização, a equipe COMPAS poderia ter sido capaz de testar abordagens diferentes e recriar o modelo enquanto ajustava o viés. Isso teria funcionado para reduzir a injusta prisão de afro-americanos, em vez de exacerbá-la.
Qualquer Modelo NLP Pré-treinado Ingenuamente em Common Crawl, Google News, ou Outro Corpus, Desde o Word2Vec
Grandes modelos pré-treinados formam a base para a maioria das tarefas de PLN. A menos que esses modelos básicos sejam especialmente projetados para evitar viés ao longo de um eixo específico, eles certamente serão impregnados dos preconceitos inerentes aos corpora com os quais são treinados – pela mesma razão pela qual esses modelos funcionam de fato. Os resultados desse viés, ao longo de linhas raciais e de gênero, foram demonstrados em modelos Word2Vec e GloVe treinados em Common Crawl e Google News, respectivamente. Embora os modelos contextuais, como o BERT, sejam o estado-da-arte atual (em vez de Word2Vec e GloVe), não há evidências de que os corpora em que esses modelos são treinados sejam menos discriminatórios.
Embora as melhores arquiteturas de modelo para qualquer problema de PLN sejam impregnadas de sentimento discriminatório, a solução não é abandonar os modelos pré-treinados, mas sim considerar o domínio específico em questão, o enunciado do problema e os dados em sua totalidade com a equipe. Se uma aplicação é aquela em que o preconceito discriminatório por humanos é conhecido por desempenhar um papel significativo, os desenvolvedores devem estar cientes de que os modelos provavelmente perpetuarão esse preconceito.
Ferramenta de Triagem da Família Allegheny: Tendenciosa, mas Bem Projetada e Mitigada
Neste exemplo final, discutimos um modelo construído a partir de dados injustamente discriminatórios, mas o viés indesejado é mitigado de várias maneiras. A Ferramenta de Triagem da Família Allegheny é um modelo projetado para auxiliar humanos a decidir se uma criança deve ser retirada de sua família devido a circunstâncias abusivas. A ferramenta foi projetada de maneira aberta e transparente, com fóruns públicos e oportunidades para encontrar falhas e desigualdades no software.
O viés indesejado no modelo decorre de um conjunto de dados público que reflete preconceitos mais amplos da sociedade. Famílias de classe média e alta têm maior capacidade de “esconder” o abuso usando provedores de saúde privados. As referências ao Condado de Allegheny ocorrem mais de três vezes com mais frequência para famílias afro-americanas e birraciais do que para famílias brancas. Comentaristas como Virginia Eubanks e Ellen Broad afirmaram que problemas de dados como esses só podem ser resolvidos se a sociedade for corrigida, uma tarefa além de qualquer engenheiro individual.
Na produção, o condado combate as desigualdades em seu modelo usando-o apenas como uma ferramenta consultiva para trabalhadores de primeira linha e projeta programas de treinamento para que esses trabalhadores estejam cientes das falhas do modelo consultivo quando tomam suas decisões. Com novos desenvolvimentos em algoritmos de desviamento, o Condado de Allegheny tem novas oportunidades para mitigar o viés latente no modelo.
O desenvolvimento da ferramenta Allegheny tem muito a ensinar aos engenheiros sobre os limites dos algoritmos para superar a discriminação latente nos dados e a discriminação social subjacente a esses dados. Isso fornece aos engenheiros e designers um exemplo de construção de modelo consultivo que pode mitigar o impacto do viés discriminatório potencial em um modelo.
Evitando e Mitigando o Viés de IA: Conscientização Empresarial Fundamental
Felizmente, existem algumas abordagens e métodos de desvio – muitos dos quais usam o conjunto de dados COMPAS como referência.
Melhore a Diversidade, Mitigue os Déficits de Diversidade
Manter equipes diversas, tanto em termos de demografia quanto de conjunto de habilidades, é importante para evitar e mitigar o viés indesejado de IA. Apesar do contínuo discurso vazio sobre diversidade por parte dos executivos de tecnologia, mulheres e pessoas de cor continuam sub-representadas.
Vários modelos de ML têm desempenho pior em minorias estatísticas dentro da própria indústria de IA, e as pessoas a notar esses problemas primeiro são os usuários que são mulheres e/ou pessoas de cor. Com mais diversidade nas equipes de IA, problemas relacionados ao viés indesejado podem ser observados e mitigados antes do lançamento em produção.
Esteja Ciente de Proxies: Remover Etiquetas de Classes Protegidas de um Modelo Pode Não Funcionar!
Uma abordagem comum e ingênua para remover o viés relacionado a classes protegidas (como sexo ou raça) dos dados é excluir as etiquetas que marcam a raça ou o sexo dos modelos. Em muitos casos, isso não funcionará, porque o modelo pode desenvolver entendimentos dessas classes protegidas a partir de outras etiquetas, como códigos postais. A prática usual envolve remover essas etiquetas também, tanto para melhorar os resultados dos modelos em produção quanto devido a requisitos legais. O recente desenvolvimento de algoritmos de desviamento, que discutiremos abaixo, representa uma maneira de mitigar o viés de IA sem remover as etiquetas.
Esteja Ciente das Limitações Técnicas Mesmo as melhores práticas em design de produtos e construção de modelos não serão suficientes para eliminar os riscos de viés indesejado, especialmente em casos de dados tendenciosos. É importante reconhecer as limitações de nossos dados, modelos e soluções técnicas para o viés, tanto por razões de conscientização quanto para que os métodos humanos de limitar o viés no aprendizado de máquina, como o envolvimento humano, possam ser considerados.
Evitando e Mitigando o Viés de IA: Ferramentas Técnicas Fundamentais para Conscientização e Desvio Os cientistas de dados têm um número crescente de ferramentas técnicas de conscientização e desvio à disposição, que complementam as práticas comerciais em desenvolvimento.
Ferramentas Técnicas de Conscientização e Desvio Ferramentas como o What-If Tool, Fairlearn, Aequitas e AI Fairness 360 permitem que cientistas de dados e desenvolvedores detectem e mitiguem o viés em seus modelos. Por exemplo, o AI Fairness 360 inclui uma interface de programação de aplicativo Python e suporte para modelos do TensorFlow. Para uma visão mais geral do que é possível, a equipe do What-If demonstrou que a remoção completa de rótulos de classe protegida (como sexo ou raça) não garante que um modelo treinado será mais justo. Com o auxílio de uma interface interativa de programação de aplicativo, os desenvolvedores podem observar como diferentes alterações nos dados de treinamento afetam o viés e os resultados gerais.
Desenvolvendo Algoritmos de Desvio Algoritmos de desvio (ou contra-factual fairness) são usados para encontrar perturbações em uma dada entrada que podem mudar as saídas de um modelo, a fim de torná-lo mais imparcial. A pesquisa nessa área está avançando rapidamente, com algoritmos de desvio que funcionam em cenários de classificação, regressão e sistemas de recomendação. Um exemplo é o algoritmo de desvio LFR, que constrói uma perturbação otimizada com base na entrada atual e em uma função objetivo que visa melhorar a justiça.
O Futuro da IA Imparcial: Ética, Regulação e Responsabilidade
Os esforços para melhorar a imparcialidade da IA devem ser multidisciplinares. A ética deve orientar o desenvolvimento de modelos de IA, desde as primeiras etapas de design até o treinamento e avaliação contínuos. A regulamentação também desempenhará um papel fundamental, à medida que governos e organizações criam políticas e leis para garantir que os modelos de IA não discriminem e não violem os direitos humanos.
A responsabilidade é compartilhada entre cientistas de dados, engenheiros de IA, líderes de negócios e formuladores de políticas. Os desenvolvedores devem empregar as ferramentas e práticas disponíveis para mitigar o viés indesejado, enquanto as lideranças corporativas devem priorizar a imparcialidade e a ética em todas as etapas do desenvolvimento de IA. A colaboração entre setores público e privado é crucial para criar um ambiente em que a IA possa prosperar de maneira justa e responsável.
Conclusão
A imparcialidade na IA é uma questão crítica que exige atenção imediata. Modelos de aprendizado de máquina podem amplificar preconceitos existentes, levando a consequências prejudiciais para indivíduos e comunidades. No entanto, existem abordagens técnicas e práticas comerciais que podem ajudar a mitigar o viés indesejado e promover a criação de sistemas de IA mais imparciais e éticos. A conscientização, a diversidade, as ferramentas técnicas de desvio e o compromisso com a responsabilidade são elementos essenciais para moldar um futuro de IA mais justo e inclusivo. Ao adotar essas abordagens, podemos garantir que a IA beneficie a sociedade como um todo, em vez de perpetuar desigualdades existentes.