O OpenAI Codex é um modelo de inteligência artificial desenvolvido pela OpenAI. Ele analisa a linguagem e gera um código em resposta. Também alimenta o GitHub Copilot, uma ferramenta de autocomplemento de programação para IDEs selecionados, como o Visual Studio Code e o Neovim.[1] O Codex é um descendente do modelo GPT-3 da OpenAI, ajustado para uso em aplicativos de programação. A OpenAI lançou uma API para o Codex em uma versão beta.[1] Em março de 2023, a OpenAI fechou o acesso ao Codex.[2] Devido a apelos públicos de pesquisadores, a OpenAI reverteu a situação.[3] O modelo do Codex ainda pode ser usado por pesquisadores do programa de acesso à pesquisa da OpenAI.[4]

Recursos

editar

Com base no GPT-3, uma rede neural formada por textos, o Codex foi também formado por 159 gigabytes de código Python de 54 milhões de arquivos do GitHub.[5][6] Um caso de uso típico do Codex é um usuário digitar um comentário, como:

"//compute the moving average of an array for a given window size"

"calcular a média variável de uma matriz para um determinado tamanho de janela" e, em seguida, usar a IA para sugerir um bloco de código que satisfaça esse prompt.[7] A OpenAI afirmou que o Codex pode concluir aproximadamente 37% das solicitações e tem como objetivo tornar a programação humana mais rápida, em vez de substituí-la. De acordo com o blog da OpenAI, o Codex se destaca mais no "mapeamento de problemas simples para códigos existentes", que eles descrevem como "provavelmente a parte menos divertida da programação".[8][9] Jeremy Howard, cofundador da Fast.ai, declarou que "o Codex é uma forma de escrever um código sem ter que escrever tanto código" e que "nem sempre está correto, mas está próximo o suficiente".[10] De acordo com um artigo escrito por pesquisadores da OpenAI, quando o Codex tentou cada teste por 100 vezes, ele gerou soluções funcionais para 70,2% das solicitações.[11] A OpenAI afirma que o Codex pode criar um código em mais de uma dúzia de linguagens de programação, incluindo Go, JavaScript, Perl, PHP, Ruby, Shell, Swift e TypeScript, embora seja mais eficaz em Python.[1] De acordo com a VentureBeat, as demonstrações apresentadas pela OpenAI mostraram recursos impressionantes de resolução de correferência. Os demonstradores foram capazes de criar um jogo de navegador em JavaScript e gerar gráficos de dados científicos usando matplotlib.[9] A OpenAI mostrou que o Codex pode interagir com serviços e aplicativos como Mailchimp, Microsoft Word, Spotify e Google Calendar.[9][12] A Microsoft está interessada em explorar os recursos do Codex.[12]

Problemas

editar

Demonstrativos da OpenAI mostraram falhas como a ineficiência de códigos e peculiaridades pontuais em algumas amostras de códigos.[9] Em uma entrevista com o The Verge, o diretor técnico da OpenAI, Greg Brockman, disse que "às vezes o Codex não sabe exatamente o que você está pedindo" e que isso pode exigir algumas tentativas e erros.[12] Os pesquisadores da OpenAI descobriram que o Codex tem dificuldades com solicitações de alto nível e de várias etapas, muitas vezes falhando ou produzindo um comportamento contra-intuitivo.[11] Além disso, eles apontaram vários problemas de segurança, como excesso de confiança por parte de programadores novatos, preconceitos com base nos dados de treinamento e impactos na segurança devido a códigos vulneráveis.[11] A VentureBeat afirmou que, como o Codex é formado por dados públicos, ele pode ser vulnerável a "envenenamento de dados" por meio de uploads intencionais de códigos maliciosos.[9] De acordo com um estudo realizado por pesquisadores da Universidade de Nova Iorque aproximadamente 40% do código gerado pelo GitHub Copilot (que usa o Codex) em cenários relevantes para CWEs de alto risco incluíam falhas ou outras passíveis falhas de projeto.[13]

Direitos autorais

editar

A Free Software Foundation expressou preocupação com o fato de que os trechos de código gerados pelo Copilot e pelo Codex poderiam violar os direitos autorais, em particular a condição da GPL que exige que os trabalhos secundários sejam licenciados sob termos semelhantes.[14] As questões levantadas incluem se o treinamento em arquivos públicos se enquadra no uso justo ou não, como os desenvolvedores poderiam descobrir códigos gerados com violações, se os modelos de aprendizado de máquina poderiam ser considerados código-fonte modificável ou uma compilação de dados do treinamento e se os próprios modelos de aprendizado de máquina poderiam ser protegidos por direitos autorais e por quem.[14][15] Um estudo interno do GitHub descobriu que aproximadamente 0,1% do código gerado continha cópias diretas dos dados de treinamento. Em um exemplo, o modelo gerou o código de dados de treinamento implementando o algoritmo da raiz quadrada inversa rápida, incluindo comentários e um aviso de direitos autorais incorreto.[7] Em resposta, a OpenAI declarou que "a incerteza jurídica sobre as implicações de direitos autorais do treinamento de sistemas de IA impõe custos substanciais aos desenvolvedores de IA e, portanto, deve ser resolvida com propriedade".[7] As questões de direitos autorais do Codex foram comparadas ao processo judicial Authors Guild, Inc. v. Google, Inc., no qual os juízes decidiram que o uso de trechos de texto de milhões de livros digitalizados pelo Google Livros constituía uso justo.[7][16]

Referências

editar
  1. a b c Zaremba, Wojciech (10 de agosto de 2021). «OpenAI Codex». OpenAI. Consultado em 3 de setembro de 2021 
  2. Kemper, Jonathan (22 de março de 2023). «OpenAI kills its Codex code model, recommends GPT3.5 instead». THE DECODER. Consultado em 29 de março de 2023 
  3. Logan Kilpatrick [@OfficialLoganK] (22 de março de 2023). «Hey Carolyn, we will continue to support Codex access via our Researcher Access Program. Sorry for any confusion and hopefully the research is going well!» (Tweet). Consultado em 8 de abril de 2023 – via Twitter 
  4. «Researcher Access Program application». openai.com. Consultado em 8 de abril de 2023 
  5. Wiggers, Kyle (8 de julho de 2021). «OpenAI warns AI behind GitHub's Copilot may be susceptible to bias». VentureBeat. Consultado em 3 de setembro de 2021 
  6. Alford, Anthony (31 de agosto de 2021). «OpenAI Announces 12 Billion Parameter Code-Generation AI Codex». InfoQ. Consultado em 3 de setembro de 2021 
  7. a b c d Anderson, Tim; Quach, Katyanna (6 de julho de 2021). «GitHub Copilot auto-coder snags emerge, from seemingly spilled secrets to bad code, but some love it». The Register. Consultado em 4 de setembro de 2021 
  8. Dorrier, Jason (15 de agosto de 2021). «OpenAI's Codex Translates Everyday Language Into Computer Code». SingularityHub. Consultado em 3 de setembro de 2021 
  9. a b c d e Dickson, Ben (16 de agosto de 2021). «What to expect from OpenAI's Codex API». VentureBeat. Consultado em 3 de setembro de 2021 
  10. Metz, Cade (9 de setembro de 2021). «A.I. Can Now Write Its Own Computer Code. That's Good News for Humans.». The New York Times. Consultado em 16 de setembro de 2021 
  11. a b c Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Pinto, Henrique Ponde de Oliveira; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas; Brockman, Greg; Ray, Alex (14 de julho de 2021). «Evaluating Large Language Models Trained on Code». arXiv:2107.03374  [cs] 
  12. a b c Vincent, James (10 de agosto de 2021). «OpenAI can translate English into code with its new machine learning software Codex». The Verge. Consultado em 3 de setembro de 2021 
  13. Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (16 de dezembro de 2021). «Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions». arXiv:2108.09293  [cs.CR] 
  14. a b Krill, Paul (2 de agosto de 2021). «GitHub Copilot is 'unacceptable and unjust,' says Free Software Foundation». InfoWorld. Consultado em 3 de setembro de 2021 
  15. Robertson, Donald (28 de julho de 2021). «FSF-funded call for white papers on philosophical and legal questions around Copilot: Submit before Monday, August 23, 2021». Free Software Foundation. Consultado em 4 de setembro de 2021 
  16. Barber, Gregory (12 de julho de 2021). «GitHub's Commercial AI Tool Was Built From Open Source Code». WIRED. Consultado em 4 de setembro de 2021