GPT-3
Generative Pre-Training Transformer 3 (GPT-3) (Transformador generativo pré-treinado 3) é um modelo de linguagem autorregressivo que usa aprendizagem profunda para produzir texto semelhante ao humano. É o modelo de previsão de linguagem de terceira geração da série GPT-n (e o sucessor do GPT-2) criado pela OpenAI, um laboratório de pesquisa de inteligência artificial com sede em San Francisco. A versão completa do GPT-3 tem capacidade para 175 bilhões de parâmetros de aprendizado de máquina. Introduzida em maio de 2020 e estava em teste beta em julho de 2020,[1] essa versão é parte de uma tendência em sistemas de processamento de linguagem natural (PNL) de representações de linguagem pré-treinadas. Antes do lançamento do GPT-3, o maior modelo de linguagem era o Turing NLG da Microsoft, lançado em fevereiro de 2020, com capacidade para 17 bilhões de parâmetros – menos de um décimo do GPT-3.[2]
Desenvolvedor | OpenAI |
Lançamento | 11 de junho de 2020 (4 anos) |
Mercado-alvo | Inteligência Artificial |
Licença | Proprietária |
Estado do desenvolvimento | Beta |
Página oficial | openai |
Repositório | github |
A qualidade do texto gerado pelo GPT-3 é tão alta que é difícil distingui-lo daquele escrito por um humano, o que tem benefícios e riscos. Trinta e um pesquisadores e engenheiros da OpenAI apresentaram o artigo original em 28 de maio de 2020 apresentando o GPT-3. Em seu artigo, eles alertaram sobre os perigos potenciais da GPT-3 e pediram pesquisas para mitigar o risco. David Chalmers, um filósofo australiano, descreveu o GPT-3 como "um dos sistemas de IA mais interessantes e importantes já produzidos".[3]
A Microsoft anunciou em 22 de setembro de 2020 ter licenciado o uso "exclusivo" do GPT-3: ainda se pode usar a API pública para receber os resultados do modelo, mas apenas a empresa tem acesso ao código-fonte do GPT-3.[4]
Uma review de abril de 2022 no The New York Times descreveu as capacidades do GPT-3 como sendo capaz de escrever prosa original com fluência equivalente à de um humano.[5]
Treinamento
editarConjunto de Dados | Quantidade
(Tokens) |
Proporção Total |
---|---|---|
Common Crawl | 410 bilhões | 60% |
WebText2 | 19 bilhões | 22% |
Livros1 | 12 bilhões | 8% |
Livros2 | 55 bilhões | 8% |
Wikipédia | 3 bilhões | 3% |
GPT-3.5
editarEm 15 de março de 2022, a OpenAI disponibilizou novas versões do GPT-3 e Codex em sua API sob os nomes "text-davinci-003" e "code-davinci-002".[7] Esses modelos foram descritos como mais capazes do que as versões anteriores.[8] Em 30 de novembro de 2022, a OpenAI começou a se referir a esses modelos como pertencentes à série "GPT-3.5",[9] e lançou o ChatGPT, a qual foi realizado o Fine Tuning a partir de um modelo da série GPT-3.5.[10]
As melhorias do modelo GPT 3.5 na compreensão linguística e na análise de contexto melhoraram significativamente a qualidade do conteúdo gerado, tornando-o uma ferramenta valiosa para uma ampla variedade de aplicações. No entanto, apesar desses avanços, foram desenvolvidas várias ferramentas de detecção de IA[11] que podem discernir se o conteúdo é escrito por um IA ou por um humano. Esses detectores exploram sutis padrões no uso da linguagem, na estrutura das frases e em nuances estilísticas que os modelos de IA, incluindo o GPT-3.5, tendem a exibir. Essa capacidade de detecção ressalta a importância da transparência no uso de IA, garantindo a discernibilidade entre o conteúdo gerado por humanos e o conteúdo gerado por IA.
Contexto
editarDe acordo com a revista The Economist, algoritmos aprimorados, computadores poderosos e um aumento nos dados digitalizados impulsionaram uma revolução no aprendizado de máquina, com novas técnicas na década de 2010 que resultaram em "melhorias rápidas nas tarefas", incluindo a manipulação da linguagem.[12] Os modelos de software são treinados para aprender usando milhares ou milhões de exemplos em uma "estrutura ... vagamente baseada na arquitetura neural do cérebro".[12] Uma arquitetura usada no processamento de linguagem natural (PNL) é uma rede neural baseada em um modelo de aprendizado profundo, apresentado pela primeira vez em 2017 - o Transformer. Os modelos GPT-n são baseados nessa arquitetura de rede neural de aprendizado profundo. baseada em Transformer. Existem vários sistemas de PNL capazes de processar, minerar, organizar, conectar, contrastar, compreender e gerar respostas para perguntas.[13]
Em 11 de junho de 2018, pesquisadores e engenheiros da OpenAI publicaram seu artigo original sobre modelos generativos, modelos de linguagem e sistemas de inteligência artificial que poderiam ser pré-treinados com um enorme e diversificado corpus de texto por meio de conjunto de dados, em um processo que eles chamaram de pré-treinamento generativo (GP).[14] Os autores descreveram como os desempenhos de compreensão da linguagem no processamento de linguagem natural (PLN) foram melhorados no GPT-n através de um processo de "pré-treinamento generativo de um modelo de linguagem em um corpus diversificado de texto não rotulado, seguido de ajuste discriminativo em cada tarefa." Isso eliminou a necessidade de supervisão humana e de rotulagem manual demorada.[14]
Em fevereiro de 2020, a Microsoft apresentou o Turing Natural Language Generation (T-NLG), que foi considerada o "maior modelo de linguagem já publicado em 17 bilhões de parâmetros".[15] Ele teve um desempenho melhor do que qualquer outro modelo de linguagem em uma variedade de tarefas que incluíam resumir textos e responder a perguntas.
Aplicação
editar- O GPT-3, especificamente o modelo Codex, é a base do GitHub Copilot, um software de geração e conclusão de código que pode ser usado em vários editores de código e IDEs.
- O GPT-3 é usado em certos produtos da Microsoft para traduzir linguagem convencional em código formal de computador.[16]
- O GPT-3 foi usado por Andrew Mayne para o AI Writer,[17] que permite que as pessoas se correspondam como figuras históricas por e-mail.
- O GPT-3 foi usado por Jason Rohrer em um projeto de chatbot com tema retrô chamado "Project December", que é acessível online e permite que os usuários conversem com vários IAs usando a tecnologia GPT-3.[18]
- O GPT-3 foi usado pelo The Guardian para escrever um artigo sobre a IA ser inofensiva para os seres humanos. Ele foi alimentado com algumas ideias e produziu oito redações diferentes, que acabaram sendo fundidos em um artigo.[19]
- O GPT-3 foi usado no AI Dungeon, que gera jogos de aventura baseados em texto. Mais tarde, foi substituído por um modelo concorrente depois que a OpenAI mudou sua política em relação ao conteúdo gerado.[20]
- Um estudo de 2022 da Drexel University sugeriu que sistemas baseados em GPT-3 poderiam ser usados para rastrear sinais precoces da doença de Alzheimer.[21][22]
- Um estudo de 2023 da Universidade de Coimbra permitiu decifrar as capacidades do GPT-3 em gerar SPARQL queries para responder a perguntas através do conceito de Linked Data.[23]
Controvérsia
editarA criadora do GPT-3, OpenAI, foi inicialmente fundada como uma organização sem fins lucrativos, em 2015.[24] Em 2019, a OpenAI não lançou publicamente o modelo precursor da GPT-3, rompendo com as suas práticas anteriores de código aberto, se dizendo preocupada de que o modelo poderia gerar notícias falsas. A OpenAI chegou a lançar uma versão do GPT-2 que tinha 8% do tamanho do modelo original. No mesmo ano, a OpenAI se reestruturou para ser uma empresa com fins lucrativos. Em 2020, a Microsoft anunciou que a empresa tinha licenciamento exclusivo do GPT-3 para seus produtos e serviços após um investimento de bilhões de dólares na OpenAI. O acordo permite que a OpenAI ofereça uma API voltada ao público de forma que os usuários possam enviar texto ao GPT-3 para receber os resultados do uso do modelo, mas apenas a Microsoft terá acesso ao código-fonte do GPT-3.[25]
Referências
- ↑ Bussler, Frederik (21 de julho de 2020). «Will GPT-3 Kill Coding?». Towards Data Science. Consultado em 1 de agosto de 2020
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julho de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs.CL]
- ↑ Chalmers, David (30 de julho de 2020). Weinberg, Justin, ed. «GPT-3 and General Intelligence». Daily Nous. Philosophers On GPT-3 (updated with replies by GPT-3). Consultado em 4 de agosto de 2020
- ↑ Hao, Karen (23 de setembro de 2020). «OpenAI is giving Microsoft exclusive access to its GPT-3 language model». MIT Technology Review (em inglês). Consultado em 25 de setembro de 2020.
The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI's other models and receive its output. Only Microsoft, however, will have access to GPT-3's underlying code, allowing it to embed, repurpose, and modify the model as it pleases.
- ↑ Johnson, Steven; Iziev, Nikita (15 de abril de 2022). «A.I. Is Mastering Language. Should We Trust What It Says?». The New York Times
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (22 de julho de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs]. doi:10.48550/arxiv.2005.14165. Consultado em 7 de fevereiro de 2023
- ↑ «New GPT-3 Capabilities: Edit & Insert». OpenAI (em inglês). 15 de março de 2022. Consultado em 13 de janeiro de 2023
- ↑ «Models»
- ↑ «Model index for researchers»
- ↑ «ChatGPT: Optimizing Language Models for Dialogue». OpenAI (em inglês). 30 de novembro de 2022. Consultado em 13 de janeiro de 2023
- ↑ «Discover AI Tools - Virtual Zone». vz.fyi. Consultado em 3 de dezembro de 2023
- ↑ a b «An understanding of AI's limitations is starting to sink in». The Economist. 11 de junho de 2020. ISSN 0013-0613. Consultado em 31 de julho de 2020
- ↑ «Natural Language Processing». Consultado em 31 de julho de 2020
- ↑ a b Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junho de 2018). «Improving Language Understanding by Generative Pre-Training» (PDF). 12 páginas. Consultado em 31 de julho de 2020
- ↑ Sterling, Bruce. «Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG)». Wired. ISSN 1059-1028
- ↑ «Microsoft announced its first customer product features powered by GPT-3 and @Azure.». The AI Blog. 25 de maio de 2021
- ↑ «AI|Writer». www.aiwriter.app
- ↑ Fagone, Jason (23 de julho de 2021). «The Jessica Simulation: Love and loss in the age of A.I.». San Francisco Chronicle. Consultado em 29 de julho de 2021
- ↑ GPT-3 (8 de setembro de 2020). «A robot wrote this entire article. Are you scared yet, human? | GPT-3». The Guardian. ISSN 0261-3077. Consultado em 15 de setembro de 2020
- ↑ «Update: Language Models and Dragon». Latitude blog. 8 de dezembro de 2021
- ↑ «Can ChatGPT AI chatbot spot early stages of Alzheimer's? - study». The Jerusalem Post. 2022. Consultado em 30 de dezembro de 2022
- ↑ Agbavor, Felix; Liang, Hualou (22 de dezembro de 2022). «Predicting dementia from spontaneous speech using large language models». PLOS Digital Health. 1 (12): e0000168. doi:10.1371/journal.pdig.0000168
- ↑ Faria, Bruno; Perdigão, Dylan; Gonçalo Oliveira, Hugo (2023). Simões, Alberto; Berón, Mario Marcelo; Portela, Filipe, eds. «Question Answering over Linked Data with GPT-3». Dagstuhl, Germany: Schloss Dagstuhl – Leibniz-Zentrum für Informatik. Open Access Series in Informatics (OASIcs): 1:1–1:15. ISBN 978-3-95977-291-4. doi:10.4230/OASIcs.SLATE.2023.1. Consultado em 28 de outubro de 2023
- ↑ Olanoff, Drew (11 de dezembro de 2015). «Artificial Intelligence Nonprofit OpenAI Launches With Backing From Elon Musk And Sam Altman». Tech Crunch. Consultado em 31 de maio de 2021
- ↑ Hao, Karen (23 de setembro de 2020). «OpenAI is giving Microsoft exclusive access to its GPT-3 language model». MIT Technology Review. Consultado em 31 de maio de 2021