Corpus do Português
O Corpus do Português é um corpus linguístico de textos da língua portuguesa, compilado e mantido pelos pesquisadores Mark Davies (Universidade Brigham Young) e Michael J. Ferreira (Universidade de Georgetown), com suporte financeiro proveniente do U.S. National Endowment for the Humanities, além de suas respectivas instituições de ensino.
O corpus compreende 45 milhões de palavras, extraídas de quase 57.000 textos em português dos séculos XIII ao XX. A interface permite que se pesquise por palavras exatas ou frases, caracteres-curinga, lemas e trechos de frases. Pode-se também procurar por associações de palavras dentro de uma distância de até 10 palavras (por exemplo, todos os substantivos próximos a "cadeia", todos os adjetivos próximos a "mulher" etc.).
O corpus também permite que se compare a frequência e a distribuição de palavras, frases e construções gramaticais entre textos, de três formas diferentes:
- Por registro: comparações entre texto coloquial, ficcional, jornalístico e acadêmico
- Por dialeto: comparação entre o Português europeu e o brasileiro
- Por período histórico: comparação entre diferentes séculos (do século XIII ao XX).
Finalmente, pode-se também realizar pesquisas de natureza semântica no corpus.