Formato de arquivo químico

(Redirecionado de Número MDL)

Este artigo discute alguns formatos de arquivo químicos ou moleculares comuns, incluindo o uso e conversão entre eles.

Distinguindo formatos

editar

Informação química é normalmente fornecida como arquivos ou stream e muitos formatos tem sido criados, com variáveis graus de documentação. O formato pode ser encontrado por três meios (ver seção MIME química)

  • extensão do arquivo (usualmente 3 letras). Este é largamente usado, mas pouco capaz em sufixos comuns dado que ".mol" e ".dat" são usados por muitos sistemas, incluindo aqueles não relacionados à química.
  • arquivos auto-descritivos onde o formato da informação é incluído no arquivo. Exemplos são os formatos CIF e CML.
  • tipo químico/MIME adicionado por um servidor dedicado à química.

Chemical Markup Language

editar

Aproximadamente "Linguagem de Marcação Química" ou "Codificação Química".

Chemical Markup Language (CML) é um padrão aberto para a representação de dados químicos moleculares e outros. O projeto de código aberto inclui XML Schema, o código fonte para análise e trabalho com dados CML, e uma comunidade ativa. Os artigos Tools for Working (ferramentas para trabalho) com Chemical Markup Language e XML for Chemistry and Biosciences (para química e biociências) discute CML em mais detalhes. Arquivos de dados CML são aceitos por muitas ferramentas, incluindo JChemPaint, Jmol, XDrawChem and MarvinView.

Formato Protein Data Bank

editar

"Banco de dados de proteínas".

O formato Protein Data Bank é normalmente utilizado para proteínas, mas pode ser utilizado também para outros tipos de moléculas. Ele foi originalmente projetado como, e continua a ser, um formato de largura fixa de coluna e, assim, oficialmente tem um número de átomos, de resíduos e de cadeias máximos embutido; isso atualmente resulta em divisão muito grandes das estruturas como os ribossomos em múltiplos arquivos (e.g., 3I1M, 3I1N, 3I1O, 3I1P). No entanto, muitas ferramentas podem ler arquivos que excedem esses limites. Alguns arquivos PDB contém uma seção opcional descrevendo a conectividade de átomos assim como posição. Como esses arquivos são por vezes usados para descrever conjuntos macromoleculares ou moléculas representadas em solvente explícito, eles podem crescer demasiadamente e muitas vezes são compactados. Algumas ferramentas, tais como Jmol e KiNG,[1] podem ler arquivos PDB em formatos compactados. O wwPDB mantém as especificações do formato de arquivo PDB e seu alternatimo XML, PDBML. Houve uma mudança bastante grande na especificação do formato PDB (na versão 3.0) em agosto de 2007, e uma remediação de muitos problemas de arquivo no banco de dados existente.[2] A típica extensão de arquivo para um arquivo PDB é .pdb, embora alguns arquivos mais antigos usem .ent or .brk. Algumas ferramentas de modelagem molecular escritas fora do padrão do estilo de arquivos PDB adaptam o formato básico para suas próprias necessidades.

Formato GROMACS

editar

A família de formato de arquivo GROMACS foi criada para uso com o pacote de software de simulação molecular GROMACS. Ele se assemelha ao formato APO, mas foi projetado para armazenar a saída de simulações de dinâmica molecular, por isso permite a precisão numérica adicional e opcionalmente mantém as informações sobre velocidade de partícula bem como a posição em um determinado ponto na simulação de trajetória. Ele não permite o armazenamento de informações de conectividade, o que em GROMACS é obtido a partir da molécula e arquivos de topologia de rede separados. A extensão de arquivo típico de um arquivo GROMACS é .gro.

Referências

  1. Chen, V.B.,; et al. (2009). «KING (Kinemage, Next Generation): A versatile interactive molecular and scientific visualization program». Protein Science. 18 (11): 2403–2409. PMC 2788294 . PMID 19768809. doi:10.1002/pro.250 
  2. Henrick, K.,; et al. (2008). «Remediation of the protein data bank archive». Nucleic Acids Research. 36 (Database issue): D426–D433. PMC 2238854 . PMID 18073189. doi:10.1093/nar/gkm937