Long short-term memory

arquitetura de rede neural recorrente artificial usada em aprendizado profundo

A long short-term memory (LSTM), em português: memória de curto longo prazo,[1] é uma rede neural recorrente (RNN), projetada para lidar com o problema do gradiente desvanecente[2] presente em RNNs tradicionais. Sua relativa insensibilidade ao comprimento do intervalo é sua vantagem sobre outras RNNs, modelos ocultos de Markov e outros métodos de aprendizado de sequências. Ela visa fornecer uma memória de curto prazo para RNN que pode durar milhares de passos, daí "curto longo prazo".[1] É aplicável à classificação, processamento e previsão de dados com base em séries temporais, como em caligrafia,[3] reconhecimento de fala,[4][5] tradução automática,[6][7] detecção de atividade de fala,[8] controle de robôs,[9][10] vídeo games,[11][12] e cuidados de saúde.[13]

A célula de long short-term memory (LSTM) pode processar dados sequencialmente e manter seu estado oculto ao longo do tempo.

Uma unidade LSTM comum é composta por uma célula, uma porta de entrada, uma porta de saída[14] e uma porta de esquecimento.[15] A célula lembra valores ao longo de intervalos de tempo arbitrários, e as três portas regulam o fluxo de informações para dentro e para fora da célula. As portas de esquecimento decidem quais informações descartar do estado anterior, atribuindo ao estado anterior, em comparação com uma entrada atual, um valor entre 0 e 1. Um valor (arredondado) de 1 significa manter a informação, e um valor de 0 significa descartá-la. As portas de entrada decidem quais partes de novas informações armazenar no estado atual, usando o mesmo sistema das portas de esquecimento. As portas de saída controlam quais partes de informações no estado atual produzir, atribuindo um valor de 0 a 1 às informações, considerando os estados anterior e atual. Produzir seletivamente informações relevantes do estado atual permite que a rede LSTM mantenha dependências úteis de longo prazo para fazer previsões, tanto nos passos temporais atuais quanto futuros.

Motivação

editar

Em teoria, redes neurais recorrentes (também chamadas “vanilla”) RNNs podem acompanhar dependências de longo prazo arbitrariamente nas sequências de entrada. O problema com as RNNs "vanilla" é de natureza computacional (ou prática): ao treinar uma RNN "vanilla" usando retropropagação, os gradientes de longo prazo que são retropropagados podem "desaparecer" (ou seja, podem tender a zero) ou "explodir" (ou seja, podem tender ao infinito),[2] devido aos cálculos envolvidos no processo, que utilizam números de precisão finita. RNNs usando unidades LSTM resolvem parcialmente o Vanishing Gradient Problem, também conhecido como Problema do Gradiente Desvanecente, pois as unidades LSTM permitem que os gradientes também fluam inalterados. No entanto, redes LSTM ainda podem sofrer do problema do gradiente explosivo.[16]

O intuito por trás da arquitetura LSTM é criar um módulo adicional em uma rede neural que aprende quando lembrar e quando esquecer informações pertinentes.[15] Em outras palavras, a rede aprende efetivamente quais informações podem ser necessárias mais tarde em uma sequência e quando essas informações não são mais necessárias. Por exemplo, no contexto de processamento de linguagem natural, a rede pode aprender dependências gramaticais.[17] Uma LSTM pode processar a frase "Dave, como resultado das alegações controversas dele, é agora uma pária" ao lembrar o gênero e número gramatical (estatisticamente prováveis) do sujeito Dave, observar que essas informações são pertinentes para o pronome dele e perceber que essas informações não são mais importantes após o verbo ser.

Variantes

editar

Nas equações abaixo, as variáveis em minúsculas representam vetores. As matrizes   e   contêm, respectivamente, os pesos das conexões de entrada e recorrentes, onde o subscrito   pode ser a porta de entrada  , a porta de saída  , a porta de esquecimento   ou a célula de memória  , dependendo da ativação que está sendo calculada. Nesta seção, estamos usando uma "notação vetorial". Assim, por exemplo,   não representa apenas uma unidade de uma célula LSTM, mas apresenta as unidades de   de células LSTM.

Porta de esquecimento com LSTM

editar

As formas compactas das equações para a passagem direta de uma célula LSTM com uma porta de esquecimento são:[1][15]

 

onde os valores iniciais são   e   e o operador   denota o produto de Hadamard (produto elemento a elemento). O subscrito   indexa o passo do tempo.

Variáveis

editar
  •  : vetor de entrada para a unidade LSTM
  •  : vetor de ativação da porta de esquecimento
  •  : vetor de ativação da porta de entrada/atualização
  •  : vetor de ativação da porta de saída
  •  : vetor de estado oculto, também conhecido como vetor de saída da unidade LSTM
  •  : vetor de ativação da entrada da célula
  •  : vetor de estado da célula
  •  ,   e  : matrizes de pesos e vetor de viés que precisam ser aprendidos durante o treinamento

onde os expoentes   e   referem-se ao número de características de entrada e ao número de unidades ocultas, respectivamente.

Funções de Ativação

editar
  •  : função sigmoide.
  •  : função tangente hiperbólica.
  •  : função tangente hiperbólica ou, como sugere o artigo da LSTM de orifício de espiada[18][19],  .

LSTM de olho mágico (peepholes)

editar
 
Uma unidade LSTM de olho mágico com portões de entrada (ou seja,  ), saída (ou seja,  ) e esquecimento (ou seja,  )

A figura à direita é uma representação gráfica de uma unidade LSTM com conexões de olho mágico (ou seja, uma LSTM de olho mágico).[18][19] Conexões de LSTM de olho mágico permitem que os portões acessem o carrossel de erro constante (CEC), cuja ativação é o estado da célula.[18]   não é usado, sendo   usado em seu lugar em sua maior parte.

 

Cada um dos portões pode ser considerado como um neurônio "padrão" em uma rede neural feedforward (ou multi-camadas): ou seja, eles calculam uma ativação (usando uma função de ativação) de uma soma ponderada.   e   representam as ativações, respectivamente, dos portões de entrada, saída e esquecimento, no marco de tempo  .

As 3 setas de saída da célula de memória   para os 3 portões   e   representam as conexões de olho mágico. Essas conexões de olho mágico denotam as contribuições da ativação da célula de memória   no marco de tempo  , ou seja, a contribuição de   (e não de   , como a imagem pode sugerir). Em outras palavras, os portões   e   calculam suas ativações no passo de tempo   (ou seja,   and  ) também considerando a ativação da célula de memória   no passo de tempo  , ou seja,  .A única seta da esquerda para a direita que sai da célula de memória não é uma conexão de olho mágico e denota .

Os pequenos círculos contendo um símbolo de   representam uma multiplicação elemento a elemento entre suas entradas. Os grandes círculos contendo uma curva em forma de S representam a aplicação de uma função diferenciável (como a função sigmoide) a uma soma ponderada.

LSTM de olho mágico convolutional

editar

LSTM de olho mágico convolucional.[20] O símbolo   denota o operador de convolução.

 

Treinamento

editar

Uma RNN usando unidades LSTM pode ser treinada de forma supervisionada em um conjunto de sequências de treinamento, usando um algoritmo de otimização como descida do gradiente combinado com retropropagação através do tempo para calcular os gradientes necessários durante o processo de otimização, a fim de alterar cada peso da rede LSTM proporcionalmente à derivada do erro (na camada de saída da rede LSTM) em relação ao peso correspondente.

Um problema ao usar descida do gradiente para RNNs padrão é que os gradientes de erro desaparecem exponencialmente rápido com o tamanho do atraso entre eventos importantes. Isso ocorre porque   se o raio espectral de   for menor que 1.[2][21]

No entanto, com unidades LSTM, quando os valores de erro são retropropagados da camada de saída, o erro permanece na célula da unidade LSTM. Este "carrossel de erro" alimenta continuamente o erro de volta para cada um dos portões da unidade LSTM, até que aprendam a cortar o valor.

Função de pontuação CTC

editar

Muitas aplicações usam pilhas RNNs LSTM[22] e as treinam com classificação temporal conexa (CTC)[23] para encontrar uma matriz de peso RNN que maximize a probabilidade das sequências de rótulos em um conjunto de treinamento, dadas as sequências de entrada correspondentes. CTC alcança tanto o alinhamento quanto o reconhecimento.

Alternativas

editar

Às vezes, pode ser vantajoso treinar (partes de) uma LSTM por neuroevolução[24] ou por métodos de gradiente de política, especialmente quando não há um "professor" (ou seja, rótulos de treinamento).

Casos de sucesso

editar

Houve várias histórias de sucesso no treinamento, de maneira não supervisionada, de RNNs com unidades LSTM.

Em 2018, Bill Gates chamou isso de "um grande marco no avanço da inteligência artificial" quando bots desenvolvidos pela OpenAI foram capazes de vencer humanos no jogo Dota 2.[11] O OpenAI Five consiste em cinco redes neurais independentes, porém coordenadas. Cada rede é treinada por um método de gradiente de política sem um professor supervisor e contém uma LSTM de uma camada com 1024 unidades que observa o estado atual do jogo e emite ações por meio de várias possíveis cabeças de ação.[11]

Em 2018, a OpenAI também treinou uma LSTM semelhante por gradientes de política para controlar uma mão robótica semelhante à humana que manipula objetos físicos com destreza sem precedentes.[10]

Em 2019, o programa AlphaStar da DeepMind usou um núcleo profundo LSTM para se destacar no complexo jogo de vídeo Starcraft II.[12] Isso foi visto como um progresso significativo em direção à Inteligência Artificial Geral.[12]

Aplicações

editar

As aplicações da LSTM incluem:


Linha do tempo do desenvolvimento

editar

1991: Sepp Hochreiter analisou o problema da dissipação do gradiente e desenvolveu os princípios do método em sua tese de diploma alemã.[2]

1995: "Long Short-Term Memory (LSTM)" é publicado em um relatório técnico por Sepp Hochreiter e Jürgen Schmidhuber.[47]

1996: LSTM é publicado na conferência NIPS'1996, uma conferência revisada por pares.[14]

1997: O principal artigo do LSTM é publicado no jornal Neural Computation.[1] Ao introduzir unidades de "Constant Error Carousel" (CEC), o LSTM lida com o problema da dissipação do gradiente. A versão inicial do bloco LSTM incluía células, portas de entrada e saída.[48]

1999: Felix Gers, Jürgen Schmidhuber e Fred Cummins introduziram a porta de esquecimento (também chamada de "porta de prosseguir") na arquitetura do LSTM,[49]permitindo que o LSTM redefina seu próprio estado.[48]

2000: Gers, Schmidhuber e Cummins adicionaram conexões de "peephole" (conexões da célula para as portas) à arquitetura.[18][19] Além disso, a função de ativação de saída foi omitida.[48]

2001: Gers e Schmidhuber treinaram o LSTM para aprender idiomas que não podiam ser aprendidos por modelos tradicionais como os Modelos de Markov Ocultos.[18][50]

Hochreiter et al. usaram o LSTM para meta-aprendizado (ou seja, aprender um algoritmo de aprendizado).[51]

2004: Primeira aplicação bem-sucedida do LSTM para a fala Alex Graves et al.[52][50]

2005: Primeira publicação (Graves e Schmidhuber) do LSTM com retropropagação ao longo do tempo completa e LSTM bidirecional.[25][50]

2005: Daan Wierstra, Faustino Gomez e Schmidhuber treinaram o LSTM por neuroevolução sem um professor.[24]

2006: Graves, Fernandez, Gomez e Schmidhuber introduzem uma nova função de erro para o LSTM: Connectionist Temporal Classification (CTC) para alinhamento e reconhecimento simultâneos de sequências.[23] O LSTM treinado por CTC levou a avanços no reconhecimento de fala.[26][53][54][55]

Mayer et al. treinaram LSTM para controlar robôs.[9]

2007: Wierstra, Foerster, Peters e Schmidhuber treinaram LSTM por meio de gradientes de política para aprendizado por reforço sem um professor.[56]

Hochreiter, Heuesel e Obermayr aplicaram LSTM à detecção de homologia de proteínas no campo da biologia.[35]

2009: Um LSTM treinado por CTC venceu a competição de reconhecimento de escrita à mão conectada do ICDAR (Conferência Internacional sobre Análise e Reconhecimento de Documentos). Três modelos desse tipo foram submetidos por uma equipe liderada por Alex Graves.[3] Um deles foi o modelo mais preciso na competição e outro foi o mais rápido.[57] Foi a primeira vez que uma RNN venceu competições internacionais.[50]

2009: Justin Bayer et al. introduziram a busca de arquitetura neural para LSTM.[58][50]

2013: Alex Graves, Abdel-rahman Mohamed e Geoffrey Hinton usaram redes LSTM como componente principal de uma rede que alcançou uma taxa recorde de erro de fonema de 17,7% no conjunto de dados de fala natural clássico TIMIT (corpus de fala transcrita fonêmica e lexicalmente de falantes do inglês americano).[27]

2014: Kyunghyun Cho et al. apresentaram uma variante simplificada da LSTM da porta de esquecimento[49] chamada unidade recorrente fechada (GRU).[59]

2015: O Google começou a usar um LSTM treinado por CTC para reconhecimento de fala no Google Voice.[53][54] De acordo com a postagem oficial no blog, o novo modelo reduziu os erros de transcrição em 49%.[60]

2015: Rupesh Kumar Srivastava, Klaus Greff e Schmidhuber utilizaram princípios de LSTM[49] para criar a rede Highway, uma rede neural feedforward com centenas de camadas, muito mais profunda do que redes anteriores.[61][62][63] Sete meses depois, Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun venceram a competição ImageNet 2015 com uma variante da rede Highway chamada rede neural residual, com portões abertos ou sem portões. [64] Esta se tornou a rede neural mais citada do século XXI.[63]

2016: O Google começou a utilizar uma LSTM para sugerir mensagens no aplicativo de conversa Allo.[65] No mesmo ano, o Google lançou o sistema Google Neural Machine Translation para o Google Translate, que utilizava LSTMs para reduzir erros de tradução em 60%.[6][66][67]

A Apple anunciou em sua Worldwide Developers Conference que começaria a usar a LSTM para o QuickType[68][69][70] no iPhone e para a Siri.[71][72]

A Amazon lançou o Polly, que gera as vozes por trás da Alexa, utilizando uma LSTM bidirecional para a tecnologia de texto para fala.[73]

2017: O Facebook realizava cerca de 4,5 bilhões de traduções automáticas diariamente utilizando redes neurais de LSTM.[7]

Pesquisadores da Michigan State University, IBM Research e Cornell University publicaram um estudo na conferência Knowledge Discovery and Data Mining (KDD).[74][75][76] O Time-Aware LSTM (T-LSTM) deles tem um desempenho melhor em determinados conjuntos de dados do que o LSTM padrão.

A Microsoft relatou alcançar uma precisão de reconhecimento de 94,9% no corpus Switchboard, incorporando um vocabulário de 165.000 palavras. A abordagem utilizada foi "long short-term memory baseada em sessão de diálogo".[55]

2018: A OpenAI utilizou LSTM treinado por gradientes de política para vencer humanos no complexo jogo de vídeo Dota 2,[11] e para controlar uma mão de robô semelhante à humana que manipula objetos físicos com destreza sem precedentes.[10][50]

2019: A DeepMind utilizou LSTM treinado por gradientes de política para se destacar no complexo jogo de vídeo Starcraft II.[12][50]

2021: De acordo com o Google Scholar, em 2021, LSTM foi citado mais de 16.000 vezes em um único ano. Isso reflete aplicações de LSTM em muitos campos diferentes, incluindo saúde.[13]

Ver também

editar

Referências

editar
  1. a b c d Sepp Hochreiter; Jürgen Schmidhuber (1997). «Long short-term memory». Neural Computation. 9 (8): 1735–1780. PMID 9377276. doi:10.1162/neco.1997.9.8.1735 
  2. a b c d Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (Tese de diploma). Technical University Munich, Institute of Computer Science 
  3. a b Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (maio de 2009). «Um Novo Sistema Conexista para Reconhecimento de Escrita à Mão Sem Restrições». IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . ISSN 0162-8828. PMID 19299860. doi:10.1109/tpami.2008.137 
  4. Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). «Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling» (PDF). Cópia arquivada (PDF) em 24 de abril de 2018 
  5. Li, Xiangang; Wu, Xihong (15 de outubro de 2014). «Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition». arXiv:1410.4281  [cs.CL] 
  6. a b Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (26 de setembro de 2016). «Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation». arXiv:1609.08144  [cs.CL] 
  7. a b Ong, Thuy (4 de agosto de 2017). «Facebook's translations are now powered completely by AI». www.allthingsdistributed.com. Consultado em 15 de fevereiro de 2019 
  8. Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (6 de novembro de 2019). «The Speed Submission to DIHARD II: Contributions & Lessons Learned». arXiv:1911.02388  [eess.AS] 
  9. a b c Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (Outubro de 2006). «A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks». 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. [S.l.: s.n.] pp. 543–548. CiteSeerX 10.1.1.218.3399 . ISBN 978-1-4244-0258-8. doi:10.1109/IROS.2006.282190 
  10. a b c «Aprendizado de Destreza». OpenAI. 30 de julho de 2018. Consultado em 28 de junho de 2023 
  11. a b c d Rodriguez, Jesus (2 de julho de 2018). «A Ciência por Trás do OpenAI Five que Acaba de Produzir um dos Maiores Avanços na História da IA». Towards Data Science. Consultado em 15 de janeiro de 2019. Cópia arquivada em 26 de dezembro de 2019 
  12. a b c d Stanford, Stacy (25 de janeiro de 2019). «IA da DeepMind, AlphaStar, Mostra Progresso Significativo em Direção à Inteligência Artificial Geral». Medium ML Memoirs. Consultado em 15 de janeiro de 2019 
  13. a b Schmidhuber, Jürgen (2021). «A década de 2010: Nossa Década de Aprendizado Profundo / Perspectivas para a década de 2020». AI Blog. IDSIA, Suíça. Consultado em 30 de abril de 2022 
  14. a b Hochreiter, Sepp; Schmidhuber, Juergen (1996). LSTM can solve hard long time lag problems. Advances in Neural Information Processing Systems 
  15. a b c Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). «Learning to Forget: Continual Prediction with LSTM». Neural Computation. 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . PMID 11032042. doi:10.1162/089976600300015015 
  16. Calin, Ovidiu (14 de fevereiro de 2020). Deep Learning Architectures. Cham, Suíça: Springer Nature. p. 555. ISBN 978-3-030-36720-6 
  17. Lakretz, Yair; Kruszewski, German; Desbordes, Theo; Hupkes, Dieuwke; Dehaene, Stanislas; Baroni, Marco (2019), «The emergence of number and syntax units in», The emergence of number and syntax units (PDF), Association for Computational Linguistics, pp. 11–20, doi:10.18653/v1/N19-1002, hdl:11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4 
  18. a b c d e f Gers, F. A.; Schmidhuber, J. (2001). «LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages» (PDF). IEEE Transactions on Neural Networks. 12 (6): 1333–1340. PMID 18249962. doi:10.1109/72.963769 
  19. a b c d Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). «Learning precise timing with LSTM recurrent networks» (PDF). Journal of Machine Learning Research. 3: 115–143 
  20. Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). «Rede LSTM Convolucional: Uma Abordagem de Aprendizado de Máquina para Previsão Imediata de Precipitação». Atas da 28ª Conferência Internacional sobre Sistemas de Informação Neural: 802–810. Bibcode:2015arXiv150604214S. arXiv:1506.04214  
  21. Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). «Gradient Flow in Recurrent Nets: the Difficulty of Learning Long-Term Dependencies (PDF Download Available)». In: Kremer and, S. C.; Kolen, J. F. A Field Guide to Dynamical Recurrent Neural Networks. [S.l.]: IEEE Press 
  22. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). «Rotulagem de sequências em domínios estruturados com redes neurais recorrentes hierárquicas». Proc. 20th Int. Joint Conf. On Artificial Intelligence, Ijcai 2007: 774–779. CiteSeerX 10.1.1.79.1887  
  23. a b Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). «Classificação temporal conexa: Rotulagem de dados de sequência não segmentada com redes neurais recorrentes». Em Atas da Conferência Internacional sobre Aprendizado de Máquina, ICML 2006: 369–376. CiteSeerX 10.1.1.75.6306  
  24. a b c Wierstra, Daan; Schmidhuber, J.; Gomez, F. J. (2005). «Evolino: Hybrid Neuroevolution/Optimal Linear Search for Sequence Learning». Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh: 853–858 
  25. a b Graves, A.; Schmidhuber, J. (2005). «Framewise phoneme classification with bidirectional LSTM and other neural network architectures». Neural Networks. 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . PMID 16112549. doi:10.1016/j.neunet.2005.06.042 
  26. a b Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). An Application of Recurrent Neural Networks to Discriminative Keyword Spotting. Proceedings of the 17th International Conference on Artificial Neural Networks. Col: ICANN'07. Berlin, Heidelberg: Springer-Verlag. pp. 220–229. ISBN 978-3540746935 
  27. a b Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). «Speech recognition with deep recurrent neural networks». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 6645–6649. ISBN 978-1-4799-0356-6. arXiv:1303.5778 . doi:10.1109/ICASSP.2013.6638947 
  28. Eck, Douglas; Schmidhuber, Jürgen (28 de agosto de 2002). «Learning the Long-Term Structure of the Blues». Artificial Neural Networks — ICANN 2002. Col: Lecture Notes in Computer Science. 2415. [S.l.]: Springer, Berlin, Heidelberg. pp. 284–289. CiteSeerX 10.1.1.116.3620 . ISBN 978-3540460848. doi:10.1007/3-540-46084-5_47 
  29. Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). «Learning nonregular languages: A comparison of simple recurrent networks and LSTM». Neural Computation. 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . PMID 12184841. doi:10.1162/089976602320263980 
  30. Perez-Ortiz, J. A.; Gers, F. A.; Eck, D.; Schmidhuber, J. (2003). «Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets». Neural Networks. 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . PMID 12628609. doi:10.1016/s0893-6080(02)00219-8 
  31. A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing Systems 22, NIPS'22, pp 545–552, Vancouver, MIT Press, 2009.
  32. Graves, Alex; Fernández, Santiago; Liwicki, Marcus; Bunke, Horst; Schmidhuber, Jürgen (2007). Unconstrained Online Handwriting Recognition with Recurrent Neural Networks. Proceedings of the 20th International Conference on Neural Information Processing Systems. Col: NIPS'07. USA: Curran Associates Inc. pp. 577–584. ISBN 9781605603520 
  33. Baccouche, M.; Mamalet, F.; Wolf, C.; Garcia, C.; Baskurt, A. (2011). «Sequential Deep Learning for Human Action Recognition». In: Salah, A. A.; Lepri, B. 2nd International Workshop on Human Behavior Understanding (HBU). Col: Lecture Notes in Computer Science. 7065. Amsterdam, Netherlands: Springer. pp. 29–39. ISBN 978-3-642-25445-1. doi:10.1007/978-3-642-25446-8_4 
  34. Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (30 de janeiro de 2018). «Video-based Sign Language Recognition without Temporal Segmentation». arXiv:1801.10111  [cs.CV] 
  35. a b Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). «Fast model-based protein homology detection without alignment». Bioinformatics. 23 (14): 1728–1736. PMID 17488755. doi:10.1093/bioinformatics/btm247  
  36. Thireou, T.; Reczko, M. (2007). «Bidirectional Long Short-Term Memory Networks for predicting the subcellular localization of eukaryotic proteins». IEEE/ACM Transactions on Computational Biology and Bioinformatics. 4 (3): 441–446. PMID 17666763. doi:10.1109/tcbb.2007.1015 
  37. Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (Abril de 2015). «Long Short Term Memory Networks for Anomaly Detection in Time Series» (PDF). European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning — ESANN 2015. Consultado em 21 de fevereiro de 2018. Cópia arquivada (PDF) em 30 de outubro de 2020 
  38. Tax, N.; Verenich, I.; La Rosa, M.; Dumas, M. (2017). «Predictive Business Process Monitoring with LSTM Neural Networks». Advanced Information Systems Engineering. Col: Lecture Notes in Computer Science. 10253. [S.l.: s.n.] pp. 477–492. ISBN 978-3-319-59535-1. arXiv:1612.02130 . doi:10.1007/978-3-319-59536-8_30 
  39. Choi, E.; Bahadori, M.T.; Schuetz, E.; Stewart, W.; Sun, J. (2016). «Doctor AI: Predicting Clinical Events via Recurrent Neural Networks». JMLR Workshop and Conference Proceedings. 56: 301–318. Bibcode:2015arXiv151105942C. PMC 5341604 . PMID 28286600. arXiv:1511.05942  
  40. Jia, Robin; Liang, Percy (2016). «Data Recombination for Neural Semantic Parsing». arXiv:1606.03622  [cs.CL] 
  41. Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de maio de 2018). «Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation» (PDF). Sensors. 18 (5): 1657. Bibcode:2018Senso..18.1657W. ISSN 1424-8220. PMC 5982167 . PMID 29789447. doi:10.3390/s18051657  
  42. Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, Gang (2018). «Joint Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation». 2018 25th IEEE International Conference on Image Processing (ICIP). 25th IEEE International Conference on Image Processing (ICIP). pp. 918–922. ISBN 978-1-4799-7061-2. doi:10.1109/icip.2018.8451692 
  43. Orsini, F.; Gastaldi, M.; Mantecchini, L.; Rossi, R. (2019). Neural networks trained with WiFi traces to predict airport passenger behavior. 6th International Conference on Models and Technologies for Intelligent Transportation Systems. Krakow: IEEE. arXiv:1910.14026 . doi:10.1109/MTITS.2019.8883365. 8883365 
  44. Zhao, Z.; Chen, W.; Wu, X.; Chen, P.C.Y.; Liu, J. (2017). «LSTM network: A deep learning approach for Short-term traffic forecast». IET Intelligent Transport Systems. 11 (2): 68–75. doi:10.1049/iet-its.2016.0208 
  45. Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). «Generative Recurrent Networks for De Novo Drug Design.». Mol Inform. 37 (1–2). PMC 5836943 . PMID 29095571. doi:10.1002/minf.201700111 
  46. Saiful Islam, Md.; Hossain, Emam (26 de outubro de 2020). «Foreign Exchange Currency Rate Prediction using a GRU-LSTM Hybrid Network». Soft Computing Letters (em inglês). 3. 100009 páginas. ISSN 2666-2221. doi:10.1016/j.socl.2020.100009  
  47. Sepp Hochreiter; Jürgen Schmidhuber (21 de agosto de 1995), Long Short Term Memory, Wikidata Q98967430 
  48. a b c Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). «LSTM: A Search Space Odyssey». IEEE Transactions on Neural Networks and Learning Systems. 28 (10): 2222–2232. Bibcode:2015arXiv150304069G. PMID 27411231. arXiv:1503.04069 . doi:10.1109/TNNLS.2016.2582924 
  49. a b c Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). «Learning to forget: Continual prediction with LSTM». 9th International Conference on Artificial Neural Networks: ICANN '99. 1999. [S.l.: s.n.] pp. 850–855. ISBN 0-85296-721-7. doi:10.1049/cp:19991218 
  50. a b c d e f g Schmidhuber, Juergen (10 de Maio de 2021). «Deep Learning: Our Miraculous Year 1990-1991». arXiv:2005.05744  [cs.NE] 
  51. Hochreiter, S.; Younger, A. S.; Conwell, P. R. (2001). «Learning to Learn Using Gradient Descent». Artificial Neural Networks — ICANN 2001 (PDF). Col: Lecture Notes in Computer Science. 2130. [S.l.: s.n.] pp. 87–94. CiteSeerX 10.1.1.5.323 . ISBN 978-3-540-42486-4. ISSN 0302-9743. doi:10.1007/3-540-44668-0_13 
  52. Graves, Alex; Beringer, Nicole; Eck, Douglas; Schmidhuber, Juergen (2004). Biologically Plausible Speech Recognition with LSTM Neural Nets. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. pp. 175–184 
  53. a b Beaufays, Françoise (11 de agosto de 2015). «As redes neurais por trás da transcrição do Google Voice». Blog de Pesquisa 
  54. a b Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (24 de setembro de 2015). «Busca por voz do Google: mais rápida e precisa». Blog de Pesquisa (em inglês) 
  55. a b Haridy, Rich (21 de agosto de 2017). «O sistema de reconhecimento de fala da Microsoft agora é tão bom quanto o de um humano». newatlas.com. Consultado em 27 de agosto de 2017 
  56. Wierstra, Daan; Foerster, Alexander; Peters, Jan; Schmidhuber, Juergen (2005). «Solving Deep Memory POMDPs with Recurrent Policy Gradients». International Conference on Artificial Neural Networks ICANN'07 
  57. Märgner, Volker; Abed, Haikal El (julho de 2009). «Competição de Reconhecimento de Escrita Árabe ICDAR 2009». Conferência Internacional de Análise e Reconhecimento de Documentos de 2009. [S.l.: s.n.] pp. 1383–1387. ISBN 978-1-4244-4500-4. doi:10.1109/ICDAR.2009.256 
  58. Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Juergen (2009). «Evolução de Estruturas de Células de Memória para Aprendizado Sequencial». Conferência Internacional sobre Redes Neurais Artificiais ICANN'09, Chipre 
  59. Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). «Aprendizado de Representações de Frases usando Codificador-Decodificador RNN para Tradução Estatística de Máquinas». arXiv:1406.1078  [cs.CL] 
  60. «Prescrição de Neon... ou melhor, Nova transcrição para o Google Voice». Blog Oficial do Google (em inglês). 23 de julho de 2015 
  61. Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de maio de 2015). «Redes Highway». arXiv:1505.00387  [cs.LG] 
  62. Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). «Treinamento de Redes Muito Profundas». Curran Associates, Inc. Avanços em Sistemas de Informação Neural. 28: 2377–2385 
  63. a b Schmidhuber, Jürgen (2021). «As redes neurais mais citadas todas se baseiam em trabalhos feitos nos meus laboratórios». Blog de IA. IDSIA, Suíça 
  64. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Aprendizado Profundo Residual para Reconhecimento de Imagens. Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões (CVPR) de 2016. Las Vegas, NV, EUA: IEEE. pp. 770–778. ISBN 978-1-4673-8851-1. doi:10.1109/CVPR.2016.90 
  65. Khaitan, Pranav (18 de maio de 2016). «Chat Smarter with Allo». Research Blog. Consultado em 27 de junho de 2017 
  66. Metz, Cade (27 de setembro de 2016). «An Infusion of AI Makes Google Translate More Powerful Than Ever | WIRED». Wired. Consultado em 27 de junho de 2017 
  67. «A Neural Network for Machine Translation, at Production Scale». Google AI Blog (em inglês). 27 de setembro de 2016. Consultado em 25 de abril de 2020 
  68. Efrati, Amir (13 de junho de 2016). «Apple's Machines Can Learn Too». The Information. Consultado em 27 de junho de 2017 
  69. Ranger, Steve (14 de junho de 2016). «iPhone, AI and big data: Here's how Apple plans to protect your privacy | ZDNet». ZDNet. Consultado em 27 de junho de 2017 
  70. «Can Global Semantic Context Improve Neural Language Models? – Apple». Apple Machine Learning Journal (em inglês). Consultado em 30 de abril de 2020 
  71. Smith, Chris (13 de junho de 2016). «iOS 10: Siri now works in third-party apps, comes with extra AI features». BGR. Consultado em 27 de junho de 2017 
  72. Capes, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (20 de agosto de 2017). «Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System». ISCA. Interspeech 2017 (em inglês): 4011–4015. doi:10.21437/Interspeech.2017-1798 
  73. Vogels, Werner (30 de novembro de 2016). «Bringing the Magic of Amazon AI and Alexa to Apps on AWS. – All Things Distributed». www.allthingsdistributed.com. Consultado em 27 de junho de 2017 
  74. «Patient Subtyping via Time-Aware LSTM Networks» (PDF). msu.edu. Consultado em 21 de novembro de 2018 
  75. «Patient Subtyping via Time-Aware LSTM Networks». Kdd.org. Consultado em 24 de maio de 2018 
  76. «SIGKDD». Kdd.org. Consultado em 24 de maio de 2018 

Ligações externas

editar
  • original com dois capítulos dedicados a explicar redes neurais recorrentes, especialmente LSTM.