Unha rede neural artificial é un grupo de nodos interconectados, inspirados nunha simplificación das neuronas nun cerebro. Aquí, cada nodo circular representa unha neurona artificial e unha frecha representa unha conexión dende a saída dunha neurona artificial ata a entrada doutra.
Unha RNA baséase nunha colección de nodos conectados chamados neuronas artificiais, que modelan de forma vaga as neuronas do cerebro biolóxico. Cada conexión, como a sinapse dun cerebro biolóxico, pode transmitir sinais as demais neuronas. Unha neurona artificial recibe sinais e logo procésaos podendo despois sinalar as neuronas que teña conectadas. O "sinal" é un número real, e a saída de cada neurona calcúlase mediante algunha función non linear da suma das súas entradas. As "conexións" chámanse enlaces ou edges en inglés. As neuronas e os enlaces adoitan ter un peso ou weight que se axusta a medida que avanza a aprendizaxe. O peso aumenta ou diminúe a intensidade do sinal do enlace. As neuronas tamén poden ter un límite de maneira que só se envía un sinal se o sinal engadido pasa o límite asignado.
Normalmente, as neuronas están agregadas en capas. Diferentes capas poden realizar diferentes transformacións nas súas entradas. Os sinais viaxan dende a primeira capa (de entrada) ata a última capa (de saída), posiblemente despois de atravesar as capas varias veces.
Adestramento
As redes neurais son adestradas procesando exemplos, cada un dos cales contén unha "entrada" e un "resultado" coñecidos, formando asociacións ponderadas por probabilidade entre ambos, que se almacenan dentro da estrutura de datos da propia rede. O adestramento dunha rede neural a partir dun exemplo dado adoita realizarse determinando a diferenza entre a saída procesada da rede (a miúdo unha predición) e unha saída obxectivo. Esta diferenza é o erro. A rede axusta entón as súas asociacións ponderadas segundo unha regra de aprendizaxe e utilizando este valor de erro. Os sucesivos axustes farán que a rede neural produza unha saída cada vez máis semellante á saída de destino. Despois dun número suficiente destes axustes, a formación pódese finalizar en función de determinados criterios. Esta é unha forma de aprendizaxe supervisada.
Estes sistemas "aprenden" a realizar tarefas considerando exemplos, xeralmente sen ser programados con regras específicas para tarefas. Por exemplo, no recoñecemento de imaxes, poden aprender a identificar imaxes que conteñan gatos analizando imaxes de exemplo que foron etiquetadas manualmente como "gato" ou "sen gato" e utilizando os resultados para identificar gatos noutras imaxes. Fan isto sen ningún coñecemento previo dos gatos, por exemplo, que teñen pelaxe, rabo ou bigotes. Pola contra, xeran automaticamente características de identificación a partir dos exemplos que procesan.
O tipo máis sinxelo de rede neural prealimentada (feed-forward neural network FNN) é unha rede lineal, que consiste nunha única capa de nodos de saída; as entradas son alimentadas directamente ás saídas mediante unha serie de pesos (weights). A suma dos produtos dos pesos e das entradas calcúlase en cada nodo. Os erros cuadráticos medios entre estas saídas calculadas e uns valores obxectivo determinados redúcense ao mínimo creando un axuste aos pesos. Esta técnica é coñecida desde hai máis de dous séculos como o método de mínimos cadrados lineais ou regresión linear. Legendre (1805) e Gauss (1795) utilizaron como medio para atopar un bo axuste lineal aproximado a un conxunto de puntos para a predición do movemento planetario.[4][5][6][7][8]
Algúns din que o desenvolvemento estancou despois de Minsky e Papert (1969),[21] que descubriron que os perceptróns básicos eran incapaces de procesar o circuíto exclusivo e que os ordenadores carecían da potencia suficiente para procesar redes neurais útiles. Non obstante, cando saíu este libro, xa se coñecían métodos para adestrar perceptróns multicapa (MLP).
A partir de 1988,[55][56] o uso de redes neurais transformou o campo da predición da estrutura das proteínas, en particular cando as primeiras redes en cascada foron adestradas en perfís (matrices) producidos por aliñamentos de secuencias múltiples.[57]
Na década de 1980, a retropropagación non funcionaba ben para o deep learning das FNN e RNN. Para superar este problema, Jürgen Schmidhuber (1992) propuxo unha xerarquía de RNNs adestradas previamente un nivel cada vez mediante a aprendizaxe autosupervisada.[58] Usa codificación preditiva para aprender representacións internas en múltiples escalas de tempo. Isto pode facilitar substancialmente o deep learning posterior. A xerarquía RNN pode colapsarse nun único RNN, destilando unha rede chunker de nivel superior nunha rede de automatización de nivel inferior.[58][7] En 1993, un chunker resolveu unha tarefa de deep learning cuxa profundidade superaba os 1000.[59]
Geoffrey Hintonet al. (2006) propuxeron aprender unha representación de alto nivel utilizando capas sucesivas de variables latentes binarias ou de valor real cunha máquina de Boltzmann restrinxida[84] para modelar cada capa. En 2012, Andrew Ng e Jeff Dean crearon unha rede que aprendeu a recoñecer conceptos de nivel superior, coma gatos, só mirando imaxes sen etiquetas.[85] O adestramento previo sen supervisión e o aumento da potencia de computación das GPU e a computación distribuída permitiron o uso de redes máis grandes, particularmente en problemas de recoñecemento visual e de imaxe, que se coñeceu como "deep learning".[86]
Ciresan e os seus colegas crearon os primeiros recoñecedores de patróns en lograr un rendemento similar ao humano[92] en puntos de referencia como o recoñecemento de sinais de tráfico (IJCNN 2012).
↑McCulloch, Warren; Pitts, Walter (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics5 (4): 115–133. doi:10.1007/BF02478259.
↑Farley, B.G.; Clark, W.A. (1954). "Simulation of Self-Organizing Systems by Digital Computer". IRE Transactions on Information Theory4 (4): 76–84. doi:10.1109/TIT.1954.1057468.
↑Haykin, Simon (2008). Neural Networks and Learning Machines, 3rd edition. McMaster University, Pearson. ISBN978-0131471399.
↑Olazaran, Mikel (1996). "A Sociological Study of the Official History of the Perceptrons Controversy". Social Studies of Science26 (3): 611–659. JSTOR285702. doi:10.1177/030631296026003005.
↑Linnainmaa, Seppo (1970). "The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors". Universidade de Helsinki: 6–7.
↑Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics16 (2): 146–160. doi:10.1007/bf01931367.
↑Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN978-0-89871-776-1.
↑Rosenblatt, Frank (1962). "Principles of Neurodynamics". Spartan.
↑"A gradient method for optimizing multi-stage allocation processes". Proceedings of the Harvard Univ. Symposium on digital computers and their applications. 1961.
↑Dreyfus, Stuart E. (1990). "Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure". Journal of Guidance, Control, and Dynamics13 (5): 926–928.
↑Mizutani, E.; Dreyfus, S.E.; Nishio, K. (2000). "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application". Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. IJCNN 2000. Neural Computing: New Challenges and Perspectives for the New Millennium. doi:10.1109/ijcnn.2000.857892.
↑von der Malsburg, C (1973). "Self-organization of orientation sensitive cells in the striate cortex". Kybernetik14 (2): 85–100. doi:10.1007/bf00288907.
↑Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position". Biological Cybernetics36 (4): 193–202. doi:10.1007/BF00344251.
↑Fukushima, Kunihiko (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics5 (4): 322–333. doi:10.1109/TSSC.1969.300225.
↑Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (2017). "Searching for Activation Functions". arXiv:1710.05941.
↑Waibel, Alex (1987). "Phoneme Recognition Using Time-Delay Neural Networks". Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE).
↑Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics29 (32): 4790. doi:10.1364/AO.29.004790.
↑Qian; Ning; Sejnowski, Terrence J. (1988). "Predicting the secondary structure of globular proteins using neural network models". Journal of molecular biology (4): 865–884.
↑Henrik, Bohr; Bohr, Jakob; Brunak, Søren; MJ Cotterill, Rodney; Lautrup, Benny; Nørskov, Leif; Olsen, Ole H.; B. Petersen, Steffen (1988). "Protein secondary structure and homology by neural networks The α-helices in rhodopsin". FEBS letters 241: 223–228.
↑Rost,; Burkhard; Sander, Chris (1993). "Prediction of protein secondary structure at better than 70% accuracy". Journal of molecular biology 232 (2): 584–599.
↑Schmidhuber, Jürgen (1991). "A possibility for implementing curiosity and boredom in model-building neural controllers". MIT Press/Bradford Books: 222–227.
↑Schmidhuber, Jürgen (2010). "Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)". IEEE Transactions on Autonomous Mental Development2 (3): 230–247. doi:10.1109/TAMD.2010.2056368.
↑Schmidhuber, Jürgen (2020). "Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)". Neural Networks127: 58–66. PMID32334341. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008.
↑Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu,, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks"(PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014): 2672–2680.
↑Schmidhuber, Jürgen (1993). "Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets". ICANN 1993. Springer: 460–463.
↑Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017). "Attention Is All You Need". arXiv:1706.03762.
↑Wolf, Thomas; Debut, Lysandre; Sanh, Victor (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations: 38–45. doi:10.18653/v1/2020.emnlp-demos.6.
↑He, Cheng (2021). "Transformer in CV". Towards Data Science. Transformer in CV. Arquivado dende o orixinal o 16 de abril de 2023. Consultado o 30 de abril de 2023.
↑Hochreiter, S. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. A Field Guide to Dynamical Recurrent Networks (John Wiley & Sons). ISBN978-0-7803-5369-5.
↑Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). Learning to forget: Continual prediction with LSTM1999. 9th International Conference on Artificial Neural Networks: ICANN'99. pp. 850–855. ISBN0-85296-721-7. doi:10.1049/cp:19991218.
↑Srivastava, Rupesh K.; Greff, Klaus; Schmidhuber, Jürgen (2015). "Training Very Deep Networks". Curran Associates, Inc. Advances in Neural Information Processing Systems 28: 2377–2385.
↑He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE). pp. 770–778. ISBN978-1-4673-8851-1. doi:10.1109/CVPR.2016.90.
↑Graves, Alex; Schmidhuber, Jürgen (2009). Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Neural Information Processing Systems (NIPS) Foundation. ISBN9781605609492.
↑Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, Jürgen (2009). "A Novel Connectionist System for Unconstrained Handwriting Recognition". IEEE Transactions on Pattern Analysis and Machine Intelligence31 (5): 855–868. ISSN0162-8828. PMID19299860. doi:10.1109/tpami.2008.137.
↑Ciresan, Dan; Meier, U.; Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition. ISBN978-1-4673-1228-8. doi:10.1109/cvpr.2012.6248110.