Хронологія розвитку машинного навчання

Ця сторінка — хронологія розвитку машинного навчання. До неї включено основні відкриття, досягнення, віхи та інші важливі події у машинному навчанні.

Огляд

Десятиріччя	Підсумки
до 1950-х	Відкрито та вдосконалено статистичні методи.
1950-ті	Проводять піонерські дослідження машинного навчання з використанням простих алгоритмів.
1960-ті	Запропоновано баєсові методи для ймовірнісного висновування в машинному навчанні.^[1]
1970-ті	Песимізм щодо ефективності машинного навчання спричинив «зиму ШІ».
1980-ті	Повторне відкриття зворотного поширення викликає пожвавлення досліджень машинного навчання.
1990-ті	Робота над машинним навчанням переходить від підходу, керованого знаннями, до підходу, керованого даними. Науковці починають створювати програми для комп'ютерів, щоб аналізувати великі обсяги даних і робити висновки — або «навчатися» — з результатів.^[2] Набувають популярності опорновекторні машини (ОВМ, англ. SVM) та рекурентні нейронні мережі (РНМ, англ. RNN).^[3] Започатковано галузі обчислювальної складності через нейронні мережі та надтюрінгові обчислення.^[4]
2000-ті	Набувають широкого поширення опорновекторне кластерування^[5] та інші ядрові методи,^[6] а також методи машинного некерованого навчання.^[7]
2010-ті	Стає здійсненним глибоке навчання, що призводить до того, що машинне навчання стає невід'ємною частиною багатьох широко використовуваних програмних служб і застосунків. Глибоке навчання стимулює величезний поступ у баченні та обробці тексту.
2020-ті	Породжувальний ШІ призводить до революційних моделей, створюючи розмаїття моделей-основ^[en], як власницьких, так і відкритих, зокрема, уможливлюючи такі продукти як ChatGPT (на основі тексту) та Stable Diffusion (на основі зображень). Машинне навчання та ШІ входять у широку громадську свідомість. Комерційний потенціал ШІ на основі машинного навчання призводить до значного зростання оцінок вартості компаній, пов'язаних з ШІ.

Хронологія

Цей список незавершений, Ви можете допомогти — додати пункти, яких бракує.

Рік	Тип події	Заголовок	Подія
1763	Відкриття	Підвалини теореми Баєса	Працю Томаса Баєса «Есе щодо розв'язання задачі у Доктрині шансів^[en]» опубліковано через два роки після його смерті, виправлену та відредаговану другом Баєса, Річардом Прайсом^[en].^[8] Це есе подає працю, яка лягла в основу теорами Баєса.
1805	Відкриття	Найменші квадрати	Адрієн-Марі Лежандр описує «méthode des moindres carrés», відомий українською як метод найменших квадратів.^[9] Його широко використовують у допасовуванні до даних^[en].
1812		Теорема Баєса	П'єр-Симон Лаплас публікує «Théorie Analytique des Probabilités», у якій розширює працю Баєса та визначає те, що відоме тепер як теорема Баєса.^[10]
1913	Відкриття	Марковські ланцюги	Андрій Марков уперше описує методики, які він використовував для аналізу віршів. Ці методики пізніше стали відомими як марковські ланцюги.^[11]
1943	Відкриття	Штучний нейрон	Воррен Маккалох та Волтер Піттс^[en] розробляють математичну модель, що імітує функціювання біологічного нейрона, штучний нейрон, яку вважають першою винайденою нейронною моделлю.^[12]
1950		Тюрінгова самонавчальна машина	Алан Тюрінг пропонує «самонавчальну машину», що може навчатися та стати штучним інтелектом. Конкретна пропозиція Тюрінга провіщує генетичні алгоритми.^[13]
1951		Перша нейромережна машина	Марвін Мінскі та Дін Едмондс створюють першу здатну навчатися нейромережну машину, SNARC^[en].^[14]
1952		Машини, що грають у шашки	Артур Семюель приєднується до лабораторії Poughkeepsie в IBM і починає працювати над деякими з найперших програмам машинного навчання, першими створюючи програми, які грають у шашки.^[15]
1957	Відкриття	Перцептрон	Френк Розенблат, працюючи в Корнелльській аеронавігаційній лабораторії^[en], винаходить перцептрон.^[16] Винайдення перцептрона викликає великий ажіотаж, його широко висвітлюють у засобах масової інформації.^[17]
1963	Досягнення	Машини, що грають у хрестики-нулики	Дональд Мічі^[en] створює «машину», складену з 304 сірникових коробок та намистин, що використовує навчання з підкріпленням грі в хрестики-нулики.^[18]
1967		Найближчий сусід	Було створено алгоритм найближчого сусіда, що є початком базового розпізнавання образів. Цей алгоритм використовували для прокладання маршрутів.^[2]
1969		Обмеження нейронних мереж	Марвін Мінскі та Сеймур Пейперт публікують свою книгу «Перцептрони^[en]», що описує деякі з обмежень перцептронів та нейронних мереж. Інтерпретацію, яку показує книга, що нейронні мережі фундаментально обмежені, розглядають як перепону для досліджень нейронних мереж.^[19]
1970		Автоматичне диференціювання (зворотне поширення)	Сеппо Ліннаінмаа^[en] публікує загальний метод автоматичного диференціювання (АД, англ. AD) дискретних зв'язних мереж вкладених диференційовних функцій.^[20]^[21] Це відповідає сучасній версії зворотного поширення, але ще не має цієї назви.^[22]^[23]^[24]^[25]
1979		Стенфордський візок	Студенти у Стенфордському університеті розроблюють візок, що може пересуватися й уникати перешкод у кімнаті.^[2]
1979	Відкриття	Неокогнітрон	Куніхіко Фукусіма^[en] вперше публікує свою працю про неокогнітрон, один із типів штучних нейронних мереж (ШНМ, англ. ANN).^[26]^[27] Неокогнітивність пізніше надихає згорткові нейронні мережі (ЗНМ, англ. CNN).^[28]
1981		Навчання на основі пояснень	Джеральд Деджонг пропонує навчання на основі пояснень (англ. Explanation Based Learning), в якому комп'ютерний алгоритм аналізує дані та створює загальне правило, якому він може слідувати, та відкидати неважливі дані.^[2]
1982	Відкриття	Рекурентна нейронна мережа	Джон Гопфілд популяризує мережі Гопфілда, один із типів рекуретних нейронних мереж, що можуть слугувати системами пам'яті з адресуванням вмістом.^[29]
1985		NETtalk^[en]	Террі Сейновскі^[en] розробив програму, яка навчається вимовляти слова англійської мови так само, як це робить дитина.^[2]
1986	Застосування	Зворотне поширення	Зворотний режим автоматичного диференціювання Сеппо Ліннаінмаа^[en] (вперше застосований до нейронних мереж Полом Вербосом^[en]) використано в експериментах Девіда Румельхарта, Джефа Гінтона та Рональда Дж. Вільямса для навчання внутрішніх подань.^[30]
1988		Теорема про універсальне наближення (теорема Цибенка)	Курт Горнік^[de] доводить, що стандартні багатошарові мережі прямого поширення здатні наближувати будь-яку борелево вимірну функцію з одного скінченновимірного простору до іншого до будь-якого ступеню точності, за умови наявності достатньої кількості прихованих вузлів.
1989	Відкриття	Навчання з підкріпленням	Крістофер Воткінс розробляє Q-навчання, яке значно покращує практичність та здійсненність навчання з підкріпленням.^[31]
1989	Комерціалізація	Комерціалізація машинного навчання на персональних комп'ютерах	Axcelis, Inc. випускає Evolver, перший програмний пакет для комерціалізації використання генетичних алгоритмів на персональних комп'ютерах.^[32]
1992	Досягнення	Машини, які грають у короткі нарди	Джеральд Тезауро розрозбяє ЧР-нарди (англ. TD-Gammon), комп'ютерну програму для гри в короткі нарди, яка використовує штучну нейронну мережу, натреновану з використанням методу часових різниць (звідси «ЧР» у назві). ЧР-нарди здатні конкурувати, але не завжди перевершувати здібності найкращих серед людей гравців у короткі нарди.^[33]
1995	Відкриття	Алгоритм випадкового лісу	Тін Кам Хо публікує працю, що описує випадкові ліси рішень.^[34]
1995	Відкриття	Опорновекторні машини	Корінна Кортес та Володимир Вапник публікують свою працю про опорновекторні машини.^[35]
1997	Досягнення	IBM Deep Blue перемагає Каспарова	Deep Blue від IBM перемагає чемпіона світу з шахів.^[2]
1997	Відкриття	ДКЧП (англ. LSTM)	Зепп Хохрайтер^[en] та Юрген Шмідхубер винаходять рекурентні нейронні мережі з довгою короткочасною пам'яттю (ДКЧП),^[36] що значно покращує ефективність та практичність рекурентних нейронних мереж.
1998		База даних MNIST	Команда під проводом Яна ЛеКуна випускає базу даних MNIST, набір даних, що складається з суміші рукописних цифр від працівників Бюро перепису населення та старшокласників США.^[37] База даних MNIST відтоді стала еталоном для оцінювання розпізнавання рукописного тексту.
2002		Бібліотека машинного навчання Torch	Перший випуск Torch, бібліотеки програмного забезпечення машинного навчання.^[38]
2006		Netflix Prize	Netflix запускає змагання Netflix Prize^[en]. Мета змагання — за допомогою машинного навчання перевершити точність власного програмного забезпечення рекомендацій Netflix у передбачуванні оцінки фільму користувачем за наявних оцінок цим користувачем попередніх фільмів щонайменше на 10 %.^[39] Цю премію було виграно 2009 року.
2009	Досягнення	ImageNet	Створено ImageNet^[en]. Це велика база даних зображень, створена Фей-Фей Лі зі Стенфордського університету, яка усвідомила, що найкращі алгоритми машинного навчання не працюватимуть добре, якщо дані не відображатимуть реального світу.^[40] Для багатьох ImageNet стала каталізатором буму ШІ^[41] XXI сторіччя.
2010		Змагання Kaggle	Запущено Kaggle, вебсайт, що слугує платформою для змагань з машинного навчання.^[42]
2011	Досягнення	Перемога над людьми в Jeopardy	Використовуючи поєднання машинного навчання, обробки природної мови та методик інформаційного пошуку, Watson від IBM перемагає двох чемпіонів серед людей у змаганні Jeopardy!^[en].^[43]
2012	Досягнення	Розпізнавання котів на YouTube	Команда Google Brain під проводом Ендрю Ина та Джеффа Діна створює нейронну мережу, яка навчається розпізнавати котів, переглядаючи немічені зображення, взяті з кадрів відео YouTube.^[44]^[45]
2012	Відкриття	Візуальне розпізнавання	Стаття та алгоритм AlexNet досягли проривних результатів у розпізнаванні зображень на еталоні ImageNet. Це сприяло популяризації глибоких нейронних мереж.^[46]
2013	Відкриття	Вкладання слів	Широко цитована стаття, що отримала прізвисько word2vec, революціонізувала обробку тексту в машинному навчанні. Вона показала, як кожне слово можливо перетворити на послідовність чисел (вкладення слів), використання цих векторів революціонізувало обробку тексту в машинному навчанні.^[47]
2014		Стрибок у розпізнаванні облич	Дослідники з Facebook публікують свою працю щодо DeepFace^[en], системи, яка використовує нейронні мережі й ідентифікує обличчя з точністю 97,35 %. Ці результати є покращенням на понад 27 % відносно попередніх систем, і складають конкуренцію людській продуктивності.^[48]
2014		Sibyl	Дослідники з Google розкрили деталі своєї праці над Sibyl,^[49] власною платформою для масово паралельного машинного навчання, яку Google використовує всередині для передбачування поведінки користувачів та надавання рекомендацій.^[50]
2016	Досягнення	Перемога над людьми в ґо	Програма AlphaGo від Google стає першою програмою комп'ютерного ґо, яка перемогла фахового людського гравця без обмежень,^[51] використовуючи поєднання методик машинного навчання та пошуку деревами.^[52] Пізніше вдосконалена як AlphaGo Zero^[en], а 2017 року узагальнена на шахи та додаткові ігри для двох гравців як AlphaZero.
2017	Відкриття	Трансформер	Команда Google Brain винайшла архітектуру трансформера,^[53] що уможливила швидше паралельне тренування нейронних мереж на послідовних даних, таких як текст.
2018	Досягнення	Передбачування структури білків	У грудні 2018 року AlphaFold 1 (2018) посіла перше місце в загальному рейтингу 13-го Критичного аналізу методів для структурних передбачень білків (КАСП).^[54]
2021	Досягнення	Передбачування структури білків	AlphaFold 2 (2021), команда, яка використовувала AlphaFold 2 (2020), підтвердила це місце на змаганнях КАСП у листопаді 2020 року. Ця команда досягла набагато вищого рівня точності, ніж будь-яка інша група. Вона набрала понад 90 балів для приблизно двох третин з білків у випробуванні КАСП на глобальну відстань (англ. GDT), випробуванні, яка вимірює ступінь подібності передбаченої обчислювальною програмою структури до експериментально встановленої в лабораторії, де 100 це повний збіг, у межах граничної відстані, яку використовують для обчислення GDT.^[55]

Див. також

Примітки

Цитування

↑ Solomonoff, R.J. (June 1964). A formal theory of inductive inference. Part II. Information and Control (англ.). 7 (2): 224—254. doi:10.1016/S0019-9958(64)90131-7.
↑ ^а ^б ^в ^г ^д ^е Marr, 2016.
↑ Siegelmann, H.T.; Sontag, E.D. (February 1995). On the Computational Power of Neural Nets. Journal of Computer and System Sciences (англ.). 50 (1): 132—150. doi:10.1006/jcss.1995.1013.
↑ Siegelmann, Hava (1995). Computation Beyond the Turing Limit. Journal of Computer and System Sciences (англ.). 238 (28): 632—637. Bibcode:1995Sci...268..545S. doi:10.1126/science.268.5210.545. PMID 17756722. S2CID 17495161.
↑ Ben-Hur, Asa; Horn, David; Siegelmann, Hava; Vapnik, Vladimir (2001). Support vector clustering. Journal of Machine Learning Research (англ.). 2: 51—86.
↑ Hofmann, Thomas; Schölkopf, Bernhard; Smola, Alexander J. (2008). Kernel methods in machine learning. The Annals of Statistics (англ.). 36 (3): 1171—1220. arXiv:math/0701907. doi:10.1214/009053607000000677. JSTOR 25464664.
↑ Bennett, James; Lanning, Stan (2007). The netflix prize (PDF). Proceedings of KDD Cup and Workshop 2007 (англ.).
↑ Bayes, Thomas (1 січня 1763). An Essay towards solving a Problem in the Doctrine of Chance. Philosophical Transactions (англ.). 53: 370—418. doi:10.1098/rstl.1763.0053. JSTOR 105741.
↑ Legendre, Adrien-Marie (1805). Nouvelles méthodes pour la détermination des orbites des comètes (фр.). Paris: Firmin Didot. с. viii. Процитовано 13 червня 2016.
↑ O'Connor, J J; Robertson, E F. Pierre-Simon Laplace (англ.). School of Mathematics and Statistics, University of St Andrews, Scotland. Процитовано 15 червня 2016.
↑ Langston, Nancy (2013). Mining the Boreal North. American Scientist (англ.). 101 (2): 1. doi:10.1511/2013.101.1. Заглиблюючись у текст роману в віршах Олександра Пушкіна «Євгеній Онєгін», Марков годинами перебирав схеми голосних та приголосних. 23 січня 1913 року він узагальнив свої висновки у зверненні до Імператорської академії наук у Санкт-Петербурзі. Його аналіз не змінив розуміння чи оцінок роману Пушкіна, але методика, яку він розробив, відома тепер як марковський ланцюг, розширила теорію ймовірностей у новому напрямку.
↑ McCulloch, Warren S.; Pitts, Walter (December 1943). A logical calculus of the ideas immanent in nervous activity. The Bulletin of Mathematical Biophysics (англ.). 5 (4): 115—133. doi:10.1007/BF02478259.
↑ Turing, A. M. (1 жовтня 1950). I.—COMPUTING MACHINERY AND INTELLIGENCE. Mind (англ.). LIX (236): 433—460. doi:10.1093/mind/LIX.236.433.
↑ Crevier, 1993, с. 34—35 та Russell та Norvig, 2003, с. 17.
↑ McCarthy, J.; Feigenbaum, E. (1 вересня 1990). In memoriam—Arthur Samuel (1901–1990). AI Magazine (англ.). 11 (3): 10—11.
↑ Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review (англ.). 65 (6): 386—408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029. S2CID 12781225.
↑ Mason, Harding; Stewart, D; Gill, Brendan (6 грудня 1958). Rival. The New Yorker (англ.). Процитовано 5 червня 2016.
↑ Child, Oliver (13 березня 2016). Menace: the Machine Educable Noughts And Crosses Engine Read. Chalkdust Magazine (англ.). Процитовано 16 січня 2018.
↑ Cohen, Harvey. The Perceptron (англ.). Процитовано 5 червня 2016.
↑ Linnainmaa, Seppo (1970). Algoritmin kumulatiivinen pyoristysvirhe yksittaisten pyoristysvirheiden taylor-kehitelmana [The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors] (PDF) (Дипломна робота) (фін.). с. 6—7.
↑ Linnainmaa, Seppo (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics (англ.). 16 (2): 146—160. doi:10.1007/BF01931367. S2CID 122357351.
↑ Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation?. Documenta Matematica, Extra Volume ISMP (англ.): 389—400.
↑ Griewank, Andreas; Walther, A. (2008). Principles and Techniques of Algorithmic Differentiation (англ.) (вид. Second). SIAM. ISBN 978-0898716597.
↑ Schmidhuber, Jürgen (2015). Deep learning in neural networks: An overview. Neural Networks (англ.). 61: 85—117. arXiv:1404.7828. Bibcode:2014arXiv1404.7828S. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
↑ Schmidhuber, Jürgen (2015). Deep Learning (Section on Backpropagation). Scholarpedia (англ.). 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
↑ Fukushima, Kunihiko (October 1979). 位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン --- [Neural network model for a mechanism of pattern recognition unaffected by shift in position — Neocognitron —]. Trans. IECE (яп.). J62-A (10): 658—665.
↑ Fukushima, Kunihiko (April 1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics (англ.). 36 (4): 193—202. doi:10.1007/BF00344251. PMID 7370364. S2CID 206775608.
↑ Le Cun, Yann. Deep Learning (англ.). CiteSeerX 10.1.1.297.6176.
↑ Hopfield, J J (April 1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences (англ.). 79 (8): 2554—2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413.
↑ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (October 1986). Learning representations by back-propagating errors. Nature (англ.). 323 (6088): 533—536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.
↑ Watksin, Christopher (1 травня 1989). Learning from Delayed Rewards (PDF) (англ.).
↑ Markoff, John (29 серпня 1990). BUSINESS TECHNOLOGY; What's the Best Answer? It's Survival of the Fittest. New York Times (англ.). Процитовано 8 червня 2016.
↑ Tesauro, Gerald (March 1995). Temporal difference learning and TD-Gammon. Communications of the ACM (англ.). 38 (3): 58—68. doi:10.1145/203330.203343. S2CID 8763243.
↑ Tin Kam Ho (1995). Random decision forests. Proceedings of 3rd International Conference on Document Analysis and Recognition (англ.). Т. 1. с. 278—282. doi:10.1109/ICDAR.1995.598994. ISBN 0-8186-7128-9.
↑ Cortes, Corinna; Vapnik, Vladimir (September 1995). Support-vector networks. Machine Learning (англ.). 20 (3): 273—297. doi:10.1007/BF00994018.
↑ Hochreiter, Sepp; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
↑ LeCun, Yann; Cortes, Corinna; Burges, Christopher. THE MNIST DATABASE of handwritten digits (англ.). Процитовано 16 червня 2016.
↑ Collobert, Ronan; Benigo, Samy; Mariethoz, Johnny (30 жовтня 2002). Torch: a modular machine learning software library (PDF) (англ.). Архів оригіналу (PDF) за 6 серпня 2016. Процитовано 5 червня 2016. [Архівовано 2016-08-06 у Wayback Machine.]
↑ The Netflix Prize Rules. Netflix Prize (англ.). Netflix. Архів оригіналу за 3 березня 2012. Процитовано 16 червня 2016. [Архівовано 2012-03-03 у Wayback Machine.]
↑ Gershgorn, Dave (26 липня 2017). ImageNet: the data that spawned the current AI boom — Quartz. qz.com (амер.). Процитовано 30 березня 2018.
↑ Hardy, Quentin (18 липня 2016). Reasons to Believe the A.I. Boom Is Real. The New York Times (англ.).
↑ About. Kaggle (англ.). Kaggle Inc. Архів оригіналу за 18 березня 2016. Процитовано 16 червня 2016. [Архівовано 2016-03-18 у Wayback Machine.]
↑ Markoff, John (16 лютого 2011). Computer Wins on 'Jeopardy!': Trivial, It's Not. The New York Times (англ.). с. A1.
↑ Le, Quoc V. (2013). Building high-level features using large scale unsupervised learning. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (англ.). с. 8595—8598. doi:10.1109/ICASSP.2013.6639343. ISBN 978-1-4799-0356-6. S2CID 206741597.
↑ Markoff, John (26 червня 2012). How Many Computers to Identify a Cat? 16,000. New York Times (англ.). с. B1. Процитовано 5 червня 2016.
↑ The data that transformed AI research—and possibly the world. Quartz (англ.). 26 липня 2017. Процитовано 12 вересня 2023.
↑ PhD, Pedram Ataee (3 липня 2022). Word2Vec Models are Simple Yet Revolutionary. Medium (англ.). Процитовано 12 вересня 2023.
↑ Taigman, Yaniv; Yang, Ming; Ranzato, Marc'Aurelio; Wolf, Lior (24 червня 2014). DeepFace: Closing the Gap to Human-Level Performance in Face Verification. Conference on Computer Vision and Pattern Recognition (англ.). Процитовано 8 червня 2016.
↑ Canini, Kevin; Chandra, Tushar; Ie, Eugene; McFadden, Jim; Goldman, Ken; Gunter, Mike; Harmsen, Jeremiah; LeFevre, Kristen; Lepikhin, Dmitry; Llinares, Tomas Lloret; Mukherjee, Indraneel; Pereira, Fernando; Redstone, Josh; Shaked, Tal; Singer, Yoram. Sibyl: A system for large scale supervised machine learning (PDF). Jack Baskin School of Engineering (англ.). UC Santa Cruz. Архів оригіналу (PDF) за 15 серпня 2017. Процитовано 8 червня 2016.
↑ Woodie, Alex (17 липня 2014). Inside Sibyl, Google's Massively Parallel Machine Learning Platform. Datanami (англ.). Tabor Communications. Процитовано 8 червня 2016.
↑ Google achieves AI 'breakthrough' by beating Go champion. BBC News (англ.). BBC. 27 січня 2016. Процитовано 5 червня 2016.
↑ AlphaGo. Google DeepMind (англ.). Google Inc. Архів оригіналу за 30 січня 2016. Процитовано 5 червня 2016. [Архівовано 2016-01-30 у Wayback Machine.]
↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017). Attention Is All You Need (англ.). arXiv:1706.03762.
↑ Sample, Ian (2 грудня 2018). Google's DeepMind predicts 3D shapes of proteins. The Guardian (англ.).
↑ Eisenstein, Michael (23 листопада 2021). Artificial intelligence powers protein-folding predictions. Nature (англ.). 599 (7886): 706—708. doi:10.1038/d41586-021-03499-y. S2CID 244528561.

Цитовані праці

Crevier, Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence (англ.). New York: BasicBooks. ISBN 0-465-02997-3.
Marr, Bernard (19 лютого 2016). A Short History of Machine Learning -- Every Manager Should Read. Forbes (англ.). Архів оригіналу за 5 грудня 2022. Процитовано 25 грудня 2022.
Russell, Stuart; Norvig, Peter (2003). Artificial Intelligence: A Modern Approach (англ.). London: Pearson Education. ISBN 0-137-90395-2.

[1] Solomonoff, R.J. (June 1964). A formal theory of inductive inference. Part II. Information and Control (англ.). 7 (2): 224—254. doi:10.1016/S0019-9958(64)90131-7.

[Marr-2] а ^б ^в ^г ^д ^е Marr, 2016.

[3] Siegelmann, H.T.; Sontag, E.D. (February 1995). On the Computational Power of Neural Nets. Journal of Computer and System Sciences (англ.). 50 (1): 132—150. doi:10.1006/jcss.1995.1013.

[4] Siegelmann, Hava (1995). Computation Beyond the Turing Limit. Journal of Computer and System Sciences (англ.). 238 (28): 632—637. Bibcode:1995Sci...268..545S. doi:10.1126/science.268.5210.545. PMID 17756722. S2CID 17495161.

[5] Ben-Hur, Asa; Horn, David; Siegelmann, Hava; Vapnik, Vladimir (2001). Support vector clustering. Journal of Machine Learning Research (англ.). 2: 51—86.

[6] Hofmann, Thomas; Schölkopf, Bernhard; Smola, Alexander J. (2008). Kernel methods in machine learning. The Annals of Statistics (англ.). 36 (3): 1171—1220. arXiv:math/0701907. doi:10.1214/009053607000000677. JSTOR 25464664.

[7] Bennett, James; Lanning, Stan (2007). The netflix prize (PDF). Proceedings of KDD Cup and Workshop 2007 (англ.).

[8] Bayes, Thomas (1 січня 1763). An Essay towards solving a Problem in the Doctrine of Chance. Philosophical Transactions (англ.). 53: 370—418. doi:10.1098/rstl.1763.0053. JSTOR 105741.

[9] Legendre, Adrien-Marie (1805). Nouvelles méthodes pour la détermination des orbites des comètes (фр.). Paris: Firmin Didot. с. viii. Процитовано 13 червня 2016.

[10] O'Connor, J J; Robertson, E F. Pierre-Simon Laplace (англ.). School of Mathematics and Statistics, University of St Andrews, Scotland. Процитовано 15 червня 2016.

[11] Langston, Nancy (2013). Mining the Boreal North. American Scientist (англ.). 101 (2): 1. doi:10.1511/2013.101.1. Заглиблюючись у текст роману в віршах Олександра Пушкіна «Євгеній Онєгін», Марков годинами перебирав схеми голосних та приголосних. 23 січня 1913 року він узагальнив свої висновки у зверненні до Імператорської академії наук у Санкт-Петербурзі. Його аналіз не змінив розуміння чи оцінок роману Пушкіна, але методика, яку він розробив, відома тепер як марковський ланцюг, розширила теорію ймовірностей у новому напрямку.

[12] McCulloch, Warren S.; Pitts, Walter (December 1943). A logical calculus of the ideas immanent in nervous activity. The Bulletin of Mathematical Biophysics (англ.). 5 (4): 115—133. doi:10.1007/BF02478259.

[13] Turing, A. M. (1 жовтня 1950). I.—COMPUTING MACHINERY AND INTELLIGENCE. Mind (англ.). LIX (236): 433—460. doi:10.1093/mind/LIX.236.433.

[14] Crevier, 1993, с. 34—35 та Russell та Norvig, 2003, с. 17.

[aaai-15] McCarthy, J.; Feigenbaum, E. (1 вересня 1990). In memoriam—Arthur Samuel (1901–1990). AI Magazine (англ.). 11 (3): 10—11.

[16] Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review (англ.). 65 (6): 386—408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029. S2CID 12781225.

[17] Mason, Harding; Stewart, D; Gill, Brendan (6 грудня 1958). Rival. The New Yorker (англ.). Процитовано 5 червня 2016.

[18] Child, Oliver (13 березня 2016). Menace: the Machine Educable Noughts And Crosses Engine Read. Chalkdust Magazine (англ.). Процитовано 16 січня 2018.

[19] Cohen, Harvey. The Perceptron (англ.). Процитовано 5 червня 2016.

[lin1970-20] Linnainmaa, Seppo (1970). Algoritmin kumulatiivinen pyoristysvirhe yksittaisten pyoristysvirheiden taylor-kehitelmana [The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors] (PDF) (Дипломна робота) (фін.). с. 6—7.

[lin1976-21] Linnainmaa, Seppo (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics (англ.). 16 (2): 146—160. doi:10.1007/BF01931367. S2CID 122357351.

[grie2012-22] Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation?. Documenta Matematica, Extra Volume ISMP (англ.): 389—400.

[grie2008-23] Griewank, Andreas; Walther, A. (2008). Principles and Techniques of Algorithmic Differentiation (англ.) (вид. Second). SIAM. ISBN 978-0898716597.

[schmidhuber2015-24] Schmidhuber, Jürgen (2015). Deep learning in neural networks: An overview. Neural Networks (англ.). 61: 85—117. arXiv:1404.7828. Bibcode:2014arXiv1404.7828S. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.

[scholarpedia2015-25] Schmidhuber, Jürgen (2015). Deep Learning (Section on Backpropagation). Scholarpedia (англ.). 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.

[26] Fukushima, Kunihiko (October 1979). 位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン --- [Neural network model for a mechanism of pattern recognition unaffected by shift in position — Neocognitron —]. Trans. IECE (яп.). J62-A (10): 658—665.

[27] Fukushima, Kunihiko (April 1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics (англ.). 36 (4): 193—202. doi:10.1007/BF00344251. PMID 7370364. S2CID 206775608.

[28] Le Cun, Yann. Deep Learning (англ.). CiteSeerX 10.1.1.297.6176.

[29] Hopfield, J J (April 1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences (англ.). 79 (8): 2554—2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413.

[30] Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (October 1986). Learning representations by back-propagating errors. Nature (англ.). 323 (6088): 533—536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.

[31] Watksin, Christopher (1 травня 1989). Learning from Delayed Rewards (PDF) (англ.).

[32] Markoff, John (29 серпня 1990). BUSINESS TECHNOLOGY; What's the Best Answer? It's Survival of the Fittest. New York Times (англ.). Процитовано 8 червня 2016.

[33] Tesauro, Gerald (March 1995). Temporal difference learning and TD-Gammon. Communications of the ACM (англ.). 38 (3): 58—68. doi:10.1145/203330.203343. S2CID 8763243.

[34] Tin Kam Ho (1995). Random decision forests. Proceedings of 3rd International Conference on Document Analysis and Recognition (англ.). Т. 1. с. 278—282. doi:10.1109/ICDAR.1995.598994. ISBN 0-8186-7128-9.

[35] Cortes, Corinna; Vapnik, Vladimir (September 1995). Support-vector networks. Machine Learning (англ.). 20 (3): 273—297. doi:10.1007/BF00994018.

[36] Hochreiter, Sepp; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.

[37] LeCun, Yann; Cortes, Corinna; Burges, Christopher. THE MNIST DATABASE of handwritten digits (англ.). Процитовано 16 червня 2016.

[38] Collobert, Ronan; Benigo, Samy; Mariethoz, Johnny (30 жовтня 2002). Torch: a modular machine learning software library (PDF) (англ.). Архів оригіналу (PDF) за 6 серпня 2016. Процитовано 5 червня 2016. [Архівовано 2016-08-06 у Wayback Machine.]

[39] The Netflix Prize Rules. Netflix Prize (англ.). Netflix. Архів оригіналу за 3 березня 2012. Процитовано 16 червня 2016. [Архівовано 2012-03-03 у Wayback Machine.]

[40] Gershgorn, Dave (26 липня 2017). ImageNet: the data that spawned the current AI boom — Quartz. qz.com (амер.). Процитовано 30 березня 2018.

[41] Hardy, Quentin (18 липня 2016). Reasons to Believe the A.I. Boom Is Real. The New York Times (англ.).

[42] About. Kaggle (англ.). Kaggle Inc. Архів оригіналу за 18 березня 2016. Процитовано 16 червня 2016. [Архівовано 2016-03-18 у Wayback Machine.]

[43] Markoff, John (16 лютого 2011). Computer Wins on 'Jeopardy!': Trivial, It's Not. The New York Times (англ.). с. A1.

[44] Le, Quoc V. (2013). Building high-level features using large scale unsupervised learning. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (англ.). с. 8595—8598. doi:10.1109/ICASSP.2013.6639343. ISBN 978-1-4799-0356-6. S2CID 206741597.

[45] Markoff, John (26 червня 2012). How Many Computers to Identify a Cat? 16,000. New York Times (англ.). с. B1. Процитовано 5 червня 2016.

[46] The data that transformed AI research—and possibly the world. Quartz (англ.). 26 липня 2017. Процитовано 12 вересня 2023.

[47] PhD, Pedram Ataee (3 липня 2022). Word2Vec Models are Simple Yet Revolutionary. Medium (англ.). Процитовано 12 вересня 2023.

[48] Taigman, Yaniv; Yang, Ming; Ranzato, Marc'Aurelio; Wolf, Lior (24 червня 2014). DeepFace: Closing the Gap to Human-Level Performance in Face Verification. Conference on Computer Vision and Pattern Recognition (англ.). Процитовано 8 червня 2016.

[49] Canini, Kevin; Chandra, Tushar; Ie, Eugene; McFadden, Jim; Goldman, Ken; Gunter, Mike; Harmsen, Jeremiah; LeFevre, Kristen; Lepikhin, Dmitry; Llinares, Tomas Lloret; Mukherjee, Indraneel; Pereira, Fernando; Redstone, Josh; Shaked, Tal; Singer, Yoram. Sibyl: A system for large scale supervised machine learning (PDF). Jack Baskin School of Engineering (англ.). UC Santa Cruz. Архів оригіналу (PDF) за 15 серпня 2017. Процитовано 8 червня 2016.

[50] Woodie, Alex (17 липня 2014). Inside Sibyl, Google's Massively Parallel Machine Learning Platform. Datanami (англ.). Tabor Communications. Процитовано 8 червня 2016.

[51] Google achieves AI 'breakthrough' by beating Go champion. BBC News (англ.). BBC. 27 січня 2016. Процитовано 5 червня 2016.

[52] AlphaGo. Google DeepMind (англ.). Google Inc. Архів оригіналу за 30 січня 2016. Процитовано 5 червня 2016. [Архівовано 2016-01-30 у Wayback Machine.]

[53] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017). Attention Is All You Need (англ.). arXiv:1706.03762.

[54] Sample, Ian (2 грудня 2018). Google's DeepMind predicts 3D shapes of proteins. The Guardian (англ.).

[55] Eisenstein, Michael (23 листопада 2021). Artificial intelligence powers protein-folding predictions. Nature (англ.). 599 (7886): 706—708. doi:10.1038/d41586-021-03499-y. S2CID 244528561.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]