인공지능에서 지능형 에이전트(Intelligent agent)는 환경을 지각하고, 목표를 달성하기 위해 자율적으로 행동하며, 기계 학습을 통해 또는 지식을 습득하여 성능을 향상시킬 수 있는 실체이다. 주요 AI 교과서들은 인공지능을 "지능형 에이전트의 연구 및 설계"로 정의하며, 목표 지향적 행동이 지능의 핵심임을 강조한다.
지능형 에이전트의 전문화된 하위 집합인 에이전틱 AI (또한 AI 에이전트 또는 단순히 에이전트라고도 함)는 목표를 적극적으로 추구하고, 의사결정을 내리며, 장기간에 걸쳐 행동을 취함으로써 이 개념을 확장하여 새로운 형태의 디지털 에이전시를 구현한다.[1]
지능형 에이전트는 단순한 것부터 고도로 복잡한 것까지 다양하다. 기본적인 온도조절기 또는 제어 시스템은 지능형 에이전트로 간주되며, 인간이나 기업, 국가, 생물 군계와 같이 동일한 기준을 충족하는 다른 시스템도 마찬가지이다.[2]
지능형 에이전트는 목표를 포함하는 목적 함수를 기반으로 작동한다. 이들은 완료 시 이 함수의 기대값을 최대화하는 계획을 생성하고 실행하도록 설계된다.[3] 예를 들어, 강화 학습 에이전트는 보상 함수를 가지고 있어 프로그래머가 원하는 행동을 형성할 수 있다.[4] 유사하게, 진화 알고리즘의 행동은 적합도 함수에 의해 안내된다.[5]
지능형 에이전트는 종종 컴퓨터 프로그램과 유사한 추상적인 기능 시스템으로 도식적으로 설명된다. 이론적 모델과 실제 구현을 구별하기 위해 지능형 에이전트의 추상적 설명은 추상 지능형 에이전트라고 불린다. 지능형 에이전트는 또한 사용자를 대신하여 작업을 수행하는 자율적인 컴퓨터 프로그램인 소프트웨어 에이전트와 밀접하게 관련되어 있다. 이들은 또한 경제학에서 빌려온 용어인 "합리적 에이전트"로도 불린다.[2]
AI의 기반으로서 지능형 에이전트
지능형 에이전트의 개념은 인공지능을 정의하고 이해하는 데 있어 기본적인 렌즈를 제공한다. 예를 들어, 영향력 있는 교과서인 인공지능: 현대적 접근 (러셀 & 노빅)은 다음과 같이 설명한다.
에이전트: 환경을 지각(센서 사용)하고 그에 따라 행동(액추에이터 사용)하는 모든 것. 예: 카메라와 바퀴가 있는 로봇, 데이터를 읽고 권장 사항을 제공하는 소프트웨어 프로그램.
합리적 에이전트: 자신의 지식과 과거 경험을 바탕으로 최고의 가능한 결과를 달성하기 위해 노력하는 에이전트. "최고"는 성능 측정(에이전트가 얼마나 잘하고 있는지를 평가하는 방법)으로 정의된다.
인공지능 (분야로서): 이러한 합리적 에이전트의 연구 및 생성.
다른 연구자들과 정의들도 이 기반 위에 구축된다. 패드햄과 위니코프는 지능형 에이전트가 환경 변화에 시기적절하게 반응하고, 목표를 적극적으로 추구하며, 유연하고 견고해야 한다(예상치 못한 상황을 처리할 수 있어야 함)고 강조한다. 일부는 이상적인 에이전트가 경제적 의미에서 "합리적"(최적의 선택을 함)이어야 하며, 신념, 욕구, 의도(BDI 모델)와 같은 복잡한 추론이 가능해야 한다고 제안하기도 한다. 카플란과 하인라인은 외부 데이터를 이해하고, 그 데이터로부터 학습하며, 학습한 것을 유연한 적응을 통해 목표 달성에 사용하는 시스템의 능력에 초점을 맞춘 유사한 정의를 제시한다.
인공지능을 지능형 에이전트 관점에서 정의하는 것은 몇 가지 주요 이점을 제공한다.
철학적 논쟁 회피:튜링 검사나 설의 중국어 방에서 제기되는 것처럼 인공지능이 "진정으로" 지능적인지 또는 의식적인지에 대한 논쟁을 피한다. 이는 인간의 사고를 복제하는 것이 아니라 행동과 목표 달성에 중점을 둔다.
객관적인 테스트: AI 시스템을 평가하는 명확하고 과학적인 방법을 제공한다. 연구자들은 특정 "목표 함수" (또는 목적 함수)를 얼마나 잘 최대화하는지를 측정하여 다른 접근 방식을 비교할 수 있다. 이는 기술의 직접적인 비교 및 조합을 가능하게 한다.
학제간 소통:수학적 최적화 및 경제학과 같이 "목표" 및 "합리적 에이전트"와 같은 개념을 사용하는 다른 분야의 AI 연구자들이 협력할 수 있는 공통 언어를 생성한다.
강화 학습에서 "보상 함수"는 피드백을 제공하여 원하는 행동을 장려하고 바람직하지 않은 행동을 억제한다. 에이전트는 누적 보상을 최대화하도록 학습한다.
진화 시스템에서 "적합도 함수"는 어떤 에이전트가 번식할 가능성이 더 높은지를 결정한다. 이는 유기체가 생존 및 번식 가능성을 최대화하도록 진화하는 자연 선택과 유사하다.[6]
최근접 이웃과 같이 전통적으로 에이전트로 간주되지 않는 일부 AI 시스템은 명시적으로 목표 지향적이지 않고 유추를 통해 추론한다. 그러나 이러한 시스템조차도 학습 데이터 내에 암묵적으로 정의된 목표를 가질 수 있다.[7] 이러한 시스템은 비목표 시스템을 협소한 분류 작업을 수행하는 "목표"를 가진 시스템으로 구성함으로써 여전히 벤치마킹할 수 있다.[8]
지식 표현 시스템과 같이 전통적으로 에이전트로 간주되지 않는 시스템도 질문에 정확하게 답하는 것을 목표로 하는 에이전트로 구성함으로써 때때로 패러다임에 포함된다. 여기서는 "행동"의 개념이 답변을 제공하는 "행위"를 포함하도록 확장된다. 더 나아가, 모방 기반 시스템은 IA가 원하는 행동을 얼마나 가깝게 모방하는지에 따라 "목표 함수"를 최적화하는 에이전트로 구성될 수 있다.[3] 2010년대의 생성적 적대 신경망 (GAN)에서 "인코더"/"생성기" 구성 요소는 인간의 텍스트 구성 방식을 모방하고 즉흥적으로 시도한다. 생성기는 적대적인 "예측기"/"판별기" 구성 요소를 얼마나 잘 속일 수 있는지를 나타내는 함수를 최대화하려고 시도한다.[9]
기호 AI 시스템은 종종 명시적인 목표 함수를 사용하지만, 이 패러다임은 인공 신경망 및 진화 계산에도 적용된다. 강화 학습은 "보상 함수"를 최대화하려는 방식으로 행동하는 것처럼 보이는 지능형 에이전트를 생성할 수 있다.[10] 때로는 보상 함수를 원하는 벤치마크 평가 함수와 직접 같게 설정하는 대신, 기계 학습 프로그래머는 초기 진행에 대해 기계에 보상을 주기 위해 보상 형성을 사용한다.[11]얀 르쿤은 2018년에 "사람들이 고안해낸 대부분의 학습 알고리즘은 본질적으로 어떤 목적 함수를 최소화하는 것으로 구성되어 있다"고 말했다.[12]알파제로 체스는 승리 시 +1점, 패배 시 -1점이라는 단순한 목적 함수를 가지고 있었다. 자율 주행 차량의 목적 함수는 더 복잡할 것이다.[13] 진화 계산은 각 에이전트가 남길 수 있는 자손 수에 영향을 미치는 "적합도 함수"를 최대화하려는 방식으로 행동하는 것처럼 보이는 지능형 에이전트를 진화시킬 수 있다.[5]
AIXI의 수학적 형식주의는 이 패러다임에서 최대 지능형 에이전트로 제안되었다.[14] 그러나 AIXI는 계산 불가능. 현실 세계에서 IA는 유한한 시간과 하드웨어 자원에 제약을 받으며, 과학자들은 기존 하드웨어로 벤치마크 테스트에서 점진적으로 더 높은 점수를 달성하는 알고리즘을 생산하기 위해 경쟁한다.[15]
에이전트 함수
지능형 에이전트의 행동은 에이전트 함수로 수학적으로 설명될 수 있다. 이 함수는 에이전트가 본 것을 기반으로 무엇을 할지 결정한다.
인식은 특정 시점에서 에이전트의 감각 입력를 말한다. 예를 들어, 자율 주행 차량의 인식에는 특정 순간의 카메라 이미지, 라이다 데이터, GPS 좌표 및 속도 판독값이 포함될 수 있다. 에이전트는 이러한 인식과 잠재적으로 인식의 이력을 사용하여 다음 행동(예: 가속, 제동, 회전)을 결정한다.
에이전트 함수는 종종 f로 표시되며, 에이전트의 전체 인식 이력을 행동에 매핑한다.[16]
수학적으로는 다음과 같이 표현할 수 있다.
여기서:
P\*는 가능한 모든 인식 시퀀스의 집합(에이전트의 전체 인식 이력)을 나타낸다. 별표(*)는 0개 이상의 인식 시퀀스를 나타낸다.
A는 에이전트가 취할 수 있는 가능한 모든 행동의 집합을 나타낸다.
f는 인식 시퀀스를 행동에 매핑하는 에이전트 함수이다.
에이전트 함수(추상적인 수학적 개념)와 에이전트 프로그램(그 함수의 구체적인 구현)을 구별하는 것이 중요하다.
에이전트 함수는 이론적인 설명이다.
에이전트 프로그램은 에이전트에서 실행되는 실제 코드이다. 에이전트 프로그램은 현재 인식을 입력으로 받아 행동을 출력으로 생성한다.
단순 반사 에이전트는 현재 지각에만 근거하여 행동하며, 나머지 지각 이력을 무시한다. 에이전트 함수는 조건-행동 규칙, 즉 "만약 조건이면, 행동"에 기반한다.
이 에이전트 함수는 환경이 완전히 관찰 가능할 때만 성공한다. 일부 반사 에이전트는 현재 상태에 대한 정보를 포함할 수도 있으며, 이를 통해 액추에이터가 이미 작동 중인 조건을 무시할 수 있다.
단순 반사 에이전트가 부분적으로 관찰 가능한 환경에서 작동하는 경우 무한 루프는 종종 피할 수 없다. 에이전트가 행동을 무작위화할 수 있다면 무한 루프에서 벗어날 수 있다.
온도가 특정 지점 이하로 떨어지면 켜지거나 꺼지는 가정용 온도조절기는 단순 반사 에이전트의 한 예이다.[19][20]
모델 기반 반사 에이전트
모델 기반 반사 에이전트
모델 기반 에이전트는 부분적으로 관찰 가능한 환경을 처리할 수 있다. 현재 상태는 에이전트 내부에 저장되어 있으며, 보이지 않는 세계의 일부를 설명하는 구조를 유지한다. "세계가 어떻게 작동하는지"에 대한 이러한 지식을 세계의 모델이라고 부르며, 따라서 "모델 기반 에이전트"라는 이름이 붙었다.
모델 기반 반사 에이전트는 지각 이력에 의존하며 현재 상태의 관찰되지 않은 측면 중 일부라도 반영하는 일종의 내부 모델을 유지해야 한다. 지각 이력과 환경에 대한 행동의 영향은 내부 모델을 사용하여 결정할 수 있다. 그런 다음 반사 에이전트와 동일한 방식으로 행동을 선택한다.
에이전트는 환경 내의 다른 에이전트의 행동을 설명하고 예측하는 데 모델을 사용할 수도 있다.[21]
목표 기반 에이전트
모델 기반, 목표 기반 에이전트
목표 기반 에이전트는 "목표" 정보를 사용하여 모델 기반 에이전트의 기능을 더욱 확장한다. 목표 정보는 바람직한 상황을 설명한다. 이는 에이전트가 여러 가능성 중에서 목표 상태에 도달하는 것을 선택하는 방법을 제공한다. 탐색 및 계획은 에이전트의 목표를 달성하는 행동 시퀀스를 찾는 데 전념하는 인공지능의 하위 분야이다.
목표 기반 에이전트는 목표 상태와 비목표 상태만을 구별한다. 특정 상태가 얼마나 바람직한지에 대한 척도를 정의하는 것도 가능하다. 이 척도는 상태의 효용을 측정하는 효용 함수를 사용하여 얻을 수 있다. 더 일반적인 성능 측정은 에이전트의 목표를 얼마나 잘 충족했는지에 따라 다른 세계 상태를 비교할 수 있도록 해야 한다. 효용이라는 용어는 에이전트가 얼마나 "행복한지"를 설명하는 데 사용될 수 있다.
합리적인 효용 기반 에이전트는 행동 결과의 기대 효용을 최대화하는 행동을 선택한다. 즉, 각 결과의 확률과 효용을 고려할 때 에이전트가 평균적으로 얻을 것으로 예상하는 것을 선택한다. 효용 기반 에이전트는 환경을 모델링하고 추적해야 하며, 이러한 작업은 지각, 표현, 추론 및 학습에 대한 많은 연구를 수반했다.
학습 에이전트
일반적인 학습 에이전트
학습을 통해 에이전트는 알 수 없는 환경에서 시작하여 점차 초기 지식의 한계를 넘어설 수 있다. 이러한 에이전트의 핵심적인 구분은 성능 향상을 담당하는 "학습 요소"와 외부 행동 선택을 담당하는 "성능 요소"의 분리이다.
학습 요소는 "평론가"로부터 피드백을 수집하여 에이전트의 성능을 평가하고, "행위자"라고도 불리는 성능 요소를 어떻게 조정하여 더 나은 결과를 산출할 수 있는지 결정한다. 이전에는 전체 에이전트로 간주되었던 성능 요소는 인식을 해석하고 행동을 취한다.
최종 구성 요소인 "문제 생성기"는 탐색과 추가 개선을 장려하는 새롭고 유익한 경험을 제안한다.
지능형 에이전트는 여러 "하위 에이전트"로 계층적으로 구성될 수 있다. 이 하위 에이전트들은 하위 수준 기능을 처리하며, 주 에이전트와 함께 복잡한 작업을 실행하고 어려운 목표를 달성할 수 있는 완전한 시스템을 형성한다.
일반적으로 에이전트는 센서와 액추에이터로 나뉘어 구성된다. 지각 시스템은 센서를 통해 환경으로부터 입력을 수집하여 이 정보를 중앙 제어기로 전달하고, 중앙 제어기는 액추에이터에 명령을 내린다. 종종 하위 수준 작업에 필요한 빠른 응답과 상위 수준 목표에 필요한 더 심사숙고한 추론의 균형을 맞추기 위해 다층 제어기 계층이 필요하다.[25]
다른 정의 및 용법
"지능형 에이전트"는 종종 "가상 개인 비서"와 동의어로 모호하게 사용되기도 한다.[26] 20세기 정의 중 일부는 에이전트를 사용자를 돕거나 사용자를 대신하여 행동하는 프로그램으로 특징짓는다.[27] 이러한 예는 소프트웨어 에이전트로 알려져 있으며, 때로는 "지능형 소프트웨어 에이전트"(즉, 지능을 가진 소프트웨어 에이전트)를 "지능형 에이전트"라고 부르기도 한다.
생성형 인공지능의 맥락에서 AI 에이전트 (복합 AI 시스템이라고도 함)는 복잡한 환경에서 자율적으로 작동할 수 있는 능력으로 구별되는 지능형 에이전트의 한 종류이다. 에이전틱 AI 도구는 콘텐츠 생성보다 의사결정을 우선시하며, 인간의 프롬프트나 지속적인 감독을 요구하지 않는다.[29]
이들은 복잡한 목표 구조, 자연어 인터페이스, 사용자 감독 없이 독립적으로 행동할 수 있는 능력, 소프트웨어 도구 또는 계획 시스템 통합을 포함한 여러 가지 주요 속성을 가지고 있다. 이들의 제어 흐름은 대형 언어 모델 (LLM)에 의해 자주 구동된다.[30]
에이전트 간 통신 표준화를 위한 제안된 프로토콜에는 에이전트 프로토콜(랭체인), 모델 컨텍스트 프로토콜 (앤트로픽), AGNTCY,[47]기버링크,[48] 에이전트의 인터넷,[49] 에이전트2에이전트(구글),[50] 그리고 에이전트 네트워크 프로토콜 등이 있다.[51] 에이전트 신뢰성 문제를 해결하기 위한 소프트웨어 프레임워크로는 AgentSpec, ToolEmu, GuardAgent, Agentic Evaluations, 그리고 H2O.ai의 예측 모델 등이 있다.[52]
2025년 2월, 허깅 페이스는 오픈AI 딥 리서치의 오픈 소스 버전인 오픈 딥 리서치를 출시했다.[53] 허깅 페이스는 또한 오픈AI 오퍼레이터와 유사한 무료 웹 브라우저 에이전트를 출시했다.[54] 갈릴레오 AI는 에이전트의 리더보드를 허깅 페이스에 게시하여, 에이전트의 성능을 기반 LLM에 따라 순위를 매긴다.[55]
2024년 말까지 출시된 67개 에이전트에 대한 비피어리뷰 연구 조사는 대부분의 에이전트가 미국 개발자에 의해 기업용으로 구축되었으며, 코딩 또는 컴퓨터 상호작용을 목적으로 하며, 코드나 문서를 가지고 있지만 안전 정책이나 평가가 부족하다는 사실을 발견했다.[56]
CSIRO 연구원들의 비피어리뷰 논문은 생산에 사용되는 에이전트를 모니터링하기 위한 소프트웨어 프레임워크를 나열하고, 에이전트옵스와 관련된 개념 분류를 제안한다.[57]
자율적 능력
파이낸셜 타임스는 AI 에이전트의 자율성을 자율 주행 자동차의 SAE 분류와 비교하며, 대부분의 응용 프로그램이 레벨 2 또는 레벨 3에 해당하고, 일부는 고도로 전문화된 상황에서 레벨 4를 달성하며, 레벨 5는 이론적이라고 비교했다.[58]
멀티모달 AI 에이전트
대형 언어 모델(LLM) 외에도 비전 언어 모델(VLM) 및 멀티모달기반 모델은 에이전트의 기반으로 사용될 수 있다. 2024년 9월, 앨런 AI 연구소는 오픈 소스 비전 언어 모델을 출시했는데, 와이어드는 이 모델이 AI 에이전트에 복잡한 컴퓨터 작업을 수행할 수 있는 능력을 부여할 수 있다고 언급했으며, 자동화된 컴퓨터 해킹의 가능성도 포함된다.[59]엔비디아는 개발자가 VLM, LLM 및 검색증강생성을 사용하여 이미지와 비디오를 분석할 수 있는 AI 에이전트를 구축할 수 있는 프레임워크를 출시했다(비디오 검색 및 비디오 요약 포함).[60][61] 마이크로소프트는 이미지, 비디오, 소프트웨어 사용자 인터페이스 상호작용 및 로봇공학 데이터로 훈련된 멀티모달 에이전트 모델을 출시했으며, 이 회사는 이 모델이 소프트웨어 및 로봇을 조작할 수 있다고 주장했다.[62]
응용
2025년 4월 현재, AP 통신에 따르면 AI 에이전트의 실제 적용 사례는 거의 없다.[63] 2025년 6월 현재, 포춘에 따르면 많은 기업들이 주로 AI 에이전트를 실험하고 있다.[64]
정부효율부의 한 채용 담당자는 2025년 4월에 오픈AI의 자금 지원과 팔란티어와의 파트너십 계약을 통해 스타트업의 일환으로 AI 에이전트를 사용하여 약 7만 명의 미국 연방 공무원 업무를 자동화할 것을 제안했다. 이 제안은 그 비현실성, 심지어 불가능성, 그리고 기업들의 해당 분야에서의 광범위한 채택 부족으로 인해 전문가들의 비판을 받았다.[65]
제안된 이점
옹호자들은 AI 에이전트가 개인 및 경제 생산성을 높이고,[35][66] 더 큰 혁신을 촉진하며,[67] 사용자에게 단조로운 작업에서 벗어나게 해 줄 수 있다고 주장한다.[67][68]블룸버그의 파미 올슨은 에이전트가 낮은 위험의 협소하고 반복적인 작업에 가장 적합하다고 주장했다.[69] 반대로, 연구자들은 에이전트가 장애인을 위한 웹 접근성에 적용될 수 있다고 제안하며,[70][71] 허깅 페이스의 연구원들은 에이전트가 재난 대응과 같은 상황에서 자원을 조율하는 데 사용될 수 있다고 제안한다.[72]BBC의 R&D 자문팀은 AI 에이전트가 할당된 목표가 불확실할 때 가장 유용하다고 본다.[73]
언론인들은 AI 에이전트를 빅테크 기업들이 "모든 것을 자동화"하려는 시도의 일부로 묘사했다.[84] 이들 기업의 여러 CEO들은 2025년 초에 AI 에이전트가 결국 "노동력에 합류할 것"이라고 밝혔다.[85][86] 그러나 비피어리뷰 연구에서 카네기 멜런 대학교 연구원들은 시뮬레이션된 소프트웨어 회사에서 에이전트의 행동을 테스트한 결과, 어떤 에이전트도 할당된 작업의 대다수를 완료할 수 없다는 것을 발견했다.[85][87] 다른 연구자들도 데빈 AI에서 비슷한 결과를 발견했다.[88]
2025년 3월, 스케일 AI는 미국 국방부와 계약을 체결하여 앤더릴 인더스트리 및 마이크로소프트와 협력하여 군의 "작전 의사결정"을 지원하기 위한 AI 에이전트를 개발 및 배치하기로 했다.[90] 연구자들은 에이전트와 이들이 기반으로 하는 대규모 언어 모델이 공격적인 외교 정책 결정에 편향될 수 있다고 우려를 표했다.[91][92]
연구 중심 에이전트는 공용 인터넷에서 사용 가능한 정보를 수집하므로 합의 편향 및 범위 편향의 위험이 있다.[93]뉴욕 매거진은 에이전트 기반 웹 브라우저의 사용자 워크플로우를 아마존 알렉사와 불리하게 비교했는데, 알렉사는 "인간이 소프트웨어인 척하며 소프트웨어를 사용하는 것이 아니라 소프트웨어가 소프트웨어와 대화하는 것"이었다.[94]
에이전트는 온라인 콘텐츠를 게시하고 참여할 수 있는 능력 때문에 죽은 인터넷 이론과 연관되어 왔다.[95]
많은 에이전트 간 프로토콜이 대규모 기술 기업에 의해 개발되고 있기 때문에, 이들 기업이 이러한 프로토콜을 자사 이익을 위해 사용할 수 있다는 우려가 있다.[51]
가능한 완화책
지코 콜터는 에이전트 간 상호 작용의 결과로 점진적 행동이 발생할 가능성을 언급하며, 이러한 상호 작용의 위험을 모델링하기 위해 게임 이론 연구를 제안했다.[97]
비즈니스 인사이더가 "정확하지 않은 콘텐츠를 식별하고 제거하는 데 사용될 수 있는 필터, 규칙 및 도구"로 정의한 가드레일은 오류를 줄이는 데 도움이 될 수 있다고 제안되었다.[98]
데이터 접근과 관련된 보안 취약점을 해결하기 위해 언어 모델을 재설계하여 지침과 데이터를 분리하거나, 에이전트 애플리케이션에 가드레일을 포함하도록 요구할 수 있다. 이러한 아이디어는 마이크로소프트 365 코파일럿에 영향을 미친 제로 클릭 공격에 대한 대응으로 제안되었다.[64]
응용
자율 주행 자동차를 위한 에이전트 기반 모델링 개념은 2003년 일찍이 논의되었다.[99]
할러바흐 외 연구진은 자동화된 주행 시스템 개발 및 검증을 위한 에이전트 기반 접근 방식을 탐구했다. 그들의 방법은 테스트 대상 차량의 디지털 트윈과 독립 에이전트를 사용한 미세 교통 시뮬레이션을 포함했다.[100]
웨이모는 무인 자동차의 알고리즘을 테스트하기 위해 카크래프트라는 다중 에이전트 시뮬레이션 환경을 개발했다.[101][102] 이 시스템은 인간 운전자, 보행자, 자율 주행 차량 간의 상호 작용을 시뮬레이션한다. 인공 에이전트는 실제 데이터를 사용하여 인간의 행동을 복제한다.
↑ 가나Bringsjord, Selmer; Govindarajulu, Naveen Sundar (2018년 7월 12일). 〈Artificial Intelligence〉. Edward N. Zalta. 《The Stanford Encyclopedia of Philosophy (Summer 2020 Edition)》.
↑Andrew Y. Ng, Daishi Harada, and Stuart Russell. "Policy invariance under reward transformations: Theory and application to reward shaping." In ICML, vol. 99, pp. 278-287. 1999.
↑마틴 포드. Architects of Intelligence: The truth about AI from the people building it. Packt Publishing Ltd, 2018.
↑Stefano Albrecht and Peter Stone (2018). Autonomous Agents Modelling Other Agents: A Comprehensive Survey and Open Problems.
Artificial Intelligence, Vol. 258, pp. 66-95. https://doi.org/10.1016/j.artint.2018.01.002
↑Deng, Xiang; Gu, Yu; Zheng, Boyuan; Chen, Shijie; Stevens, Samuel; Wang, Boshi; Sun, Huan; Su, Yu (2023). “Mind2Web: Towards a Generalist Agent for the Web”. arXiv:2306.06070 [cs.CL].더 이상 지원되지 않는 변수를 사용함 (도움말)
↑“We did the math on AI’s energy footprint. Here’s the story you haven’t heard.”. 《MIT 테크놀로지 리뷰》 (영어). 2025년 5월 20일. 2025년 5월 20일에 원본 문서에서 보존된 문서. 2025년 6월 12일에 확인함. We started small, as the question of how much a single query costs is vitally important to understanding the bigger picture. That's because those queries are being built into ever more applications beyond standalone chatbots: from search, to agents, to the mundane daily apps we use to track our fitness, shop online, or book a flight. The energy resources required to power this artificial-intelligence revolution are staggering, and the world's biggest tech companies have made it a top priority to harness ever more of that energy, aiming to reshape our energy grids in the process.
↑“Inside the effort to tally AI’s energy appetite”. 《MIT 테크놀로지 리뷰》 (영어). 2025년 6월 3일. 2025년 6월 3일에 원본 문서에서 보존된 문서. 2025년 6월 12일에 확인함. Lots of AI companies are building reasoning models, which "think" for longer and use more energy. They're building hardware devices, perhaps like the one Jony Ive has been working on (which OpenAI just acquired for $6.5 billion), that have AI constantly humming along in the background of our conversations. They're designing agents and digital clones of us to act on our behalf. All these trends point to a more energy-intensive future (which, again, helps explain why OpenAI and others are spending such inconceivable amounts of money on energy).
↑Wong, Matteo (2025년 3월 14일). “Was Sam Altman Right About the Job Market?”. 《디 애틀랜틱》 (영어). 2025년 3월 17일에 원본 문서에서 보존된 문서. 2025년 4월 2일에 확인함. In other words, flawed products won't stop tech companies' push to automate everything—the AI-saturated future will be imperfect at best, but it is coming anyway.
↑Connors, J.; Graham, S.; Mailloux, L. (2018). 《Cyber Synthetic Modeling for Vehicle-to-Vehicle Applications》. 《In International Conference on Cyber Warfare and Security》 (Academic Conferences International Limited). 594-XI쪽.