드리머 AI, 인간 조언 없이 마인크래프트 다이아몬드 채굴

0
드리머 AI, 구글 딥마인드, 마인크래프트 인공지능, 강화학습, 피지컬AI, 다이아몬드 채굴, 미래 예측 AI, 시행착오 학습, 로봇 인공지능, AI 모델
(사진 출처-나무위키 캡처)
드리머 AI, 구글 딥마인드, 마인크래프트 인공지능, 강화학습, 피지컬AI, 다이아몬드 채굴, 미래 예측 AI, 시행착오 학습, 로봇 인공지능, AI 모델
(사진 출처-나무위키 캡처)

구글 딥마인드가 개발한 인공지능(AI) 모델 ‘드리머(Dreamer)’가 마인크래프트(Minecraft) 세계에서 인간의 조언이나 플레이 데이터를 전혀 참고하지 않고도 다이아몬드를 채굴하는 데 성공했다.

시행착오와 강화학습만으로 이뤄낸 결과로, 향후 피지컬AI 기술의 현실 적용 가능성을 높이고 있다.

마인크래프트 내 다이아몬드는 가장 희귀하면서도 높은 성능의 장비를 제작할 수 있는 자원이다.

단순한 탐험만으로는 얻을 수 없고, 다단계의 도구 제작과 자원 수집이 필수다.

이에 따라 사람들 사이에서는 가장 빠른 시간 안에 다이아몬드를 얻는 기록 경쟁 콘텐츠도 활발히 이뤄지고 있다.

드리머는 마인크래프트 내에서 다이아몬드를 얻기 위해 나무나 철 등의 자원을 채굴하고, 철 곡괭이와 같은 도구를 제작하는 등 12단계에 달하는 복잡한 절차를 스스로 습득했다.

연구팀은 이 과정에서 각 단계를 완료할 때마다 드리머에게 보상을 제공하는 방식의 알고리즘을 적용했다.

이와 같은 방식은 인공지능이 최종 목표에 도달하기 위해 어떤 행동이 더 효율적인지를 스스로 학습하게 만든다.

연구는 다니야르 하프너 구글 딥마인드 연구원팀이 주도했으며, 관련 논문은 2일(현지시간) 국제학술지 ‘네이처(Nature)’에 게재됐다.

연구팀은 “개발된 모델은 AI 시스템에 미래를 상상하는 능력을 준다”며

“드리머의 능력이 현실 세계에서 상호작용하는 로봇을 만드는 데 도움이 될 수 있다”고 밝혔다.

드리머 AI는 마인크래프트 내 무작위로 생성되는 3차원 가상세계에서 매번 새로운 환경을 마주한다.

플레이어는 숲과 사막, 동굴 등 다양한 지형을 탐험하고 자원을 수집하는 게임을 진행하게 되는데, AI에게도 그와 같은 유동적 환경에 적응하는 능력이 요구된다.

이는 현실 세계에서 유연하게 사고하고 대응해야 하는 로봇 개발에 필수적인 능력이다.

연구팀은 드리머가 특정 상황에 익숙해지지 않도록 30분마다 게임을 초기화했다.

이를 통해 드리머는 특정 지형이나 자원 배치에 의존하지 않고, 일반화된 규칙을 익히도록 학습됐다.

또한 드리머는 미래 시나리오를 예측하면서 보상과 무관한 행동을 배제하는 방식을 통해 효율적인 경로를 스스로 설계했다.

현재 드리머는 다이아몬드를 하나 이상 얻기 위해 약 9일 정도의 시간이 소요된다.

이는 마인크래프트에 능숙한 플레이어가 30분 내외로 달성할 수 있는 시간에 비하면 길지만, 인간의 지도나 데이터 없이 독립적으로 학습해낸 성과라는 점에서 주목된다.

일반 초보자보다 느리지만, 학습 효율은 꾸준히 개선되고 있는 것으로 보인다.

기존 인공지능 모델은 다이아몬드를 채굴하는 방법을 학습하기 위해 인간의 게임 플레이 영상을 시청하거나 사람이 직접 개입해 가이드를 제공해야 했다.

그러나 드리머는 이러한 의존 없이 중간 보상과 시행착오만으로 최적의 행동을 도출하는 데 성공했다.

연구자들은 이번 성과가 향후 마인크래프트의 엔딩을 보는 분기가 되는 강력한 적인 ‘엔더 드래곤’을 드리머가 스스로 처치할 수 있는 가능성까지 시사한다고 평가했다.

AI가 가상의 세계를 넘어 현실에서의 복잡한 문제 해결 능력을 갖추게 될 날이 점점 가까워지고 있다는 분석이다.

다른기사보기

신혜연 (karung2@sabanamedia.com) 기사제보

0 0 votes
Article Rating
Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments