본 논문은 보편적으로 복잡한 문제로 정의되던 테트리스 게임을 강화학습을 통해 해결하기 위한 아키텍처를 구현하였다. 테트리스 게임은 무작위로 나타나는 블록의 모양과 회전의 형태를 고려해서 블록을 최적의 위치에 신속하게 쌓아야 하므로, actor의 빠른 판단능력과 반응속도를 요구한다. 또한, 다양한 블록의 형태와 순서로 인해 매우 많은 경우의 수가 나타나기 때문에 수행의 주체가 사람이라면 단순히 기억력과 암기에 의존하는 방법으로는 수행에 한계가 있다. 따라서 본 연구에서 구현한 강화학습 아키텍처의 경우 학습 모델의 구현뿐 아니라 의사결정의 정확성을 높일 수 있는 휴리스틱을 보상에 가중치로 활용하는 방식으로 접목하였고, 그 결과 사람이 직접 게임을 수행하는 것에 비해 보편적으로 높은 점수를 얻을 수 있었다. 아직은 해당 분야를 완전히 정복하였다고 표현할 수는 없지만, 여러 번의 실험에서도 일반적인 사람에 비해서 더욱 좋은 플레이를 할 수 있었다. 하지만 성능에 가장 큰 영향을 미치는 요소가 학습 모델보다 휴리스틱에서 비롯되고 있다는 단점도 식별하였다. 이에 본 논문에서는 이러한 아키텍처의 구조와 사용한 기술들과 알고리즘에 대해 자세히 기술하였으며 접근 방향을 제시한다.