검색결과

검색조건
좁혀보기
검색필터
결과 내 재검색

간행물

    분야

      발행연도

      -

        검색결과 29

        23.
        2019.09 KCI 등재 구독 인증기관 무료, 개인회원 유료
        최근, 여러 분야에서의 AI가 빠르게 성장하였고 게임에서도 큰 발전이 있었다. 게임 AI에 대한 접근 방법은 여러 가지가 있다. 먼저 지도 학습 기반 접근 방법은 게임 플레이 데이터에서 학습하고, 플레이 행동을 흉내 낸다. 그러나, 지도 학습 기반 접근 방법은 입력 자질을 선형 조합하므로, 복잡한 문제에는 성능 향상에 한계가 있다. 선형 조합에 따른 성능 한계를 개선하기 위해, 딥 뉴럴 네트워크 기반 접근방법은 지역적 특성 및 전역적 특성을 개별적으로 각각 표현하기 위해 둘 이상의 뉴럴 네트워크를 사용한다. 그러나 딥 뉴럴 네트워크 기반 접근방법은 충분한 학습 집합이 필요하다. 학습 집합을 준비해야 하는 부담을 줄이기 위해서, 강화 학습 기반 접근 방식은 Agent가 먼저 Action을 하고 이에 따른 보상을 분석하여 학습한다. 즉, 이 접근방법은 Agent가 최대 보상을 받도록 학습한다. 본 논문에서는 강화 학습을 통해 여러 게임에서 학습하는 AI를 제안한다. 제안하는 AI 모델은 개별 게임에서 Local Agent가 플레이하고, 여러 Local Agent에서 Global Agent를 학습한다. 실험 결과, 한 게임에서 학습한 Agent는 학습했던 게임에서는 우수한 성능을 보여주었지만, 새로운 게임에서는 성능이 떨어졌다. 반면에, 두 게임에서 학습한 제안하는 Agent는 학습한 게임과 새로운 게임 모두에서 잘 적응했다.
        4,000원
        24.
        2019.06 KCI 등재 구독 인증기관 무료, 개인회원 유료
        본 논문은 보편적으로 복잡한 문제로 정의되던 테트리스 게임을 강화학습을 통해 해결하기 위한 아키텍처를 구현하였다. 테트리스 게임은 무작위로 나타나는 블록의 모양과 회전의 형태를 고려해서 블록을 최적의 위치에 신속하게 쌓아야 하므로, actor의 빠른 판단능력과 반응속도를 요구한다. 또한, 다양한 블록의 형태와 순서로 인해 매우 많은 경우의 수가 나타나기 때문에 수행의 주체가 사람이라면 단순히 기억력과 암기에 의존하는 방법으로는 수행에 한계가 있다. 따라서 본 연구에서 구현한 강화학습 아키텍처의 경우 학습 모델의 구현뿐 아니라 의사결정의 정확성을 높일 수 있는 휴리스틱을 보상에 가중치로 활용하는 방식으로 접목하였고, 그 결과 사람이 직접 게임을 수행하는 것에 비해 보편적으로 높은 점수를 얻을 수 있었다. 아직은 해당 분야를 완전히 정복하였다고 표현할 수는 없지만, 여러 번의 실험에서도 일반적인 사람에 비해서 더욱 좋은 플레이를 할 수 있었다. 하지만 성능에 가장 큰 영향을 미치는 요소가 학습 모델보다 휴리스틱에서 비롯되고 있다는 단점도 식별하였다. 이에 본 논문에서는 이러한 아키텍처의 구조와 사용한 기술들과 알고리즘에 대해 자세히 기술하였으며 접근 방향을 제시한다.
        4,500원
        25.
        2020.06 KCI 등재 서비스 종료(열람 제한)
        In this paper, we present a learning platform for robotic grasping in real world, in which actor-critic deep reinforcement learning is employed to directly learn the grasping skill from raw image pixels and rarely observed rewards. This is a challenging task because existing algorithms based on deep reinforcement learning require an extensive number of training data or massive computational cost so that they cannot be affordable in real world settings. To address this problems, the proposed learning platform basically consists of two training phases; a learning phase in simulator and subsequent learning in real world. Here, main processing blocks in the platform are extraction of latent vector based on state representation learning and disentanglement of a raw image, generation of adapted synthetic image using generative adversarial networks, and object detection and arm segmentation for the disentanglement. We demonstrate the effectiveness of this approach in a real environment.
        26.
        2019.06 KCI 등재 서비스 종료(열람 제한)
        Robots are used in various industrial sites, but traditional methods of operating a robot are limited at some kind of tasks. In order for a robot to accomplish a task, it is needed to find and solve accurate formula between a robot and environment and that is complicated work. Accordingly, reinforcement learning of robots is actively studied to overcome this difficulties. This study describes the process and results of learning and solving which applied reinforcement learning. The mission that the robot is going to learn is bottle flipping. Bottle flipping is an activity that involves throwing a plastic bottle in an attempt to land it upright on its bottom. Complexity of movement of liquid in the bottle when it thrown in the air, makes this task difficult to solve in traditional ways. Reinforcement learning process makes it easier. After 3-DOF robotic arm being instructed how to throwing the bottle, the robot find the better motion that make successful with the task. Two reward functions are designed and compared the result of learning. Finite difference method is used to obtain policy gradient. This paper focuses on the process of designing an efficient reward function to improve bottle flipping motion.
        27.
        2017.09 KCI 등재 서비스 종료(열람 제한)
        As the development of autonomous vehicles becomes realistic, many automobile manufacturers and components producers aim to develop ‘completely autonomous driving’. ADAS (Advanced Driver Assistance Systems) which has been applied in automobile recently, supports the driver in controlling lane maintenance, speed and direction in a single lane based on limited road environment. Although technologies of obstacles avoidance on the obstacle environment have been developed, they concentrates on simple obstacle avoidances, not considering the control of the actual vehicle in the real situation which makes drivers feel unsafe from the sudden change of the wheel and the speed of the vehicle. In order to develop the ‘completely autonomous driving’ automobile which perceives the surrounding environment by itself and operates, ability of the vehicle should be enhanced in a way human driver does. In this sense, this paper intends to establish a strategy with which autonomous vehicles behave human-friendly based on vehicle dynamics through the reinforcement learning that is based on Q-learning, a type of machine learning. The obstacle avoidance reinforcement learning proceeded in 5 simulations. The reward rule has been set in the experiment so that the car can learn by itself with recurring events, allowing the experiment to have the similar environment to the one when humans drive. Driving Simulator has been used to verify results of the reinforcement learning. The ultimate goal of this study is to enable autonomous vehicles avoid obstacles in a human-friendly way when obstacles appear in their sight, using controlling methods that have previously been learned in various conditions through the reinforcement learning.
        28.
        2017.08 KCI 등재 서비스 종료(열람 제한)
        보드게임은 많은 수의 말들과 상태공간을 갖고 있다. 그러므로 게임은 학습을 오래 하여야 한다. 그러나 강화학습은 학습초기에 학습속도가 느려지는 단점이 있다. 그러므로 학습 도중에 동일한 최선 값이 있을 때, 영향력분포도를 고려한 문제 영역 지식을 활용한 휴리스틱을 사용해 학습의 속도 향상을 시도하였다. 기존 구현된 말과 개선 구현된 말을 비교하기 위해 보드게임을 제작하였다. 그래서 일방공격형 말과 승부를 하게 하였다. 실험결과 개선 구현된 말의 성능이 학습속도 측면에서 향상됨을 알 수 있었다.
        29.
        2001.11 KCI 등재 서비스 종료(열람 제한)
        This paper describes a program which learns good strategies for two-poison, deterministic, zero-sum board games of perfect information. The program learns by simply playing the game against either a human or computer opponent. The results of the program's teaming of a lot of games are reported. The program consists of search kernel and a move generator module. Only the move generator is modified to reflect the rules of the game to be played. The kernel uses a temporal difference procedure combined with a backpropagation neural network to team good evaluation functions for the game being played. Central to the performance of the program is the search procedure. This is a the capture tree search used in most successful janggi playing programs. It is based on the idea of using search to correct errors in evaluations of positions. This procedure is described, analyzed, tested, and implemented in the game-teaming program. Both the test results and the performance of the program confirm the results of the analysis which indicate that search improves game playing performance for sufficiently accurate evaluation functions.
        1 2