검색결과

검색조건
좁혀보기
검색필터
결과 내 재검색

간행물

    분야

      발행연도

      -

        검색결과 45

        1.
        2026.06 KCI 등재 구독 인증기관 무료, 개인회원 유료
        The optimal design of steel plate girders has traditionally relied on meta-heuristic techniques, such as Genetic Algorithms (GA), to handle discrete design variables and complex non-linear constraints, including shear buckling and section classification. However, these methods suffer from high computational costs as they require repetitive re-optimization for every new load condition. To address this limitation, this study proposes a highly efficient Sequential Multi-Agent Reinforcement Learning (MARL) framework based on the Agent-Environment Cycle (AEC) architecture. Unlike parallel one-shot approaches, the proposed model effectively learns the dependencies between design variables by determining them sequentially. Furthermore, to maximize cost efficiency during the inference phase, we introduce an Adaptive Inference Chain combined with a deterministic DCR-based Shrink-Refine algorithm. Experimental results on 100 diverse load cases demonstrate that the proposed method achieves an average cost reduction of 8.2% compared to the GA baseline while maintaining 100% feasibility. With an inference time reduced to approximately 76 ms, the model demonstrates significant potential for real-time automated design. Additionally, an in-depth analysis of cases where the Demand-Capacity Ratio (DCR) fell short of the target clarifies the exploration limits within the discrete design space and validates the robustness of the algorithm.
        4,000원
        5.
        2026.02 KCI 등재 구독 인증기관 무료, 개인회원 유료
        이 논문에서는 강화학습 기반 제어기와 전통적인 제어기를 동일한 조건에서 비교함으로써 구조 진동 제어 문제에서 강화학습 제 어기의 성능 특성과 한계를 규명하는 것을 목적으로 한다. 가장 단순한 비선형 제어로서 단자유도 가변 강성 시스템을 대상으로 심층 결정적 정책 경사(DDPG) 기반의 강화 학습 제어기를 설계하고, bang-bang 제어 및 제한 최적 제어와의 성능 비교를 수행하였다. 자유 진동 및 El Centro 지진 가속도에 의한 강제 진동 조건에서 공칭 성능과 센서 잡음이 존재하는 경우의 강인 성능을 분석하였다. 그 결 과, 강화학습 제어기는 자유 진동 조건에서 우수한 강인 성능을 보였으나, 강제 진동 제어에서는 기존 제어기를 일관되게 상회하지는 못하였다. 이 연구는 동일한 보상 함수와 시스템 조건 하에서 강화학습 기반 진동 제어의 실질적 기여와 적용상의 한계를 기초적으로 제시하였다.
        4,000원
        6.
        2026.01 KCI 등재 구독 인증기관 무료, 개인회원 유료
        게임 콘텐츠가 점점 복잡해짐에 따라 기존의 수동 테스트 및 스크립트 기반 테스트 방법 은 비용과 테스트 범위 측면에서 한계를 보이고 있다. 본 연구에서는 픽셀 수준의 시각 정 보만을 사용하여 게임의 그래픽 사용자 인터페이스(GUI)와 상호작용하는 딥 강화학습(DRL) 기반 자동 게임 테스트 에이전트를 제안한다. 제안된 에이전트는 ResNet18 기반 시각 인식 모듈과 Proximal Policy Optimization(PPO) 알고리즘을 결합하여, 게임에 대한 어떠한 선 해 정보 없이도 게임 내 장애물을 만났을 때 점프, 웅크리기, 벽 오르기와 같은 회피 방법 을 효과적으로 선택할 수 있다. 실험 결과, 제안된 에이전트는 다양한 장애물 구성 환경에 서 무작위 기준 모델 대비 더 높은 과제 성공률과 안정적인 학습 성능을 보였으며, 이를 통해 블랙박스 게임 환경에서 DRL 기반 자동 테스트의 실현 가능성을 입증하였다.
        4,300원
        8.
        2025.10 KCI 등재 구독 인증기관 무료, 개인회원 유료
        강화학습은 지속적으로 변화하는 환경에서 최적의 해결책을 제시할 수 있도록 구현되는 머신러닝 알고리즘으로 시간 및 조건에 따라 변화하는 시스템의 최적화에 우수한 성능을 보이는 장점을 가지고 있다. 따라서, 최근 운영 조건과 시간에 따라 변화하는 상하수도 시설 및 취수원 등 현장 물환경 관리 최적화에 강화학습을 적용하기 위한 연구에 대한 관심이 높아지고 있다. 본 연구에서는 강화학습이 상하수도 시설 및 물환경 관리에 적용된 사례를 분석하였다. 상하수도 시설의 운영시 시설 운영의 목적에 맞는 처리수 수질을 유지하면서 운영에 필요한 에너지 소비 및 비용을 최소화하는 노력이 중요하다. 강화학습은 데이터에 기반한 반복적인 분석을 통해 시스템 운영의 최적 조건을 학습할 수 있으며, 다양한 연구 사례에서 강화학습의 적용을 통해 상하수도 시설 등의 운영 효율 개선이 가능함을 보여주었다. 하수처리 시설의 경우 강화학습을 활용하여 운영비의 많은 부분을 차지하는 폭기조 산소 공급과 내부 반송 펌프 운전을 최적화할 수 있으며, 정수장의 경우 약품 투입량 절감 등을 통해 운영비 절감 효과를 달성할 수 있음을 확인하였다. 또한, 용수 공급망과 저류조 운영의 최적화를 통해 상수도 및 하천 현장의 오염 발생을 저감할 수 있음을 알 수 있었다. 본 연구를 통해 강화학습을 활용하여 기존의 경험에 기반한 시설 운영 방식의 한계를 개선하고 상하수도 시설 운영 및 물환경 관리 효율 향상에 기여할 수 있음을 확인하였다
        4,600원
        10.
        2025.03 KCI 등재 구독 인증기관 무료, 개인회원 유료
        As the E-commerce market grows, the importance of personalized recommendation systems is increasing. Existing collaborative filtering and content-based filtering methods have shown a certain level of performance, but they have limitations such as cold start, data sparseness, and lack of long-term pattern learning. In this study, we design a matching system that combines a hybrid recommendation system and hyper-personalization technology and propose an efficient recommendation system. The core of the study is to develop a recommendation model that can improve recommendation accuracy and increase user satisfaction compared to existing systems. The proposed elements are as follows. First, the hybrid-hyper-personalization matching system provides recommendation accuracy compared to existing methods. Second, we propose an optimal product matching model that reflects user context using real-time data. Third, we optimize Personalized Recommendation System using deep learning and reinforcement learning. Fourth, we present a method to objectively evaluate recommendation performance through A/B testing.
        4,300원
        11.
        2024.12 구독 인증기관·개인회원 무료
        Efficient and safe maritime navigation in complex and congested coastal regions requires advanced route optimization methods that surpass the limitations of traditional shortest-path algorithms. This study applies Deep Q-Network (DQN) and Proximal Policy Optimization (PPO) reinforcement learning (RL) algorithms to generate and refine optimal ship routes in East Asian waters, focusing on passages from Shanghai to Busan and Ulsan to Daesan. Operating within a grid-based representation of the marine environment and considering constraints such as restricted areas and Traffic Separation Schemes (TSS), both DQN and PPO learn policies prioritizing safety and operational efficiency. Comparative analyses with actual vessel routes demonstrate that RL-based methods yield shorter and safer paths. Among these methods, PPO outperforms DQN, providing more stable and coherent routes. Post-processing with the Douglas-Peucker (DP) algorithm further simplifies the paths for practical navigational use. The findings underscore the potential of RL in enhancing navigational safety, reducing travel distance, and advancing autonomous ship navigation technologies.
        12.
        2024.10 KCI 등재 구독 인증기관 무료, 개인회원 유료
        PURPOSES : In this study, the existence of an optimal pattern among transition methods applied during changes in traffic signal timing was investigated. We aimed to develop this pattern into an artificial intelligence reinforcement-learning model to assess its effectiveness METHODS : By developing various traffic signal transition scenarios and considering 19 different traffic signal transition situations that can be applied to these scenarios, a simulation analysis was performed to identify patterns through statistical analysis. Subsequently, a reinforcement-learning model was developed to select an optimal transition time model suitable for various traffic conditions. This model was then tested by simulating a virtual experimental center environment and conducting performance comparison evaluations on a daily basis. RESULTS : The results indicated that when the change in the traffic signal cycle length was less than 50% in the negative direction, the subtraction method was efficient. In cases where the transition was less than 15% in the positive direction, the proposed center method for traffic signal transition was found to be advantageous. By applying the proposed optimal transition model selection, we observed that the transition time decreased by approximately 70%. CONCLUSIONS : The findings of this study provide guidance for the next level of traffic signal transitions. The importance of traffic signal transition will increase in future AI-based traffic signal control methods, requiring ongoing research in this field.
        4,000원
        13.
        2024.06 KCI 등재 구독 인증기관 무료, 개인회원 유료
        In the manufacturing industry, dispatching systems play a crucial role in enhancing production efficiency and optimizing production volume. However, in dynamic production environments, conventional static dispatching methods struggle to adapt to various environmental conditions and constraints, leading to problems such as reduced production volume, delays, and resource wastage. Therefore, there is a need for dynamic dispatching methods that can quickly adapt to changes in the environment. In this study, we aim to develop an agent-based model that considers dynamic situations through interaction between agents. Additionally, we intend to utilize the Q-learning algorithm, which possesses the characteristics of temporal difference (TD) learning, to automatically update and adapt to dynamic situations. This means that Q-learning can effectively consider dynamic environments by sensitively responding to changes in the state space and selecting optimal dispatching rules accordingly. The state space includes information such as inventory and work-in-process levels, order fulfilment status, and machine status, which are used to select the optimal dispatching rules. Furthermore, we aim to minimize total tardiness and the number of setup changes using reinforcement learning. Finally, we will develop a dynamic dispatching system using Q-learning and compare its performance with conventional static dispatching methods.
        4,000원
        17.
        2023.12 KCI 등재 구독 인증기관·개인회원 무료
        다중 에이전트 강화학습의 발전과 함께 게임 분야에서 강화학습을 레벨 디자인에 적용하려는 연구가 계속되 고 있다. 플랫폼의 형태가 레벨 디자인의 중요한 요소임에도 불구하고 지금까지의 연구들은 플레이어의 스킬 수준이나, 스킬 구성 등 플레이어의 매트릭에 초첨을 맞춰 강화학습을 활용하였다. 따라서 본 논문에서는 레 벨 디자인에 플랫폼의 형태가 사용될 수 있도록 시각 센서의 가시성과 구조물의 복잡성을 고려하여 플랫폼 이 플레이 경험에 미치는 영향을 연구한다. 이를 위해Unity ML-Agents Toolkit과MA-POCA 알고리즘, Self-play 방식을 기반으로2vs2 대전 슈팅 게임 환경을 개발하였으며 다양한 플랫폼의 형태를 구성하였다. 분석을 통해 플랫폼의 형태에 따른 가시성과 복잡성의 차이가 승률 밸런스에는 크게 영향을 미치지 않으나 전체 에피소 드 수, 무승부 비율, Elo의 증가폭에 유의미한 영향을 미치는 것을 확인했다.
        18.
        2023.12 KCI 등재 구독 인증기관 무료, 개인회원 유료
        기존의 스타크래프트II 내장AI는 미리 정의한 행동 패턴을 따르기 때문에 사용자가 전략을 쉽게 파악할 수 있어 사용자의 흥미를 오랫동안 유지시키기 힘들다. 이를 해결하기 위해, 많은 강화학습 기반의 스타크래프 트II AI 연구가 진행되었다. 그러나 기존의 강화학습AI는 승률에만 중점을 두고 에이전트를 학습시킴으로써 소수의 유닛을 사용하거나 정형화 된 전략만을 사용하여 여전히 사용자들이 게임의 재미를 느끼기에 한계가 존재한다. 본 논문에서는 게임의 재미를 향상시키기 위하여, 강화학습을 활용하여 실제 플레이어와 유사한 AI을 제안한다. 에이전트에게 스타크래프트II의 상성표를 학습시키고, 정찰한 정보로 보상을 부여해 유동적 으로 전략을 변경하도록 한다. 실험 결과, 사용자가 느끼는 재미와 난이도, 유사도 부분에서 고정된 전략을 사용하는 에이전트보다 본 논문에서 제안하는 에이전트가 더 높은 평가를 받았다..
        4,000원
        19.
        2023.12 KCI 등재 구독 인증기관 무료, 개인회원 유료
        This paper proposes an algorithm for the Unrelated Parallel Machine Scheduling Problem(UPMSP) without setup times, aiming to minimize total tardiness. As an NP-hard problem, the UPMSP is hard to get an optimal solution. Consequently, practical scenarios are solved by relying on operator's experiences or simple heuristic approaches. The proposed algorithm has adapted two methods: a policy network method, based on Transformer to compute the correlation between individual jobs and machines, and another method to train the network with a reinforcement learning algorithm based on the REINFORCE with Baseline algorithm. The proposed algorithm was evaluated on randomly generated problems and the results were compared with those obtained using CPLEX, as well as three scheduling algorithms. This paper confirms that the proposed algorithm outperforms the comparison algorithms, as evidenced by the test results.
        4,000원
        1 2 3