본 연구는 빅데이터 분석을 통해 지방자치단체의 스포츠도시 구현 노 력을 살펴보고자 스포츠도시에 대한 사회적 인식과 현상을 파악하는 데 목적이 있다. 이를 위해 텍스톰과 Ucinet 6을 활용하여 2021년 6월부터 2024년 6월까지 '스포츠도시'와 관련된 텍스트 자료를 통해 키워드와 토 픽을 분석하였다. 구체적으로 텍스트마이닝, 의미연결망 분석, TF-IDF, CONCOR 분석을 통해 실시하였다. 분석 결과, 첫째 '스포츠', '도시', ' 대회', '체육', '개최', '국제', '전국', '선수', '세계', '조성' 순으로 빈도 가 높게 나타났다. 둘째 ‘국제 스포츠이벤트 개최’, ‘전국대회 유치 및 개 최를 통한 도시 위상 제고’, ‘시민을 위한 생활체육 인프라 조성’, ‘스포 츠도시를 통한 지자체의 지역 경제발전’ 등 4개의 그룹이 형성되었다. 따라서, 지자체는 지역 특성을 고려하고 주민의 의견을 적극적으로 반영 하며, 지역 경제 활성화에 기여하는 스포츠도시 구현에 앞장서야 할 것 이다. 마지막으로, 지역주민의 스포츠 참여가 일상이 되도록 양질의 스포 츠 프로그램을 제공해야 할 것이다.
본 연구는 국내 주요 항만에 정박 중인 선박들의 이산화탄소 배출 특성을 항만별, 선박 유형별로 배출 현황을 파악하여 향후 배출 저감 정책 수립에 필요한 기초 자료를 제공하는 것을 목적으로 한다. 이를 위해 항만운영정보시스템 데이터를 활용하여 2019년부터 2023년까지 최근 5년간의 정박 선박 데이터를 수집, 분석하였다. 연구 결과, 탱커선과 화물선이 전체 탄소 배출량의 대부분을 차지하며, 부산항, 울산항, 광양항 등 주요 무역항에서 배출량이 높게 나타났다. 특히, 탱커선은 정박 중 화물 가열 및 증기 구동 펌프 사용 등으로 인해 타 선종에 비해 발전기 사용이 많아 높은 배출 특성을 보였다. 이러한 결과는 항만 내 육상전원공급장치(AMP)의 설치 확대가 필요 함을 시사하며, 특히 탱커선이 접안하는 선석을 우선적으로 AMP 설치 대상으로 선정하는 것이 효과적일 것으로 판단된다. 본 연구는 국 내 항만에서 정박 선박의 이산화탄소 배출 특성을 체계적으로 파악하여 효율적인 배출 저감 전략을 수립하는 데 기여할 것으로 기대된 다.
조선시대의 혁신적인 지도자였던 정조대왕의 업적과 수원화성의 역 사적 의미를 재조명하고, 현대적으로 계승하기 위하여 시작된 수원화성 문화제는 다채로운 축제 프로그램과 고유한 문화적 유산으로 인해 우 리나라 대표 문화관광축제로 자리매김하였다. 본 연구는 수원화성문화 제를 대상으로 온라인에서 수집한 키워드의 분석을 통해 포괄적인 인 식과 동향을 탐색하기 위해 진행되었다. 연구 결과, 첫째, 축제, 정조대 왕, 능행차, 수원시, 경기도, 화성행궁, 다양한, 세계유산축전, 힐링폴 링, 공연, 가을, 미디어아트 등의 키워드가 온라인 상에서 자주 언급되 고 있었다. 둘째, 중심성 분석 결과, 빈도분석의 결과와는 일부 차이가 있는 것으로 나타났다. 셋째, CONCOR 분석 결과, 총 6개의 수원화성 문화제 관련 키워드가 군집되었으며, 다양한 의미를 내포하고 있는 것 으로 나타났다.
This study investigates using Conditional Tabular Generative Adversarial Networks (CT-GAN) to generate synthetic data for turnover prediction in large employment datasets. The effectiveness of CT-GAN is compared with Adaptive Synthetic Sampling (ADASYN), Synthetic Minority Over-sampling Technique (SMOTE), and Random Oversampling (ROS) using Logistic Regression (LR), Linear Discriminant Analysis (LDA), Random Forest (RF), and Extreme Learning Machines (ELM), evaluated with AUC and F1-scores. Results show that GAN-based techniques, especially CT-GAN, outperform traditional methods in addressing data imbalance, highlighting the need for advanced oversampling methods to improve classification accuracy in imbalanced datasets.
본 연구는 북한이 2024년을 전쟁 준비 완성의 해로 선언하고 연이어 미사일을 발사하여 안보를 위협하는 상황에서, 빅데이터 분석을 활용하 여 한국 언론보도와 포털 사이트에 나타난 북핵 및 미사일 위협에 대한 담론과 인식의 특성을 실증적으로 분석하고, 그에 따른 시사점을 도출하 는 것을 목적으로 한다. 이를 위해 국내 주요 언론보도와 포털 사이트에 서 총 33,318건의 데이터를 수집하여, TF-IDF 분석을 통해 상위 50개 의 주요 키워드를 도출하고, 사회연결망 분석을 통해 각 키워드 간의 연 결 정도와 구조를 파악하였다. 분석 결과, 러시아-우크라이나 전쟁, 이스 라엘-하마스 전쟁 등 국제적 안보 불안과 동북아에서의 북-러 군사협력 및 한-미-일 군사협력의 대립 구도 등이 사회적 담론 형성에 큰 영향을 미친 것으로 나타났다. 이에 따라 한-미-일 군사협력 강화와 확장 억제 전략의 신뢰성을 높이고, 사회적 차원에서 위기의식과 안보의식의 제고 가 필요하다는 시사점이 도출되었다.
PURPOSES : For autonomous vehicles, abnormal situations, such as sudden changes in driving speed and sudden stops, may occur when they leave the operational design domain. This may adversely affect the overall traffic flow by affecting not only autonomous vehicles but also the driving environment of manual vehicles. Therefore, to minimize the traffic problems and adverse effects that may occur in mixed traffic situations involving manual and autonomous vehicles, an autonomous vehicle driving support system based on traffic operation optimization is required. The main purpose of this study was to build a big-data-classification system by specifying data classification to support the self-driving of Lv.4 autonomous vehicles and matching it with spatio-temporal data. METHODS : The research methodology is explained through a review of related literature, and a traffic management index and big-dataclassification system were built. After collecting and mapping the ITS history traffic information data of an actual Living Lab city, the data were classified using the traffic management indexing method. An AI-based model was used to automatically classify traffic management indices for real-time driving support of Lv.4 autonomous vehicles. RESULTS : By evaluating the AI-based model performance using the test data from the Living Lab city, it was confirmed that the data indexing accuracy was more than 98% for the KNN, Random Forest, LightGBM, and CatBoost algorithms, but not for Logistics Regression. The data were severely unbalanced, and it was necessary to classify very low probability nonconformities; therefore, precision is also important. All four algorithms showed similarly good performances in terms of accuracy. CONCLUSIONS : This paper presents a method for efficient data classification by developing a traffic management index to easily fuse and analyze traffic data collected from various institutions and big data collected from autonomous vehicles. Additionally, EdgeRSU is presented to support the driving of Lv.4 autonomous vehicles in mixed autonomous and manual vehicles traffic situations. Finally, a database was established by classifying data automatically indexed through AI-based models to quickly collect and use data in real-time in large quantities.
본 연구는 치유정원 및 치유정원 내 도입 프로그램과 관련된 시기별 이용행태의 변화를 파악하여 프로 그램 및 서비스 제공에 있어 개선하는데 도움이 되는 기초자료를 제공하는 것을 목적으로 한다. 이를 위해 텍스트마이닝 기법을 활용하고 『수목원정원법』시행 및 코로나19 전후를 기점으로 하여 2014 년, 2019년, 2023년 세 가지 시기로 구분하여 시계열적으로 시기별 이용행태 간의 변화를 조사하였다. 연구결과 치유정원과 치유정원 내 도입 프로그램은 이용자들에게 있어 긍정적 경험으로 나타났다. 프 로그램의 경우 초기에는 치유농업 및 원예를 중심으로 시작되었으나 시간이 지남에 따라 산림치유를 비롯하여 가드닝을 포함한 다양한 활동으로 확장되었으며, 이용자 계층 또한 다양한 계층으로 확대되 었다. 아울러 치유정원은 원예치료, 산림치유 등 다양한 자연환경 기반 치유분야의 도입요소로 사용됨 에 따라 혼용되어 사용되고 있는 것으로 나타났다. 따라서 치유정원에 대한 명확한 개념정립과 함께 다양한 계층을 고려한 프로그램이 필요한 것으로 나타났다.
The use of big data needs to be emphasized in policy formulation by public officials in order to improve the transparency of government policies and increase efficiency and reliability of government policies. ‘Hye-Ahn’, a government-wide big data platform was built with this goal, and the subscribers of ‘Hye-Ahn’ has grown significantly from 2,000 at the end of 2016 to 100,000 at August 2018. Additionally, the central and local governments are expanding their big data related budgets. In this study, we derived the costs and benefits of ‘Hye-Ahn’ and used them to conduct an economic feasibility analysis. As a result, even if only some quantitative benefits are considered without qualitative benefits, the net present value, the benefit/ cost, and internal rate of return turned out to be 22,662 million won, 2.3213, and 41.8%, respectively. Since this is larger than the respective comparison criteria of 0 won, 1.0, and 5.0%, it can be seen that ‘Hye-Ahn’ has had economic feasibility. As noticed earlier, the number of analysis using ‘Hye-Ahn’ is increasing, so it is expected that the benefits will increase as time passes. Finally, the socioeconomic value gained when the results of analysis using ‘Hye-Ahn’ are used in policy is expected to be significant.
Abstract Handling imbalanced datasets in binary classification, especially in employment big data, is challenging. Traditional methods like oversampling and undersampling have limitations. This paper integrates TabNet and Generative Adversarial Networks (GANs) to address class imbalance. The generator creates synthetic samples for the minority class, and the discriminator, using TabNet, ensures authenticity. Evaluations on benchmark datasets show significant improvements in accuracy, precision, recall, and F1-score for the minority class, outperforming traditional methods. This integration offers a robust solution for imbalanced datasets in employment big data, leading to fairer and more effective predictive models.
빅데이터 고객차별의 본질적인 문제는 플랫폼에 의한 사용자 정보의 과도한 수집 과 알고리즘을 부당하게 사용하여 소비자에게 차별화된 가격 전략을 구현하는 것이 다. 이것은 소비자의 합법적인 권익 침해 문제와 관련이 있다. 중국 정부는 소비자의 개인 정보 보호와 플랫폼 업체의 차별화된 가격 책정 금지 전략을 중심으로 관련 법 규를 제정했다. 하지만 2024년 5월 현재까지 빅데이터 고객차별에 대한 관련 행정처 벌 사례가 없고 소송으로 소비자가 승소한 사례도 없다. 따라서 현행법은 실제 실천 에 있어 많은 문제점이 있다. 본 연구는 소비자 정보 보호 및 빅데이터 고객차별과 관련된 현행 법률 및 규정의 단점을 분석하고 법적 수준에서 빅데이터 고객차별을 효과적으로 규제하기 위한 관련 정책 방안을 제안하였다.
The objective of this study is to analyze the indoor air quality of multi-use facilities using an IoT-based monitoring and control system. Thise study aims to identify effective management strategies and propose policy improvements. This research focused on 50 multi-use facilities, including daycare centers, medical centers, and libraries. Data on PM10, PM2.5, CO2, temperature, and humidity were collected 24 hours a day from June 2019 to April 2020. The analysis included variations in indoor air quality by season, hour, and day of the week (including both weekdays and weekends). Additionally, ways to utilize IoT monitoring systems using big data were propsed. The reliability analysis of the IoT monitoring network showed an accuracy of 81.0% for PM10 and 76.1% for PM2.5. Indoor air quality varied significantly by season, with higher particulate matter levels in winter and spring, and slightly higher levels on weekends compared to weekdays. There was a positive correlation found between outdoor and indoor pollutant levels. Indoor air quality management in multi-use facilities requires season-specific strategies, particularly during the winter and spring. Furhtermore, enhanced management is necessary during weekends due to higher pollutant levels.
Until now, research on consumers’ purchasing behavior has primarily focused on psychological aspects or depended on consumer surveys. However, there may be a gap between consumers’ self-reported perceptions and their observable actions. In response, this study aimed to investigate consumer purchasing behavior utilizing a big data approach. To this end, this study investigated the purchasing patterns of fashion items, both online and in retail stores, from a data-driven perspective. We also investigated whether individual consumers switched between online websites and retail establishments for making purchases. Data on 516,474 purchases were obtained from fashion companies. We used association rule analysis and K-means clustering to identify purchase patterns that were influenced by customer loyalty. Furthermore, sequential pattern analysis was applied to investigate the usage patterns of online and offline channels by consumers. The results showed that high-loyalty consumers mainly purchased infrequently bought items in the brand line, as well as high-priced items, and that these purchase patterns were similar both online and in stores. In contrast, the low-loyalty group showed different purchasing behaviors for online versus in-store purchases. In physical environments, the low-loyalty consumers tended to purchase less popular or more expensive items from the brand line, whereas in online environments, their purchases centered around items with relatively high sales volumes. Finally, we found that both high and low loyalty groups exclusively used a single preferred channel, either online or in-store. The findings help companies better understand consumer purchase patterns and build future marketing strategies around items with high brand centrality.
PURPOSES : This study aimed to predict the number of future COVID-19 confirmed cases more accurately using public and transportation big data and suggested priorities for introducing major policies by region. METHODS : Prediction analysis was performed using a long short-term memory (LSTM) model with excellent prediction accuracy for time-series data. Random forest (RF) classification analysis was used to derive regional priorities and major influencing factors. RESULTS : Based on the daily number of COVID-19 confirmed cases from January 26 to December 12, 2020, as well as the daily number of confirmed cases in Gyeonggi Province, which was expected to occur on December 24 and 25, depending on social distancing, the accuracy of the LSTM artificial neural network was approximately 95.8%. In addition, as a result of deriving the major influencing factors of COVID-19 through random forest classification analysis, according to the number of people, social distancing stages, and masks worn, Bucheon, Yongin, and Pyeongtaek were identified as regions expected to be at high risk in the future. CONCLUSIONS : The results of this study can help predict pandemics such as COVID-19.
As new AI techniques are developed and various types of big data accumulated, new approaches for pest management are also being attempted. Various spatio-temporal scale big data are being accumulated, and attempts are being made to utilize them to classify target objects and analyze their characteristics. Remote sensing data is widely used across various fields, and is being measured, stored, and shared in diverse formats. Hyperspectral imaging and satellite data are ecologically relevant big data, with distinct formats and potential applications. We will introduce real-world AI examples of utilizing hyperspectral image analysis, as well as estimating pest population density using satellite data.
This study utilizes social big data to investigate the factors influencing the awareness, attitude, and behavior toward vegan fashion consumption among global and Korean consumers. Social media posts containing the keyword “vegan fashion” were gathered, and meaningful discourse patterns were identified using semantic network analysis and sentiment analysis. The study revealed that diverse factors guide the purchase of vegan fashion products within global consumer groups, while among Korean consumers, the predominant discourse involved the concepts of veganism and ethics, indicating a heightened awareness of vegan fashion. The research then delved into the factors underpinning awareness (comprehension of animal exploitation, environmental concerns, and alternative materials), attitudes (both positive and negative), and behaviors (exploration, rejection, advocacy, purchase decisions, recommendations, utilization, and disposal). Global consumers placed great significance on product-related information, whereas Korean consumers prioritized ethical integrity and reasonable pricing. In addition, environmental issues stemming from synthetic fibers emerged as a significant factor influencing the awareness, attitude, and behavior regarding vegan fashion consumption. Further, this study confirmed the potential presence of cultural disparities influencing overall awareness, attitude, and behavior concerning the acceptance of vegan fashion, and offers insights into vegan fashion marketing strategies tailored to specific cultures, aiming to provide vegan fashion companies and brands with a deeper understanding of their consumer base.
본 연구에서는 빅데이터를 통해 교사의 융합교육역량에 대한 사회적 인식을 살펴봄으로써 교사의 융합 교육역량 증진 방안 마련을 위한 기초자료를 제공하는데 목적이 있었다. 본 연구목적을 달성하기 위해 Textom에서 제공하는 빅데이터를 활용하여 교사 + 융합교육 + 역량을 키워드로 rawDATA를 수집하였 다. 수집된 데이터는 1차2차 정제과정을 마친 데이터들 중 빈도분석 결과를 바탕으로 200개 핵심 키워드 를 선정하였으며, 이를 1-모드 매트릭스 데이터 셋으로 변환하여 키워드 네트워크 분석을 실시하였다. 연 구결과는 다음과 같다: 첫째, 빈도분석에서는 교육, 인공지능, 강화, 연수, 수업이 가장 빈번하게 출현하는 것으로 나타났다. 둘째, 전체 네트워크 분석에서는 교육, 학생, 연수, 강화, 대상이 모든 중심성에서 높게 나타났다. 셋째, 에고 네트워크 분석에서는 교사, 융합교육, 역량을 중심으로 다양하게 논의되고 있음을 확 인할 수 있었다. 이러한 결과를 바탕으로 교사의 융합교육역량과 관련된 후속연구 및 증진방안에 대해 제 언하였다.
In this study, we propose a novel approach to analyze big data related to patents in the field of smart factories, utilizing the Latent Dirichlet Allocation (LDA) topic modeling method and the generative artificial intelligence technology, ChatGPT. Our method includes extracting valuable insights from a large data-set of associated patents using LDA to identify latent topics and their corresponding patent documents. Additionally, we validate the suitability of the topics generated using generative AI technology and review the results with domain experts. We also employ the powerful big data analysis tool, KNIME, to preprocess and visualize the patent data, facilitating a better understanding of the global patent landscape and enabling a comparative analysis with the domestic patent environment. In order to explore quantitative and qualitative comparative advantages at this juncture, we have selected six indicators for conducting a quantitative analysis. Consequently, our approach allows us to explore the distinctive characteristics and investment directions of individual countries in the context of research and development and commercialization, based on a global-scale patent analysis in the field of smart factories. We anticipate that our findings, based on the analysis of global patent data in the field of smart factories, will serve as vital guidance for determining individual countries' directions in research and development investment. Furthermore, we propose a novel utilization of GhatGPT as a tool for validating the suitability of selected topics for policy makers who must choose topics across various scientific and technological domains.
본 연구는 독일어권의 사물인터넷을 이용한 데이터 거래와 블록체인 기술로 인한 사회혁신을 조망하고자 한다. 먼저, 독일어권 국가에서의 빅 데이터와 블록체인 기술의 활용을 조사하기 위해 문헌 연구 및 선행 연 구 검토가 수행되었다. 또한, 데이터레이드(Datarade)와 같은 독일의 데 이터 회사 및 정부의 데이터 경제 관련 프로젝트(GAIA-X)에 대한 사례 연구가 진행되었다. 이를 통해 독일에서의 데이터 및 블록체인 활용 현 황을 파악하고, 각 산업 분야에서의 적용 사례를 식별하였다. 금융 산업 에서는 블록체인 기술을 활용하여 계좌 번호 및 구매 세부 정보를 안전 하게 저장하고 있으며, 부동산 산업에서는 임대 계약, 임대료 결제 확인 등을 블록체인을 통해 효율적으로 관리하고 있다. 특히 교육 부문에서 블록체인 기술의 활용에 대한 현지 사례 및 연구 결과를 종합하여 분석 하였다. 블록체인의 보안이라는 장점을 살려 학습자의 학습 성과나 평가, 성적 증명, 학습낙오자나 성적부진자의 학습활동 추적, 부정행위 방지, 스마트 계약을 통한 과제 관리, 평생학습증 및 학습이력부 제공 등의 방 식으로 이미 독일은 교육계에 혁신을 이루어나가고 있다. 교육 부문에서 의 이러한 조사 방법을 통해 독일에서의 기술 혁신 및 사회적 변화에 대 한 종합적인 이해를 제공하고자 한다. 이러한 결과들은 독일정부 주도의 데이터거래와 블록체인 분야의 기술혁신의 효과를 입증하기에 한국정부 의 산업혁신에도 활용할 수 있는 중요한 통찰을 제공할 것이다.