소셜 네트워크는 우리 일상 생활의 필수적인 부분이 되었다. 소셜 미디어 정보에 대한 정서 분석은 소셜 네 트워킹 사이트에 대한 사람들의 견해, 태도, 감정을 이해하는 데 도움이 된다. 전통적인 정서 분석은 주로 텍 스트에 의존한다. 스마트폰이 등장하면서 문자뿐만 아니라 이미지 등 네트워크 상의 정보도 점차 다양해지고 있다. 많은 경우 이미지가 감정을 독립적으로 표현하기 보다는 텍스트를 향상시킬 수 있다는 것이 밝혀졌습 니다. 우리는 새로운 이미지 텍스트 정서 분석 모델(LSTM-VAA)을 제안한다. 구체적으로 이 모델은 사진 정보 를 직접 입력으로 가져가지 않고 VGG16 네트워크를 사용하여 이미지 특징을 추출한 다음 시각적 측면 주의 를 생성하고 문서의 핵심 문장에 더 높은 가중치를 부여하고 시각적 측면 주의를 기반으로 문서 표현을 얻 는다. 또한, 우리는 LSTM 네트워크를 사용하여 텍스트 감성을 추출하고 텍스트만을 기반으로 문서 표현을 얻 는다. 마지막으로, 우리는 두 분류 결과 그룹을 통합하여 최종 분류 레이블을 얻는다. 옐프 레스토랑 리뷰 데 이터 세트에서, 우리의 모델은 감정 분류를 위한 시각 주의 보조 텍스트로 시각 정보를 사용하는 것의 효과 를 검증하는 BiGRU-m VGG보다 18.92% 높은 62.08%의 정확도를 달성한다. 비스타넷 모델보다 0.32% 높아 비스타넷 모델의 이미지가 텍스트를 완전히 커버할 수 없는 결함을 LSTM 모델이 효과적으로 보완할 수 있 음을 입증했다.
다양한 산업에서 강조되고 있는 정비의 중요성은 각 분야에 다양한 정비전략을 적용하도록 만들었다. 해양산업 역시 그에 따른 정비전략의 변화가 있었으나 타 산업 대비 그 속도가 느려 실제 적용이 되지 않은 채 과거 시행되고 있던 방식을 유지하는 경우가 많다. 특히 선박은 기존에 행해왔던 방식의 정비전략을 사용하고 있는 편이며 해상의 조건에서 선박은 새로운 정비전략의 개발을 필요로 하고있다. 이에 선박예지정비모델은 기기의 정비가 필요한 시점을 예지하여 조치할 수 있는 정비전략으로서 선박이 항해 중에 처할 수 있는 정비 관련 위험요소들을 줄여 주는 모델이다. 본 연구는 선박예지정비모델의 개발을 위한 연구 중의 하나로서, LNG선박 입거사양서의 텍스트 데이터 분석을 통한 결과를 원문의 내용을 바탕으로 해석해보았다. 공통된 정비항목 조합을 도출하여 선박 내 다른 기기들 사이에 작용하고 있는 상호연관성을 발견하고 이를 앞으로 개발될 선박예지정비모델에 적용하고자 한다.
빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다.
SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다.
본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.
The increasing interests on patents have led many individuals and companies to apply for many patents in various areas. Applied patents are stored in the forms of electronic documents. The search and categorization for these documents are issues of major fields in data mining. Especially, the keyword extraction by which we retrieve the representative keywords is important. Most of techniques for it is based on vector space model. But this model is simply based on frequency of terms in documents, gives them weights based on their frequency and selects the keywords according to the order of weights. However, this model has the limit that it cannot reflect the relations between keywords. This paper proposes the advanced way to extract the more representative keywords by overcoming this limit. In this way, the proposed model firstly prepares the candidate set using the vector model, then makes the graph which represents the relation in the pair of candidate keywords in the set and selects the keywords based on this relationship graph.
이 연구의 목적은 모방하기 전략을 활용한 한국어 학습자의 쓰기 양상을 살펴보는 데 있다. 이를 위해 중급 단계 한국어 학습자에게 비교와 대조의 구조 유형의 쓰기 과정 중 쓰기 전 단계에서 구조에 맞는 모델 텍스트를 제시한 후 학습자 스스로 제시된 글의 구조를 파악하고 그것을 새로운 글쓰기에 어떻게 재구성하여 활용하는지 살펴보았다. 모델 텍스트는 쓰기에 부담감을 가지는 한국어 학습자들이 쓰기 활동에 적극적으로 참여할 수 있도록 도와주는 비계를 역할을 하여 학습자 스스로 쓰기 활동을 주도적으로 이끌어 갈 수 있도록 하는데 도움을 준다. 또한 텍스트 구조는 글 쓰는 이의 사고를 논리적으로 연결하여 학습자가 질 높은 텍스트를 완성하는 데 만들어 내는 데 영향을 준다. 이 연구에서는 모델 텍스트의 활용을 통해 먼저 완성된 학습자의 글을 비교와 대조의 마름모형 텍스트 구조를 확인하고, 제공된 정보를 잘 배열하고 조직화하여 응집성을 확보한 계단식 구조로 완성된 텍스트 내용을 확인하였다. 그리고 글에 활용된 구조 표지어를 확인 해 보았다. 이를 통하여 학문 목적 한국어 학습자의 쓰기 지도와 쓰기 능력 향상에 필요한 모방 전략의 가능성을 탐색할 수 있었다.