현대에는 개인 연구자 대부분이 지식생산기관에 소속되어 지식생산기관의 유 형과 지식생산기관 간의 협력이 과학 지식생산에 미치는 영향이 높음에도 불구하고, 지식생 산기관이 정확히 식별되지 않아 과학 지식생산 과정을 실증적으로 파악하는 데는 한계가 있 다. 본 연구는 지식생산기관의 식별 정확도를 높이는 방법을 제안하였다. 구체적으로 디지털 헬스 분야의 PubMed 서지정보를 수집한 후 알고리즘을 적용하기 전 데이터 처리 단계에서 ‘맥락적 연결’을 활용하여 기관정보의 불완전성을 해소하고, 알고리즘 적용단계에서는 기관 명 모호성(IND)을 개선하는 방법을 제시하였다. 본 연구가 산출한 ‘지식생산기관 데이터셋’ 과 동일한 서지정보를 대상으로 하는 기존 공개 데이터셋인 ‘PKG datasets’을 비교했을 때, 본 연구가 제시한 방법은 지식생산기관 데이터셋에 포함된 대상 데이터 수를 2배로 증가시켰으며, 국가별 순위도 보다 정확하게 반영하였다. 또한 한국 지식생산기관의 디지털 헬스 분야 기여도가 과소 또는 과대 평가되고 있다는 사실도 발견하였다. 본 연구에서 제시한 방 법은 향후 과학지식을 생산하고 과학 혁신을 달성하는 데 있어 지식생신기관의 역할을 실증 적으로 연구하는 데 기여할 것으로 판단된다.
Despite the important roles of institutions and their collaboration in producing knowledge for innovation, the lack of accurate methods for identifying such knowledge-producing institutions has restricted empirical research on the role of institutions in innovation. This study explores methods to enhance the accuracy of identifying institutions involved in innovation process. To this end, we propose ways to improve accuracy in both aspects of information - data and algorithms - using bibliographic information in the digital health field. Specifically, in the data processing stage before applying algorithms, we address contextual inaccuracies of bibliographic information; in the algorithm application stage, we propose methods to improve the ambiguity of institution names (IND). When compared with the PKG dataset, which is publicly available datasets based on the same bibliographic information, our methods doubled the number of cases available for subsequent analysis. We also discovered that the contribution of Korean institutions in the digital health field is either underestimated or overestimated. The method presented in this study is expected to contribute to empirically researching the role of knowledge-producing institutions in innovation process and ecosystem.