PKG를 엔터프라이즈에 통합
과거 블로그에서 빠르게 성장하고 있는 PKG( Personal Knowledge Graphs ) 및 지식 관리 주제에 대해 글을 쓴 적이 있습니다. 이 블로그는 회사의 기업 지식 그래프 (EKG) 또는 대학 지식 관리 시스템과 같은 더 큰 지식 에코시스템에 PKG를 통합하는 문제에 초점을 맞출 것입니다 .
이 게시물의 대상 독자는 많은 고립된 PKG 사일로와 지식을 공유하고 지식 중복 및 불일치를 방지하는 보다 통합된 회사 지식 그래프 간의 장단점을 이해하도록 요청받은 솔루션 설계자입니다. 우리는 현재 사용 가능한 제한된 통합 옵션을 살펴보고 PKG 제품이 대규모 기계 학습 모델의 최신 권장 사항을 통합함에 따라 큰 투자 수익을 예상합니다.
PKG 영역을 처음 사용하는 경우 PKG, EKG 및 지식 관리에 대한 이전 기사를 읽어 이러한 개념을 완전히 이해하는 것이 좋습니다.
개인과 조직의 재사용 긴장
용어에 대해 알아보기 전에 조직에서 PKG를 추진하는 두 가지 반대 세력이 항상 있음을 기억하십시오. 첫 번째 힘은 각 사람이 자신의 개인 지식 기반과 일치하는 노트를 빠르게 캡처해야 한다는 것입니다. 입력할 때 자동 제안 목록을 사용하면 자신의 PKG에서 자신의 개인 개념에 빠르게 연결할 수 있습니다. 텍스트 편집기에서 "[["를 입력하면 기존 개념 목록이 표시됩니다. 입력하면 이미 시작한 접두사와 일치하도록 목록이 자동으로 좁혀집니다.
두 번째 힘은 회사의 다른 사람들이 사용할 수 있는 방식으로 이 지식을 캡처하려는 많은 회사의 바람입니다. 이는 대규모 조직이 빠른 지식 캡처를 방지하는 추가 규칙을 적용하는 경우가 많다는 것을 의미합니다. 헬프데스크 시스템에서 티켓을 발행하시겠습니까? 컴퓨터, 수행하려는 작업, 사용 중인 응용 프로그램 및 오류를 재현하는 방법에 대한 정보를 알려주어야 합니다. 이러한 필수 필드를 채우지 않으면 저장 버튼이 비활성화됩니다.
내 경험에 따르면 우리는 항상 절충점을 보게 될 것입니다. 소프트웨어 비용을 지불하는 사람, 지식을 수집하는 방법, 지식 공유 MBO를 작성하는 방법이 종종 우려를 불러일으킵니다. 여기에는 만능 솔루션이 없으며 대규모 기계 학습 NLP(Natural Language Processing) 도구를 사용하면 의사 결정이 더 복잡해질 뿐입니다. 이 주제는 나중에 블로그에서 더 자세히 다루겠습니다.
현재 도구의 분류
토론을 시작하려면 두 가지 데스크탑 도구를 고려하십시오. 첫 번째는 Windows(TM) 데스크탑 응용 프로그램과 함께 제공되는 Microsoft Notepad(TM)와 같은 독립형 편집 도구입니다. 이것을 나무의 작은 새 묘목에 지식의 새 잎사귀를 더하는 것으로 생각하십시오. 이 도구를 사용하면 키보드에서 텍스트를 입력하고 로컬 파일 시스템에 저장할 수 있습니다. 메모장은 세상과 단절된 새로운 정보를 캡처하는 데 이상적입니다. 사용하기 위해 회사 네트워크에 연결할 필요조차 없습니다.
Wiki를 사용하면 자유 형식의 텍스트를 입력할 수도 있지만 항상 고유한 이름을 가진 페이지 내에 있습니다. 텍스트에는 다른 명명된 페이지에 대한 참조가 포함될 수 있습니다. 일부 Wiki 페이지에는 종종 Infobox라고 하는 구조화된 키-값 쌍이 포함될 수 있습니다. 메모장과 Wiki의 주요 차이점은 Wiki 페이지가 서버에 저장되고 링크가 있는 웹 페이지로 변환된다는 것입니다.
이제 Roam 또는 Obsidian과 같은 PKG 편집기를 고려해 보겠습니다. 그들은 항상 기존 지식 기반에 연결되어 있으며 내부 개인 그래프에 대한 빠른 링크를 만드는 데 중점을 둡니다. 다음은 그림 1에서 명확하게 이해하려는 은유입니다. PKG는 기존 지식 구조의 확장인 새로운 정보를 캡처하려는 경우에도 유용합니다. 예를 들어, 단순 개념 이름을 입력하면 시스템은 기존 개념의 중복 또는 기존 개념의 별명이 아닌 새 개념인지 확인하기 위해 확인합니다.
차트의 오른쪽 하단에는 Protege와 같은 공식적인 온톨로지 편집 도구와 Neo4j 또는 TigerGraph와 같은 그래프 데이터베이스가 있습니다. 이러한 그래프 데이터베이스에는 모든 꼭짓점 및 가장자리에 대한 형식 유형과 어떤 유형의 꼭짓점이 서로 연결할 수 있는지에 대한 엄격한 규칙과 같은 많은 제약 조건이 있습니다. Edge에도 유형이 있어야 합니다.
그림 3의 마지막 상자는 기계 학습 지원 PKG(ML-PKG)로, 여기서 NLP 도구는 PKG 편집기 내에서 텍스트를 자동으로 제안하는 데 사용됩니다. 이러한 도구는 아직 존재하지 않지만 BERT 및 GPT-3과 같은 대규모 언어 모델이 빠르게 발전함에 따라 곧 사용할 수 있을 것으로 예상됩니다.
요약하면 통합 Enterprise PKG에는 많은 규칙이 있을 것입니다. 이러한 규칙 중 많은 부분이 도움이 될 수 있습니다. 지능적인 상황별 자동 완성을 사용하여 지식을 추가하여 작업 속도를 높일 수 있습니다. 이러한 규칙 중 일부는 방해가 되어 지식 수집 속도를 늦출 수 있습니다.
기본 용어
몇 가지 기본 용어와 개념으로 토론을 시작하겠습니다. PKG에서 목표는 입력된 문자 스트림이 효율적으로 지식 개념을 캡처하고 이전 개념에 연결할 수 있도록 하는 것입니다. PKG에서는 지식 그래프라는 데이터 구조를 사용합니다. 그래프는 단순한 개념 목록뿐만 아니라 이러한 개념 간의 관계도 저장합니다. 개념 저장소에 사용하는 기술 용어는 정점이고 관계에 대한 용어는 에지라고 합니다.
유형이 지정되지 않은 시스템과 유형이 지정된 시스템
우리 중 많은 사람들이 Wiki의 개념에 익숙합니다. "위키"라는 단어는 "빠른"에 대한 하와이 용어입니다. 사용자가 위키 "페이지"를 서로 연결하는 키 입력의 수를 최소화할 수 있도록 만들어졌습니다. Wiki 데이터 모델에서 모든 개념은 Wiki 페이지에 저장되며 디자인 목표는 개념을 쉽게 함께 연결할 수 있도록 개념당 한 페이지 규칙을 따르는 것입니다. 페이지에 둘 이상의 개념을 넣으면 해당 페이지에 대한 링크가 단일 개념 대 단일 개념 패턴을 명확하게 표시하지 않습니다.
위키는 개념 페이지나 개념 카드가 웹 서버에서 공유되었기 때문에 메모 작성에서 놀라운 발전이었습니다. 동료가 새로운 개념을 추가하면 이러한 개념에 대한 링크를 만들 수 있습니다. 새 개념을 추가하면 동료도 해당 개념에 연결할 수 있습니다. 이것은 공유 지식 관리의 엄청난 돌파구였으며 Wikipedia와 같은 시스템의 기반이 되었습니다.
그러나 대부분의 사람들은 위키가 진정한 "지식 그래프"라고 생각하지 않습니다. 위키는 월드 와이드 웹과 같이 유형이 지정되지 않은 링크된 문서의 모음일 뿐이기 때문입니다. wiki 설계자는 "하이퍼링크"의 개념을 확장하고 HTML 앵커 참조의 복잡한 구문을 기억하는 것보다 링크를 입력하기 쉽게 만들고 싶었습니다. 위키와 실제 지식 그래프의 근본적인 차이점은 위키 페이지가 모두 동일한 "유형"(문서/카드/개념 유형)이고 관계도 모두 단일 유형(is-related-to)을 갖는다는 사실입니다. ).
진정한 지식 그래프는 각 정점과 가장자리가 특정 유형 을 가질 수 있도록 합니다 . 가능한 유형 목록은 종종 중앙 집중식 부서에서 구성합니다. 예를 들어 일부 꼭지점은 직원을 나타내고 일부는 판매하는 제품을 나타내고 일부는 회사 헬프 데스크에 걸려온 전화와 같은 비즈니스 이벤트를 설명할 수 있습니다. 유형의 핵심은 규칙 을 유형 과 연결할 수 있다는 것입니다. 이러한 규칙은 SQL을 사용하여 기존 데이터베이스를 쿼리하는 것처럼 지식 그래프를 쿼리하기 쉽게 만드는 일관성을 강제합니다.
PKG에 새 도시를 추가하는 경우 정점이 "도시" 유형임을 시스템에 알리고 "주" 정점에 "위치한" 관계를 추가할 수도 있습니다. 정점과 관계 모두 유형이 있습니다.
기업 지식 그래프 전략 분야에서 우리는 짐 헨들러의 가설을 사용합니다 . ” 정점과 가장자리 모두에 몇 가지 간단한 유형을 추가하는 것은 PKG에 의미(시맨틱)를 추가하여 질의 가능성과 재사용을 강화하는 주요 방법입니다.
많은 조직에서 공유 위키가 지식을 저장하고 연결하는 데 이상적인 시스템이라는 사실을 알게 되었습니다. 그러나 대부분의 조직은 엄격한 규칙보다 자유 형식 편집에 우선 순위를 두기 때문에 위키를 쿼리하지 않습니다. 항상 Wiki 페이지에 구조를 적용하려고 시도할 수 있지만 이러한 구조는 종종 선택 사항이며 일부 Wiki 시스템에서는 필수 필드가 누락된 경우 Wiki 페이지를 저장할 수 없습니다. Wikipedia의 정보 상자 는 쿼리할 수 있는 구조화된 데이터를 추가하기 위해 Wiki를 개조하는 방법의 예입니다.
강제 이름 고유성
대부분의 위키는 생성 시 새 페이지에 유형을 할당하는 것을 허용하지 않지만 지식 그래프에는 없는 몇 가지 다른 규칙이 있습니다. 새 페이지를 만들 때 이름을 지정해야 합니다. 이 이름은 Wiki에서 페이지 식별자 역할을 합니다. 이제 두 페이지가 같은 이름을 가질 수 있습니다. 대부분의 PKG에는 비슷한 규칙이 있습니다. 동일한 이름의 새 페이지를 입력하려고 하면 소프트웨어에서 해당 페이지가 이미 존재한다고 알려줍니다. 페이지 이름을 기존 개념과 동일한 이름으로 변경하면 시스템에서 이름을 병합할 것인지 묻습니다. 별칭(동일한 개념에 대해 하나 이상의 레이블)을 추가하는 것은 많은 PKG가 잘 수행하지 못하는 또 다른 과제입니다.
기록 이벤트 루프에 형식화된 시스템 적용
위키와 지식 그래프 사이의 결정적인 차이점에 대한 아이디어를 얻었으니 PKG 페이지에 텍스트를 입력할 때 연결을 만드는 기능을 어떻게 가속화할 수 있는지 질문해 봅시다. 몇 가지 간단한 예제로 시작한 다음 좀 더 복잡한 주제에 대해 자세히 살펴보겠습니다.
우리가 사용하는 일반적인 패턴은 키보드에 입력된 문자를 시각화하는 것입니다. 사용자가 각각의 새 문자를 입력할 때 기존 개념에 엣지를 추가할 기회가 있는 경우 사용자가 결정을 내리는 데 도움이 되는 일련의 규칙을 적용합니다. 있는 경우 사용자는 탭 키와 같은 문자를 사용하여 관계를 확인하고 에지의 나머지 문자를 자동 완성합니다. 제안을 수락하지 않으려면 계속 입력하면 됩니다.
핵심은 사용자가 입력할 때 종종 특정 입력 개념에 대한 링크가 필요하다는 신호를 보내고 싶어한다는 것입니다. 소셜 미디어를 사용하고 사람이나 Twitter 계정을 참조하기 위해 "@"를 사용하여 사람이나 개념을 참조하려는 경우 이미 이 프로세스에 익숙할 수 있습니다. 블로그 게시물 끝에 "#" 문자를 사용하여 해시태그를 추가하여 추천 시스템이 특정 개념에 관심이 있는 사람들과 블로그 게시물을 연결할 수 있도록 할 수 있습니다.
유형이 있는 기존 노드를 참조하려는 저작 시스템에 신호를 보내면 자동 완성 목록을 입력하거나 제안할 때 이를 확인합니다.
핵심은 조직에 에지 권장 사항에 포함하려는 데이터 유형이 많다는 것입니다. 우리의 초점은 이러한 조직별 유형을 PKG 도구용 텍스트 편집기의 as-you-type 루프에 통합하는 방법을 찾는 것입니다. 회사 직원을 참조하려는 경우 "@"는 회사 직원 이름 목록에서 목록을 가져올 수 있습니다. 해당 직원의 링크를 클릭하면 해당 직원의 PKG 페이지로 이동할 수 있습니다.
또 다른 공통 통합 지점은 용어 및 약어의 표준 회사 용어집에 연결하는 것입니다. 특수 키보드 기호를 사용하는 대신 정점 이름에 콜론으로 구분된 접두어를 추가할 수 있습니다. 예를 들어 회사 용어집이 있는 경우 사용자가 "g:"를 접두사로 사용하도록 할 수 있으며 자동 완성은 해당 용어와 일치합니다. 산업별 용어집을 사용하는 경우 접두사에서 해당 용어 표준을 참조할 수 있습니다. 예를 들어 의료 분야에서는 접두사 "jpc:"가 해당 시스템의 용어를 자동으로 채우도록 "Just Plain Clear" 용어집을 사용합니다.
사용자 지정 유형 추가
PKG 통합 전략을 수립할 때 제 제안은 소규모로 시작하여 각 통합이 사용자 커뮤니티에 추가하는 가치를 기반으로 성공을 구축하는 것입니다. 일반적으로 참조되는 간단한 직원 목록 및 회사 용어로 시작하십시오. 회사 용어집의 경우 "g:" 또는 Wikipedia 용어의 경우 "w:"와 같은 항목을 실험해보고 얼마나 자주 참조되는지 확인하십시오. 이러한 제안의 채택률이 낮으면 제거해야 합니다. 사람들은 언제든지 Wikipedia에 외부 링크를 추가할 수 있습니다.
합격률 모니터링
이제 BERT 및 GPT-3과 같은 대규모 언어 NLP 모델을 사용하여 코드를 제안하여 소프트웨어 개발자를 지원하는 방법에 대한 광범위한 연구가 진행되었습니다. 시스템이 제안된 자동 완성에 대해 사용자에게 권장할 때 사용자가 제안을 수락하면 이벤트 로그에 기록됩니다. 수락률이라고 하는 사용자가 수락하는 제안의 부모는 이러한 도구를 채택하는 데 중요합니다.
일반적으로 사용자가 자동 완성 제안의 약 1/3을 수락하지 않으면 도구가 도움이 되기는커녕 성가시게 됩니다. 사용자는 도구를 비활성화하고 성공에 필요한 피드백을 받지 못합니다. 따라서 이러한 도구를 생산에 적용하기 전에 30% 이상의 수용률을 목표로 하는 것이 중요합니다.
영구 링크 및 PURL
노트의 전체 URL 링크를 회사 내부 리소스에 추가하는 것도 주의해야 합니다. Sharepoint(TM)와 같은 많은 내부 문서 관리 시스템은 계층적 파일 시스템 내의 특정 파일에 대한 링크에 의존합니다. 이러한 폴더에 대한 권한이 변경되거나 문서가 이동되면 이러한 링크는 더 이상 작동하지 않습니다.
더 나은 선택은 PKG에서 조직이 절대 변경하지 않겠다고 약속한 위치에 대한 링크만 만드는 것입니다. 이러한 링크를 영구 링크 또는 PURL이라고 합니다. 이는 내부 도메인 이름 시스템을 주의 깊게 관리하여 수행할 수 있습니다.http://glossary.mycompany.com/#term용어집이 호스팅되는 서버가 변경되더라도 항상 작동합니다.
다음 단계는 PKG 통합 팀이 끊어진 링크를 모니터링하고 조직의 서버에서 콘텐츠가 이동할 때 링크가 끊어지지 않도록 사전 예방적으로 작업할 수 있는 도구를 갖추도록 하는 것입니다. 작동하는 링크에 대해 1달러의 "가치"를 생성하는 것을 고려하고 링크가 끊어짐에 따라 손실되는 지식 가치와 끊어진 링크를 업데이트하는 데 걸리는 시간 아래에 있는 사람들을 돕습니다.
대부분의 지식 그래프는 양방향 링크를 지원합니다. 개념 페이지의 이름을 변경하면 해당 페이지에 대한 모든 링크가 자동으로 업데이트됩니다. 이것은 엄청난 성공이며 매우 일관되고 저렴한 관계 관리에 해당합니다.
일반적으로 지식 그래프의 가치 중 60%는 노드이고 40%는 관계입니다. 끊어진 링크는 작성자가 향후 링크를 만들지 못하게 하고 사용자는 끊어진 링크가 많은 시스템을 신뢰하는 것을 꺼립니다.
NLP 프레임워크와 통합
핵심 개발 중 하나는 들어오는 텍스트를 분석하고 조직과 관련된 키워드 및 문구를 찾을 수 있는 저비용 실시간 도구의 등장입니다. 이러한 프로세스에는 자동 분류, 명명된 엔터티 추출 및 팩트 추출이 포함됩니다. 예를 들어 "어제"라는 용어를 입력하면 시스템이 현재 날짜를 감지하고 타임라인에 어제 날짜에 대한 링크를 삽입하여 해당 날짜를 참조한 메모를 볼 수 있습니다.
편집 워크플로에서 NLP 통합이 발생하는 시기도 관련이 있습니다 . 대규모 NLP 모델에 대한 실시간 추론은 매우 비쌀 수 있습니다. 입력할 때 검사를 빠르게 실행해야 합니다. 하루가 끝날 때 문서에 키워드를 추가하면 비용이 훨씬 저렴합니다. 일반적으로 실시간 자동 제안 서비스는 1/10초 범위에서 실행되어야 합니다. 이것은 100밀리초의 응답 시간이며 서비스 수준 계약을 제공하는 조직은 사용자가 지불하고 싶지 않은 부담스러운 환불 수수료를 가질 수 있습니다.
기타 통합 지점
인차터 스트림 자동 제안과의 통합 및 실시간 NLP 분석과의 통합은 PKG 통합 아키텍처를 지배하고 PKG 제품 결정 지점을 주도하는 두 영역입니다. 그러나 고려해야 할 몇 가지 다른 영역이 있습니다.
Markdown 확장 변환
오늘날 거의 모든 PKG는 표준 Markdown 형식을 확장하는 데 중점을 둡니다. 불행하게도 공급업체마다 이러한 확장에 대해 서로 다른 형식을 선택했습니다. 시스템 간에 Markdown을 가져오거나 내보낼 때 이러한 형식 간에 변환기를 추가해야 할 수 있습니다. 예를 들어 Obsidian에서 Roam으로 또는 그 반대로 변환하려면 이 작업을 수행하기 위해 변환기 확장을 로드해야 합니다. 다행스럽게도 변환 스크립트는 매우 간단한 구문 변경이며 잘 문서화되어 있습니다. 많은 작은 파이썬 프로그램이 이미 이러한 변환을 수행할 수 있습니다. 확인해야 할 사항에는 외부 링크, 이미지 링크, 메타데이터 태그, 텍스트 강조 표시 및 별칭이 포함됩니다.
결론
규칙에 얽매이지 않는 빠른 자유 형식 메모 작성과 조직이 지식을 재사용하고 일관성을 유지하려는 욕구 사이에는 항상 자연스러운 긴장이 있습니다. PKG, 위키 및 엔터프라이즈 지식 그래프는 모두 NLP 도구의 폭발적 증가와 텍스트 편집기의 컨텍스트 내에서 텍스트를 제안하는 대규모 언어 모델의 성장과 함께 진화하고 있습니다.

![연결된 목록이란 무엇입니까? [1 부]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































