Word 삽입 공간의 유사성은 무엇을 의미합니까?

거의 모든 온라인 콘텐츠 및 연구 논문에서는 이러한 임베딩에 대한 d oing 벡터 대수가 논리적으로 합리적이기 때문에 단어 임베딩이 “의미 적”이라고 언급합니다. 인용 된 가장 일반적인 예는 유추 영역에서 나온 것입니다. 임베딩은 특정 유추에 대한 반응으로 판단됩니다. 예 : 벡터 (남자는 왕, 여자는 여왕) 또는 (파리는 프랑스, ​​델리는 인도). 우리가 이러한 비유 작업을 올바르게 수행하고 단어 임베딩의 차원에서 포착되는 유사성 개념이 확실히 있다는 것은 고무적입니다. 그러나 실제로 어떤 개념이 포착되고 무엇이 빠질까요? 유추 이외에 임베딩을 평가하는 다른 방법은 무엇일까요? 이 블로그 게시물에서 살펴볼 몇 가지 질문입니다.

단어 임베딩이 얼마나 좋은지는 모델 학습에 사용 된 학습 데이터의 품질과 양에 따라 다릅니다. 잘 알려져 있고 널리 사용되는 사전 훈련 된 임베딩부터 시작해 보겠습니다. 여기에서 사용할 수있는 Twitter 트윗에서 훈련 된 Stanford Glove 임베딩 (https://nlp.stanford.edu/projects/glove/). 이 임베딩은 유추 작업에서 상당히 잘 수행되며 감정 분석과 같은 다운 스트림 작업에 사용될 때 좋은 결과를 보여주었습니다. 이러한 임베딩을 다운로드하여 Python에서 사용하는 것은 매우 쉽습니다.

임베딩을 다운로드하면 특정 개념 / 단어에 대해 생성 된 가장 유사한 단어가 무엇인지 확인할 수 있습니다. 이 함수에서 사용되는 유사성 메트릭은 기본적으로 코사인 유사성입니다. 따라서 매우 유사한 벡터의 경우 1에 가까운 점수를 얻어야하고 매우 다른 경우에는 더 낮거나 심지어 음의 점수를 얻어야합니다 (cos 함수의 범위는 -1에서 +1까지)

이제 뒤로 물러서서 생각하세요. “진실하다”라는 단어를 생각할 때 가장 많이 떠오르는 단어가 무엇입니까? 그들 중 일부는 예를 들어 성실하고 관대합니다. 이제 word Net (동의어 및 반의어와 같은 알려진 감각이나 관계를 구체적으로 포착하기 위해 구성된 어휘)에 따라 sincere의 상위 동의어가 무엇인지 살펴 보겠습니다.

따라서 진지함 또는 엄숙함의 상위 동의어가이 목록에 표시되지 않음을 알 수 있습니다. 이제 단어와 그 자체와 단어와 그 반대의 유사점을 찾아 보겠습니다.

첫 번째 결과는 예상과 같지만 두 번째 결과는 약간 놀랍습니다. 진실하고 성실하지 않은 것은 그다지 가깝지 않지만 실제로 벡터 공간의 반대쪽 끝에는 없습니다. 그것은 실제로 결함이 아닙니다. 비슷한 맥락을 공유하는 단어를 더 가깝게 만들려고 노력함으로써 단어 임베딩이 어떻게 결정되는지에 대한 논리로 돌아 가면. “진실함”과 “성실하지 않음”은 종종 유사한 맥락을 가지며 여러 차원에서 유사 할 수 있습니다. 예를 들어 둘 다 형용사이며 “진실하거나 진지한”개념과 관련이 있습니다.

이제“차”라는 단어의 또 다른 예를 들어 보겠습니다. 차와 가장 유사한 단어를 관찰하십시오. 그것들은 모두 차와 관련이 있지만 연관성의 성격은 상당히 다를 수 있습니다. 예를 들어, 우유, 크림 및 설탕은 차에 들어가는 성분입니다 (일부-전체 관계). 커피는 차의 가까운 대체품입니다. 와인, 주스, 맥주 및 차는 모두 차와는 상당히 다르더라도 “음료”범주에 속합니다. “Drink”는 차, 커피, 와인, 주스를 포함한 음료 세트의 수퍼 세트와 같습니다. 케이크와의 연관성은 나에게 다소 놀랍지 만 사람들이 차와 함께 케이크를 먹었 을까요?

따라서 양질의 임베딩은 단어 간의 합리적인 연관성을 포착합니다. 그러나 이러한 연관은 여러 차원을 따르며 동의어, 부분 전체, 카테고리 멤버십 등과 같은 수많은 아이디어를 나타낼 수 있습니다. 따라서 매우 흥미로운 질문은 단어 임베딩의 차원을 실제로 해석 할 수 있는지 여부입니다. 이 영역에는 몇 가지 작업이 있으며 다음 게시물에서 단어 삽입 해석 가능성을 조사한 몇 가지 논문에 대해 간략하게 설명합니다. 그러나 현재 중요한 점은 유추만으로는 임베딩을 평가하는 가장 좋은 방법이 될 수 없다는 것입니다. 실제로 평가할 메트릭은 이러한 임베딩으로 수행하려는 작업의 함수가 될 수 있습니다. 연관성 또는 동의어와 같은 특정 관계를 찾는 것이 목적입니까? 임베딩은 일반적으로 단일 관계가 아닌 광범위하고 다차원적인 연결을 얻는 데 적합합니다. 그러나 때로는 임베딩 공간이 인간에게 직관적이지 않은 연관성을 포착 할 수 있으며 그 반대의 경우도 마찬가지입니다. 예를 들어 집에 대한 유사한 단어를보십시오. 사람이 집을 들었을 때 가장 많이 떠오르는 것을 말하도록 요청 받으면 “at”과 같은 전치사 나 “here”또는 “there”와 같은 부사에 대해 이야기하지 않을 것입니다.