基于 WordNet 的英语词语相似度计算
                                   颜伟      荀恩东
                      北京语言大学 语言信息处理研究所 北京 100083
                         E-mail: {yanwei,edxun}
摘要:本文主要介绍一种基于 WordNet 的英语词语相似度的实现方法,我们从 WordNet
(1)WordNet 的同义词词集(Synset)(2) 类属信息(Class) (3)意义解释(Sense explanation)

  English Word Similarity Calculation Based
                                   on WordNet
                                        Yan Wei     Xun Endong
                               Language Information Processing Center
                      Beijing Language and Culture University Beijing 100083
                                E-main: {yanwei,edxun}
Abstract: In our approach, English WordNet is used as the general synonym resource. The algorithm
extracts synonym and use vector based method to calculate the English word similarity. The vector
includes three kinds of information.(1)WordNet synonym. (2) Class. (3)Sense explanation. It is a
feasible way to calculate the similarity of the English words in the experiments.
Keywords: WordNet, word similarity

1 引言

处理领域的热点和前沿课题。本文介绍一种基于 WordNet 英语词语相似度计算的实现方
于 WordNet 做了大量的工作。另一类方法利用大规模的语料进行统计,这种基于统计的方
的假设的基础上。       第二类方法建立在两个词汇具有某种程度的语义相似当且仅当它们出现
      基于语义词典的方法通常依赖于比较完备的大型语义词典。                 一般同义词词典都是将所
度量。如 Rada R. etc 和 Lee J.H. etc 通过计算在 WordNet 中词节点之间上下位关系构成的
公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre & Rigau (1995)在利用
WordNet 计算词语的语义相似度时,            除了结点间的路径长度外,    还考虑到了其他一些因素。
高密度区域,       其语义距离应大于位于低密度区域的���           由于 WordNet 中概念描述的粗细程度
Lillian Lee 利用相关熵,P.Brown etc 采用平均互信息来计算词语之间的相似度。基于统计
      本文主要介绍一种基于 WordNet 的词语相似度的实现方法,            这主要是一种基于语义词
典的方法,我们从 WordNet 中提取同义词并采取向量空间方法计算英语词语的相似度,                  。

2 WordNet 的特点及其在英语词语相似度计算中的作用

理工作的一项不可或缺的基础性资源。美国 Princeton 大学的 WordNet 就是一个语义词典的非
常好的范例。它是在 Princeton 大学认知科学实验室的 G. Miller 教授指导下开发的,实际工作
始于 1985 年。作为心理语言学家的实验品,WordNet 的最初设计并不是接受计算语言学的影
响或直接为自然语言处理服务的。 年代末,       语义计算的需要,      计算语言学家发现了 WordNet
并将之应用于自然语言处理中涉及语义分析的诸多领域。         WordNet 的基本思想简单明确,    它的
形式化做得很彻底。目前,WordNet 已经成为一个事实上的国际标准,从 EuroWordNet 发展的
事实不难看出,WordNet 框架的合理性已被词汇语义学界和计算词典学界所公认。
  WordNet 是一个在线的词汇参照系统,   它的独特之处在于它是依据词义而不是依据词形来
组织词汇信息。WordNet 使用同义词集合(Synset)代表概念(Concept)  ,词汇关系在词语之
间体现,语义关系在概念之间体现。WordNet 构造的核心是如何表示词汇概念节点,以及在这
些概念节点之间建立起各种语义关系。WordNet 将英语词汇组织为一个同义词集合(Synset),
  WordNet 现在已经发布了 2.0 版本,本文的实验是基于 1.6 版本进行的。Version 1.6 主要
包括名词、动词、形容词和副词四类实词,虚词不予考察。在上述四类实词中,WordNet 着重
描写的是名词和动词。WordNet 中词汇概念的语义关系主要包括:上下位、同义、反义、整体
和部分、蕴含、属性、致使等。WordNet Version 1.6 种描写了四类实词 99643 个概念节点和超
过 5000000 个语义关系,形成了一张庞大的概念语义网络。

3 基于 WordNet 的英语词语词义相似度计算

用户的 query 一般都很短,我们能获得的信息很少。虽然,在英语中我们根据用户的 query 一
义项的文档,比如用户输入“bank”  ,我们很难判断出用户是想查询关于银行方面的文档还是
它的不同义项,只提供一个基于 WordNet 的相似词语的集合。
    在我们的工作方案中,我们首先以 WordNet 的词汇语义分类作为基础,抽取出其中的同

3.2:基于 WordNet 的英语词语相似度计算
     我们利用 WordNet 提供的接口函数,从 WordNet 的同义词词集(Synset)
word)和意义解释(Sense explanation)这三个集合中抽取出候选同义词,然后进行特征提取,

计算出 feature (SW ) :

            feature ( SW ) = {{Ws}, {Wc}, {We}}

           {Ws} : WordNet 中 Sense W 所有的同义词;

           {Wc} : Sense W 所有的相关的属类;

           {We} : Sense W 的解释中所有的实词。

以容易地计算出 WordNet 中两个词语之间的相似度。
      • 意义相似度
                                                              ∑ {Wsj} ×IDF (wi ) 2 + w ∈{Wci}∩{Kc}× IDF (wi ) 2 + w ∈{Wei}∩{Ke}× IDF (wi ) 2
                                                                                          ∑ Wcj                        ∑ Wej
                                          1             wi ∈{Wsi}∩
      Similarity( SWi , SW j ) =                      ×                               i                            i

                                                                           ∑ K × IDF ( wi ) 2 ×           ∑ K × IDF ( w j ) 2
                                 No( SWi) × No( SWj )
                                                                            i∈QU , K ∈{ Ks , Kc , Ke )                        j∈Qv , K ∈{ Ks , Kc , Ke )


      No(SW): W 意义的顺序。例如,the first sense =1, the second sense =2……

      IDF( wi ):           从 WordNet 中训练得到的构建 WordNet 时出现某个 wi 的文档的倒数

      Ks=1.5: 同义词特征的权重,
      Kc=1: 类属特征的权重,

           :出现 wi 的指标集,

           :出现 w j 的指标集

      •    词语相似度

                                     ∑                                                                        ∑
                                                      max ( Similarity ( SW 1i , SW 2 j ) +                                    max ( Similarity ( SW 2i , SW 1 j )
                                                   j∈{1,..,| SW 2|}                                                         j∈{1,..,| SW 1|}
                                i∈{1,..,| SW 1|}                                                         i∈{1,..,| SW 2|}
      Similarity (W1 , W2 ) =
                                                                                    | SW 1 | + | SW 2 |

      |SW1|:W1 的 sense 的个数,
      |SW2|:W2 的 sense 的个数。

4 实验结果及分析

可以依据相似度计算(见表 1)结果,在相似词序列中按相似度从高到低的顺序检索出相关文
            表 1:sanctity 相似词语序列(部分)
中心词             相似词             相似度                 sanctity      simpleness        0.149
sanctity       holiness         1.000               sanctity    wholesomeness       0.148
sanctity      sacredness        0.230               sanctity     unlawfulness       0.148
sanctity    expressiveness      0.199               sanctity     incredibility      0.148
sanctity      insolubility      0.199               sanctity    incredibleness      0.148
sanctity   counter factuality   0.194               sanctity      worldliness       0.146
sanctity   constructiveness     0.189               sanctity       factuality       0.141
sanctity     unpopularity       0.185               sanctity      factualness       0.141
sanctity      unholiness        0.169               sanctity      popularity        0.140
sanctity      humanness         0.161               sanctity      lawfulness        0.139
sanctity   parental quality     0.161               sanctity   unsatisfactoriness   0.139
sanctity     particularity      0.161               sanctity        finitude        0.136
sanctity      inaccuracy        0.158               sanctity     boundedness        0.136
sanctity       ethnicity        0.155               sanctity       finiteness       0.136
sanctity     measurability      0.154               sanctity    satisfactoriness    0.135
sanctity    quantifiability     0.154               sanctity     ordinariness       0.126
sanctity    destructiveness     0.151               sanctity      negativism        0.121
                                                     ……           …………              ……
sanctity      nativeness        0.150

    我们的方法提供了一个针对某一个中心词的按照相似度从高到低排列的词语的序列,                                                        ,
同时我们可以区分出同一个词不同的词性的相似词语的序列。                                     这一点在英语信息检索中很有
价值。用户的 query 如果是一句话,那么我们就可以根据词语的不同词性进行检索或进行问
题扩展。比如,在 WordNet 中“doctor”有名词和动词两种词性,我们就可以依据不同的词
    名词“doctor”      :
    1. doctor, doc, physician, MD, Dr., medico -- (a licensed medical practitioner; quot;I felt so bad I
went to see my doctorquot;)
    2. Doctor of the Church, Doctor -- ((Roman Catholic Church) a title conferred on 33 saints
who distinguished themselves through the othodoxy of their theological teaching; quot;the Doctors of
the Church greatly influenced Christian thought down to the late Middle Agesquot;)
     3. doctor -- (children take the roles of doctor or patient or nurse and pretend they are at the
doctor's office; quot;the children explored each other's bodies by playing the game of doctorquot;)
     4. doctor, Dr. -- (a person who holds Ph.D. degree from an academic institution; quot;she is a
doctor of philosophy in physicsquot;)
                             表 2:doctor(名词)相似词语序列(部分)
    中心词                                相似词                                相似度                模式
    doctor                               doc                               0.400             <N N>
    doctor                           physician                             0.400             <N N>
    doctor                    medical practitioner                         0.270             <N N>
    doctor                          medical man                            0.270             <N N>
    doctor                             Doctor                              0.250             <N N>
    doctor                     health professional                         0.223             <N N>
    doctor                    health care provider                         0.223             <N N>
    doctor                     medical specialist                          0.209             <N N>
    doctor                           caregiver                             0.186             <N N>
    doctor                     professional person                         0.150             <N N>
    doctor                         professional                            0.107             <N N>
    doctor                             grownup                             0.099             <N N>
    doctor                              adult                              0.083             <N N>
    doctor                            sawbones                             0.081             <N N>
    doctor                      operating surgeon                          0.081             <N N>
    doctor                             surgeon                             0.081             <N N>
    doctor                         psychoanalyst                           0.077             <N N>
    doctor                            alienist                             0.077             <N N>
    doctor                         horse doctor                            0.076             <N N>
    doctor                          pathologist                            0.075             <N N>
    doctor                         diagnostician                           0.075             <N N>
    doctor                         brain doctor                            0.074             <N N>
    doctor                          neurologist                            0.074             <N N>
      ……                              …………                                  ……               ……

     动词“doctor”      :
     1:sophisticate, doctor, doctor up -- (alter and make impure, as with the intention to deceive;
quot;Sophisticate rose water with geraniolquot;) => adulterate, stretch, dilute, debase -- (corrupt, debase,
or make impure by adding a foreign or inferior substance; often by replacing valuable ingredients
with inferior ones; quot;adulterate liquorquot;)
     2:doctor -- (give medical treatment to)=> treat, care for -- (provide treatment for; quot;The
doctor treated my broken legquot;; quot;The nurses cared for the bomb victimsquot;; quot;The patient must be
treated right away or she will diequot;; quot;Treat the infection with antibioticsquot;)
     3: repair, mend, fix, bushel, doctor, furbish up, restore, touch on -- (restore by replacing a part
or putting together what is torn or broken; quot;She repaired her TV setquot;; quot;Repair my shoes pleasequot;)=>
better, improve, amend, ameliorate, meliorate -- (to make better; quot;The editor improved the
manuscript with his changesquot;
                          表 3:doctor(动词)相似词语序列(部分)
      中心词                            相似词                             相似度                      模式
       doctor                       doctor up                         0.500                  <V V>
       doctor                       adulterate                        0.400                  <V V>
       doctor                         Doctor                          0.333                  <V V>
       doctor                       adulterate                        0.065                  <V A>
       doctor                      sophisticate                       0.047                  <V V>
       doctor                       furbish up                        0.040                  <V V>
       doctor                         bushel                          0.040                  <V V>
       doctor                         repair                          0.040                  <V V>
       doctor                      sophisticate                       0.040                  <V N>
       doctor                          mend                           0.032                  <V V>
       doctor                           Dr.                           0.032                  <V N>
       doctor                          darn                           0.031                  <V V>
       doctor                     trouble-shoot                       0.031                  <V V>
       doctor                          sole                           0.028                  <V V>
       doctor                         reheel                          0.028                  <V V>
       doctor                         repoint                         0.028                  <V V>
       doctor                         resole                          0.028                  <V V>
       doctor                        revamp                           0.027                  <V V>
       doctor                        patch up                         0.023                  <V V>
       doctor                         restore                         0.017                  <V V>
       doctor                           fix                           0.012                  <V V>
       ……                           …………                              ……                      ……

5 结论


                                               参   考    文     献
[1] George A. Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller. Introduction to
  WordNet: An On-line Lexical Database[EB], Cognitive Science Laboratory Princeton University, 1993, 8.
[2] Rada R. etc Development and application of a metric on semantic nets. IEEE Transactions on System, Man and
Cybernetics, 1989
[3] Lee J.H. etc Information Retrieval based on conceptual distance in ISA hierarchies’, Journal of
[4] Agirre E. and Rigau G. (1995), A proposal for word sense disambiguation using conceptual distance, in
  International Conference quot;Recent Advances in Natural Language Processingquot; RANLP'95, Tzigov Chark,
[5] P.Brown etc Word sense disambiguation using tactical methods. In Proceedings of 29th Meeting of the
  Association for Computational Linguistics (ACL-91) ,1991
[6] Lillian Lee Similarity-Based Approaches to Natural Language Processing Ph.D. thesis. Harvard University
  Technical Report TR-11-97.
[7] 于江生,俞士汶 中文概念词典的结构 中文信息学报 2002(4).
[8] 胡俊峰,俞士汶 唐宋诗中词汇语义相似度的统计分析及应用 中文信息学报 2002(4).
[9] 关毅,王晓龙 基于统计的汉语词汇间语义相似度计算 语言计算与基于内容的文本处理 清华大学出版
  社    2003.8
[10] 刘群,李素建 基于《知网》的词汇语义相似度计算,第三届汉语词汇语义学研讨会,2002.5.

