- 相關(guān)推薦
潛伏語義分析的理論及其應(yīng)用
1.柏拉圖問題談起從古希臘哲人柏拉圖(Plato)開始,人們就為一個關(guān)于認(rèn)知的神秘問題所困惑:人們?yōu)槭裁茨軌蛟谒麄兯玫降南∩傩畔⒒A(chǔ)上獲得那么多的知識?這個問題有時被稱為柏拉圖問題(注:在柏拉圖對話錄里,有幾處接觸到知識來源問題。他在Meno里指出,靈魂是不滅的,已經(jīng)學(xué)習(xí)了所有的事物,所以真正的學(xué)習(xí)無非是回憶內(nèi)在的、忘記了的事物;在Phaedo里,他又把內(nèi)在論和形式理論聯(lián)系起來,例如“平等”的形式不可能來自實際的觀察,而是與生俱來的;在Cratylus里則認(rèn)為,詞語是天生(physis),不是約定俗成(nomos)的。),有時被稱為“刺激的貧乏”、“缺乏負(fù)面證據(jù)”或語言習(xí)得的邏輯問題。這個問題引起了哲學(xué)家、心理學(xué)家、語言學(xué)家、計算機(jī)科學(xué)家的廣泛興趣,各自提出不同的解釋。Chomsky派(注:Chomsky(1965,1986,2000)在不同場合都以兒童詞匯習(xí)得為例反復(fù)說明這個問題,因為“負(fù)面的證據(jù)”已成為他的語言共項論的主要支柱:Pinker(1994)從進(jìn)化、歷史、解剖、生理和兒童發(fā)育的不同角度觀察了語言的起源,認(rèn)為語言習(xí)得一定是建筑在一個強(qiáng)有力的和特殊的內(nèi)在機(jī)制,并稱之為“語言天性”。)秉承了柏拉圖和笛卡兒的觀點(diǎn)提出了“天賦論”或“內(nèi)在論”,對這個問題作出了一種回答。但是心理語言學(xué)家MacWhinney(注:Brian Mac Whinney最近在廣東外語外貿(mào)大學(xué)召開的心理語言學(xué)與外語教學(xué)討論會上談到,在他所提出的競爭模型里沒有負(fù)面的證據(jù),只有正面的證據(jù)。)、自然語言處理家Sampson(注:Geoffrer Sampson(1997)寫了一本關(guān)于語言天性爭論的專著Educating Eve,認(rèn)為負(fù)面證據(jù)之說是自我矛盾的。在Empirical Linguistics(2001)里,更進(jìn)一步指出,負(fù)面證據(jù)是內(nèi)省法臆想出來的。我們沒有負(fù)面證據(jù)也能歸納出萬有引力定律,為什么要編一本故意把of of the of(負(fù)面證據(jù))排除在外的語法?)卻對此提出質(zhì)疑。哲學(xué)家Quine對這個問題做出另一種回答,他舉了一個所謂"Gavagai"的有趣的例子:一個到外國訪問的人看到一只兔子,偶然聽到他的資料提供人說gavagai。在這種證據(jù)貧乏的情況下,gavagai可以指“兔子”(一個完整的事物),“有皮毛的”(事物的未分離部分),或“天氣不錯,是嗎?”(事物發(fā)生的時間段),他認(rèn)為純粹以經(jīng)驗為基礎(chǔ)的客觀真理和意義根本不存在,這簡直是“歸納法的恥辱”(scandal of induction)。對田野作業(yè)的語言學(xué)家來說,分析和綜合的區(qū)別并不存在。進(jìn)化心理學(xué)家Shepard(1987)卻認(rèn)為柏拉圖問題是心理學(xué)的核心問題,關(guān)于概括和相似性的普遍理論對心理學(xué)就等于牛頓定律對物理學(xué)那樣重要。
盡管大多數(shù)人都承認(rèn)語言能力的遺傳性,但是這種生物機(jī)制的存在并沒有解決Shepard所提出的概括(在母語習(xí)得里,更成為“過度概括”)和相似性的問題。這個歸納性難題經(jīng)常被看成是范疇化的問題,那就是說我們必須找出的這樣一個機(jī)制,足以把一系列刺激、語詞或概念(例如獵豹和老虎)看成是一類的(相似的)事物。但是相似性以什么為基礎(chǔ)卻眾說紛紜,有特征論、原型論,范式論、心理本質(zhì)論、心理語境論,等等,不一而足(桂詩春2000)。這些理論模型都旨在提出一些制約,以縮小歸納(也就是說學(xué)習(xí))所要解決的問題空間。就兒童詞匯習(xí)得而言,一些心理語言學(xué)家假設(shè)存在一些對詞語賦予意義的制約,兒童在早期習(xí)得詞匯時都假定:多數(shù)詞語在感知上都是對應(yīng)物體的名稱;兩個詞通常都有兩個不同的意義;享有共同聲音的詞語通常都是意義上相關(guān)的;一個不熟悉的言語聲音可能指一些兒童還未能掌握其對應(yīng)詞的東西。但是這也不是沒有問題,Landauer與Dumais(1997)指出,一個問題是我們不知道某一個制約是否真正存在;少年兒童雖然假定相同的物體只有一個名稱,但是他們所接觸的語言是否也是這樣呢?又如某一種制約的產(chǎn)生是逐步進(jìn)化的,還是通過認(rèn)知而起作用的一種普遍性制約?還有一個問題是,某些制約的存在和產(chǎn)生出于邏輯的需要,但這又是不夠的,可以從3方面看:1)某一套制約是否邏輯上和語用上充分,也就是說使用了它們以后是否就能解決問題?例如兒童認(rèn)為沒有同義詞,這在多大程度上能幫助他們學(xué)習(xí)詞匯?2)和方法論有關(guān),怎樣才能獲得前一個問題的答案?怎樣知道某一些特定制約的組合應(yīng)用到自然環(huán)境的輸入時才能解決問題?3)怎樣決定一個提出來的模型是否具有心理現(xiàn)實性?Landauer認(rèn)為要解決這些問題必須使用模擬的模型。而他和其他幾個研究人員Foltz、Dumais、Deerwester、Furnas等人(Deerwester et.al.1990)所提出的,而又得到著名語篇研究者Kintsch支持的模型就是潛伏語義分析(Latent Semantic Analysis,LSA)。這是一個多維數(shù)的線性組合模型,“這個模型只是一個普遍的學(xué)習(xí)機(jī)制,本身并不體現(xiàn)人類知識,但是它通過分析一個很大的自然語言文本語料庫來生成一個足以體現(xiàn)詞語和文本片段的相似性的表征!
2.LSA的理據(jù)
從潛伏性語義分析的角度看來,歸納就是減少維數(shù)(reduction of dimensionality)。Landauer舉了一個形象的例子,一個人站在高原上打電話告訴他的朋友三間房子的位置,A和B、A和C的距離都是5個單位,而B和C的距離則是8個單位。在他的朋友腦海里就形成一個兩個維數(shù)的三角形。如果他繼續(xù)補(bǔ)充說,這三間房子是在一條直線上,他的朋友就會說,他一定是看錯了這三個房子的距離。A和B、C的距離應(yīng)該是4.5個單位,而B和C的距離應(yīng)該是9個單位。因為在一個兩維數(shù)的三角形里,其底邊應(yīng)該是其他兩個邊的和。這說明,減少維數(shù)可改善估算。在研究工作中,研究人員往往通過減少維數(shù)來降低計算的復(fù)雜性,即把數(shù)據(jù)作平滑化處理:簡化數(shù)據(jù)并填補(bǔ)所缺的節(jié)點(diǎn)。在東京召開的聯(lián)合國大學(xué)主持的混沌對科學(xué)和社會的沖擊學(xué)術(shù)會議上,兩個著名的混沌學(xué)專家Feigenbaun和Aihara就一致認(rèn)為,人腦由100億個神經(jīng)元組成,而我們要對它的相互作用進(jìn)行觀察只能選取一個極低的維數(shù)。(注:這次大會的文集我國已由楊立、劉巨彬等譯,劉式達(dá)、杜先之等校,湖南科學(xué)技術(shù)出版社出版,題為《混沌:對科學(xué)和社會的沖擊》,兩人的對話見該書394-395頁。)在統(tǒng)計學(xué)中,這種減少維數(shù)的方法,例如因子分析、多維數(shù)量表也經(jīng)常被采用,Osgood(1971)在70年代所做的語義微分分析就用過因子分析。同樣地,我們也可以把兩個詞的語義相似性表示為距離:距離越近,相似性就越強(qiáng)。假定兩個詞在一個語篇單位(短語、句子或段落)中出現(xiàn)的頻率和它們的語義距離成反比例(頻率越多,距離越近),那它們就和語義相似性直接相關(guān)。我們可以通過觀察兩個
詞在同一單位中出現(xiàn)的相對頻率來估算出其語義相似性。因為人們進(jìn)行交際時,都會使用一些基本成分(如詞),使兩個詞語中存在某種相對的相似性。發(fā)送者會選擇同一語義空間彼此相近的詞,它們就會有不同的語義距離;而接收者則會按照它們在同一上下文中的相對頻率來估算這些距離。但是自然語言中的詞語數(shù)量極為龐大,而接收到的詞語卻數(shù)量極少,例如兩個詞的頻率都是百萬分之一,它們雖然有相關(guān)的意義,也不大可能會一起發(fā)生?墒侨绻覀兊慕邮諜C(jī)制按照統(tǒng)計知識把接受到的詞語表示為相似的語義空間,即同一個維數(shù)的各個節(jié)點(diǎn),情況就會大大改善。
附圖
基于上述的假設(shè),潛伏性語義分析可以用來比較不同語篇的語義相似性。研究語篇理解的首要目標(biāo)是:了解有哪些足以影響讀者從文本材料中抽取和保存信息的能力的因素,例如讓受試寫一篇文本材料的摘要,然后再看他們從文本中獲取了什么信息。這意味著把讀者的文本表征(認(rèn)知模型)和原來的文本表征加以比較,即把摘要中每一個句子的信息和文本中的句子信息加以比較。但是要對信息進(jìn)行比較并非易事,它要求掃描原文,找出信息的所在。而且受試所寫的摘要往往并不全都采用原文中的詞語。所以光比較詞語也不成。研究人員要比較的是摘要和原來文本的語義內(nèi)容。Kintsch(1988,1998)所提出的構(gòu)建整合模型(construction-integration model)就是一個觀察讀者對文本表征的認(rèn)知模型,它把讀者摘要的語義信息表示為一些語義成分組合,稱之為命題(prepositions)。文本中的每一個子句是一個命題(如the red rose和the rose is red,都屬于一個命題)。這些命題根據(jù)各種范疇連接起來,例如看它們是否共享中項(arguments)和指稱(referents)。一個文本的所有命題組合起來就成為文本結(jié)構(gòu)。不少實驗都證明命題是人們的心理處理單位(如Graesser1981)。對文本和受試對它回述進(jìn)行命題分析可以對一系列語義基本元素加以比較,其好處是這種比較并非表層結(jié)構(gòu)的比較。但問題是,目前還沒有生成命題的自動化程序,因為計算機(jī)必須對文本進(jìn)行正確的語法分析,并且了解詞語的正確意義。于是可以利用計算機(jī)來對語義相似性進(jìn)行比較的潛伏性語義分析就應(yīng)運(yùn)而生了。
LSA原來是建筑在以語義內(nèi)容的基礎(chǔ)上以改善信息提取的一種設(shè)計,稱為潛伏性語義索引(Latent Semantic Indexing,LSI)。在現(xiàn)實生活里,往往同一個語義概念表示為不同的詞語,如果以原詞作為檢索單位,就費(fèi)時失事。例如“電子計算機(jī)”往往又可以簡稱為“計算機(jī)”或“電腦”,甚至“服務(wù)器”和“機(jī)器”。如果在檢索中只鍵入任何一種說法就能查出“電子計算機(jī)”,不是方便得多嗎?這種方法還可以避免同義性的問題。LSA的基本假設(shè)是不同文件(文件可大可小,可以是詞語所出現(xiàn)的整個語境,也可以是某些文本、段落和句子)的詞語使用型式存在著某種“潛伏的”結(jié)構(gòu),而使用一些統(tǒng)計的方法可以估量出這種潛伏性結(jié)構(gòu)。這些方法通過分析詞語和文件之間的聯(lián)系,產(chǎn)生一個在相同語境中使用的詞語將會在語義上更為密切聯(lián)系的表征。例如:
(1)The U.S.S.Nashville arrived in Colon harbor with 42 marines
(2)With the warship in Colon harbor,the Colombian troops withdrew.
"warship"所出現(xiàn)的語境(LSA稱之為“向量”,vector)和"Nashville"所出現(xiàn)的語境相似,兩者的上下文都有"Colon"和"harbor"。LSA所使用的技巧可以自動找出這些更深層的聯(lián)系的結(jié)構(gòu)。
又如我們讀到下面的句子:
(3)John is Bob's brother and Mary is Anne's mother.
(4)Mary is Bob's mother.
這兩句話里并沒有出現(xiàn)表示親屬關(guān)系的sister,daughter,father,son等詞語,但第(4)句使我們意識到Bob和Ann是兄弟姐妹,Anne是John的女兒,John是Ann的父親,Bob是Mary的兒子。當(dāng)然LSA所推斷出的詞際關(guān)系往往并非完全符合邏輯,它所揭示的僅是相似性關(guān)系。這些關(guān)系相互牽連和制約,可以產(chǎn)生出一些模糊的間接推斷,關(guān)系上可強(qiáng)可弱,邏輯上可對可錯。
3.怎樣做LSA?
LSA以大規(guī)模的語料庫為基礎(chǔ),使用了一種完全自動化的數(shù)學(xué)/統(tǒng)計技巧來抽取和推斷詞際關(guān)系,這種技巧就是線性代數(shù)中的奇異值分解(Singular Value Decomposition,SVD)。從概念上說,LSA模型可以理解為一個具有三層的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。在SVD里,一個m×n的長方形矩陣{A}(m是行,n是列,m>n),被分解為三個矩陣:一個是m×n的成分矩陣{U},把原來的列的實體表示為派生的正交因子值的向量;另一個矩陣{w}用同樣的方法表示原來列N×N的實體;第三個矩陣{V}的轉(zhuǎn)置(transpose)是一個包括有標(biāo)度值的直角矩陣(N×N)。
{A}={U}{w}{V}[T]
這三個矩陣相乘就可以恢復(fù)原來矩陣。如果我們在恢復(fù)時減少維數(shù),就可以取得壓縮語義空間的效果。
附圖
下面是一個常被引用的例子:現(xiàn)有9條技術(shù)備忘錄的題目,其中5條是關(guān)于人和計算機(jī)交互作用的,4條是關(guān)于數(shù)學(xué)圖論的。這些題目在概念上不大相關(guān),它們構(gòu)成一個9列12行的矩陣,每一行是在這些題目中出現(xiàn)起碼兩次的實義詞(均標(biāo)為斜體),整理為表1。
c1:Human machine interface for ABC computer applications
c2:A survey of user opinio
n of computer system response time
c3:The EPS user interface management system
c4:System and human system engineering testing of EPS
c5:Relation of user perceived response time to error measurement
m1:The generation of random, binary,ordered trees
m2:The intersection graph of paths in trees
m3:Graph minors IV:Widths of trees and well-quasi-ordering
m4: Graph minors:A survey
表1
附圖
使用SVD技術(shù),就得到下列的3個矩陣,如表2:
表2
附圖
然后我們?nèi)∵@三個矩陣的頭兩列(即取其兩個維數(shù))來加以還原,便得到下面的矩陣(表3):
表3
附圖
我們可以首先看m4列的survey和trees。trees這個詞在m4題目里并沒有出現(xiàn),但是m4里有Graph minors,而m3里也有Graph minors,且出現(xiàn)了trees,所以在原來矩陣?yán)餅?的值被變?yōu)?.66,它表示在有g(shù)raph和minors的題目的無限樣本中,trees可能出現(xiàn)0.66倍。相反地,survey在原來矩陣中的m4中為1,但是卻變?yōu)?.42,反映了它在這樣的上下文里并非人們所期望的,不足以表示這個題目的特征。我們還可以比較human和user,human和minors在原來矩陣和后來矩陣的相關(guān)系數(shù):前者原為-.38,后者原為-.29,現(xiàn)分別提高到.94和-.83。而在原來的矩陣?yán),human并沒有和user或minors一起出現(xiàn)。減少了維數(shù)后顯示human和user是更為相似,而human和minors則相反,更為不相似。
LSA可以用來揭示一些隱含的內(nèi)部關(guān)系。讓我們再看另一個例子。中國學(xué)生英語語料庫(桂詩春、楊惠中,2002)是一個有100萬詞的作文語料庫,對5種不同水平——中學(xué)生(st2)、大學(xué)英語4級(st3)、大學(xué)英語6級(st4)、專業(yè)英語低年級(st5)、專業(yè)英語高年級(st6)——的寫作失誤進(jìn)行了標(biāo)注(共有61種)。最常見的失誤有21種,占全部失誤的87%。根據(jù)Landauer等人的意見,在進(jìn)行SVD之前,必須對這些數(shù)據(jù)作預(yù)處理:1)把每個頻數(shù)+1,然后轉(zhuǎn)換成對數(shù);2)把每一列的數(shù)值計算為-plog p,然后除以每列的平均信息量(即熵,entropy)。其公式(Maletic et al.1999)為:
附圖
這樣做的目的是通過估算每一個詞項在每一個語篇的重要性(即該詞項與它所出現(xiàn)的語篇所提供的信息量的程度成反比例),對它的出現(xiàn)率加權(quán)。在信息提取中經(jīng)常使用這種轉(zhuǎn)換,可獲顯著效果。限于篇幅,我們略去了計算的中間數(shù)據(jù)和經(jīng)SVD處理后(包括將維數(shù)減為2個)結(jié)果(注:我們使用的工具是Excel的“數(shù)據(jù)分析”和國際牲畜研究院Greg Hood所編制的,可在Excel上運(yùn)轉(zhuǎn)的Poptools2.4版。),只報告幾個有意義的變化,這些變化說明,由于減少了維數(shù),幾種學(xué)習(xí)者的言語失誤的關(guān)系都有所微調(diào),趨于更為合理。例如第一種失誤是拼寫失誤(Fml)。轉(zhuǎn)換值并沒有改變原來的次序,大學(xué)英語4級和6級學(xué)習(xí)者的拼寫失誤比中學(xué)學(xué)習(xí)者略多,因為它們的語源來自CET考試的命題寫作,而中學(xué)生則是自由作文的居多。命題寫作有特定的用詞要求,往往成為拼寫失誤的來源(如要求學(xué)習(xí)者用pollution),F(xiàn)在的分析并沒有把特定用詞要求考慮在里面,而僅就失誤的頻數(shù)和其他失誤的關(guān)系而言,經(jīng)過SVD處理后,這種失誤的發(fā)生率呈現(xiàn)為逐步略有降低的趨勢,較符合中國英語學(xué)習(xí)者的實際。和寫作用詞有很大聯(lián)系的是用錯了詞(wd3),經(jīng)過SVD處理后的變化如下:
Fm1 St2 St3 St4 St5 St6
原始頻數(shù) 1929 2877 2113 1827 1687
轉(zhuǎn)換值 3.30 3.47 3.34 3.27 3.24
處理后值 3.52 3.46 3.36 3.25 3.00
Wd3 St2 St3 St4 St5 St6
原始頻數(shù) 1102 1635 1815 757 360
轉(zhuǎn)換值 3.27 3.45 3.50 3.09 2.75
處理后值 3.30 3.49 3.44 2.99 2.84
經(jīng)處理后,St3仍然是最高的,但St4的絕對頻數(shù)雖然是最高的,處理后則比St3略低。St6的絕對頻數(shù)比St5的少一半,但處理后的值為2.84并沒有比2.99少一半,僅低0.15倍,這說明用錯詞在St6中仍然是一個常犯的失誤。句法結(jié)構(gòu)(Sn8)的失誤也是中國學(xué)習(xí)者常見的失誤,下面是另一個SVD處理后的變化:
Sn8 St2 St3 St4 St5 St6
原始頻數(shù) 1104 446 862 493 232
轉(zhuǎn)換值 3.27 2.85 3.16 2.90 2.55
處理后值 3.14 3.06 2.97 2.90 2.68
從絕對頻數(shù)來看,St3似乎比St2和St4、St5都少,處理后則顯得較為合理,趨于逐步降低。
一般來說,在SVD處理后還可以比較處理前后的余弦cosine(θ)(注:余弦Cosine(θ)為兩個向量的夾角,比相關(guān)系數(shù)更能表示相似性的程度。其公式為:),有時亦用相關(guān)系數(shù)來表示。經(jīng)過計算,相關(guān)系數(shù)從處理前的0.604增至0.728。拼寫失誤是中國學(xué)習(xí)者最容易犯的失誤,和各種失誤都有密切的關(guān)系。經(jīng)處理后,它的平均相關(guān)系數(shù)從0.614提高到0.817。
4.LSA的應(yīng)用
LSA以矩陣代數(shù)的SVD為依托,而SVD在信息處理,如圖象壓縮、噪音過濾、開發(fā)軟件的源代碼等方面都得到較廣泛的使用。LSA在語篇處理和語義的分析和提取方面均有廣闊應(yīng)用前景。
第一、我們要看LSA模型是怎樣回答我們柏拉圖問題。需要證明的是通過大量接觸自然文本,人們能否獲得語義相似性的知識?Landauer等人先對一個有代表性的英語語料庫(包括美聯(lián)社的新聞、給學(xué)生看的Grolier's美國大百科詞典和有代表性的兒童讀物)做SVD分析,然后用這個模型來做一次TOEFL同義詞測試(共80個項目)。為了模擬人的行為,他們把題目中的測試詞和每個選項的余弦都計算出來,然后讓LSA模型來選擇意義最接近的詞。LSA的答對率為65%,相當(dāng)于在美國的來自非英語國家的考生的平均答對率。但是要進(jìn)一步回答兒童怎樣在“負(fù)面的證據(jù)”的情況下習(xí)得詞匯,還要考慮效率問題。Landauer等人認(rèn)為,歸納方法取決于重建一個處于高維數(shù)空間的多重相似性系統(tǒng),這樣出現(xiàn)在局部上下文的事件也就可以反映高層次語義空間的相似性。因為四分之三的詞語知識都是來自間接歸納,即接觸一些那些詞語并不在其中出現(xiàn)的文本。他們進(jìn)一步完善其語料庫的選詞辦法,并對照Carroll等人的Word Frequency Book(1971)所提供的數(shù)據(jù),推斷出每一段文本后的詞匯增長率為0.20。如果一般學(xué)生每天平均讀50段文字,就可每天增長10個新詞。
第二、在信息提取方面,出現(xiàn)了LSI技術(shù),以取代一般的主題詞檢索。早在80年代,Dumais等人(1982)對一個包括有1033個醫(yī)學(xué)文獻(xiàn)的摘要和題目的數(shù)據(jù)庫,自動檢索到出現(xiàn)兩次以上的詞語5823個,經(jīng)過SVD處理取得100個因子,然后對數(shù)據(jù)庫提出30個問題,LSI比原來的主題詞檢索改善了13%。后來技術(shù)有所提高,據(jù)Berry等人(1994)對幾個系統(tǒng)的檢驗,LSI的改善程度已達(dá)30%。Deerwester等人(1990)認(rèn)為,LSI的優(yōu)點(diǎn)是,它可以解決同義性、多義性和詞語依賴性(term dependency)三方面的問題。LSI的研究還在發(fā)展,一些令人興奮的進(jìn)展是信息過濾、增加檢索問題的長度(TREC系統(tǒng)可以提出長達(dá)50個詞的問題來進(jìn)行檢索)和進(jìn)行跨語種檢索(Rosario 2000)。
第三、文本相似性研究。在語篇理解方面,F(xiàn)oltz,Kintsch和Landauer(1993)等人用LSA來自動化處理語篇連貫(以心臟科學(xué)文獻(xiàn)為試驗樣本),把一個句子或片段和接著的句子或片段的連貫性來分析比較,其相關(guān)系數(shù)高達(dá).90。在他們所建立的網(wǎng)站http://LSA.colorado.edu上面提供了一些已經(jīng)根據(jù)心理學(xué)、百科全書、文學(xué)成語、心臟科學(xué)的語料庫給讀者進(jìn)行網(wǎng)上比較文本相似性研究。例如我們隨機(jī)從一本認(rèn)知心理學(xué)教科書里找了兩段在詞語上沒有多大聯(lián)系的話:
"These findings indicate a considerable degree of functional equivalence of
perception
and imagery.However,it is possible that subjects in the imagery condition merely
made
plausible guesses about the fields of resolution,and did not actually rely on
imagery
at a11."
"While it is very straightforward to see that previous learning can facilitate
problem
solving by supplying well-practiced skills and strategies,it is perhaps less obvious that knowledge acquired
in the past can sometimes disrupt,and interfere with,subsequent attempts to solve
problems."
這兩段話在用詞方面沒有太多相同之處,但是和心理學(xué)語料庫的維數(shù)比較以后,它們的相關(guān)是.82。
第四、使用LSA來進(jìn)
行寫作質(zhì)量評估。Landauer,Laham和Foltz(1998)試驗使用5種不同的方法來應(yīng)用LSA對作文題目的答案進(jìn)行評分,如讓評分員對一些作文樣本進(jìn)行評分,然后計算出評了分的作文和未評分的作文的余弦,再根據(jù)相似性權(quán)重把最相似的作文分?jǐn)?shù)的平均分賦予未評分的作文,等等。這5種方法所評出的分?jǐn)?shù)的相關(guān)程度接近于它們和專家評分的相關(guān)程度。在另一項研究中,他們還用這方法來評估8個考試,題目從心臟解剖和生理學(xué)到心理學(xué)概念,美國歷史,當(dāng)前社會問題和市場問題。通過元分析發(fā)現(xiàn)LSA和專業(yè)評分員(來自教育考試服務(wù)公司或其他專業(yè)機(jī)構(gòu)或課程導(dǎo)師)的相關(guān)高于專業(yè)評分員之間的相關(guān)。LSA評分的可靠性說明一個篇章的全面的語義表征主要決定于詞的選擇,而對句法使用則要求不高。
第五、使用LSA來模擬心理語言學(xué)試驗。語義啟動是一種常用的試驗,Landauer用LSA方法來模擬Till等人(1988)的判斷多義詞的試驗,結(jié)果完全一致。這些結(jié)果顯示在語篇理解中,忽略了詞序、句子結(jié)構(gòu)、非線性的詞與詞的相互作用的詞義關(guān)系也能夠預(yù)測人類的行為。Kintsch等人(1999)還通過LSA所獲得的信息提出長時工作記憶(Long-term Working Memory,LTWM)的理論。他認(rèn)為人類的記憶系統(tǒng)包括了感知特征、語言特征、命題結(jié)構(gòu)、宏結(jié)構(gòu)、語境模型、控制結(jié)構(gòu)、目標(biāo)、詞匯知識、框架、一般知識、情節(jié)記憶等等成分。它們對理解語篇至為重要,遠(yuǎn)遠(yuǎn)超過短時記憶。LTWM認(rèn)為在某些條件下工作記憶可以大大延伸,LSA在某種程度模擬了這種機(jī)制,實際上也模擬了人類的知識系統(tǒng)。大部分人類知識都體現(xiàn)為語言,而LSA通過減少維數(shù)來篩選它所處理的信息,從而保留了它所處理的文本的主要語義關(guān)系。例如在LSA處理的文件中,mountain和mountains的相關(guān)系數(shù)可能很低,但是通過減少維數(shù)后,它們的相關(guān)卻是.81。它的推斷是這兩個詞在語義上有密切聯(lián)系。同樣地,圍繞mountain還可以找到peaks,rugged,ridges和climber,而圍繞mountains又可以找到peaks,rugged,plateaus和foothills。我們所需要的正是這些信息,以認(rèn)識人們在理解過程中是怎樣通過LTWM來激活知識的。又如"The band played a waltz."(樂隊奏了一曲華爾茲)和"Mary loved to dance." (瑪麗喜歡跳舞)這兩句話雖然無甚直接聯(lián)系,但它們都分別激活了一些第三方的互有聯(lián)系的語詞,故其余弦為.45。
第六、在LSA的基礎(chǔ)上,Kintsch等(2000)及Steinhart(2001)又開發(fā)了訓(xùn)練學(xué)生寫作的軟件。這個軟件是一個在線的輔導(dǎo)學(xué)生寫摘要的軟件,叫做Summary Street。Steinhart認(rèn)為,寫摘要是一種比較難的技能,低年級學(xué)生(如初中生)往往依靠“抄和減”的策略來寫摘要,而高年級的學(xué)生(如高中生)則使用較復(fù)雜的壓縮規(guī)則,如重建和歸納。寫摘要訓(xùn)練不僅僅是一種寫作技巧的訓(xùn)練,它可以提高學(xué)生的閱讀理解、獲取知識和思維能力。這個軟件首先讓學(xué)生看一些文章如能源科學(xué)、古代文明、血液循環(huán)系統(tǒng)等,然后提出寫摘要的一些要求,如找出主題句、找出支持主題句的兩三個重要思想和細(xì)節(jié),把它們組成一句話,用一個概括性的詞語來代替具體的項目和事件,避免煩瑣的信息和細(xì)節(jié),避免重復(fù)信息等等。學(xué)生根據(jù)這些要求把閱讀的文章寫成摘要,在網(wǎng)上輸入到Summary Street系統(tǒng)里,系統(tǒng)就能分析摘要,告訴學(xué)生摘要在多大程度上反映原文,長度是否合乎要求,等等。學(xué)生可以通過系統(tǒng)提供的反饋信息(包括指出拼寫錯誤和用詞不當(dāng),信息覆蓋面是否足夠等),不斷改寫摘要。他在Boulder縣中學(xué)試驗的結(jié)果說明,運(yùn)用Summary Street訓(xùn)練學(xué)生所寫出的摘要比使用傳統(tǒng)的文字處理器寫出的摘要要好,特別是處理難度比較大的文章更是如此。
5.啟發(fā)和問題
LSA直逼哲學(xué)上的認(rèn)識論問題,卻又開拓了廣闊的應(yīng)用前景,惹人深思。一是人們認(rèn)識世界從意義開始,語篇里隱含著許多錯綜復(fù)雜的語義關(guān)系,是了解語義的鑰匙。二是現(xiàn)代科學(xué)技術(shù)為建立、儲存和提取包括了大量語篇的語料庫創(chuàng)造了條件,也為人們認(rèn)識這些錯綜復(fù)雜的語義關(guān)系創(chuàng)造了條件,使我們有可能解決許多與文本有關(guān)的問題。三是認(rèn)識問題的一個有效途徑是減少維數(shù),提高概括力。和維數(shù)匹配的歸納可以大大改善知識的提取和表征。四是LSA要解決的語篇中的語義關(guān)系,它既依賴于計算機(jī)技術(shù),又利用了奇異值分解的線性代數(shù)模型,充分體現(xiàn)了文理互相滲透的特點(diǎn)。
但是LSA也留下了一些有待我們繼續(xù)探索的問題。最主要的是它只考慮語詞,而不考慮句法信息,甚至不考慮詞序的信息。而且它完全依賴于數(shù)學(xué)模型,所得到的結(jié)果有時不好解釋。
【參考文獻(xiàn)】
1 Berry,M.,S.Dumais,& G.O'Brien[M].1994.Using linear algebra for Intelligent Information Retrieval [M].Boston:
Houghton
Mifflin Company.
2 Carroll,J.,et al.1971.Word Frequency Book.Houghton Mifflin Company & American
Heritage
Publishing Co.,Inc.
3 Chomsky,N.1965.Aspects of the Theory of Syntax [M].Cambridge,MA:
MIT Press.
4 Chomsky,N.1986.Knowledge of language:Its nature,origin,and use [M].
Westport:
Greenwood
Publishing  
;Group.
5 Chomsky,N.2000.New horizons in the study of language and mind[M].Cambridge:Cambridge University Press.
6 Deerwester,S,S.Dumais,G.Fumas,T.Landuauer,& R.Harshman.1990.Indexing by latent
semantic analysis [J]
.Journal of the American Society for Information Science 41:391-407.
7 Dumais,S.et al.1982.Using semantic analysis to improve access to textual
information [J].Machine Studies 17:87-107.
8 Foltz,P.W.,W.Kintsch & T.K.Landauer.1993 (Jan). An analysis of textual coherence
using Latent Semantic Indexing [A].Paper presented at the meeting of the Society
for Text and Discourse,Jackson,WY.
9 Geoffrey sampson.2001.Empirical Linguistics [M].London:Continuum.
10 Graesser,A.1981.Prose Comprehension beyond the word [M].New York:Springer.
11 Kintsch,W.,D.Steinhart,G.Stahl & LSA Research Group.2000. Developing summarization
skills through the use of LSA-Based Feedback [J].Interactive learning environments 8 (2):87-109.
12 Kintsch,W.1988.The role of knowledge in discourse comprehension:A construction-integration model [J].Psychological Review 95:163-182.
13 Kintsch,W.1998.Comprehension [M].Cambridge University Press:86-91.
14 Kintsch,W.,L.Vimla,K.Patel & A.Ericsson.1999.The role of long-term working memory in text comprehension [J].Psychologia 42:186-198.
15 Landauer,T.& S.Dumais.1997.A solution to Plato's problem:The Latent Semantic
Analysis theory of the acquisition,induction,and representation of knowledge
[J].Psychological Review &nbs
p;104:211-240.
16 Landauer,T.K.,D.Laham & P.W.Foltz.1998.Computer-based grading of the conceptual content of essays.Unpublished manuscript.
17 Landauer,T.,P.W.Foltz & D.Lanham.1998 An introduction to latent semantic
analysis [J]. Discourse Processes 25:259-284.
18 Maletic,J.et al.1999.14[th]IEEE ASE'99 [A].Cocoa Beach FL.12-15[th][C].pp.251-254.
19 Osgood,C 1971.Exploration in semantic space:A personal diary [J].Journal of Social
Issues 27:5-64.
20 Pinker.1994.The Language Instinct.[M].New York:William
Morrow Company,Inc.
21 Rosario,B.2000.Latent Semantic Indexing:An overview
[A].INFOSYS
240 Spring 2000.
22 Shepard,R.1987.Towards a universal law of generalization
for psychological
science [J].Science 237:1317-1323.
23 Steinhart,D.2001.Summary Street:an intelligent tutoring system
for improving student writing through
the use of latent semantic analysis [D].Unpublished doctoral
dissertation,Institute of Cognitive
Science,University of Colorado,Boulder.
24 Till,R,E.Mross & W.Kintsch.1988.Time course of priming for
associate and inference
words in discourse
context [J].Memory and Cognition 16:283-299.
25 van Dijk,T.,& W.Kintsch.1983.Strategies of discourse
comprehension
[M].New York:Academic Press.
26 桂詩春,2000,《新編心理語言學(xué)》[M]。上海:上海外語教育出版社,308-329。
【潛伏語義分析的理論及其應(yīng)用】相關(guān)文章:
透鏡及其應(yīng)用教材分析08-17
實物期權(quán)理論及其應(yīng)用前景研究08-07
基于應(yīng)用寫作語言失當(dāng)現(xiàn)象的語義學(xué)分析08-16
產(chǎn)業(yè)組織理論及其研究范式的演化分析08-05
現(xiàn)代漢語語義場分析初探08-07
護(hù)理勝任力本位教育的應(yīng)用現(xiàn)狀的理論分析08-05
透鏡及其應(yīng)用08-17
膠體的性質(zhì)及其應(yīng)用08-17
電解原理及其應(yīng)用08-17