檢索詞向量英語怎麼說及英文單詞
① word2vec怎麼生成詞向量python
:將抄one-hot向量轉換成低維詞向量的這一層(雖然大家都不稱之為一層,但在我看來就是一層),因為word2vec的輸入是one-hot。one-hot可看成是1*N(N是詞總數)的矩陣,與這個系數矩陣(N*M, M是word2vec詞向量維數)相乘之後就可以得到1*M的向量,這個向量就是這個詞對應的詞向量了。那麼對於那個N*M的矩陣,每一行就對應了每個單詞的詞向量。接下來就是進入神經網路,然後通過訓練不斷更新這個矩陣。
② word2vec是如何得到詞向量的
假設每個詞對應一個詞向量,假設:
1)兩個詞的相似度正比於對應詞向量的乘積。即:sim(v1,v2)=v1⋅v2sim(v1,v2)=v1⋅v2。即點乘原則;
2)多個詞v1∼vnv1∼vn組成的一個上下文用CC來表示,其中C=∑ni=1viC=∑i=1nvi。C|C|C|C|稱作上下文C的中心向量。即加和原則;
3)在上下文CC中出現單詞AA的概率正比於能量因子e−E(A,C),whereE=−A⋅Ce−E(A,C),whereE=−A⋅C。即能量法則(可參看熱統中的配分函數)。
因此:
p(A|C)=e−E(A,C)∑Vi=1e−E(vi,C)=eA⋅C∑Vi=1evi⋅C (1)p(A|C)=e−E(A,C)∑i=1Ve−E(vi,C)=eA⋅C∑i=1Vevi⋅C (1)
其中VV是整個詞彙空間。
ref1ref1的分母計算是非常耗時的,下面推導比較方面快速的計算ref1ref1的方法。
把整個詞彙空間分成兩部分GG和HH,同時在下面的公式中GG和HH也表示各自的詞向量中心,並且設AA存在於GG中,則:
p(A|C)=p(A|G,C)⋅p(G|C) (2)p(A|C)=p(A|G,C)⋅p(G|C) (2)
where,
p(G|C)=eG⋅CeG⋅C+eH⋅C=11+e(H−G)⋅C (3)p(G|C)=eG⋅CeG⋅C+eH⋅C=11+e(H−G)⋅C (3)
and,
p(A|G,C)=eA⋅C∑w∈Gew⋅C (4)p(A|G,C)=eA⋅C∑w∈Gew⋅C (4)
引入sigmoidsigmoid函數σ(x)=1/(1+e−x)σ(x)=1/(1+e−x),則
p(G|C)=σ(−(H−G)⋅C)=σ((G−H)⋅C)p(G|C)=σ(−(H−G)⋅C)=σ((G−H)⋅C)
p(G|C)p(G|C)只是簡單的計算兩部分向量之差,不能再簡化了。
另外,根據上述定義,很容易得到這個關系p(G|C)=1−(H|C)p(G|C)=1−(H|C),因為CC要麼落在GG要麼落在HH。
觀看ref4ref4,則知p(A|G,C)p(A|G,C)是另一個版本的p(A,C)p(A,C),只是詞彙空間從V→GV→G而已。然後我們繼續拆分GG遞歸的計算下去,最後只需要計算各兄弟部分的向量差而已。這是一個典型的二叉樹,劃分規則在開始就可確定,如果考慮查詢效率的話,就是一個霍夫曼樹。其中每個葉子節點表示一個單詞,每個中間節點G or HG or H的向量為所有子向量的中心。
展開來就是:
p(A|C)=∏σ((Gi−Hi)⋅C)p(A|C)=∏σ((Gi−Hi)⋅C)
那麼問題來了,這個詞向量是怎麼搞出來了?學習詞向量哪家強?
現在我們這里有一堆的語料,一行一行分好詞的,語料那是相當的多,以至於它涵蓋了自然語言中的所有正確句子,每個單詞在它所在的位置都是恰到好處。現在每個單詞我們有一個對應的詞向量,我們怎麼來衡量這批詞向量的好壞呢。
這批詞向量張成一個自然語言的空間(從線性代數來說這樣描述可能不太准確),它自己規定的自然語言空間,在這個空間中,它可以導出給定語料在它的空間中出現的概率。熟悉吧,這就是語言模型。
我們可以根據詞向量計算出來每個單詞在它的位置出現的概率,然後這整個語料在這個向量空間中出現的概率就等於每個詞在其位置出現概率的乘積。
即,
p(T)=∏p(wi|Contexti) (5)p(T)=∏p(wi|Contexti) (5)
TT為整個語料樣本,ContextiContexti為單詞ii的上下文,理論上是扣除該單詞後剩下的所有單詞包括位置。當然了,我們只考慮它的前後cc個鄰居。
我們的目標是使ref5ref5最大化,實際中是加loglog加負之後的最小化。怎麼以高效率優化這個目標函數呢,這是一個典型的運籌學問題,而且還是非線性規劃。我要翻一下運籌學的教材了。
③ 矢量和向量的英文單詞都是一樣的嗎
是的,都是vector
④ 微積分和向量英語詞彙
您好!
微積分:calculous
向量:vector
最好買個電子詞典,不給高分的話估計沒人會幫你查的。
⑤ C++編寫程序對12個月的英文單詞根據字典序進行從小到大的排序,請使用string向量實現。
你先把
string a[12]={January
February
March三月來
April 四月
May 五月
June 六月自
July七月
August 八月
September 九月
October 十月
November 十一月
December十二月
}
放到一個數值裡面 然後貼出來 我給你排序
⑥ 怎麼把詞向量引入到神經機器翻譯模型
神經抄機器翻譯(Neural Machine Translation)是指直接采襲用神經網路以端到端方式進行翻譯建模的機器翻譯方法。區別於利用深度學習技術完善傳統統計機器翻譯中某個模塊的方法,神經機器翻譯採用一種簡單直觀的方法完成翻譯工作:首先使用一個稱為編碼器(Encoder)的神經網路將源語言句子編碼為一個稠密向量,然後使用一個稱為解碼器(Decoder)的神經網路從該向量中解碼出目標語言句子。上述神經網路模型一般稱之為「編碼器-解碼器」(Encoder-Decoder)結構
⑦ 中文詞向量相似性評價一般用哪個數據集和什麼評價標准
先試圖定義麼叫適合研究做
計算量要太高(svg或者lstm太合適)
能夠三內做完(志向宏遠坑比專pragmatics太合適)屬
創新性(難定義啊文應用情析HIT做詞PKU做句解析翻譯似乎做)
能簡單ACL 』14所論文看遍看看沒問題針文或者少數民族語言特化反ACL 『14基本都用詞向量吧堅信需要詞向量都獨特
⑧ 特徵向量這個詞的英語怎麼說
在matlab中,求矩陣A的特徵值和特徵向量,使用語法【V,D】=eig(A),所以我覺得用 eigenvector-特徵向量,eigenvalue-特徵值,較為合理一些哈哈哈。。。