Word2Vec

RNN
1. semplice -> not DNN
  1. utile per una DNN
2. 3 layers: input, hidden, output
3. spazio vettoriale: similitudine matemat.
  1. rappresentazione distribuita
    1. rappresentazioni solo 1-to-N sono poche informative
    2. tante dimensioni che rappresentano "features"
    3. similitudine tra le "feature"
      1. con le operazioni giuste posso trovare similitudine SEMANTICHE E SINTATICHE
        es.: [vector(“King”) - vector(“man”) + vector(“woman”)]
        cosine distance
Word Embedding
1. diverso dai modelli classici come "n-gram" poichè questi sono discreti
2. modello simile ad un "autoencoder"
  1. codifica le parole in vettori: non si usano string (of course)
  2. si cerca di ricostruire ciò che è dato come input
  3. funzione per la codifica e per la decodifca: noi abbiamo solo encoding
3. 2 approcci
  Attachments:
  - Word Embedding approaches
  1. Continuous Bag of Words
    1. corpus; vocabolario; frasi; parola target; contesto.
    2. Modello - 3 layers: Input, Hidden, Output
      1. INPUT: contesto
      2. OUTPUT: parola focus
      3. Obiettivo: Massimizzare la probabilità condizionata
      4. HIDDEN: media
        "C" input, somma delle linne "1" e divisione per C
        funzione di attivazione lineare
  2. Skip-gram
    1. Modello - 3 layers: Input, Hidden, Output
    2. INPUT: parola focus
    3. OUTPUT: contesto
    4. Obiettivo: massimizzare l'average log probability - contesti >> parola
      1. T = lunghezza sentenza (w1,w2,...,wT)
      2. c = lunghezza max. contesto
      3. j = indice spostamento
      4. wt = parola centrale
      5. Calcolo della probabilità p( wt+j | wt )
        softmax
        Pro: semplice
        Contro: Costo comp. proporzionale alla dim. vocabolario (C)
        hierarchical softmax
        limita n° vettori output che sono aggiornati
        rappresentazione in albero binario
        Pro: invece di valutare "v" parole per vettore (C*v), valuto log(v)
        negative sampling

Media attachments

65d3f461-5586-4bfd-b691-22659a687b8f (image/jpg)

Next up

Word2Vec

Description

Resource summary

Media attachments

Similar

	Created by Elisa Antolli almost 8 years ago