Reprezentări vectoriale numerice ale textului care capturează sensul semantic pentru căutare și clasificare.
Termenul "embedding" provine din matematică și a fost adaptat în Machine Learning pentru a descrie transformarea datelor discrete (cuvinte, imagini) în reprezentări vectoriale continue. Conceptul a fost popularizat în 2013 cu Word2Vec de către Google, care a demonstrat că cuvintele pot fi reprezentate ca vectori care capturează relațiile semantice.
Google introduce Word2Vec, primul sistem care demonstrează că cuvintele pot fi reprezentate ca vectori semantici.
Apariția GloVe (Stanford), FastText (Facebook) și primelor aplicații comerciale în căutare și recomandări.
BERT și GPT introduc contextual embeddings care înțeleg sensul cuvintelor în context, nu doar în izolare.
OpenAI Embeddings, Cohere, și sisteme specializate pentru limbi specifice și domenii de aplicație.
Embeddings sunt reprezentări vectoriale dense (de obicei cu 100-3000 dimensiuni) care transformă textul, imagini sau alte date discrete în spații vectoriale continue. Aceste reprezentări capturează relațiile semantice și sintactice, permițând calculatoarelor să "înțeleagă" sensul și să facă comparații între elemente bazate pe similaritatea lor semantică.
Reprezentări vectoriale pentru cuvinte individuale, capturând sensul și relațiile dintre cuvinte.
Exemple: Word2Vec, GloVe, FastText - fiecare cuvânt are un vector unic care reflectă sensul său.
Aplicații: Căutare semantică, analiza sentimentului, sisteme de recomandare bazate pe conținut.
Reprezentări pentru propoziții întregi, capturând sensul și contextul complet al frazelor.
Exemple: Sentence-BERT, Universal Sentence Encoder - fiecare propoziție are un vector care reflectă sensul său complet.
Aplicații: Căutare în documente, clasificarea textului, detectarea plagiatului, sisteme de întrebări și răspunsuri.
Reprezentări pentru documente întregi, capturând tema și conținutul principal al textelor lungi.
Exemple: Doc2Vec, Longformer, BigBird - fiecare document are un vector care reflectă tema și conținutul său.
Aplicații: Căutare în arhive, clasificarea documentelor, detectarea temelor, sisteme de recomandare de conținut.
Reprezentări care funcționează în mai multe limbi, permițând comparații și căutări cross-linguale.
Exemple: Multilingual BERT, XLM-R, LASER - același vector pentru sensuri similare în limbi diferite.
Aplicații: Traducere automată, căutare multilingvă, clasificare cross-linguală, sisteme de localizare.
Embeddings-urile permit căutarea bazată pe sens, nu doar pe cuvinte cheie exacte.
Google Search: Folosește embeddings pentru a înțelege intenția utilizatorilor și a găsi rezultate relevante chiar dacă nu folosesc cuvintele exacte.
Amazon: Căutarea produselor folosește embeddings pentru a găsi produse similare bazate pe descrieri și caracteristici.
Embeddings-urile permit recomandarea de conținut bazată pe similaritatea semantică.
Netflix: Folosește embeddings pentru a recomanda filme și seriale bazate pe conținutul vizionat anterior și preferințele utilizatorului.
Spotify: Embeddings-urile ajută la crearea playlist-urilor personalizate bazate pe stilul muzical și preferințele utilizatorului.
Embeddings-urile ajută la identificarea conținutului suspect prin analiza semantică.
Gmail: Folosește embeddings pentru a detecta spam-ul și phishing-ul prin analiza semantică a conținutului emailurilor.
PayPal: Embeddings-urile ajută la detectarea tranzacțiilor frauduloase prin analiza descrierilor și comportamentului.
Embeddings-urile permit analiza și clasificarea automată a documentelor complexe.
Microsoft SharePoint: Folosește embeddings pentru a organiza și căuta în documentele corporative bazate pe conținut.
IBM Watson Discovery: Embeddings-urile permit căutarea și analiza în arhivele de documente cu milioane de fișiere.
Limba română prezintă provocări unice pentru embeddings: flexibilitate morfologică complexă, declinări și conjugări abundente, și vocabular specializat. Majoritatea modelelor de embeddings sunt antrenate pe texte în engleză și nu capturează nuanțele specifice ale limbii române.
Modelele NetZone sunt antrenate pe corpus românesc specializat, capturând nuanțele și specificul limbii.
Embeddings-urile sunt optimizate pentru contexte specifice: business, juridic, medical, tehnic.
Rezultate cu 40% mai precise decât modelele generice pentru căutare și clasificare în română.
API-uri simple și documentație completă pentru integrarea în aplicațiile existente.