Movatterモバイル変換


[0]ホーム

URL:


לדלג לתוכן
ויקיפדיההאנציקלופדיה החופשית
חיפוש

Word2vec

מתוך ויקיפדיה, האנציקלופדיה החופשית

Word2vec היא שיטה לשיכון מילים[א] (Word embeddings) המבוססת על זוג מודלים מבוססירשתות נוירונים המאומנות לשחזר הקשרים לשוניים שלמילים. Word2vec לוקח כקלט קורפוס גדול של טקסט ומייצרמרחב וקטורי, בדרך כלל של כמה מאותממדים, כאשר לכל מילה ייחודית בקורפוס מוקצה וקטור במרחב.וקטורי המילים ממוקמים במרחב הווקטורי כך שמילים החולקות הקשרים משותפים בקורפוס ממוקמות קרוב זו לזו במרחב.

Word2vec נוצר ופורסם בשנת 2013 על ידי צוות חוקרים שהובל על ידי תומאש מיקולוב מגוגל ונכתב עליופטנט. לאחר מכן נותח והוסבר האלגוריתם גם על ידי חוקרים אחרים.[1] לשיכוני מילים (embedding vectors) שנוצרו באמצעות אלגוריתם Word2vec יש יתרונות רבים בהשוואה לאלגוריתמים קודמים כמוניתוח סמנטי סמוי (latent semantic analysis(אנ')).

CBOW ו-skip-grams

[עריכת קוד מקור |עריכה]

Word2vec יכולה להשתמש באחת מבין שתי ארכיטקטורות של מודלים כדי לייצרייצוג מבוזר של מילים:bag of words רציף (continuous bag-of-words(אנ'), CBOW) אוskip gram רציף(אנ'). בארכיטקטורת CBOW, המודל חוזה את המילה הנוכחית מתוך "חלון" של מילות הקשר הנמצאות מסביבה. סדר המילים בהקשר אינו משפיע על החיזוי (הנחת bag-of-words). בארכיטקטורת skip-gram הרציפה, המודל משתמש במילה הנוכחית כדי לחזות את החלון שמסביבה של מילות הקשר. ארכיטקטורת skip-gram ממשקלת בחיזוי מילות הקשר קרובות כיותר משמעותיות מאשר מילות הקשר רחוקות יותר. על פי הערת המחברים,[2] CBOW מהיר יותר בעוד ש־skip-gram עושה עבודה טובה יותר למילים נדירות.

פרמטריזציה

[עריכת קוד מקור |עריכה]

תוצאות של אימון word2vec יכולות להיות רגישות לפיקביעת הפרמטרים. להלן כמה פרמטרים חשובים באימוני word2vec.

אלגוריתם האימון

[עריכת קוד מקור |עריכה]

ניתן לאמן מודל Word2vec בעזרתsoftmax(אנ') היררכי או דגימה שלילית. כדי להתקרב לסבירות הלוגריתמית המותנית (conditional log-likelihood) שהמודל מבקש למקסם, שיטת הסופטמקס ההיררכית משתמשת בקוד האפמן כדי לצמצם את החישוב. לעומת זאת, שיטת הדגימה השלילית מתקרבת לבעיית המקסום על ידי צמצוםפונקציית הנראות של מקרים שליליים שנדגמו. לטענת המחברים, softmax היררכי עובד טוב יותר למילים נדירות בעוד שדגימה שלילית עובדת טוב יותר למילים תכופות ויותר טובה עם וקטורים בממדים נמוכים.[2] ככל שמתארך משך האימון, הסופטמקס ההיררכי מפסיק להיות שימושי.[3]

מילים בתדירות גבוהה מספקות לעיתים קרובות אינפורמציה מועטה בלבד. ייתכן שמילים עם תדירות גבוהה מסף מסוים, יידגמו באופן חלקי בלבד כדי לקצר את משך האימון.[4]

איכות שיכוני המילים עולה עם ממדיות גבוהה יותר. אך לאחר שתגיע לנקודה מסוימת, הרווח השולי יקטן. בדרך כלל, ממדי הווקטורים מוגדרים כ־100 ל־1,000.

גודל חלון ההקשר קובע כמה מילים לפני ואחרי מילה נתונה ייכללו כמילות הקשר של המילה הנתונה. על פי הערת המחברים, הערך המומלץ הוא 10 עבור skip-gram ו־5 עבור CBOW.[2]

הרחבות

[עריכת קוד מקור |עריכה]

הוצעה הרחבה של word2vec לבניית שיכוני ממסמכים שלמים (ולא ממילים בודדות). הרחבה זו נקראת paragraph2vec או doc2vec ויושמה בכלי C, Python[5][6] ו־Java / Scala[7] (ראה להלן), כאשר גרסאות ה־Java וה־Python תומכות גם בהקשר לשיכון של מסמך על מסמכים חדשים שטרם נראו.

וקטורי מילים לביואינפורמטיקה: BioVectors

[עריכת קוד מקור |עריכה]

אסגארי ומופרד הציעו להרחיב את וקטורי המילים עבור n-gram גם עבור רצפיםביולוגיים (למשלDNA,RNAוחלבונים ) ליישומיביואינפורמטיקה.[8] הם כינו את הווקטורים הללו ביו־וקטורים (BioVec) כאשר הם מתייחסים לרצפים ביולוגיים באופן כללי. וקטורים של חלבונים כונו ProtVec (רצפי חומצות אמינו) ווקטורי גנים כונו GeneVec, ניתן להשתמש בייצוג זה באופן נרחב ביישומים של למידת מכונה בפרוטאומיקה וגנומיקה. מהתוצאות עולה כי ביו־וקטורים יכולים לאפיין רצפים ביולוגיים מבחינת פרשנויות ביוכימיות וביו־פיזיות של התבניות הבסיסיות. גרסה דומה, dna2vec, הראתה כי יש קשר בין ציון הדמיון של Needleman -Wunsch לבין הדמיון הקוסיני(cosine similarity) של וקטורי המילים dna2vec.

מימושים

[עריכת קוד מקור |עריכה]

קישורים חיצוניים

[עריכת קוד מקור |עריכה]
ויקישיתוף מדיה וקבצים בנושאWord2vec בוויקישיתוף

הערות שוליים

[עריכת קוד מקור |עריכה]

ביאורים

[עריכת קוד מקור |עריכה]
  1. יצירת ייצוג מבוסס וקטורים למילים
בינה מלאכותית
כללימבחן טיורינגהיסטוריה של הבינה המלאכותיתציר הזמן של בינה מלאכותיתרפש של בינה מלאכותיתתור הזהב של הבינה המלאכותיתאוריינות AIסוכן תבוניAI-שלמותאסדרת בינה מלאכותית(בישראל)בינה מלאכותית צרהבינה חישוביתהסברתיות בינה מלאכותיתהפרדוקס של מורבקסוכן תבוניאתיקה של בינה מלאכותיתזיהוי תוכן שנוצר על ידי בינה מלאכותיתAttention Is All You Need
תחומיםעיבוד שפה טבעיתראייה ממוחשבתבינה מלאכותית יוצרת (מוזיקה) •אומנות בינה מלאכותיתבינה מלאכותית כללית (AGI)
סוגילמידת מכונהמערכת לומדתלמידה מונחיתלמידה בלתי מונחיתלמידה עמוקהלמידת חיזוקסיווג בייסיאני נאיבירשת בייסיאנית
אלגוריתמי למידת מכונה קלאסיתפרספטרוןעץ החלטהמכונת וקטורים תומכיםBag of wordsאלגוריתם k-מרכזיםאלגוריתם מיקסום התוחלתהורדת ממדאלגוריתם שכן קרוביער אקראיQ-learningT-SNETf–idfחיזוק גרדיאנט
למידה עמוקהרשת עצבית מלאכותיתרשת זרימה קדימהרשת עצבית רקורסיביתפונקציית אקטיבציהטרנספורמרAttentionGAN
עיבוד שפה טבעיתמודל שפהשיכון מיליםבלשנות חישוביתתרגום מכונהחילוץ מידע(אנ')ניתוח סנטימנטזיהוי חלקי דיבר(אנ')מערכת זיהוי דיבורזיהוי ישויותכריית טקסטתיוג תפקידים סמנטיWord2vecמודל שפה גדולGPTBERTמודל Bag-of-words(אנ')יצירת טקסט בשפה טבעית(אנ')מילת עצירהניתוח מחרוזותStemming(אנ')למטיזציה(אנ')
יישומים לבינה מלאכותית(אנ')צ'אטבוטזיהוי דוברזיהוי עצמיםזיהוי תבניותעוזר וירטואליזיהוי תווים אופטימחולל תמונותהזיות
מערכות בינה מלאכותיתאלייזהChatGPTDALL-EMidjourneyGeminiקלודPerplexitySearchGPTGitHub Copilotדיפ־פייקסיריGoogle Assistantאמזון אלכסהמיקרוסופט קופיילוטQwen
סוגיותבטיחות בינה מלאכותיתסכנה קיומית מבינה מלאכותית כלליתבינה מלאכותית חזקה(אנ')יישור בינה מלאכותית(אנ')בקרת יכולות בינה מלאכותית(אנ')בינה מלאכותית ידידותיתהתכנסות אינסטרומנטלית(אנ')סינגולריות טכנולוגיתהשתלטות הבינה המלאכותיתהמכתב הפתוח על בינה מלאכותית (2015)הסתברות לאבדון
ספריות בשימוש נרחבTensorFlowPyTorchTorchHugging FaceKerasspaCy(אנ')Caffe
לקטגוריית הבינה המלאכותית
אוחזר מתוך "https://he.wikipedia.org/w/index.php?title=Word2vec&oldid=42540216"
קטגוריות:

[8]ページ先頭

©2009-2026 Movatter.jp