Movatterモバイル変換


[0]ホーム

URL:


לדלג לתוכן
ויקיפדיההאנציקלופדיה החופשית
חיפוש

DALL-E

מתוך ויקיפדיה, האנציקלופדיה החופשית
Dall-E
DALL·E
תמונה שיצרה DALL-E 2 על פי ההנחיה: "תמונה של יד רובוטית מציירת, אמנות דיגיטלית" ("A photo of a robot hand drawing, digital art")
תמונה שיצרה DALL-E 2 על פי ההנחיה:
"תמונה של יד רובוטית מציירת, אמנות דיגיטלית"
("A photo of a robot hand drawing, digital art")
מפתחOpenAI
מחזור חיים5 בינואר2021 – הווה (5 שנים וחודש)

DALL-E (מסוגנן כ-DALL·E;הלחם בסיסים שלדאלי ושלוול-E)[1][2] היא תוכנתבינה מלאכותית שיוצרת תמונות מתיאורים טקסטואליים.

התוכנה משתמשת בכ-12 מיליארד פרמטרים[2] בגרסה של מודל ה-GPT-3 כדי לפרש קלט טקסטואלי משפה טבעית (כמו "ארנק עור ירוק בצורת מחומש" או "תצוגה איזומטרית שלקפיבארה מצויה עצובה") וליצור תמונות בהתאם.[1] היא יכולה ליצור דימויים של חפצים ריאליסטיים ("חלון ויטראז' עם תמונה של תות כחול") וגם של חפצים שאינם קיימים במציאות ("קובייה במרקם של דורבן").[3][4][5]

משנות ה-2000 ואילךרשתות עצביות מלאכותיות רבות הצליחו ליצור תמונות מציאותיות.[1] ייחודה של DALL-E בכך שהיא מסוגלת לייצר אותן על בסיס הנחיות בשפה טבעית, שאותן היא מיישמת לרוב ורק לעיתים נדירות נכשלת, וגם זאת לא באופן משמעותי.[1]

OpenAI לא פרסמהקוד מקור לאף אחד מהדגמים, אף על פי ש"בקר" של DALL-E זמין באתר האינטרנט של OpenAI, שבו ניתן לראות פלט ממבחר מוגבל של הנחיות לדוגמה.[2] חלופותקוד פתוח, שהוכשרו על כמויות קטנות יותר של נתונים, כמו DALL-E Mini, שוחררו על ידי אחרים.[6]

לפי "MIT Technology Review", אחת המטרות של OpenAI הייתה "לתת למודלי שפות תפיסה טובה יותר של המושגים היומיומיים שבני אדם משתמשים בהם כדי להבין דברים".[7]

היסטוריה

[עריכת קוד מקור |עריכה]
תמונות שהופקו על ידי DALL-E על פי הנחיית הטקסט: "איור מקצועי באיכות גבוהה שלג'ירףדרקוןכימרה. ג'ירפה מחקה דרקון. ג'ירפה עשויה מדרקון."

ב-5 בינואר 2021 נחשף DALL-E על ידיOpenAI, חברה אמריקאית למחקרבינה מלאכותית.[7]

באפריל 2022, OpenAI הכריזה על DALL-E 2, בטענה שהיא יכולה להפיק תמונות פוטו-ריאליסטיות מתיאורים טקסטואליים, יחד עם עורך המאפשר שינויים פשוטים בפלט. נכון לזמן ההכרזה, נאמר שהתוכנה עדיין נמצאת בשלב המחקר, כשהגישה מוגבלת למשתמשי בטא שנבחרו מראש. המודל עדיין יכול לעשות טעויות חמורות, כולל טעויות שאף אדם לא יעשה.[8] DALL-E 2 תואר כדגם ש"יכול ליצור תמונות ואמנות מקוריות וריאליסטיות מתיאור טקסט. היא יכולה לשלב מושגים, תכונות וסגנונות."[9]

בספטמבר 2023, OpenAI השיקה את DALL·E 3 עם יכולות הבנה והפקת תוצרים גבוהים יותר ובאוקטובר הוא הוטמע בצורה אינטגרלית בתוךChatGPT[10]. הצ׳אטבוט יכול כעת ליצור תמונות ייחודיות משיחה פשוטה - והתכונה החדשה הזו זמינה בשלב זה למשתמשי Plus ו-Enterprise. מיקרוסופט הטמיעה את המודל בכלי Image Creator של Bing ובכלים נוספים כגון Copilot.

באפריל 2024 נוספה אפשרות לעריכה באמצעות טקסט וסימון אזור בתמונה שנוצרה על ידי DALL•E בתוך ממשק ChatGPT.[11]

CLIP

[עריכת קוד מקור |עריכה]

DALL-E פותח והוכרז לציבור בשיתוף עם CLIP (הדרכה מקדימה של שפה-תמונה נגדית).[7] CLIP הוא מודל נפרד שתפקידו "להבין ולדרג" את התפוקה של DALL-E.[1] התמונות ש-DALL-E מייצר נשמרות ומדורגות על ידי CLIP, שמציגה את התמונות האיכותיות ביותר עבור כל הנחיה נתונה.[7]

ארכיטקטורת תוכנה

[עריכת קוד מקור |עריכה]

המודל Generative Pre-trained Transformer (GPT) פותח לראשונה על ידי OpenAI בשנת 2018,[12] תוך שימוש בארכיטקטורת Transformer. האיטרציה הראשונה, GPT, הוגדלה כדי לייצר את GPT-2 ב-2019;[13] בשנת 2020 הוא הוגדל שוב לייצורGPT-3, עם 175 מיליארד פרמטרים.[2]

המודל של DALL-E הוא מימוש מולטי-מודאלי של PT-3 עם 12 מיליארד פרמטרים[2] אשר "מחליף טקסט לפיקסלים", מאומן על צמדי טקסט-תמונה מהאינטרנט.[7] הוא משתמש בלמידת אפס-שוט (zero-shot learning) כדי ליצור פלט מתיאור ורמז ללא הכשרה נוספת.[14]

DALL-E יוצר מספר תמונות בתגובה להנחיות. מודל CLIP[1] שהוכשרו בו למעלה מ-400 מיליון זוגות של תמונות וטקסטים מבין ומדרג תמונות אלו.[2][15] במקום מערך נתונים של תמונות עם כותרת (כמוImageNet)[7] CLIP משייך תמונות לכיתובים שלמים.[7] CLIP הוכשר לחזות איזה כיתוב (מתוך "בחירה אקראית" של 32,768 כיתובים אפשריים) היה המתאים ביותר לתמונה, מה שמאפשר לה לזהות לאחר מכן אובייקטים בתמונות מחוץ לסט האימונים שלה.[7]

ביצועים

[עריכת קוד מקור |עריכה]
חוסר הבחנה בין "פנדה עושהציור בקפה" לבין "ציור בקפה של פנדה" ב-DALL-E 2
הדמיה אדריכלית שייצר DALL-E תוך התבססות על סגנונה של האדריכליתזהא חדיד.

DALL-E מסוגלת ליצור דימויים במגוון סגנונות, מתמונות פוטוריאליסטיות[2] ועד לציורים ואמוג'י. היא מסוגלת לבצע מניפולציות ולסדר מחדש אובייקטים בתמונות.[2] אחת היכולות שצוינו על ידי יוצריה הייתה המיקום הנכון של אלמנטים עיצוביים ללא הוראה מפורשת: לדוגמה, כאשר מתבקש לציירצנון-דייקון מקנח את אפו, לוגם לאטה או רוכב על חד אופן, DALL·E מצייר לעיתים קרובות את המטפחת, הידיים והרגליים במקומות סבירים.[16]

בעוד ש-DALL-E הציג מגוון רחב של מיומנויות ויכולות, עם הוצאתה של ההדגמה הציבורית שלו, רוב הסיקור התמקד בתת-קבוצה קטנה של תמונות פלט "סוריאליסטיות"[7] או "מוזרות".[17] באופן ספציפי, הפלט של DALL-E עבור "איור של צנון דייקון תינוק בחצאית טוטו מטייל עם כלב" הוזכר ב-Nature[18],NBC[19] ופרסומים אחרים.[2][20][21] הפלט שלו ל"כורסה בצורת אבוקדו" צוין באופן דומה.[7][22] לעומת זאת, נצפה פיתוח לא מכוון של DALL-E של מיומנויות חשיבה חזותית המספיקות לפתור את המטריצות של רייבן (Raven's Progressive Matrices), מבחנים חזותיים המבוצעים לעיתים קרובות לבני אדם כדי למדוד אינטליגנציה.[23]

למרות זאת, DALL-E תואר כ"חזק להפליא לשינויים כאלה" ואמין בהפקת תמונות עבור מגוון רחב של תיאורים שרירותיים.[1] סם שד,מ-CNBC, כינה את התמונות שלו "מוזרות" וציטט את ניל לורנס, פרופסור ללמידת מכונה באוניברסיטת קיימברידג', שתיאר זאת כ"הדגמה מעוררת השראה של היכולת של מודלים אלה לאחסן מידע על העולם שלנו ולעשות הכללות בדרכים שעבור בני אדם הן טבעיות מאוד". שד גם ציטט את מארק רידל, פרופסור חבר בבית הספר למחשוב אינטראקטיבי שלג'ורג'יה טק, שאמר שתוצאות ההדגמה של DALL-E הראו שהיא מסוגל "למזג מושגים באופן קוהרנטי", מרכיב מפתח ביצירתיות אנושית, וכי התוכנה מדגימה באופן יוצא דופן הפקת איורים שהם הרבה יותר קוהרנטיים ממערכות Text2Image אחרות מהשנים האחרונות.[17] רידל גם צוטט על ידי ה-BBC שהוא "התרשם ממה שהמערכת יכולה לעשות".[22]

צוינה לטובה גם היכולת של DALL-E "להשלים את החסר" ולהסיק מפרטים . ExtremeTech ציין כי הנחיה לצייר פינגווין שלובשסוודר חג המולד יצרה לא רק תמונות של פינגווינים לובשים סוודרים, אלא גם כובעי סנטה הקשורים לנושא,[24] ו-Engadget ציין כי צללים ממוקמים כראוי הופיעו בפלט עבור ההנחיה "ציור של שועל יושב בשדה בחורף".[14] יתר על כן, DALL-E מציג הבנה רחבה של מגמות חזותיות ועיצוביות; ExtremeTech אמר כי "אתה יכול לבקש מ-DALL-E תמונה של טלפון או שואב אבק מתקופת זמן מוגדרת, והוא מבין איך החפצים האלה השתנו".[24] Engadget גם ציין את יכולתה יוצאת הדופן "להבין כיצד טלפונים וחפצים אחרים משתנים עם הזמן".[14] DALL-E תואר, יחד עם "AI צר" אחר כמוAlphaGo,AlphaFold ו-GPT-3 כיוצר עניין בשאלה האם וכיצד ניתן להשיגבינה כללית מלאכותית.[25]

גלריה

[עריכת קוד מקור |עריכה]
  • DALL-E 2 הצליח לייצר תמונה מציאותית על פי ההנחיה "כלב שיבה אינו עם כומתה וצווארון גולף".
    DALL-E 2 הצליח לייצר תמונה מציאותית על פי ההנחיה "כלבשיבה אינו עם כומתה וצווארון גולף".

קישורים חיצוניים

[עריכת קוד מקור |עריכה]
ויקישיתוף מדיה וקבצים בנושאDALL-E בוויקישיתוף
ביקורות

הערות שוליים

[עריכת קוד מקור |עריכה]
  1. 1234567Coldewey, Devin (5 בינואר 2021)."OpenAI's DALL-E creates plausible images of literally anything you ask it to".ארכיון מ-6 בינואר 2021.{{cite web}}: (עזרה)
  2. 123456789Johnson, Khari (5 בינואר 2021)."OpenAI debuts DALL-E for generating images from text". VentureBeat.ארכיון מ-5 בינואר 2021.{{cite web}}: (עזרה)
  3. Grossman, Gary (16 בינואר 2021)."OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator".VentureBeat.ארכיון מ-26 בפברואר 2021.{{cite web}}: (עזרה)
  4. Andrei, Mihai (8 בינואר 2021)."This AI module can create stunning images out of any text input". ZME Science.ארכיון מ-29 בינואר 2021.{{cite web}}: (עזרה)
  5. Walsh, Bryan (5 בינואר 2021)."A new AI model draws images from text".Axios.{{cite web}}: (עזרה)
  6. Dayma, Boris; Patil, Suraj; Cuenca, Pedro; Saifullah, Khalid; Abraham, Tanishq; Lê Khắc, Phúc; Melas, Luke; Ghosh, Ritobrata (2021),DALL·E Mini,doi:10.5281/zenodo.5146400
  7. 12345678910Heaven, Will Douglas (5 בינואר 2021)."This avocado armchair could be the future of AI". MIT Technology Review.{{cite web}}: (עזרה)
  8. KAHN, JEREMY (6 באפריל 2022)."Move over Photoshop: OpenAI has just revolutionized digital image making".Fortune (באנגלית).{{cite web}}: (עזרה)
  9. "DALL·E 2".OpenAI (באנגלית).{{cite web}}: (עזרה)
  10. Carl Franzen,OpenAI brings DALL-E 3 image generator to ChatGPT for Enterprise, teases classifier, VentureBeat,2023-10-19(באנגלית אמריקאית)
  11. Allison Johnson,DALL-E now lets you edit images in ChatGPT, The Verge,3 באפריל 2024
  12. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 ביוני 2018)."Improving Language Understanding by Generative Pre-Training"(PDF).OpenAI. p. 12.ארכיון(PDF) מ-26 בינואר 2021.{{cite web}}: (עזרה)
  13. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 בפברואר 2019)."Language models are unsupervised multitask learners"(PDF).1 (8).ארכיון(PDF) מ-6 בפברואר 2021.{{cite journal}}: (עזרה);Cite journal requires|journal= (עזרה)
  14. 123Dent, Steve (6 בינואר 2021)."OpenAI's DALL-E app generates images from just a description".Engadget.ארכיון מ-27 בינואר 2021.{{cite web}}: (עזרה)
  15. "For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions". Synced.5 בינואר 2021.ארכיון מ-6 בינואר 2021.{{cite web}}: (עזרה)
  16. Dunn, Thom (10 בפברואר 2021)."This AI neural network transforms text captions into art, like a jellyfish Pikachu".BoingBoing.ארכיון מ-22 בפברואר 2021.{{cite web}}: (עזרה)
  17. 12Shead, Sam (8 בינואר 2021)."Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab".CNBC.{{cite web}}: (עזרה)
  18. Ehrenkranz, Melanie (27 בינואר 2021)."Here's DALL-E: An algorithm learned to draw anything you tell it".NBC News.ארכיון מ-20 בפברואר 2021.{{cite web}}: (עזרה)
  19. Stove, Emma (5 בפברואר 2021)."Tardigrade circus and a tree of life — January's best science images".Nature.ארכיון מ-8 במרץ 2021.{{cite web}}: (עזרה)
  20. Knight, Will (26 בינואר 2021)."This AI Could Go From 'Art' to Steering a Self-Driving Car". Wired.ארכיון מ-21 בפברואר 2021.{{cite web}}: (עזרה)
  21. Metz, Rachel (2 בפברואר 2021)."A radish in a tutu walking a dog? This AI can draw it really well". CNN.{{cite web}}: (עזרה)
  22. 12Wakefield, Jane (6 בינואר 2021)."AI draws dog-walking baby radish in a tutu".British Broadcasting Corporation.ארכיון מ-2 במרץ 2021.{{cite web}}: (עזרה)
  23. Markowitz, Dale (10 בינואר 2021)."Here's how OpenAI's magical DALL-E image generator works".TheNextWeb.ארכיון מ-23 בפברואר 2021.{{cite web}}: (עזרה)
  24. 12Whitwam, Ryan (6 בינואר 2021)."OpenAI's 'DALL-E' Generates Images From Text Descriptions". ExtremeTech.ארכיון מ-28 בינואר 2021.{{cite web}}: (עזרה)
  25. Nichele, Stefano (2021)."Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve".Genetic Programming and Evolvable Machines.22:141–145.doi:10.1007/s10710-021-09398-5.
OpenAI
מוצריםChatGPTDALL-EGitHub CopilotOpenAI Five(אנ')טריטון(אנ')Sora
מודליםGPT (GPT-3,GPT-4,GPT-4o,GPT-4.5)OpenAI Codex
אנשיםסם אלטמןאיליה סוצקברגרג ברוקמןוויצ'ך זרמבהמירה מוראטי
מוצרים קשוריםבינגAuto-GPTChatGPT Atlas
בינה מלאכותית
כללימבחן טיורינגהיסטוריה של הבינה המלאכותיתציר הזמן של בינה מלאכותיתרפש של בינה מלאכותיתתור הזהב של הבינה המלאכותיתאוריינות AIסוכן תבוניAI-שלמותאסדרת בינה מלאכותית(בישראל)בינה מלאכותית צרהבינה חישוביתהסברתיות בינה מלאכותיתהפרדוקס של מורבקסוכן תבוניאתיקה של בינה מלאכותיתזיהוי תוכן שנוצר על ידי בינה מלאכותיתAttention Is All You Need
תחומיםעיבוד שפה טבעיתראייה ממוחשבתבינה מלאכותית יוצרת (מוזיקה) •אומנות בינה מלאכותיתבינה מלאכותית כללית (AGI)
סוגילמידת מכונהמערכת לומדתלמידה מונחיתלמידה בלתי מונחיתלמידה עמוקהלמידת חיזוקסיווג בייסיאני נאיבירשת בייסיאנית
אלגוריתמי למידת מכונה קלאסיתפרספטרוןעץ החלטהמכונת וקטורים תומכיםBag of wordsאלגוריתם k-מרכזיםאלגוריתם מיקסום התוחלתהורדת ממדאלגוריתם שכן קרוביער אקראיQ-learningT-SNETf–idfחיזוק גרדיאנט
למידה עמוקהרשת עצבית מלאכותיתרשת זרימה קדימהרשת עצבית רקורסיביתפונקציית אקטיבציהטרנספורמרAttentionGAN
עיבוד שפה טבעיתמודל שפהשיכון מיליםבלשנות חישוביתתרגום מכונהחילוץ מידע(אנ')ניתוח סנטימנטזיהוי חלקי דיבר(אנ')מערכת זיהוי דיבורזיהוי ישויותכריית טקסטתיוג תפקידים סמנטיWord2vecמודל שפה גדולGPTBERTמודל Bag-of-words(אנ')יצירת טקסט בשפה טבעית(אנ')מילת עצירהניתוח מחרוזותStemming(אנ')למטיזציה(אנ')
יישומים לבינה מלאכותית(אנ')צ'אטבוטזיהוי דוברזיהוי עצמיםזיהוי תבניותעוזר וירטואליזיהוי תווים אופטימחולל תמונותהזיות
מערכות בינה מלאכותיתאלייזהChatGPTDALL-EMidjourneyGeminiקלודPerplexitySearchGPTGitHub Copilotדיפ־פייקסיריGoogle Assistantאמזון אלכסהמיקרוסופט קופיילוטQwen
סוגיותבטיחות בינה מלאכותיתסכנה קיומית מבינה מלאכותית כלליתבינה מלאכותית חזקה(אנ')יישור בינה מלאכותית(אנ')בקרת יכולות בינה מלאכותית(אנ')בינה מלאכותית ידידותיתהתכנסות אינסטרומנטלית(אנ')סינגולריות טכנולוגיתהשתלטות הבינה המלאכותיתהמכתב הפתוח על בינה מלאכותית (2015)הסתברות לאבדון
ספריות בשימוש נרחבTensorFlowPyTorchTorchHugging FaceKerasspaCy(אנ')Caffe
לקטגוריית הבינה המלאכותית
בקרת זהויותעריכת הנתון בוויקינתונים
אוחזר מתוך "https://he.wikipedia.org/w/index.php?title=DALL-E&oldid=40702855"
קטגוריות:
קטגוריות מוסתרות:

[8]ページ先頭

©2009-2026 Movatter.jp