Movatterモバイル変換

DALL-E

מתוך ויקיפדיה, האנציקלופדיה החופשית

Dall-E
DALL·E


תמונה שיצרה DALL-E 2 על פי ההנחיה: "תמונה של יד רובוטית מציירת, אמנות דיגיטלית" ("A photo of a robot hand drawing, digital art")
מפתח	OpenAI
מחזור חיים	5 בינואר 2021 – הווה (5 שנים וחודש)

DALL-E (מסוגנן כ-DALL·E;הלחם בסיסים שלדאלי ושלוול-E)^[1]^[2] היא תוכנתבינה מלאכותית שיוצרת תמונות מתיאורים טקסטואליים.

התוכנה משתמשת בכ-12 מיליארד פרמטרים^[2] בגרסה של מודל ה-GPT-3 כדי לפרש קלט טקסטואלי משפה טבעית (כמו "ארנק עור ירוק בצורת מחומש" או "תצוגה איזומטרית שלקפיבארה מצויה עצובה") וליצור תמונות בהתאם.^[1] היא יכולה ליצור דימויים של חפצים ריאליסטיים ("חלון ויטראז' עם תמונה של תות כחול") וגם של חפצים שאינם קיימים במציאות ("קובייה במרקם של דורבן").^[3]^[4]^[5]

משנות ה-2000 ואילךרשתות עצביות מלאכותיות רבות הצליחו ליצור תמונות מציאותיות.^[1] ייחודה של DALL-E בכך שהיא מסוגלת לייצר אותן על בסיס הנחיות בשפה טבעית, שאותן היא מיישמת לרוב ורק לעיתים נדירות נכשלת, וגם זאת לא באופן משמעותי.^[1]

OpenAI לא פרסמהקוד מקור לאף אחד מהדגמים, אף על פי ש"בקר" של DALL-E זמין באתר האינטרנט של OpenAI, שבו ניתן לראות פלט ממבחר מוגבל של הנחיות לדוגמה.^[2] חלופותקוד פתוח, שהוכשרו על כמויות קטנות יותר של נתונים, כמו DALL-E Mini, שוחררו על ידי אחרים.^[6]

לפי "MIT Technology Review", אחת המטרות של OpenAI הייתה "לתת למודלי שפות תפיסה טובה יותר של המושגים היומיומיים שבני אדם משתמשים בהם כדי להבין דברים".^[7]

היסטוריה

[עריכת קוד מקור |עריכה]

תמונות שהופקו על ידי DALL-E על פי הנחיית הטקסט: "איור מקצועי באיכות גבוהה שלג'ירף דרקון כימרה. ג'ירפה מחקה דרקון. ג'ירפה עשויה מדרקון."

ב-5 בינואר 2021 נחשף DALL-E על ידיOpenAI, חברה אמריקאית למחקר בינה מלאכותית.^[7]

באפריל 2022, OpenAI הכריזה על DALL-E 2, בטענה שהיא יכולה להפיק תמונות פוטו-ריאליסטיות מתיאורים טקסטואליים, יחד עם עורך המאפשר שינויים פשוטים בפלט. נכון לזמן ההכרזה, נאמר שהתוכנה עדיין נמצאת בשלב המחקר, כשהגישה מוגבלת למשתמשי בטא שנבחרו מראש. המודל עדיין יכול לעשות טעויות חמורות, כולל טעויות שאף אדם לא יעשה.^[8] DALL-E 2 תואר כדגם ש"יכול ליצור תמונות ואמנות מקוריות וריאליסטיות מתיאור טקסט. היא יכולה לשלב מושגים, תכונות וסגנונות."^[9]

בספטמבר 2023, OpenAI השיקה את DALL·E 3 עם יכולות הבנה והפקת תוצרים גבוהים יותר ובאוקטובר הוא הוטמע בצורה אינטגרלית בתוךChatGPT^[10]. הצ׳אטבוט יכול כעת ליצור תמונות ייחודיות משיחה פשוטה - והתכונה החדשה הזו זמינה בשלב זה למשתמשי Plus ו-Enterprise. מיקרוסופט הטמיעה את המודל בכלי Image Creator של Bing ובכלים נוספים כגון Copilot.

באפריל 2024 נוספה אפשרות לעריכה באמצעות טקסט וסימון אזור בתמונה שנוצרה על ידי DALL•E בתוך ממשק ChatGPT.^[11]

CLIP

[עריכת קוד מקור |עריכה]

DALL-E פותח והוכרז לציבור בשיתוף עם CLIP (הדרכה מקדימה של שפה-תמונה נגדית).^[7] CLIP הוא מודל נפרד שתפקידו "להבין ולדרג" את התפוקה של DALL-E.^[1] התמונות ש-DALL-E מייצר נשמרות ומדורגות על ידי CLIP, שמציגה את התמונות האיכותיות ביותר עבור כל הנחיה נתונה.^[7]

ארכיטקטורת תוכנה

[עריכת קוד מקור |עריכה]

המודל Generative Pre-trained Transformer‏ (GPT) פותח לראשונה על ידי OpenAI בשנת 2018,^[12] תוך שימוש בארכיטקטורת Transformer. האיטרציה הראשונה, GPT, הוגדלה כדי לייצר את GPT-2 ב-2019;^[13] בשנת 2020 הוא הוגדל שוב לייצורGPT-3, עם 175 מיליארד פרמטרים.^[2]

המודל של DALL-E הוא מימוש מולטי-מודאלי של PT-3 עם 12 מיליארד פרמטרים^[2] אשר "מחליף טקסט לפיקסלים", מאומן על צמדי טקסט-תמונה מהאינטרנט.^[7] הוא משתמש בלמידת אפס-שוט (zero-shot learning) כדי ליצור פלט מתיאור ורמז ללא הכשרה נוספת.^[14]

DALL-E יוצר מספר תמונות בתגובה להנחיות. מודל CLIP^[1] שהוכשרו בו למעלה מ-400 מיליון זוגות של תמונות וטקסטים מבין ומדרג תמונות אלו.^[2]^[15] במקום מערך נתונים של תמונות עם כותרת (כמוImageNet)^[7] CLIP משייך תמונות לכיתובים שלמים.^[7] CLIP הוכשר לחזות איזה כיתוב (מתוך "בחירה אקראית" של 32,768 כיתובים אפשריים) היה המתאים ביותר לתמונה, מה שמאפשר לה לזהות לאחר מכן אובייקטים בתמונות מחוץ לסט האימונים שלה.^[7]

ביצועים

[עריכת קוד מקור |עריכה]

חוסר הבחנה בין "פנדה עושהציור בקפה" לבין "ציור בקפה של פנדה" ב-DALL-E 2

הדמיה אדריכלית שייצר DALL-E תוך התבססות על סגנונה של האדריכליתזהא חדיד.

DALL-E מסוגלת ליצור דימויים במגוון סגנונות, מתמונות פוטוריאליסטיות^[2] ועד לציורים ואמוג'י. היא מסוגלת לבצע מניפולציות ולסדר מחדש אובייקטים בתמונות.^[2] אחת היכולות שצוינו על ידי יוצריה הייתה המיקום הנכון של אלמנטים עיצוביים ללא הוראה מפורשת: לדוגמה, כאשר מתבקש לציירצנון-דייקון מקנח את אפו, לוגם לאטה או רוכב על חד אופן, DALL·E מצייר לעיתים קרובות את המטפחת, הידיים והרגליים במקומות סבירים.^[16]

בעוד ש-DALL-E הציג מגוון רחב של מיומנויות ויכולות, עם הוצאתה של ההדגמה הציבורית שלו, רוב הסיקור התמקד בתת-קבוצה קטנה של תמונות פלט "סוריאליסטיות"^[7] או "מוזרות".^[17] באופן ספציפי, הפלט של DALL-E עבור "איור של צנון דייקון תינוק בחצאית טוטו מטייל עם כלב" הוזכר ב-Nature^[18],‏NBC^[19] ופרסומים אחרים.^[2]^[20]^[21] הפלט שלו ל"כורסה בצורת אבוקדו" צוין באופן דומה.^[7]^[22] לעומת זאת, נצפה פיתוח לא מכוון של DALL-E של מיומנויות חשיבה חזותית המספיקות לפתור את המטריצות של רייבן (Raven's Progressive Matrices), מבחנים חזותיים המבוצעים לעיתים קרובות לבני אדם כדי למדוד אינטליגנציה.^[23]

למרות זאת, DALL-E תואר כ"חזק להפליא לשינויים כאלה" ואמין בהפקת תמונות עבור מגוון רחב של תיאורים שרירותיים.^[1] סם שד,מ-CNBC, כינה את התמונות שלו "מוזרות" וציטט את ניל לורנס, פרופסור ללמידת מכונה באוניברסיטת קיימברידג', שתיאר זאת כ"הדגמה מעוררת השראה של היכולת של מודלים אלה לאחסן מידע על העולם שלנו ולעשות הכללות בדרכים שעבור בני אדם הן טבעיות מאוד". שד גם ציטט את מארק רידל, פרופסור חבר בבית הספר למחשוב אינטראקטיבי שלג'ורג'יה טק, שאמר שתוצאות ההדגמה של DALL-E הראו שהיא מסוגל "למזג מושגים באופן קוהרנטי", מרכיב מפתח ביצירתיות אנושית, וכי התוכנה מדגימה באופן יוצא דופן הפקת איורים שהם הרבה יותר קוהרנטיים ממערכות Text2Image אחרות מהשנים האחרונות.^[17] רידל גם צוטט על ידי ה-BBC שהוא "התרשם ממה שהמערכת יכולה לעשות".^[22]

צוינה לטובה גם היכולת של DALL-E "להשלים את החסר" ולהסיק מפרטים . ExtremeTech ציין כי הנחיה לצייר פינגווין שלובשסוודר חג המולד יצרה לא רק תמונות של פינגווינים לובשים סוודרים, אלא גם כובעי סנטה הקשורים לנושא,^[24] ו-Engadget ציין כי צללים ממוקמים כראוי הופיעו בפלט עבור ההנחיה "ציור של שועל יושב בשדה בחורף".^[14] יתר על כן, DALL-E מציג הבנה רחבה של מגמות חזותיות ועיצוביות; ExtremeTech אמר כי "אתה יכול לבקש מ-DALL-E תמונה של טלפון או שואב אבק מתקופת זמן מוגדרת, והוא מבין איך החפצים האלה השתנו".^[24] Engadget גם ציין את יכולתה יוצאת הדופן "להבין כיצד טלפונים וחפצים אחרים משתנים עם הזמן".^[14] DALL-E תואר, יחד עם "AI צר" אחר כמוAlphaGo,AlphaFold ו-GPT-3 כיוצר עניין בשאלה האם וכיצד ניתן להשיגבינה כללית מלאכותית.^[25]

גלריה

[עריכת קוד מקור |עריכה]

DALL-E 2 הצליח לייצר תמונה מציאותית על פי ההנחיה "כלבשיבה אינו עם כומתה וצווארון גולף".

קישורים חיצוניים

[עריכת קוד מקור |עריכה]

מדיה וקבצים בנושאDALL-E בוויקישיתוף

DALL-E, ברשת החברתיתאינסטגרם

ביקורות

נועה ליברמן-פלשקס,איך למדתי להפסיק לדאוג והתחלתי לאהוב את ה-AI שרוצה לקחת לי את הג'וב, באתרהארץ, 24 במאי 2022
עפרי אילני,האלגוריתם הזה מסוגל ליצור אמנות שומטת־לסת, אבל יש לו חיסרון משמעותי, באתרהארץ, 25 במאי 2022.
דרור גלוברמן ודני פלד,אחרי התמונות ששיגעו את העולם: האם יש לנו מה לחשוש מבינה מלאכותית?, באתרמאקו, 27 במאי 2022
אופיר חובב,סוף האמנות? שער "קוסמופוליטן" עוצב בבינה מלאכותית ב–20 שניות, באתרהארץ, 25 ביוני 2022
טל סוקולוב,"נקמת האמנים" נגד בינה מלאכותית, באתר שלמכון דוידסון לחינוך מדעי, 16 במרץ 2024

הערות שוליים

[עריכת קוד מקור |עריכה]

1 2 3 4 5 6 7Coldewey, Devin (5 בינואר 2021)."OpenAI's DALL-E creates plausible images of literally anything you ask it to".ארכיון מ-6 בינואר 2021.{{cite web}}: (עזרה)
1 2 3 4 5 6 7 8 9Johnson, Khari (5 בינואר 2021)."OpenAI debuts DALL-E for generating images from text". VentureBeat.ארכיון מ-5 בינואר 2021.{{cite web}}: (עזרה)
↑Grossman, Gary (16 בינואר 2021)."OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator".VentureBeat.ארכיון מ-26 בפברואר 2021.{{cite web}}: (עזרה)
↑Andrei, Mihai (8 בינואר 2021)."This AI module can create stunning images out of any text input". ZME Science.ארכיון מ-29 בינואר 2021.{{cite web}}: (עזרה)
↑Walsh, Bryan (5 בינואר 2021)."A new AI model draws images from text".Axios.{{cite web}}: (עזרה)
↑Dayma, Boris; Patil, Suraj; Cuenca, Pedro; Saifullah, Khalid; Abraham, Tanishq; Lê Khắc, Phúc; Melas, Luke; Ghosh, Ritobrata (2021),DALL·E Mini,doi:10.5281/zenodo.5146400
1 2 3 4 5 6 7 8 9 10Heaven, Will Douglas (5 בינואר 2021)."This avocado armchair could be the future of AI". MIT Technology Review.{{cite web}}: (עזרה)
↑KAHN, JEREMY (6 באפריל 2022)."Move over Photoshop: OpenAI has just revolutionized digital image making".Fortune (באנגלית).{{cite web}}: (עזרה)
↑"DALL·E 2".OpenAI (באנגלית).{{cite web}}: (עזרה)
↑Carl Franzen,OpenAI brings DALL-E 3 image generator to ChatGPT for Enterprise, teases classifier, VentureBeat,‏2023-10-19(באנגלית אמריקאית)
↑Allison Johnson,DALL-E now lets you edit images in ChatGPT, The Verge,‏3 באפריל 2024
↑Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 ביוני 2018)."Improving Language Understanding by Generative Pre-Training"(PDF).OpenAI. p. 12.ארכיון(PDF) מ-26 בינואר 2021.{{cite web}}: (עזרה)
↑Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 בפברואר 2019)."Language models are unsupervised multitask learners"(PDF).1 (8).ארכיון(PDF) מ-6 בפברואר 2021.{{cite journal}}: (עזרה);Cite journal requires|journal= (עזרה)
1 2 3Dent, Steve (6 בינואר 2021)."OpenAI's DALL-E app generates images from just a description".Engadget.ארכיון מ-27 בינואר 2021.{{cite web}}: (עזרה)
↑"For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions". Synced.5 בינואר 2021.ארכיון מ-6 בינואר 2021.{{cite web}}: (עזרה)
↑Dunn, Thom (10 בפברואר 2021)."This AI neural network transforms text captions into art, like a jellyfish Pikachu".BoingBoing.ארכיון מ-22 בפברואר 2021.{{cite web}}: (עזרה)
1 2Shead, Sam (8 בינואר 2021)."Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab".CNBC.{{cite web}}: (עזרה)
↑Ehrenkranz, Melanie (27 בינואר 2021)."Here's DALL-E: An algorithm learned to draw anything you tell it".NBC News.ארכיון מ-20 בפברואר 2021.{{cite web}}: (עזרה)
↑Stove, Emma (5 בפברואר 2021)."Tardigrade circus and a tree of life — January's best science images".Nature.ארכיון מ-8 במרץ 2021.{{cite web}}: (עזרה)
↑Knight, Will (26 בינואר 2021)."This AI Could Go From 'Art' to Steering a Self-Driving Car". Wired.ארכיון מ-21 בפברואר 2021.{{cite web}}: (עזרה)
↑Metz, Rachel (2 בפברואר 2021)."A radish in a tutu walking a dog? This AI can draw it really well". CNN.{{cite web}}: (עזרה)
1 2Wakefield, Jane (6 בינואר 2021)."AI draws dog-walking baby radish in a tutu".British Broadcasting Corporation.ארכיון מ-2 במרץ 2021.{{cite web}}: (עזרה)
↑Markowitz, Dale (10 בינואר 2021)."Here's how OpenAI's magical DALL-E image generator works".TheNextWeb.ארכיון מ-23 בפברואר 2021.{{cite web}}: (עזרה)
1 2Whitwam, Ryan (6 בינואר 2021)."OpenAI's 'DALL-E' Generates Images From Text Descriptions". ExtremeTech.ארכיון מ-28 בינואר 2021.{{cite web}}: (עזרה)
↑Nichele, Stefano (2021)."Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve".Genetic Programming and Evolvable Machines.22:141–145.doi:10.1007/s10710-021-09398-5.

OpenAI
מוצרים	ChatGPT‏•DALL-E‏•GitHub Copilot •OpenAI Five(אנ') •טריטון(אנ') •Sora
מודלים	GPT (GPT-3,GPT-4,GPT-4o,GPT-4.5)‏ •OpenAI Codex
אנשים	סם אלטמן •איליה סוצקבר •גרג ברוקמן •וויצ'ך זרמבה •מירה מוראטי
מוצרים קשורים	בינג •Auto-GPT •ChatGPT Atlas

בינה מלאכותית
כללי	מבחן טיורינג •היסטוריה של הבינה המלאכותית •ציר הזמן של בינה מלאכותית •רפש של בינה מלאכותית •תור הזהב של הבינה המלאכותית •אוריינות AI •סוכן תבוני •AI-שלמות •אסדרת בינה מלאכותית(בישראל) •בינה מלאכותית צרה •בינה חישובית •הסברתיות בינה מלאכותית •הפרדוקס של מורבק •סוכן תבוני •אתיקה של בינה מלאכותית •זיהוי תוכן שנוצר על ידי בינה מלאכותית •Attention Is All You Need
תחומים	עיבוד שפה טבעית •ראייה ממוחשבת •בינה מלאכותית יוצרת (מוזיקה) •אומנות בינה מלאכותית •בינה מלאכותית כללית (AGI)
סוגילמידת מכונה	מערכת לומדת •למידה מונחית •למידה בלתי מונחית •למידה עמוקה •למידת חיזוק •סיווג בייסיאני נאיבי •רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון •עץ החלטה •מכונת וקטורים תומכים •Bag of words •אלגוריתם k-מרכזים •אלגוריתם מיקסום התוחלת •הורדת ממד •אלגוריתם שכן קרוב •יער אקראי •Q-learning •‏T-SNE •‏Tf–idf •חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית •רשת זרימה קדימה •רשת עצבית רקורסיבית •פונקציית אקטיבציה •טרנספורמר •Attention •‏GAN
עיבוד שפה טבעית	מודל שפה •שיכון מילים •בלשנות חישובית •תרגום מכונה •חילוץ מידע(אנ') •ניתוח סנטימנט •זיהוי חלקי דיבר(אנ') •מערכת זיהוי דיבור •זיהוי ישויות •כריית טקסט •תיוג תפקידים סמנטי •Word2vec •מודל שפה גדול •GPT •‏BERT •מודל Bag-of-words(אנ') •יצירת טקסט בשפה טבעית(אנ') •מילת עצירה •ניתוח מחרוזות •Stemming(אנ') •למטיזציה(אנ')
יישומים לבינה מלאכותית(אנ')	צ'אטבוט •זיהוי דובר •זיהוי עצמים •זיהוי תבניות •עוזר וירטואלי •זיהוי תווים אופטי •מחולל תמונות •הזיות
מערכות בינה מלאכותית	אלייזה •ChatGPT •‏DALL-E •‏Midjourney •‏Gemini •קלוד •‏Perplexity •‏SearchGPT •‏GitHub Copilot •דיפ־פייק •סירי •Google Assistant •אמזון אלכסה •מיקרוסופט קופיילוט •Qwen
סוגיותבטיחות בינה מלאכותית	סכנה קיומית מבינה מלאכותית כללית •בינה מלאכותית חזקה(אנ') •יישור בינה מלאכותית(אנ') •בקרת יכולות בינה מלאכותית(אנ') •בינה מלאכותית ידידותית •התכנסות אינסטרומנטלית(אנ') •סינגולריות טכנולוגית •השתלטות הבינה המלאכותית •המכתב הפתוח על בינה מלאכותית (2015) •הסתברות לאבדון
ספריות בשימוש נרחב	TensorFlow •‏PyTorch •‏Torch •‏Hugging Face •‏Keras •‏spaCy(אנ') •‏Caffe
לקטגוריית הבינה המלאכותית

בקרת זהויות	MusicBrainz:62b76330-8080-45bd-aaf8-408c81c9e5ea

אוחזר מתוך "https://he.wikipedia.org/w/index.php?title=DALL-E&oldid=40702855"

קטגוריות:

קטגוריות מוסתרות:

[8]ページ先頭