নিচের যেসব ছবিগুলা দেখছেন এগুলা কিন্তু কোনো মানুষ আঁকেনি বা বানায় নি সবগুলো কৃত্রিম বুদ্ধিমত্তা দিয়ে তৈরি করা হয়েছে। শুধু একটা বর্ণনা দেয়া হয়েছে কেমন ছবি চাই বাকিটা কৃত্রিম বুদ্ধিমত্তা বা এআই(AI) এঁকে দিয়েছে। এখানে থাকা ছবিগুলা Open AI এর সর্বশেষ রোবট বা এআই(AI) DALL-E 2 দিয়ে জেনারেট করা।
প্রথমেই DALL-E এর নাম সম্পর্কে বলি DALL-E নাম টা মুলত বিখ্যাত স্প্যানিশ আর্টিস্টSalvador Dalí এবং ২০০৮ এ মুক্তি Disney এর থেকে মুক্তি পাওয়া Wall-E নাম দুটি থেকে বানানো হয়েছেে। এটি Wall-E এর মতোই একটি কৃত্রিম বুদ্ধিমত্তা সম্পন্ন রোবট এবং একই সাথে ভালো আর্টিস্ট সে হিসেবে এই নামটি ব্যাবহার করা হয়েছে।
২০২১ এর প্রথম দিকে DALL-E সম্পর্কে প্রথম ঘোষনা করে OpenAI। তখনও সেটা কারো পরীক্ষার জন্য উন্মুক্ত করে নি OpenAI। তবে এবছর OpenAI DALL-E 2 নামে এর সর্বশেষ ভার্সন প্রকাশ করে। এবং এবারই প্রথম যেখানে ডেভেলপার,আর্টিস্ট,ইনফ্লুয়েন্সারদের DALL-E 2 পরীক্ষা করার জন্য আমন্ত্রণ পাঠায়। এখনো সর্বসাধারনের জন্য উন্মুক্ত করেনি OpenAI।
এই রোবটটি অনেক ক্ষেত্রে মানুষের থেকে ভালো ছবি আঁকে। চলুন জেনে নেই কিভাবে এই কঠিন কাজটি করে DALL-E 2।
কিভাবে আঁকল?
আপনার দেয়া ডেস্ক্রিপশন বা বর্ণনা অনুযায়ী প্রয়োজনীয় ছবি গুলা আগে বুঝার চেষ্টা করে। মনে করুন আমার ডেস্ক্রিপশন হলো-
“A penguin riding a scooter in Dhaka City” আগে সে তার ডেটা সেট থেকে খুজে অব্জেক্টিফাই করার চেষ্টা করে কোনটা কী?
যেমন- একটা পেনগুইন আসলে দেখতে কেম্ন?
স্কুটার কি? ঢাকা শহর দেখতে কেমন? স্কুটারে চড়ে কিভাবে?
আপনার দেয়া কি-ওয়ার্ড থেকে DALL-E 2 একটিটেক্সট এনকোডার এর মাধ্যমে এনকোড করে। তারপর ডেস্ক্রিপশন অনুযায়ী বস্তুগুলোকে চিহ্নিত করে একটি মানচিত্র বা ম্যাপ জেনারেট করে। ম্যাপ থেকে একটি ছবি তৈরি করে এআই টি এই প্রক্রিয়ার নামprior
এইprior থেকে একটা প্রকৃত ছবিতে রুপান্তর করতে একটিimage decoder কাজ করে
ডিকোডার টি ব্যাসিকালি সব ছবিকে এম্বেড করার চেষ্টা করে। এম্বেড হলো কি-ওয়ার্ডগুলোকে একটা ম্যাথমেটিকাল রুপ বা ভেক্টরে রুপ দেয়ার চেষ্টা করা। সেই থেকে একটি ইমেজ ম্যাপ তৈরী করে।
এ প্রক্রিয়ায় কাজ করেCLIP (Contrastive Language-Image Pre-training) নামেOpenAI এর আরেকটি মডেল। যার কাজ হলো কোনো ছবির জন্য একটা সঠিক ও মানানসই ক্যাপশন দেয়া। যেটাকে মুলত আমরাDALL-E 2 এর করা কাজ এর উল্টা প্রক্রিয়াও বলতে পারি। CLIP মুলত দুটি নিউরাল নেটওয়ার্ক দিয়ে তৈরি। একটি টেক্সট এনকোডার এবং আরেকটি ইমেজ এনকোডার। CLIP কে এক বিশাল ছবি ও তার ক্যাপশনের ডেটাসেট দ্বারা ট্রেইন করা হয়।
একটা উদাহরণ দেই- যখন আমরা ইন্সটাগ্রাম বা ফেসবুকে একটা পেনগুইন এর ছবি দিয়ে ক্যাপশন দেই “A Penguin”CLIP সেই ক্যাপশন অনুযায়ী ট্রেইন হয় আসলে একটি পেংগুইন আসলে দেখতে কেমন।
ট্রেইন হওয়াCLIP মডেলটিprior প্রক্রিয়ায় পাওয়া টেক্সটগুলোর সাথে মিলিয়ে বস্তুগুলোকে নিউরাল নেটওয়ার্কের মাধ্যমে সাবজেক্ট,আর্ট স্টাইল বা টেক্সচার, স্কেল, সম্পর্ক এবং দুরত্ব পরিমাপ করে সমগ্র আর্টের একটি মানচিত্র বা ম্যাপ জেনারেট করে ম্যাপ থেকে *Visual Semantics* তৈরি করে। এই ভিজ্যুয়াল সিমান্টিক্স কে ছবিতে রুপান্তরের কাজটি করেGLIDE নামের আরেকটি মডেল। যার কাজCLIP এর ভিজ্যুয়াল সিম্যান্টিক্স থেকে সর্বোচ্চ গ্রহনযোগ্য ছবিতে রুপান্তর করা।
GLIDE আবার আবার কাজ করে ডিফিউশন বাdiffusion মডেল ব্যবহার করে।
এইdiffusion জিনিসটা আবার কি? পদার্থবিজ্ঞানের তাপগতিবিদ্যার থেকে অনুপ্রাণিত হওয়া একটি মডেল। এর কাজCLIPE এর দেওয়া ডাটা অনুসারে আস্তে আস্তে ছবিতেnoise যুক্ত করতে থাকে। এইnoise যুক্ত করা চলেGaussian Noise হওয়াপর্যন্ত তার পর সেটি রিভার্স প্রক্রিয়ায় পুনরায়De-noising করা হয়। ফলে এক পর্যায়ে এটি একটি পরিষ্কার ও সুন্দর ছবি দিতে সক্ষম হয়।
**diffusion মডেল টি মূলতGLIDE কে ট্রেনিং করানোতে কাজে লাগে। ট্রেইনড হলে সে ডেটাসেটের বাইরে নিজেই কিছু ছবি জেনারেট করতে পারে। যেমন আপনি যখন অবাস্তব কিছু ডেস্ক্রিপশন এ লিখবেন সেটি সে এই মডেলের মাধ্যমে সেই জিনিসটা আসলে কেমন তার একটা রেফারেন্স নিয়ে নতুন ছবি তৈরী করবে।
DALL-E 2 এখানেGLIDE এর মার্জিত সংস্করণ ব্যবহার করে। মার্জিতGLIDE মডেল সর্বোচ্চ সম্ভাব্য ছবির ভিজুয়্যাল সিম্যান্টিক্স এর মাধ্যমে ম্যাপ উপস্থাপন করে। তা ব্যবহার করে সব ডাটাprior কে দেয়া হয় তার উপর ভিত্তি করেimage encoding এর মাধ্যমে সব ফ্রেম মিলিয়ে কয়েকটি ছবি জেনারেট করে থাকে।আর এভাবেইDALL-E 2 কাজ করে।
DALL-E 2 এর এখনো বেশ কিছু সীমাবদ্ধতা রয়েছে। সেগুলো-
১। DALL-E কে একের অধিক মানুষ আঁকার দায়িত্ব দিলে সে তা পারে না পারলেও চেহারা নষ্ট করে দেয়।
২। DALL-E গণনা করতে এখনো দুর্বল। ধরুন আপনি একটি prompt দিলেন যেখানে চাচ্ছেন “একটি বিড়াল ৫ টি মাছ খাচ্ছে” সেক্ষেত্রে DALL-E গণনা করে বিড়াল আর মাছৈর সংখ্যা নিয়ে ঝামেলা পাঁকাবে।
৩। DALL-E টেক্সট জেনারেটিং এ দুর্বল। ধরুন আপনি একটি সাইনবোর্ডে একটা নির্দিষ্ট লেখা দিয়ে চাইলেন তার ছবি পেতে কিন্তু সেই রেজাল্ট আপনার মোটেও মনমত পাবেন না। লেখালেখির ক্ষেত্রে DALL-E দুর্বল।
৪। কিছু সেন্সেটিভ ওয়ার্ড(যেমন: রক্ত,খুন,নগ্নতা ইত্যাদি) থাকলে DALL-E কোনো ছবি জেনারেট করতে পারেনা। বরং ভায়োলেশন হিসেবে ধরে রিপোর্ট করে।
এমন আরো কিছু ঝুকি ও সীমাবদ্ধতা আছে DALL-E তে। যদিও OpenAI টিম সেটা সাড়াতে কাজ করছে। ঝুকি ও সীমাবদ্ধতাগুলো পড়তে চাইলে দেখে আসুন-https://github.com/openai/dalle-2-preview/blob/main/system-card.md
পরিশিষ্ট:
DALL-E কিভাবে কাজ করে জানাটা থেকে ভিতরে কি কি প্রক্রিয়া হচ্ছে সেটা বুঝাটা বেশ কঠিন। আমি চেষ্টা করে যত সহজে ব্যাপারটা কে বোধগম্য করার কিন্তু টেকনিকাল টার্মগুলো বেশ খটমটে এবং কঠিন। ভুল হতেও পারে কিছু তাই যারা বুঝেন একটু ভেরিফাই করে দিয়েন দয়া করে। মূল সোর্স সংযুক্ত করলাম এখানে সোর্স-
https://www.assemblyai.com/blog/how-dall-e-2-actually-works/
Top comments(0)
For further actions, you may consider blocking this person and/orreporting abuse