التعلّم المُتعمّق أوالتعلّم العميق[1] هو مجال بحث جديد يتناول إيجاد نظرياتوخوارزميات تتيح للآلة أن تتعلم بنفسها عن طريق محاكاة الخلايا العصبية في جسم الإنسان.[2][3] وأحد فروع العلوم التي تتناول علومالذكاء الاصطناعي.[4] يعد من فرع من فروع علومالتعلم الآلي،[5] تركز معظم أبحاث التعلم المتعمق على إيجاد أساليب استنباط درجة عالية من المتجردات بتحليل مجموعة بيانات ضخمة،[6][7] باستخداممتحولات خطية وغير خطية.[8][9] تُشير صفة "عميق" إلى استخدام طبقاتٍ مُتعددةٍ (تتراوح من ثلاث طبقاتٍ إلى عدة مئاتٍ أو آلاف) في الشبكة.[10] يُمكن أن تكون الأساليب المُستخدمة إمامُراقبةً أو شبه مُراقبةٍ أوغير مُراقبة.[11][12]
استُلهِمَت الأشكال المُبكرة من الشبكات العصبية من مُعالجة المعلومات وعُقَد الاتصال المُوزعة فيالأنظمة البيولوجية، وخاصةًالدماغ البشري. ومع ذلك، لا تهدف الشبكات العصبية الحالية إلى نمذجة وظيفة الدماغ لِلكائنات الحية، ويُنظر إليها عمومًا على أنها نماذج ذات جودةٍ مُنخفضةٍ لِهذا الغرض.[16]
يمكن توصيف أي كائن بطرق عديدة متنوعة. مثلا، يمكن توصيف صورة ما على اساسمتجهي لدرجة الضياء في كل وحدةبكسل أو بطريقة متجردة على اساس مجموع الحواف والمناطق التي تشكل الصورة. هناك العديد من الاساليب الأخرى التي يمكن استعمالها لتوصيف هذه الصورة. وتشير الدراسات ان بعض هذه الاساليب هي أفضل من غيرها في تبسيط تعلم الآلة (مثل ملاحظة الوجه أو ملاحظة التعابير).[17] ومن الاهداف المتوقعة في دراسة التعلم المتعمق هو استبدالميزات التعلم الالي التي يتم تحديدها بشريا بميزات يتم انتاجها بواسطة الآلة نفسها عن طريق خوارزميات فعالة في استنباط الميزات بصورة ألية أو نصف آلية.[18]
تعتمد ابحاث التعلم المتعمق على الاكتشافات فيعلوم الاعصاب بشكل كبير وخاصة في مجال فهمالعمليات الترميزة التي يقوم بهاالنظام العصبي في تحديد العلاقات المختلفة بين المحفزات والنشاطات الدماغية.[19]
بشكل أساسي، يُشير التعلم العميق إلى فئة منخوارزمياتالتعلم الآلي حيث يتم استخدام تسلسل هرمي من الطبقات لِتحويل بيانات الإدخال إلى تمثيل أكثر تجريدًا وتركيبًا بشكل طفيف. على سبيل المثال، في نموذج التعرف على الصور، قد يكون الإدخال الخام عبارةً عنصورة (مُمثلةٌ كمُوتر منالبكسلات). قد تُحاول طبقة التمثيل الأولى تحديد الأشكال الأساسية مثل الخطوط والدوائر، وقد تُؤلف طبقة التمثيل الثانية ترتيبات الحواف وتُشفرها، وقد تُشفر طبقة التمثيل الثالثة أنفًا وعينين، وقد تُدرك طبقة التمثيل الرابعة أن الصورة تحتوي على وجه.
الأهم من ذلك، أن عملية التعلم العميق يُمكنُها تعلم الميزات التي يجب وضعُها على النحو الأمثل في أي مستوى بمفردها. قبل التعلم العميق، غالبًا ما كانت تقنيات التعلم الآلي تنطوي علىهندسة ميزات يدوية لِتحويل البيانات إلى تمثيل أكثر مُلاءمةً لِخوارزمية التصنيف لِلعمل عليها. في نهج التعلم العميق، لا يتم تصميم الميزات يدويًا، ويَكتشف النموذج تمثيلات الميزات المُفيدة من البيانات تلقائيًا. هذا لا يُلغي الحاجة إلى الضبط اليدوي؛ على سبيل المثال، يُمكن أن تُوفر أعدادٌ مُتفاوتةٌ من الطبقات وأحجام الطبقات درجات مُختلفةً من التجريد.[21][22]
تُشير كلمة "عميق" في "التعلم العميق" إلى عدد الطبقات التي يتم من خلالِها تحويل البيانات. بِشكل أكثر دقةً، تتمتع أنظمة التعلم العميق بِعمق كبير في مسار تخصيص الرصيد (CAP). مسار تخصيص الرصيد هو سلسلة التحولات من الإدخال إلى الإخراج. يصف مسار تخصيص الرصيد الاتصالات السببية المُحتملة بين الإدخال والإخراج.لِشَبكة عصبية للتغذية الأمامية، فإن عمق مسارات تخصيص الرصيد هو عمق الشبكة وهو عدد الطبقات المخفية زائد واحد (حيث يتم تحديد معلمات طبقة الإخراج أيضًا). بالنسبةلِلشبكات العصبية المُتكررة، التي قد ينتشر فيها إشارةٌ عبر طبقة أكثر من مرة، فإن عمق مسار تخصيص الرصيد غير محدود مُحتملًا.[23]
لا يوجد حدٌ مُتفقٌ عليه عالميًا للعمق يفصل التعلم الضحل عن التعلم العميق، لكن مُعظم الباحثين يتفقون على أن التعلم العميق ينطوي على عمق مسار تخصيص الرصيد أعلى من اثنين. لقد ثبت أن مسار تخصيص الرصيد ذي العمق اثنين هو مُقربٌ شاملٌ بِمعنى أنه يُمكنُه مُحاكاة أي دالة.[24] بعد ذلك، لا تُضيف المزيد من الطبقات إلى قدرة مُقرب الدالة لِلشبكة. النماذج العميقة (مسار تخصيص الرصيد > اثنين) قادرةٌ على استخراج ميزات أفضل من النماذج الضحلة، وبالتالي، تُساعد الطبقات الإضافية في تعلم الميزات بفعالية.
يُمكن بناء بنى التعلم العميق باستخدامخوارزمية طبقة تلو الأخرى.[25] يُساعد التعلم العميق على فك تشابك هذه التجريدات واختيار الميزات التي تُحسن الأداء.[4]
يُمكن تطبيق خوارزميات التعلم العميق على مهام التعلم غير المُراقب. تُعد هذه فائدةً مهمةً لأن البيانات غير المُعلمة أكثر وفرةً من البيانات المُعلمة. من أمثلة البُنى العميقة التي يُمكن تدريبُها بطريقة غير مُراقبةشبكات الاعتقاد العميق.[4][26]
تم تقديم مُصطلح التعلم العميق إلى مجتمع التعلم الآلي بواسطة رينا ديختر في عام 1986،[27] وإلى الشبكات العصبية الاصطناعية بواسطة إيغور آيزنبرغ وزملائه في عام 2000، في سياق الخلايا العصبية ذات عتبة القيمةالمنطقية.[28][29] على الرغم من أن تاريخ ظهورِه يبدو أكثر تعقيدًا.[30]
تتعلق نظرية التقريب الشاملة الكلاسيكية بقدرةالشبكات العصبية للتغذية الأمامية ذات طبقة واحدة مخفية ذات حجم محدود على تقريبالدوال المستمرة.[32][34] في عام 1989، نشر جورج سيبيكو أول دليل لدوالالتنشيط السينية،[35] وتم تعميمه على بنى متعددة الطبقات للتغذية الأمامية في عام 1991 بواسطة كورت هورنيك.[31] أظهر العمل الأخير أيضًا أن التقريب الشامل ينطبق أيضًا على دوال التنشيط غير المحدودة مثل وحدة كونييهيكو فوكوشيما الخطية المصححة.[36][37]
تتعلق نظرية التقريب الشاملة للشبكات العصبية العميقة بقدرة الشبكات ذات العرض المحدد ولكن يسمح للعمق بالنمو. أثبت لو وآخرون[38] أنه إذا كان عرض شبكة عصبية عميقة ذات تنشيط وحدة خطية مصححة أكبر بشكل صارم من بعد الإدخال، فإن الشبكة يمكنها تقريب أي دالة قابلةللتكامل للوبيغ؛ إذا كان العرض أصغر من أو يساوي العرض بعد الإدخال، فإن الشبكة العصبية العميقة ليست مقربًا شاملًا.
يشتق التفسيرالاحتمالي،[39] من مجالالتعلم الآلي. ويتميز بالاستدلال،[40] بالإضافة إلى مفاهيمالتحسينللتدريب والاختبار، والمتعلقة بالتأقلم والتعميم على التوالي. وبشكل أكثر تحديدًا، يأخذ التفسير الاحتمالي في الاعتبار اللاخطية التنشيطيةكدالة توزيع تراكمية.[39] أدى التفسير الاحتمالي إلى إدخال التسربكمنظم في الشبكات العصبية. تم تقديم التفسير الاحتمالي من قبل باحثين بما في ذلكهوبفيلد وويدرو وناريندرا، وتم تعميمه في دراسات استقصائية مثل تلك التي أجراهاكريستوفر بيشوب.[39][41]
هناك نوعان من الشبكات العصبية الاصطناعية (ANN):الشبكة العصبية للتغذية الأمامية (FNN) أو المدرك المتعدد الطبقات (MLP) والشبكات العصبية المتكررة (RNN). تحتوي الشبكات العصبية المتكررة على دورات في هيكل اتصالها، بينما لا تحتوي الشبكات العصبية للتغذية الأمامية على ذلك. في عشرينيات القرن الماضي، ابتكرفيلهلم لينز وإرنست إيسينغنموذج إيزينج[42][43] الذي هو في الأساس بنية شبكة عصبية متكررة غير متعلمة تتكون من عناصر عتبة تشبه الخلايا العصبية. في عام 1972، جعل شونيتشي أماري هذه البنية قابلةً للتكيف.[44][45] أعادجون هوبفيلد نشر شبكته العصبية المتكررة المتعلمة في عام 1982.[46] نشر كاورو ناكانوشبكات عصبية متكررة مبكرةً أخرى في عام 1971.[47][48] في عام 1948، أنتجآلان تورينج أعمالًا حول "الآلات الذكية" لكنها لم تنشر في حياته،[49] وأحتوت على "أفكار متعلقة بالتطور الاصطناعي وتعلم الشبكات العصبية المتكررة".[45]
اقترحفرانك روزنبلات (1958)[50] المدرك، وهو شبكة عصبية للتغذية الأمامية ذات ثلاث طبقات: طبقة إدخال، وطبقة مخفية ذات أوزان عشوائية لم تتعلم، وطبقة إخراج. نشر لاحقًا كتابًا في عام 1962 قدم أيضًا متغيرات وتجارب حاسوبية، بما في ذلك إصدار يحتوي على مدركات ذات أربع طبقات "مع شبكات متكيفة قبل النهائية" حيث تتعلم الطبقتان الأخيرتان الأوزان (هنا ينسب الفضل إلى إتش. دي. بلوك وبي. دبليو. نايت).[51]:القسم 16: يشير الكتاب إلى شبكة سابقة بواسطة آر. دي. جوزيف (1960)[52] "مكافئة وظيفيًا لتغير" في هذا النظام ذي الأربع طبقات (يذكر الكتاب جوزيف أكثر من 30 مرة). هل ينبغي إذن اعتبار جوزيف منشئ المدركات المتعددة الطبقات المتكيفة المناسبة مع وحدات مخفية متعلمة؟ لسوء الحظ، لم تكن خوارزمية التعلم وظيفية، وسقطت في طي النسيان.
كانت أول خوارزمية تعلم عميق عاملة هي طريقة المجموعة لمعالجة البيانات، وهي طريقة لتدريب الشبكات العصبية العميقة بشكل تعسفي، والتي نشرهاأليكسي إيفاخنينكو[الإنجليزية] ولابا في عام 1965. لقد اعتبروها شكلاً من أشكال الانحدار متعدد الحدود،[53] أو تعميمًا لمدرك روزنبلات.[54] وصفت ورقة بحثية عام 1971 شبكةً عميقةً ذات ثماني طبقات تم تدريبها بهذه الطريقة،[55] والتي تستند إلى التدريب طبقةً تلو الأخرى من خلال تحليل الانحدار. يتم تقليم الوحدات المخفية الزائدة باستخدام مجموعة تحقق منفصلة. نظرًا لأن دوال تنشيط العقد هي متعددات حدود كولموغوروف-غابور، فقد كانت هذه أيضًا أول الشبكات العميقة ذات وحدات ضربية أو "بوابات".[45]
نشر شونيتشي أماري أول مدرك متعدد الطبقات للتعلم العميق مدرب بواسطة الانحدار التدريجي العشوائي[56] في عام 1967.[57] في التجارب الحاسوبية التي أجراها سايتو، الطالب لدى أماري، تعلم مدرك متعدد الطبقات من خمس طبقات ذو طبقتين قابلتين للتعديلتمثيلات داخليةً لتصنيف فئات الأنماط غير القابلة للفصل خطيًا.[45] جعلت التطورات اللاحقة في الأجهزة وضبط المعلمات الفائقة من الانحدار التدريجي العشوائي من طرف إلى طرف تقنية التدريب المهيمنة حاليًا.
في عام 1969، قدم كونيهيكو فوكوشيما دالة تنشيط ReLU (وحدة التقويم الخطية)تابع التفعيل.[36][45] أصبح المقوم هو دالة التنشيط الأكثر شيوعًا للتعلم العميق.[58]
بدأت بنى التعلم العميقللشبكات العصبية التلافيفية (CNNs) مع طبقات تلافيفية وطبقات للتقليل من العينات معنيوكونييترون الذي قدمه كونيهيكو فوكوشيما في عام 1979، على الرغم من عدم تدريبه بواسطة الانتشار العكسي.[59][60]
الانتشار العكسي هو تطبيق فعاللقاعدة السلسلة التي اشتقهاغوتفريد فيلهلم لايبنتس في عام 1673[61] على شبكات العقد القابلة للاشتقاق. تم تقديم مصطلح "أخطاء الانتشار العكسي" في الواقع في عام 1962 بواسطة روزنبلات،[51] لكنه لم يكن يعرف كيفية تطبيق ذلك، على الرغم من أن هنري جيه كيلي كان لديه مقدمة مستمرة للانتشار العكسي في عام 1960 في سياقنظرية التحكم.[62] نشر الشكل الحديث للانتشار العكسي لأول مرة في أطروحة الماجستير لسيبو ليناينما (1970).[45][63][64] أعاد جي. إم. أوستروفسكي وآخرون نشرها في عام 1971.[65][66] طبق بول ويربوس الانتشار العكسي على الشبكات العصبية في عام 1982[67] (أطروحة الدكتوراه الخاصة به لعام 1974، التي أعيد طبعها في كتاب عام 1994،[68] لم تصف الخوارزمية بعد[66]). في عام 1986، عمم ديفيد إي روميلهارت وآخرون الانتشار العكسي لكنهم لم يستشهدوا بالعمل الأصلي.[69][70]
تمّ تقديمالشّبكة العصبية ذات التّأخير الزمنيّ (TDNN) في عام 1987 بواسطةألكسندر وايبل لتطبيق الشّبكات العصبية التلافيفية على التعرّف على الفونيم. استخدمت التّلافيف ومشاركة الوزن والانتشار العكسيّ.[71][72] في عام 1988، طبّق وي تشانغ شبكةً عصبيةً تلافيفيةً مدرّبةً بالانتشار العكسيّ على التعرّف على الحروف الأبجدية.[73] في عام 1989، ابتكريان ليكون وآخرون شبكةً عصبيةً تلافيفيةً تسمّى LeNet للتعرّف على الرموز البريدية المكتوبةبخطّ اليد على البريد. استغرق التّدريب 3 أيام.[74] في عام 1990، طبّق وي تشانغ شبكةً عصبيةً تلافيفيةً على أجهزةالحوسبة البصرية.[75] في عام 1991، تمّ تطبيق شبكة عصبية تلافيفية على تجزئة كائن الصّورة الطبية[76] واكتشاف سرطان الثّدي في صور الثّدي بالأشعّة السّينية.[77] تمّ تطبيق LeNet-5 (في 1998)، وهي شبكة عصبية تلافيفية من 7 مستويات بواسطة يان ليكون وآخرون، تصنّف الأرقام، بواسطة العديد من البنوك للتعرّف على الأرقام المكتوبة بخطّ اليد على الشّيكات المرقمنة في صور بدقّة 32 × 32 بكسل.[78]
تمّ تطويرالشّبكات العصبية المتكرّرة (RNN)[42][44] بشكل أكبر في الثمانينيات. يتمّ استخدام التّكرار لمعالجة التّسلسل، وعندما يتمّ فكّ شبكة متكرّرة، فإنّها تشبه رياضيًا طبقةً تغذيةً أماميةً عميقة. وبالتّالي، فإنّ لها خصائص وقضايا متشابهة، وكان لتطوّراتها تأثيرات متبادلة. في الشّبكات العصبية المتكرّرة، كان هناك عملان مؤثّران مبكّران هما شبكة جوردان في 1986،[79] وشبكة إلمان في 1990،[80] التي طبّقت الشّبكات العصبية المتكرّرة لدراسة المشكلات فيعلم النفس المعرفي.
في الثمانينيات، لم يكن الانتشار العكسيّ يعمل بشكل جيّد مع التعلّم العميق ذي مسارات تخصيص الرّصيد الطويلة. للتغلّب على هذه المشكلة، في عام 1991، اقترحيورغن شميدهوبر تسلسلًا هرميًا من الشّبكات العصبية المتكرّرة مدرّبةً مسبقًا مستوىً واحدًا في كلّ مرّة بواسطةالتعلّم الذّاتيّ الإشراف حيث تحاول كلّ شبكة عصبية متكرّرة التنبّؤ بإدخالها التّالي، وهو الإدخال التّالي غير المتوقّع للشّبكة العصبية المتكرّرة أدناه.[81][82] يستخدم هذا "الضّاغط التّاريخيّ العصبيّ" التّشفير التنبّئيّلتعلّم التّمثيلات الدّاخلية على نطاقات زمنية متعدّدة التنظيم الذّاتيّ. يمكن أن يسهّل هذا بشكل كبير التعلّم العميق في المراحل التّالية. يمكن دمج التسلسل الهرميّ للشّبكات العصبية المتكرّرة في شبكة عصبية متكرّرة واحدة، عن طريق تقطير شبكة تجميع ذات مستوىً أعلى إلى شبكة تشغيل آليّ ذات مستوىً أدنى.[81][82] في عام 1993، حلّ ضّاغط تاريخيّ عصبيّ مهمّة "تعلّم عميق جدًا" تطلّبت أكثر من 1000طبقة لاحقة في شبكة عصبية متكرّرة تمّ نشرها بمرور الوقت.[83] يشير الحرف "P" فيChatGPT إلى مثل هذا التّدريب المسبق.
طبّقت أطروحة دبلوم سيب هوشريتر عام 1991[84] الضّاغط التّاريخيّ العصبيّ،[81] وحدّدت وحلّلت مشكلة التّدريج المتلاشي.[84][85] اقترح هوشريتر اتّصالات متبقيةً متكرّرةً لحلّ مشكلة التّدريج المتلاشي. أدّى هذا إلى ظهورذاكرة المدى الطويل القصيرة (LSTM)، التي نشرت في عام 1995.[86] يمكن لذاكرة المدى الطويل القصيرة تعلّم مهامّ "التعلّم العميق جدًا"[23] مع مسارات تخصيص رصيد طويلة تتطلّب ذكريات أحداث وقعت قبل آلاف الخطوات الزمنية المنفصلة. لم تكن ذاكرة المدى الطويل القصيرة هي البنية الحديثة بعد، والتي تطلّبت "بوابة نسيان"، تمّ تقديمها في عام 1999،[87] والتي أصبحت بنية الشّبكة العصبية المتكرّرة القياسية.
خلال 1985-1995، تمّ تطوير العديد من البنى والطرق بواسطة تيري سيجنوفسكي وبيتر دايان وجيوفري هينتون مستوحاةً من الميكانيكا الإحصائية، مثل آلة بولتزمان،[91] وآلة بولتزمان المقيّدة،[92] وآلة هيلمهولتز،[93] وخوارزمية الاستيقاظ والنّوم.[94] صمّمت هذه للتعلّم غير المراقب لنماذج توليدية عميقة. ومع ذلك كانت هذه أكثر تكلفةً من الناحية الحسابية مقارنةً بالانتشار العكسيّ. كانت خوارزمية تعلّم آلة بولتزمان التي نشرت في عام 1985، شائعةً لفترة وجيزة قبل أن تطغى عليها خوارزمية الانتشار العكسيّ في عام 1986. (ص 112[95]). أصبحت شبكة عام 1988 حالةً فنيةً فيالتنبّؤ ببنية البروتين، وهو تطبيق مبكّر للتعلّم العميق على المعلوماتية الحيوية.[96]
تمّ استكشاف التعلّم الضحل والعميق (على سبيل المثال، الشّبكات المتكرّرة) للشّبكات العصبية الاصطناعيةللتعرّف على الكلام لسنوات عديدة.[97][98][99] لم تتفوّق هذه الطرق أبدًا على تقنيةنموذج الخليط/نظرية ماركوف المخفية (GMM-HMM) الدّاخلية غير الموحّدة المصنوعة يدويًا والقائمة على نماذج توليدية للكلام مدرّبةً بشكل تمييزيّ.[100] تمّ تحليل الصّعوبات الرّئيسية، بما في ذلك تناقص التّدريج [70] وهيكل الارتباط الزمنيّ الضعيف في نماذج التنبّؤ العصبية.[101][102] من الصّعوبات الإضافية نقص بيانات التّدريب وقدرة الحوسبة المحدودة.
تمّ استكشاف مبدأ رفع الميزات "الخام" على التّحسين المصنوع يدويًا بنجاح لأوّل مرّة في بنية المشفّر التّلقائيّ العميق على الطّيف "الخام" أو ميزات بنك المرشّح الخطيّ في أواخر التسعينيات،[104] مظهرًا تفوّقه على ميزات ميل-سيبسترال التي تحتوي على مراحل تحويل ثابتة من الأطياف. أنتجت الميزات الخام للكلام،الموجات الصوتية، لاحقًا نتائج ممتازةً على نطاق أوسع.[106]
دخلت الشبكات العصبية في حالة ركود، وأصبحت النماذج الأبسط التي تستخدم ميزات يدوية الصنع مخصصةً للمهام مثل مرشحات غابور وآلات متجهات الدعم (SVMs) هي الخيارات المفضلة في التسعينيات والعقد الأول من القرن الحادي والعشرين، بسبب التكلفة الحسابية للشبكات العصبية الاصطناعية ونقص فهم كيفية توصيل الدماغ لشبكاته البيولوجية.[بحاجة لمصدر]
في عام 2006، تم تطويرشبكة الاعتقاد العميق للنمذجة التوليدية من خلال منشوراتلجيفري هينتون ورسلان سالاخوتدينوف وأوسيندرو وته.[110][111] يتم تدريبها عن طريق تدريب آلة بولتزمان المقيدة، ثم تجميدها وتدريب آلة أخرى فوق الأولى، وهكذا، ثمضبطها اختياريًا باستخدام الانتشار العكسي المراقب.[112] يمكنها نمذجة توزيعات احتمالات عالية الأبعاد، مثل توزيع "صور ذاكرة المدى الطويل القصيرة"، لكن التقارب كان بطيئًا.[113][114][115]
بدأ تأثير التعلم العميق في الصناعة في أوائل العقد الأول من القرن الحادي والعشرين، عندما عالجتالشبكات العصبية التلافيفية بالفعل ما يقدر بـ 10% إلى 20% من جميع الشيكات المكتوبة في الولايات المتحدة، وفقًا ليان ليكون.[116] بدأت التطبيقات الصناعية للتعلم العميق على التعرف على الكلام على نطاق واسع حوالي عام 2010.
كانت ورشة عمل NIPS لعام 2009 حول التعلم العميق للتعرف على الكلام مدفوعةً بقيودالنماذج التوليدية العميقة للكلام، واحتمالية أن تصبح الشبكات العصبية العميقة عمليةً بالنظر إلى الأجهزة الأكثر قدرةً ومجموعات البيانات واسعة النطاق. كان يعتقد أن التدريب المسبق للشبكات العصبية العميقة باستخدام نماذج توليديةلشبكات المعتقدات العميقة (DBN) سيتغلب على الصعوبات الرئيسية للشبكات العصبية. ومع ذلك، تم اكتشاف أن استبدال التدريب المسبق بكميات كبيرة من بيانات التدريب للانتشار العكسي المباشر عند استخدام الشبكات العصبية العميقة ذات طبقات الإخراج الكبيرة المعتمدة على السياق أنتج معدلات خطأ أقل بشكل كبير من نموذجخليط غاوسي (GMM) ونموذج ماركوف المخفي (HMM) الأكثر تطورًا، وكذلك من الأنظمة الأكثر تقدمًا القائمة على النموذج التوليدي.[117] كانت طبيعة أخطاء التعرف التي أنتجها النوعان من الأنظمة مختلفةً بشكل كبير،[118] مما يوفر رؤى فنيةً حول كيفية دمج التعلم العميق في نظام فك تشفير الكلام الحالي عالي الكفاءة في وقت التشغيل الذي نشرته جميع أنظمة التعرف على الكلام الرئيسية.[40][119][120]
حفز التحليل في عامي 2009 و2010 - الذي يقارن بين نموذج الخليط ونماذج الكلام التوليدية الأخرى مقابل نماذج الشبكات العصبية العميقة - الاستثمار الصناعي المبكر في التعلم العميق للتعرف على الكلام.[118] تم إجراء هذا التحليل بأداء مقارن (أقل من 1.5% في معدل الخطأ) بين الشبكات العصبية العميقة التمييزية والنماذج التوليدية.[117][118][121] في عام 2010، وسع الباحثون التعلم العميق منTIMIT[الإنجليزية] إلى التعرف على الكلام ذي المفردات الكبيرة، من خلال اعتماد طبقات إخراج كبيرة من الشبكة العصبية العميقة بناءً على حالات نظرية ماركوف المخفية المعتمدة على السياق التي تم إنشاؤها بواسطةأشجار القرار.[119][122][123][124]
بدأت ثورة التعلم العميق حول رؤية الحاسوب القائمة على الشبكات العصبية التلافيفية (CNN) ووحدات معالجة الرسومات (GPU).
على الرغم من أن الشبكات العصبية التلافيفية المدربة بواسطةالانتشار العكسي كانت موجودةً منذ عقود وتطبيقات وحدات معالجة الرسومات للشبكات العصبية لسنوات،[125] بما في ذلك الشبكات العصبية التلافيفية،[126] كانت هناك حاجة إلى تطبيقات أسرع للشبكات العصبية التلافيفية على وحدات معالجة الرسومات للتقدم في رؤية الحاسوب. في وقت لاحق، مع انتشار التعلم العميق، تم تطوير أجهزة متخصصة وتحسينات للخوارزميات خصيصًا للتعلم العميق.[127]
كان التقدم الرئيسي لثورة التعلم العميق هو التقدم في الأجهزة، وخاصةً وحدات معالجة الرسومات. يعود تاريخ بعض الأعمال المبكرة إلى عام 2004.[125][126] في عام 2009 أفاد راينا ومادهافان وأندرو نج عن شبكة معتقدات عميقة بعمق 100 مليون مدربة على 30 وحدة معالجة رسومات منإنفيديا من فئة (بالإنجليزية:GeForce GTX 280)، وهو عرض مبكر للتعلم العميق القائم على وحدة معالجة الرسومات. أفادوا بما يصل إلى 70 مرةً أسرع في التدريب.[128]
في عام 2011، حققت شبكة عصبية تلافيفية تسمى دانت (بالإنجليزية:DanNet)[129][130] بواسطة دان سيريسان ويولي ماير وجوناثان ماسكي ولوكا ماريا غامبارديلا ويورغن شميدهوبر لأول مرة أداءً بشريًا خارقًا في مسابقة التعرف على الأنماط المرئية، متفوقةً على الطرق التقليدية بعامل 3.[23] ثم فازت في المزيد من المسابقات.[131][132] كما أظهروا كيف أدىالتجميع الأقصى[الإنجليزية] للشبكات العصبية التلافيفية على وحدة معالجة الرسومات إلى تحسين الأداء بشكل كبير.[131][132]
في عام 2012، أنشأأندرو نج وجيف دين شبكةً عصبيةً للتغذية الأمامية تعلمت التعرف على مفاهيم ذات مستوىً أعلى، مثل القطط، فقط من مشاهدة الصور غير المعلمة المأخوذة من مقاطع فيديويوتيوب.[133]
ثم امتد النجاح في تصنيف الصور إلى مهمة إنشاء أوصاف (تسميات) للصور الأكثر تحديًا، غالبًا كمزيج من الشبكات العصبية التلافيفية وذاكرة المدى الطويل القصيرة.[137][138][139]
في عام 2014، كانت حالة الفن هي تدريب "شبكة عصبية عميقة جدًا" مع 20 إلى 30 طبقة.[140] أدى تكديس العديد من الطبقات إلى انخفاض حاد في دقةالتدريب،[141] والمعروفة باسم مشكلة "التدهور".[142] في عام 2015 تم تطوير تقنيتين لتدريب الشبكات العميقة جدًا وهماشبكة الطرق السريعة[الإنجليزية] في مايو 2015، والشبكة العصبية المتبقية (ResNet)[143] في ديسمبر 2015.
في نفس الوقت تقريبًا، بدأ التعلم العميق يؤثر على مجال الفن. من بين الأمثلة المبكرةديب دريم (2015)،والنقل الأسلوبي العصبي[الإنجليزية] (2015)،[144] وكلاهما كان قائمًا على الشبكات العصبية المدربة مسبقًا لتصنيف الصور، مثل VGG-19.
أصبحتالشبكة التوليدية المتنافسة (GAN) بواسطة (إيان جودفيلو وآخرون، 2014)[145] (بناءً على مبدأ الفضول الاصطناعيليورغن شميدهوبر[88][90]) حالةً فنيةً في النمذجة التوليدية خلال الفترة 2014-2018. تم تحقيق جودة صورة ممتازة بواسطة StyleGAN منإنفيديا (2018)[146] استنادًا إلى شبكة خصومية توليدية بواسطة تيرو كاراس وآخرون.[147] هنا ينمو مولد الشبكة التوليدية المتنافسة من نطاق صغير إلى نطاق كبير بطريقة هرمية. حقق توليد الصور بهذه الشبكة نجاحًا شائعًا، وأثار مناقشات حولالتزييف العميق.[148] طغت نماذج الانتشار (2015)[149] على الشبكات التوليدية المتنافسة في النمذجة التوليدية منذ ذلك الحين، مع أنظمة مثلدال-إي 2 (2022) وستيبل ديفيوجن (2022).
يعد التعلم العميق جزءًا من أحدث الأنظمة في مختلف التخصصات، وخاصةًالرؤية حاسوبية والتعرف التلقائي على الكلام (ASR). تحسنت النتائج على مجموعات التقييم المستخدمة بشكل شائع مثل TIMIT (التعرف الكلام) وMNIST (رؤية حاسوبية)، بالإضافة إلى مجموعة من مهام التعرف على الكلام ذات المفردات الكبيرة بثباتة.[117][152] تم استبدال الشبكات العصبية التلافيفيةبالذاكرة القصيرة المدى المطولة.[151][153][154][155] لكنها أكثر نجاحًا في رؤية الحاسوب.
تعدالشبكات العصبية الاصطناعية (ANNs) أو الأنظمةالمتصلة أنظمة حوسبة مستوحاةً من الشبكات العصبية البيولوجية التي تشكل أدمغة الحيوانات. تتعلم هذه الأنظمة (تحسن قدرتها تدريجيًا) على أداء المهام من خلال مراعاة الأمثلة، عمومًا دون برمجة مخصصة للمهام. على سبيل المثال، في التعرف على الصور، قد تتعلم تحديد الصور التي تحتوي على قطط من خلال تحليل صور أمثلة تمتصنيفها يدويًا على أنها "قطة" أو "ليست قطة" واستخدام النتائج التحليلية للتعرف على القطط في الصور الأخرى. لقد وجدت معظم استخدامها في التطبيقات التي يصعب التعبير عنها باستخدام خوارزمية حاسوب تقليدية باستخدام البرمجة القائمة على القواعد.[157]
تعتمد الشبكة العصبية الاصطناعية على مجموعة من الوحدات المتصلة تسمىالخلايا العصبية الاصطناعية، (مماثلة للخلاياالعصبية البيولوجية فيالدماغ البيولوجي). يمكن أن يرسل كل اتصال (مشبك) بين الخلايا العصبية إشارةً إلى خلية عصبية أخرى. يمكن للخلية العصبية المستقبلة (بعد المشبكية) معالجة الإشارة (الإشارات) ثم إرسال إشارة إلى الخلايا العصبية التالية المتصلة بها. قد يكون للخلايا العصبية حالة، يمثلها عمومًاأعداد حقيقية، عادةً ما بين 0 و1. قد يكون للخلايا العصبية والمشابك أيضًا وزن يتغير مع تقدم التعلم، مما قد يزيد أو يقلل من قوة الإشارة التي ترسلها إلى أسفل التيار.[158]
عادةً ما يتم تنظيم الخلايا العصبية في طبقات. قد تجري طبقات مختلفة أنواعًا مختلفةً من التحويلات على مدخلاتها. تنتقل الإشارات من الطبقة الأولى (الإدخال) إلى الطبقة الأخيرة (الإخراج)، ربما بعد اجتياز الطبقات عدة مرات.[159]
كان الهدف الأصلي من نهج الشبكة العصبية هو حل المشكلات بنفس الطريقة التي يعمل بها الدماغ البشري. بمرور الوقت، ركز الاهتمام على مطابقة قدرات عقلية محددة، مما أدى إلى انحرافات عن علم الأحياء مثل الانتشار العكسي أوالانتشار الخلفي، أو تمرير المعلومات في الاتجاه المعاكس وتعديل الشبكة لتعكس تلك المعلومات.[160]
اعتبارًا من عام 2017، تحتوي الشبكات العصبية عادةً على عدد قليل من الآلاف إلى عدد قليل من ملايين الوحدات وملايين الاتصالات. على الرغم من أن هذا العدد أقل بعدة مراتب من عدد الخلايا العصبية في الدماغ البشري، فإن هذه الشبكات يمكنها أداء العديد من المهام على مستوىً يتجاوز مستوى البشر (على سبيل المثال، التعرف على الوجوه، أو لعب "غو").[163]
الشبكة العصبية العميقة (DNN) هي نموذج حاسوبي مستوحى من بنية الدماغ، يتألف من طبقات متعددة من الوحدات الحسابية المترابطة، تمتد بين طبقة الإدخال وطبقة الإخراج.[20][23] ورغم تعدد أنواع هذه الشبكات، إلا أنها تتشارك في مكونات أساسية مشتركة، كالخلايا العصبية الاصطناعية والوصلات بينها، والأوزان والانحيازات التي تحدد قوة هذه الوصلات، فضلًا عن الدوال التي تنظم عملية الحساب.[164]
على سبيل المثال، يمكن تدريب شبكة عصبية عميقة على تمييز سلالات الكلاب، بحيث عند عرض صورة لكلب عليها، تقوم بحساب الاحتمال النسبي لانتماء هذا الكلب إلى سلالة معينة. ويمكن للمستخدم تعديل هذه الاحتمالات بوضع عتبات محددة، ليحصل في النهاية على تسمية مقترحة للسلالة. كل عملية حسابية من هذه العمليات تعتبر طبقة في الشبكة، ولهذا سميت هذه الشبكات بـ"العميقة" نظرًا لاحتوائها على عدد كبير من هذه الطبقات.
تستطيع الشبكات العصبية العميقة أن تُمَثِّل علاقات غير خطية معقدة. تولد بنى هذه الشبكات نماذج تركيبية تُعَبَّر فيها عن الكائن على أنه تركيب متعدد الطبقات منعناصر بدائية.[165] تتيح الطبقات الإضافية تكوين ميزات من الطبقات الأدنى، مما يُمكّن من نمذجة بيانات معقدة بوحدات أقل من الشبكة الضحلة ذات الأداء المماثل.[20] على سبيل المثال، ثبت أنكثيرات الحدود المتعددة المتغيرات المفرقة تُقَرَّب بشكل أسهل بكثير باستخدام الشبكات العصبية العميقة مقارنة بالشبكات الضحلة.[166]
تشتمل البنى العميقة على العديد من المتغيرات لعدد قليل من الأساليب الأساسية. وقد حققت كل بنية نجاحًا في مجالات محددة. وليس من الممكن دائمًا مقارنة أداء بنى متعددة إلا إذا قُيِّمت على نفس مجموعات البيانات.
تُعَدّ الشبكات العصبية العميقة، في الغالب، شبكاتَ تغذية أمامية تسير فيها البيانات في اتجاه واحد، من طبقة الإدخال إلى طبقة الإخراج، دون رجوع. في البداية، تُنشئ هذه الشبكة خريطةً من العُقد العصبية الاصطناعية وتُعيّن قيمًا عدديةً عشوائية، أو ما يُسمى "أوزانًا"، للعلاقات فيما بينها. تُضرب هذه الأوزان في قيم المدخلات، وينتج عن ذلك قيمٌ تتراوح بين الصفر والواحد. إذا لم تستطع الشبكة تمييز نمطٍ معين بدقة، تقوم الخوارزمية بتعديل هذه الأوزان.[167] بهذه الطريقة تستطيع الخوارزمية تعزيز تأثير بعض المعلمات، حتى تصل إلى المعالجة الرياضية الصحيحة للبيانات بالكامل.[168][169]
أماالشبكات العصبية التلافيفية (CNNs) فتُستخدم على نطاق واسع في مجال الرؤية الحاسوبية.[175] كما تم توظيفها في نمذجة الإشارات الصوتية لتحقيق التعرف التلقائي على الكلام.[176]
كما هو الحال في الشبكات العصبية الاصطناعية، يمكن أن تنشأ العديد من المشكلات في الشبكات العصبية العميقة المدربة بطريقة بسيطة. من بين هذه المشكلات الشائعةالإفراط في التعميم ووقت الحساب الكبير.
تميل الشبكات العصبية العميقة إلى الإفراط في التعميم بسبب الطبقات المجردة الإضافية التي تسمح لها بنمذجة العلاقات النادرة في بيانات التدريب. يمكن تطبيق أساليبالتنظيم مثل تقليم وحدة إيفاخنينكو،[55] أو اضمحلال الأوزان أو التناثر أثناء التدريب للحد من الإفراط في التعميم.[177] بدلًا من ذلك، يتجاهل تنظيم التسرب وحدات عشوائية من الطبقات المخفية أثناء التدريب. يساعد ذلك في استبعاد العلاقات النادرة.[178] أخيرًا، يمكن زيادة البيانات من خلال أساليب مثل القص وال دوران لزيادة حجم مجموعات التدريب الأصغر وتقليل فرص الإفراط في التعميم.[179]
يجب على الشبكات العصبية العميقة أن تأخذ في الاعتبار العديد من معلمات التدريب، مثل الحجم (عدد الطبقات وعدد الوحدات في كل طبقة)، ومعدل التعلم والأوزان الأولية. قد يكون مسح فضاء المعلمات للحصول على المعلمات المثالية غير ممكن بسبب التكلفة من حيث الوقت والموارد الحسابية. تسارع العديد من الحيل الحسابية، مثل التجميع (حساب التدرج على عدة أمثلة تدريب في وقت واحد بدلًا من الأمثلة الفردية)، عملية التدريب.[180] وقد أدت القدرات الحسابية الكبيرة للبنى متعددة النوى (مثلوحدات معالجة الرسومات) إلى تسريع كبير في التدريب، نظرًا لملاءمة هذه البنى الحسابية لحسابات المصفوفات والمتجهات.[181][182]
بدلًا من ذلك، قد يبحث المهندسون عن أنواع أخرى من الشبكات العصبية ذات خوارزميات تدريب أبسط وأكثر تقارباً. تعتبرأجهزة التحكم في المفاصل القائمة على نموذج المخيخ (CMAC) أحد هذه الأنواع من الشبكات العصبية. لا تتطلب معدلات تعلم أو أوزانًا أولية عشوائية. يمكن ضمان تقارب عملية التدريب في خطوة واحدة مع دفعة جديدة من البيانات، وتكون التعقيدات الحسابية لخوارزمية التدريب خطية بالنسبة لعدد الخلايا العصبية المشاركة.[183][184]
شهدت الأعوام منذ 2010 تطورات متسارعة في خوارزميات التعلم الآلي وأجهزة الحاسوب، مما أفضى إلى أساليب أكثر كفاءة لتدريب الشبكات العصبية العميقة التي تتكون من طبقات متعددة من الوحدات المخفية غير الخطية وطبقة إخراجية ضخمة.[185] وبحلول عام 2019، حلت وحدات معالجة الرسومات، غالبًا مع تحسينات مخصصة للذكاء الاصطناعي، محل وحدات المعالجة المركزية كأداة أساسية للتدريب واسع النطاق للذكاء الاصطناعي السحابي التجاري.[186] وقدّرتأوبن أيه آي الزيادة في مقدار الحساب المطلوب في أكبر مشاريع التعلم العميق، من ألكسنت (2012) إلى ألفا زيرو (2017)، بحوالي 300 ألف ضعف، مع اتجاه لمضاعفة هذا الوقت كل 3.4 أشهر.[187][188]
صُممتدوائر إلكترونية خاصة، تُعرف بمعالجات التعلم العميق،لتسريع خوارزميات التعلم العميق. وتتضمن هذه المعالجات وحدات معالجة عصبية في هواتفهواوي المحمولة،[189] وخوادمالحوسبة السحابية مثل وحدات معالجة الموترات فيمنصة غوغل السحابية.[190] كما قامت شركة سيريبراس سيستمز ببناء نظام متخصص لمعالجة نماذج التعلم العميق الكبيرة، استنادًا إلى أكبر معالج في الصناعة.[191][192]
تُعدأشباه الموصلات الرقيقة واعدة لتطوير أجهزة تعلم عميق موفرة للطاقة، حيث تستخدم الهيكل الأساسي نفسه للعمليات المنطقية وتخزين البيانات. وفي عام 2020، نشر ماريغا وآخرون تجاربهم مع مادة قناة نشطة ذات مساحة كبيرة لتطوير أجهزة ودوائر منطقية في الذاكرة تعتمد علىترانزستورات تأثير المجال ذات البوابة العائمة.[193]
وفي عام 2021 اقترح جيه فيلدمان وآخرونمسرعًا مدمجًا للأجهزة الضوئية للمعالجة التلافيفية المتوازية.[194] ويحدد المؤلفون ميزتين رئيسيتينللفوتونات المدمجة مقارنة بنظيراتها الإلكترونية: نقل بيانات متواز بشكل هائل من خلالتعدد إرسالالطول الموجي بالتزامن معأمشاط التردد، وسرعات تعديل بيانات عالية للغاية.[194] ويمكن لنظامهم تنفيذ تريليونات عمليات الضرب والتجميع في الثانية، مما يشير إلى إمكاناتالفوتونات المدمجة في تطبيقات الذكاء الاصطناعي الغنية بالبيانات.[194]
يُعدُّ التعرف التلقائي على الكلام أوسع نطاقٍ تحقق فيه التعلم العميق نجاحًا مبهرًا. لقد أظهرت شبكات الذاكرة الطويلة قصيرة المدى قدرةً على تعلم مهامّ "التعلم العميق جدًّا"[12]، والتي تتضمن فترات زمنية مطولة تمتد لعدة ثوانٍ وتحوي أحداث كلامية متباعدة بآلاف الخطوات الزمنية المتسلسلة، حيث تقابل الخطوة الزمنية الواحدة حوالي 10 مللي ثانية. وقد أظهرت شبكات الذاكرة الطويلة قصيرة المدى ذات بوابات النسيان[174] قدرةً على منافسة أنظمة التعرف على الكلام التقليدية في مهامّ محددة.[195]
ارتكز النجاح الأولي في مجال التعرف على الكلام على مهامّ التعرف على نطاقٍ صغير، مثل قاعدة بيانات "TIMIT". تحتوي هذه المجموعة البياناتية على 630 متحدثًا يمثلون ثماني لهجات رئيسية للغة الإنجليزية الأمريكية، حيث يقرأ كل متحدث عشر جمل.[196] وقد أتاح حجمها الصغير إمكانية تجربة العديد من التهيئات. والأهم من ذلك، أن مهمتها تتعلق بالتعرف على تسلسل الصوتيات، الأمر الذي يسمح، على عكس التعرف على تسلسل الكلمات، باستخدام نماذج لغة ثنائية بسيطة على مستوى الصوتيات. وقد سمح هذا بتحليل قوة جوانب النمذجة الصوتية في التعرف على الكلام بشكلٍ أيسر. وقد تم تلخيص معدلات الخطأ، بما في ذلك هذه النتائج الأولية التي قيست كنسبة مئوية لمعدلات خطأ الصوتيات (PER)، منذ عام 1991.[197]
أدى بروز الشبكات العصبية العميقة في مجالات التعرف على المتحدث في أواخر التسعينات، والتعرف على الكلام حول عامي 2009 و2011، والذاكرة القصيرة المدى المطولة في الفترة الممتدة بين عامي 2003 و2007 إلى تسريع التقدم في ثمانية مجالات رئيسية:[119][121][202]
التوسع والتدريب السريع وفك التشفير للشبكات العصبية العميقة: حيث شهد هذا المجال تطورات متسارعة في بناء وتدريب وتشغيل هذه الشبكات.
التدريب التمييزي للتسلسلات: تم التركيز على تطوير خوارزميات تدريب قادرة على التمييز بين التسلسلات المختلفة بدقة عالية.
معالجة الميزات بواسطة نماذج عميقة مع فهم عميق للآليات الأساسية: تم تطوير نماذج قادرة على استخراج ميزات ذات دلالة عالية من البيانات، مع فهم أعمق للعمليات التي تحدث داخل هذه النماذج.
تكيف الشبكات العصبية العميقة والنماذج العميقة ذات الصلة: تم تطوير تقنيات لتكييف هذه النماذج لتناسب مختلف المهام والبيانات.
التعلم متعدد المهام والتعلم الانتقالي بواسطة الشبكات العصبية العميقة والنماذج العميقة ذات الصلة: تم استكشاف قدرة هذه النماذج على تعلم مهام متعددة في آن واحد، ونقل المعرفة المكتسبة من مهمة إلى أخرى.
الشبكات العصبية التلافيفية وكيفيةتصميمها للاستفادة المثلى من معرفة مجال الكلام: تم التركيز على تصميم هذه الشبكات بحيث تستفيد بشكل كامل من المعرفة المتراكمة في مجال معالجة الإشارات الصوتية.
الشبكة العصبية المتكررة ومتغيرات الذاكرة القصيرة المدى المطولة الغنية بها: تم تطوير نماذج متكررة قادرة على معالجة البيانات التسلسلية مع قدرة أكبر على حفظ المعلومات.
أنواع أخرى من النماذج العميقة بما في ذلك النماذج القائمة على الموترات والنماذج المدمجة التوليدية/التمييزية العميقة: تم استكشاف نماذج جديدة ذات بنى معقدة أكثر، مثل النماذج القائمة على الموترات والنماذج المدمجة التي تجمع بين القدرات التوليدية والتمييزية.
يشرح ريتشارد جرين كيفية استخدام التعلم العميق مع مركبة تعمل عن بُعد تحت الماء في تربيةبلح البحر
تُعد قاعدة بيانات MNIST مجموعة بيانات مرجعية شائعة لتقييم خوارزميات تصنيف الصور. تتألف من أرقام مكتوبة بخط اليد، وتضم 60 ألف عينة تدريبية و10 ألف عينة اختبارية، شأنها شأن قاعدة بيانات TIMIT فإن حجمها المتواضع يتيح للمستخدمين تجربة إعدادات متنوعة. وتتوفر قائمة شاملة بالنتائج التي تحققت على هذه المجموعة.[205]
بات التعرف على الصور القائم على التعلم العميقيتفوق على القدرات البشرية، إذ يُنتج نتائج أدق من نظرائه البشر. وقد تحقق هذا الإنجاز لأول مرة في عام 2011 في مجال التعرف على إشارات المرور، ثم تبعه في عام 2014 في مجال التعرف على الوجوه البشرية.[206][207]
تفسر المركبات المدربة على التعلم العميق الآن مشاهدات الكاميرا بزاوية 360 درجة.[208] ومن الأمثلة الأخرى على تطبيقات التعلم العميق في هذا المجال، تحليل تشوهات الوجه الجديد (FDNA) الذي يُستخدم في تحليل الحالات الشاذة الوراثية المرتبطة بقاعدة بيانات واسعة من المتلازمات الوراثية.[208]
معالجة الفنون البصرية لجيمي ويلز في فرنسا، مع تطبيق أسلوب لوحة "الصرخة" لمونش باستخدام نقل الأسلوب العصبي
إن التقدم المحرز في مجال التعرف على الصور مرتبط ارتباطًا وثيقًا بالاستخدام المتزايد لتقنيات التعلم العميق في شتى مهام الفنون البصرية. وقد أثبتت الشبكات العصبية العميقة كفاءتها في مجالات عدة، منها على سبيل المثال لا الحصر:
تحديد الفترة الزمنية لأسلوب لوحة ما: حيث باتت قادرة على تحديد الفترة الفنية التي تنتمي إليها لوحة معينة بدقة متزايدة.[209][210]
النقل الأسلوبي العصبي: يتمثل هذا في قدرتها على انتقاء الأسلوب الفني لعمل فني محدد وتطبيقه بطريقةٍ مرضيةٍ بصريًا على صورة أو مقطع فيديو عشوائي.[209][210]
توليد صور مذهلة: وذلك من خلال إنشاء صور بصرية مبهرة انطلاقًا من مدخلات عشوائية.[209][210]
ومن التقنيات الأخرى البارزة في هذا المجالالتعيين السلبي والتضمين الكلمي.[211] ويمكن اعتبار التضمين الكلمي، كما في نموذج word2vec، بمثابة طبقة تمثيل في بنية التعلم العميق تحول كلمة مفردة إلى تمثيل نقطوي فيفضاء متجه يعبر عن علاقتها بالكلمات الأخرى ضمن مجموعة البيانات. ويتيح استخدام التضمين الكلمي كطبقة إدخال في الشبكات العصبية المتكررة (RNN) تحليل الجمل والعبارات اعتمادًا على قواعد متجه تركيبية فعالة. ويمكن النظر إلى هذه القواعد بمثابةقواعد نحوية احتمالية خالية من السياق (PCFG) يتم تنفيذها بواسطة الشبكات العصبية المتكررة.[212] كما يمكن للمشفرات التلقائية المتكررة المبنية على التضمينات الكلمية تقييم تشابه الجمل واكتشاف عمليات إعادة الصياغة.[212]
ويعتمدمترجم جوجل (GT) على شبكة ذاكرة قصيرة المدى طويلة (LSTM) كبيرة الحجم تعمل من طرف إلى طرف.[222][223][224] وتستخدم ترجمة جوجل العصبية الآلية (GNMT) أسلوبًا في الترجمة الآلية يعتمد على الأمثلة حيث "يتعلم النظام من ملايين الأمثلة".[223][225] ويقوم بترجمة "الجمل كاملة في وقت واحد، بدلًا من القطع". ويدعم مترجم جوجل أكثر من مائة لغة.[223] وتشفر الشبكة "دلالات الجملة بدلًا من مجرد حفظ الترجمات من عبارة إلى عبارة".[223][226] ويستخدم مترجم جوجل اللغة الإنجليزية كلغة وسيطة بين معظم أزواج اللغات.[226]
تفشل نسبة كبيرة من المركبات الدوائية المرشحة في الحصول على الموافقة التنظيمية. تُعزى هذه الإخفاقات إلى قصور في الفعالية الدوائية (أي التأثير على الهدف المقصود)، أو ظهور تفاعلات جانبية غير مرغوب فيها (أي تأثيرات خارج الهدف)، أوحدوث سمية غير متوقعة.[227][228] وقد سعى الباحثون إلى استكشاف إمكانية استخدام تقنيات التعلم العميق للتنبؤ بالأهداف الجزيئية الحيوية،[229][230] والأهداف غير المقصودة، والتأثيرات السامة للمركبات الكيميائية الموجودة في الأغذية والمنتجات المنزلية والأدوية.[231][232][233]
شهد عام 2017 استخدامالشبكات العصبية البيانية لأول مرة في مجال التنبؤ بخصائص جزيئية متنوعة ضمن قاعدة بيانات واسعة في علم السموم.[237] وفي عام 2019، تم اللجوء إلى الشبكات العصبية التوليدية لإنتاج جزيئات خضعت للتحقق التجريبي حتى مرحلة التجارب على الفئران.[238][239]
تم توظيف تقنيات التعلم العميق بالتعزيز لتقدير قيمة الإجراءاتالتسويقية المباشرة المحتملة، وذلك بالاستناد إلى معطيات عميقة حول المتغيرات الخاصة بتردد الشراء، القيمة الإجمالية للطلبات، ومدة آخر عملية شراء (RFM). وقد أظهرت النتائج أن الدالة المستخدمة في تقدير القيمة تحمل تفسيرًا بديهيًا يتمثل فيقيمة عمر العميل.[240]
استخدمت أنظمة التوصية التعلم العميق لاستخراج ميزات ذات مغزىً لنموذج عامل كامن للتوصيات الموسيقية والبحثية القائمة على المحتوى.[241][242] تم تطبيق التعلم العميق متعدد المناظر لتعلم تفضيلات المستخدم من نطاقات متعددة.[243] يستخدم النموذج نهجًا هجينًا قائمًا على التعاون والمحتوى ويعزز التوصيات في مهام متعددة.
استُخدممشفر تلقائي للشبكات العصبية الاصطناعية في حقلالمعلوماتية الحيوية، بهدف التنبؤبالشروح الوراثية والعلاقات الوظيفية بين الجينات.[244] وفي سياق المعلوماتية الطبية، استُغل التعلم العميق للتنبؤ بجودة النوم بالاعتماد على البيانات المستمدة من الأجهزة القابلة للارتداء،[245] وكذلك للتنبؤ بالمضاعفات الصحية استنادًا إلى البيانات المسجلة فيالسجلات الصحية الإلكترونية.[246] وقد أظهرت الشبكات العصبية العميقة تفوقًا ملحوظًا فيالتنبؤ ببنية البروتين، وذلك انطلاقًا من تسلسل الأحماض الأمينية المكونة له. وفي عام 2020، حقق نظامألفافولد القائم على التعلم العميق، مستوى دقة تفوق بكثير جميع الطرق الحسابية السابقة.[247][248]
يمكن الاستعانة بالشبكات العصبية العميقة في تقدير إنتروبياعملية عشوائية، حيث يُطلق على هذا التقدير اسم "مقدر الإنتروبيا العصبي المشترك" (NJEE).[249] يزودنا هذا التقدير بنظرة ثاقبة حول الأثر الذي تحدثه المتغيرات العشوائية المدخلة علىمتغير عشوائي مستقل.
من الناحية العملية، تُدرب الشبكة العصبية العميقة بحيث تعمل كتصنيف يقوم بتعيين متجه أو مصفوفة من المدخلات (X) إلى توزيع احتمالي للمخرجات على الفئات المحتملةللمتغير العشوائي (Y)، وذلك بالنظر إلى المدخلات (X). على سبيل المثال، في مهام تصنيف الصور، يقوم "مقدر الإنتروبيا العصبي المشترك" بتعيين متجه من قيم ألوان وحداتالبكسل إلى احتمالات للفئات التصويرية المحتملة. عمليًا، يتم الحصول على توزيع احتمالي لـ (Y) بواسطة طبقة "سوفت ماكس" حيث يكون عدد العقد فيها مساويًا لحجمأبجدية (Y).
يستخدم "مقدر الإنتروبيا العصبي المشترك" دوال تنشيط قابلة للاشتقاق باستمرار، مما يجعل شروطنظرية التقريب الشاملة قابلة للتطبيق. وقد تبين أن هذه الطريقة توفرمقدرًا متسقًا بقوة ويتفوق على الطرق الأخرى في حال كانت أحجام الأبجدية كبيرة.[249]
أظهرت الدراسات أن تقنيات التعلم العميق تحقق نتائج متفوقة في مختلف التطبيقات الطبية. ومن أبرز هذه التطبيقات: تصنيف الخلايا السرطانية، واكتشاف الآفات المرضية، وتجزئة الأعضاء، وتحسين جودة الصور الطبية.[250][251] وتشير الأبحاث الحديثة إلى أن أدوات التعلم العميق تتميز بدقة عالية في تشخيص الأمراض المختلفة، مما يجعلها أداة قيمة للمختصين في مجال الرعاية الصحية، ويساهم في رفع كفاءة عمليات التشخيص.[252][253]
يُشكّل العثور على جمهور محمول مناسب لإعلانات الأجهزة المحمولة تحديًا دائمًا، إذ يتطلب الأمر مراعاة وتحليل العديد من نقاط البيانات قبل تكوين شريحة مستهدفة واستخدامها في عرض الإعلانات بواسطة أي خادم إعلاني.[254] وقد استُخدم التعلم العميق في تفسير مجموعات البيانات الإعلانية الكبيرة متعددة الأبعاد. تجمع العديد من نقاط البيانات أثناء دورة طلب/خدمة/نقرة إعلان الإنترنت، ويمكن أن تشكل هذه المعلومات أساسًا للتعلم الآلي لتحسين اختيار الإعلانات.
طُبّق التعلم العميق بنجاح على المسائل العكسيةكإزالة التشويش، والدقة الفائقة، والرسم، وتلوين الأفلام.[255] وتشمل هذه التطبيقات أساليب تعلّم مثل "مجالات الانكماش لاستعادة الصورة بشكل فعال"[256] التي تُدرّب على مجموعة بيانات للصور، و"ديب إيمج برير" التي تُدرّب على الصورة التي تحتاج إلى استعادة.
في نوفمبر 2023 أعلن باحثون في شركةديب مايند ومختبر لورنس بيركلي الوطني عن تطويرهم لنظام ذكاء اصطناعي أسموه "ج نوم" (بالإنجليزية:GNoME)، وقد ساهم هذا النظام بشكل كبير في ميدانعلم المواد من خلال اكتشافه لأكثر من مليوني مادة جديدة في فترة زمنية وجيزة نسبيًا. يستند نظام "ج نوم" في عمله على تقنيات التعلم العميق التي تمكنه من استكشاف بنى المواد المحتملة بشكل فعال، مما أدى إلى زيادة كبيرة في تحديدالبنى البلورية غير العضوية المستقرة. وقد تم التحقق من دقة تنبؤات هذا النظام من خلال تجارب روبوتية آلية حققت نسبة نجاح ملحوظة بلغت 71%. أُتيحت البيانات المتعلقة بالمواد المكتشفة حديثًا للجميع من خلال قاعدة بيانات مشروع المواد، مما يتيح للباحثين فرصة اختيار المواد التي تمتلك الخصائص المطلوبة لتطبيقها في مجالات مختلفة.
يمثل هذا التطور نقلة نوعية في مجال الاكتشاف العلمي، ويؤكد على أهمية دمج الذكاء الاصطناعي في أبحاث علوم المواد، مما قد يساهم في تسريع عملية ابتكار المواد وتقليل التكاليف اللازمة لتطوير المنتجات. يشير استخدام الذكاء الاصطناعي والتعلم العميق إلى إمكانية تقليل أو حتى إلغاء التجارب المخبرية اليدوية، مما يتيح للعلماء التركيز بشكل أكبر على تصميم المركبات الفريدة وتحليلها.[259][260][261]
استُخدمت الشبكات العصبية المستوحاة من الفيزياء في حلالمعادلات التفاضلية الجزئية، سواء كانت مباشرة أو عكسية، وذلك بطريقة تعتمد على البيانات.[263] ومن الأمثلة البارزة على ذلك إعادة بناء تدفق السوائل الذي يخضعلقوانين نافييه-ستوكس. ولا يتطلب الاستعانة بهذه الشبكات إنشاء شبكة تفاضلية، والتي تتطلب عادةً تكاليف باهظة كما هو الحال في الطرق التقليديةلديناميكا الموائع الحسابية.[264][265]
طريقة المعادلات التفاضلية العشوائية الخلفية العميقة
تُعد طريقة المعادلة التفاضلية العشوائية العميقة ذات التوجه الخلفي أسلوبًا حاسوبيًا مبتكرًا يجمع بين قوة التعلم العميق ومرونة المعادلات التفاضلية العشوائية ذات التوجه الخلفي (BSDE). تُعد هذه الطريقة مثالية لحل المسائل المعقدة ذات الأبعاد العالية التي تظهر بشكل متكرر في مجال المالية الرياضية.
بفضل قدرة الشبكات العصبية العميقة على تقريب الدوال بدقة عالية، تستطيع هذه الطريقة تجاوز التحديات الحسابية التي تواجهها الطرق التقليدية في التعامل مع الأبعاد الكبيرة. فطرق التقريب التقليدية، مثل طريقة الفروق المحدودة أو محاكاة مونت كارلو، تعاني من ما يُعرف بـ "لعنة الأبعاد"، حيث تزداد تكلفة الحساب بشكل كبير مع زيادة عدد الأبعاد.
على النقيض من ذلك، تستغل طريقة المعادلة التفاضلية العشوائية العميقة ذات التوجه الخلفي الشبكات العصبية العميقة لتقريب حلول المعادلات التفاضلية الجزئية عالية الأبعاد، مما يقلل بشكل ملحوظ من العبء الحسابي.[266]
وعلاوة على ذلك، فإن دمج الشبكات العصبية المسترشدة بالفيزياء (PINNs) في إطار عمل المعادلات التفاضلية العشوائية العكسية العميق يعزز من قدرتها بدمج القوانين الفيزيائية الأساسية بشكل مباشر في بنية الشبكة العصبية. وهذا يكفل ألا تقتصر الحلول على ملاءمة البيانات، بل تتوافق أيضًا مع المعادلات التفاضلية العشوائية الحاكمة للمشكلة. تستفيد الشبكات العصبية المسترشدة بالفيزياء من قوة التعلم العميق مع مراعاة القيود التي تفرضها النماذج الفيزيائية، مما يؤدي إلى حلول أكثر دقة وموثوقية للمسائل المتعلقة بالرياضيات المالية.
تُعَد عملية إعادة بناء الصور بمثابة إعادة تركيب الصورة الأصلية من القياسات المرتبطة بها. وقد أظهرت العديد من الدراسات تفوق أساليب التعلم العميق بشكل ملحوظ على الطرق التحليلية في مختلف التطبيقات، من بينها التصوير الطيفي،[267] والتصوير بالموجات فوق الصوتية.[268]
تعتمد أنظمة التنبؤ بالأحوال الجوية التقليدية على حل مجموعة معقدة من المعادلات التفاضلية الجزئية. أما نموذج جرافكاست القائم على التعلم العميق، فيعتمد على تدريب واسع على بيانات تاريخية للأحوال الجوية للتنبؤ بتطور الأنماط الجوية بمرور الوقت. ويتيح هذا النموذج القدرة على التنبؤ بالأحوال الجوية على مستوى العالم، بدقة تفصيلية عالية، وعلى مدى عشرة أيام، وذلك في زمن قياسي يقل عن دقيقة، بحيث تتساوى دقته مع أحدث الأنظمة المتخصصة.[269][270]
الساعة فوق الجينية هياختبار كيميائي حيوي يُستخدم لتقدير العمر البيولوجي. وقد استخدم غالكين وزملاؤه الشبكات العصبية العميقة لتدريب ساعة شيخوخة فوق جينية بدقة غير مسبوقة، وذلك باستخدام أكثر من 6000 عينة دم.[271] وتعتمد هذه الساعة على معلومات مستقاة من 1000 موقعثنائي النوكليوتيد من نوع CpG، وتتمكن من التنبؤ بوجود حالات مرضية معينة لدى الأفراد، مثلداء الأمعاء الالتهابي، والخرف الجبهي الصدغي، وسرطان المبيض، والسمنة، وذلك بمعدل أعلى مقارنة بالأفراد الأصحاء. ومن المقرر إطلاق هذه الساعة للاستخدام العام في عام 2021 بواسطة شركة انزلك ميديكن الفرعية ديب لنجفتي.
يرتبط التعلم العميق ارتباطًا وثيقًا بمجموعة منالنظريات التطورية للدماغ، وتحديدًا تطور القشرة المخية الحديثة،[272][273] والتي طرحهاعلماء الأعصاب الإدراكيون في بدايات التسعينيات الميلادية.[274][275] وقد تجسّدت هذه النظريات التنموية في نماذج حسابية، مما جعلها سلفًا لأنظمة التعلم العميق. وتتشارك هذه النماذج التنموية في خاصية أن الديناميات التعليمية المختلفة المقترحة في الدماغ، مثلموجة عامل نمو الأعصاب، تدعمتنظيمًا ذاتيًا شبيهًا إلى حد كبير بتنظيم الشبكات العصبية المستخدمة في نماذج التعلم العميق.كالقشرة المخية الحديثة تستخدم الشبكات العصبية تسلسلًا هرميًا من المرشحات متعددة الطبقات، حيث تأخذ كل طبقة المعلومات من طبقة سابقة أو من بيئة التشغيل، ثم تمرر ناتجها، وربما الإدخال الأصلي، إلى طبقات أخرى. وتنتج هذه العملية مجموعة ذاتية التنظيم من المحولات، مضبوطة بدقة لبيئة تشغيلها. وقد ذكر وصف عام 1995م أن "... يبدو أن دماغ الرضيع ينظم نفسه تحت تأثير موجات مما يسمى عوامل التغذية... تتصل مناطق مختلفة من الدماغ بالتسلسل، مع نضج طبقة واحدة من الأنسجة قبل الأخرى وهكذا حتى ينضج الدماغ بأكمله".[276]
استُخدمت طائفة واسعة من الأساليب لدراسة مدى تقارب نماذج التعلم العميق مع النماذج العصبية البيولوجية. من ناحية، اقترح باحثون تعديلات عديدة على خوارزميةالانتشار العكسي لجعلها أكثر واقعية بيولوجيًا.[277][278] ودفع آخرون بأن أشكال التعلم العميق غير الموجه، مثل تلك القائمة علىالنماذج التوليدية الهرمية وشبكة الاعتقاد العميق، قد تكون أقرب إلى الواقع البيولوجي.[279][280] وفي هذا الصدد، رُبطت نماذج الشبكات العصبية التوليدية ببيانات عصبية بيولوجية حول المعالجة القائمة على التعيين في القشرة الدماغية.[281]
رغم غياب مقارنة منهجية بين تنظيم الدماغ البشري والتشفير العصبي في الشبكات العميقة حتى الآن، إلا أن العديد من أوجه التشابه قد لوحظت. فعلى سبيل المثال، يمكن أن تكون الحسابات التي تقوم بها وحدات التعلم العميق شبيهة بحسابات الخلايا العصبية الفردية،[282] والمجموعات العصبية.[283] وبالمثل، فإن التمثيلات التي تولدها نماذج التعلم العميق تشبه تلك التي قيست في نظام الرؤية عند الرئيسيات على مستوى الخلية العصبية الفردية،[284] وعلى مستوى المجموعات العصبية.[285]
يشارك مختبر الذكاء الاصطناعي فيفيسبوك بمهام شتى، من بينها وضع علامات آلية على الصور المُحمَّلة بأسماء الأشخاص الظاهرين فيها.[286] وقد طورت شركةديب مايند التابعة لشركة غوغل نظامًا قادرًا على تعلم كيفية لعب ألعاب الفيديو من نوعأتاري مستخدمًا وحدات البكسل فقط كمدخلات للبيانات. وفي عام 2015، عرضت الشركة نظامألفا غو الذي تعلم لعبة غو إلى حد الكفاءة الذي مكنه من هزيمة لاعب محترف في هذه اللعبة.[287][288][289] أمامترجم غوغل فيستخدم شبكة عصبية للترجمة بين أكثر من مئة لغة. وفي عام 2017 أطلقت شركة كوفاريانت دوت أي التي ركزت على دمج التعلم العميق في المصانع.[290]
في 2008 طور باحثونبجامعة تكساس في أوستن إطار عمل للتعلم الآلي أطلقوا عليه اسم "تامر"،[291] وهو اختصار للتدريب اليدوي عبر التعزيز التقييمي. وقد طرح هذا الإطار أساليب مبتكرة لتمكين الروبوتات وبرامج الحاسوب من تعلم كيفية أداء المهام المختلفة من خلال التفاعل المباشر مع معلم بشري.[262] وفي تطور لاحق لهذا الإطار، تم تقديم خوارزمية جديدة أُطلق عليها اسم "ديب تامر" في عام 2018م، وذلك في إطار تعاون مشترك بين مختبر أبحاث الجيش الأمريكي وعلماء من جامعة تكساس. وقد استعان "ديب تامر" بالتعلم العميق لتمكين الروبوتات من اكتساب مهارات جديدة من خلال الملاحظة البصرية.[262] بفضل "ديب تامر"، بات بإمكان الروبوت تعلم مهمة ما من خلال التفاعل المباشر مع مدرب بشري، أو من خلال مشاهدة مقاطع فيديو توثق أداء الإنسان للمهمة ذاتها. وبعد ذلك، يتدرب الروبوت على أداء المهمة بمساعدة المدرب الذي يقدم له تعليقات إيجابية وسلبية مثل "عمل جيد" و"عمل سيئ".[292]
من أبرز الانتقادات الموجهة إلى هذه الطرق نقص النظرية التي تقوم عليها.[293] فبينما يُنفذ التعلم في أغلب الشبكات العميقة باستعمال الانحدار التدريجي الذي يُفهم فهمًا جيدًا، فإن النظرية المتعلقة بخوارزميات أخرى، كخوارزمية التباعد المتناقض، أقل وضوحًا.[بحاجة لمصدر] (مثلاً، هل تتلاقى هذه الخوارزمية؟ وإذا كان الأمر كذلك، فما سرعة تلاقها؟ وما الذي تتلاقى إليه؟) وغالبًا ما تُعتبر أساليب التعلم العميق بمثابةصندوق أسود، حيث يركز معظم الباحثين على التجريب بدلًا من التحليل النظري.[294]
يرى آخرون أنه ينبغي النظر إلى التعلم العميق على أنه خطوة نحو تحقيق الذكاء الاصطناعي العام، وليس كحل شامل لكل المشكلات. فبالرغم من قوة أساليب التعلم العميق، إلا أنها لا تزال تفتقر إلى العديد من القدرات اللازمة لتحقيق هذا الهدف بالكامل. وقد أشار عالم النفس الباحثغاري ماركوس:
إن التعلم العميق، بحقائق الأمور، جزءٌ يسير من التحدي الجسيم المتمثل في بناء آلات ذكية. إذ تفتقر هذه التقنيات إلى سبل تمثل العلاقات السببية (...)، ولا تملك طرقًا واضحة لإجراءاستنتاجات منطقية، كما أنها ما زالت بعيدة كل البعد عن دمج المعرفة المجردة، كالمعلومات المتعلقة بماهية الأشياء وغاياتها وكيفية استعمالها عادةً. وتستخدم أقوى أنظمة الذكاء الاصطناعي،كواتسون (...)، تقنيات كهذه كعنصر واحد فحسب في مجموعة بالغة التعقيد من التقنيات، تتراوح بين التقنيات الإحصائيةللاستدلال البايزي إلىالتفكير الاستنتاجي.[295]
في إشارة أخرى إلى فكرة أن الحساسية الفنية قد تكون متأصلة في مستويات منخفضة نسبيًا من التسلسل الهرمي الإدراكي، تُظهر سلسلة منشورة من التمثيلات الرسومية للحالات الداخلية للشبكات العصبية العميقة (عشرين إلى ثلاثين طبقة) التي تحاول التمييز بين البيانات العشوائية والصور التي تم تدريبها عليها جاذبيةً بصرية لافتة للنظر.[296] فقد حظي البحث الأصلي بأكثر من ألف تعليق، وكان موضوع المقالة الأكثر زيارةً على موقعالغارديان لفترة من الزمن.[297]
تُبدي بعض نماذج التعلم العميق سلوكيات شاذة،[298] مثل تصنيف صور غير قابلة للتفكيك بثقة عالية ضمن فئات صور عادية معروفة مسبقاً،[299][300] وخطأ في تصنيف صور طرأ عليها تعديل طفيف بعد تصنيفها بشكل صحيح (2013).[298] اقترح جويرتزل أن هذه السلوكيات تعود إلى قيود في التمثيلات الداخلية لهذه النماذج، وأن هذه القيود ستعيق دمجها في أنظمةذكاء اصطناعي عام (AGI) متعددة المكونات وغير متجانسة.[301] قد يتم التغلب على هذه المشكلات من خلال نماذج تعلم عميق تبني داخليًا حالات مماثلة للتحليلات النحوية للصور للكيانات والأحداث المرئية.[298] إن تعلم قواعد نحوية (بصرية أو لغوية) من بيانات التدريب يعادل فرض قيد على النظامبالتفكير المنطقي الذي يستند إلى مفاهيم قابلة للتعبير عنها بقواعد إنتاج نحوية، وهو هدف أساسي لكل من اكتساب اللغة البشرية[302] والذكاء الاصطناعي.[303]
مع انتقال تقنيات التعلم العميق من بيئة التجارب المعملية إلى عالم التطبيقات العملية، كشفت الأبحاث والدراسات المتتالية عن مدى قابلية الشبكات العصبية الاصطناعية للاختراق والتضليل.[304] فبفضل قدرتها على تحديد الأنماط المعقدة التي تعتمد عليها هذه الأنظمة في عملها، يستطيع المهاجمون التلاعب بمدخلاتها بطرق خفية، بحيث تتوهم الشبكة العصبية وجود تطابق معين لا يستطيع الإنسان العادي إدراكه. على سبيل المثال، يمكن للمهاجم إجراء تعديلات طفيفة على صورة بحيث تظن الشبكة العصبية أنها تطابق الصورة المستهدفة، على الرغم من أن الإنسان لا يلاحظ أي تغيير يذكر في الصورة. وتُعرف هذه الهجمات باسم هجماتالتعلم الآلي العدائية.[305]
في عام 2016، نجح باحثون في استخدام شبكة عصبية اصطناعية واحدة لتعديل الصور بطريقة تجريبية، حيث كانت الشبكة تقوم بتحديد نقاط القوة والضعف في الشبكات العصبية الأخرى، ومن ثمّ تقوم بإنشاء صور مضللة لها. واللافت للنظر أن هذه الصور المعدلة بدت طبيعية تمامًا للعين البشرية. كما أثبتت مجموعة بحثية أخرى أن طباعة هذه الصور المعدلة ثم تصويرها مرة أخرى كانت كافية لخداع أنظمة تصنيف الصور المتقدمة.[306] ومن بين الحلول المقترحة لمواجهة هذه التحديات، نجد تقنية البحث العكسي عن الصور، والتي تعتمد على إرسال الصورة المشتبه فيها إلى محركات بحث متخصصة مثل "تن آي"، والتي بدورها تبحث عن صور مشابهة لها في قواعد بياناتها الضخمة. كما يمكن تطوير هذه التقنية لتشمل البحث عن أجزاء من الصورة، مما يزيد من دقة النتائج.[307]
أظهرت دراسة أخرى أن بعض أنواع النظارات المزودة بتقنيات التمويه يمكن أن تضللأنظمة التعرف على الوجوه، مما يجعلها تخلط بين الأفراد العاديين والشخصيات الشهيرة. وبذلك يتسنى لشخص ما أن يتقمص هوية شخص آخر. وفي عام 2017، نجح باحثون في تضليل الشبكات العصبية الاصطناعية من خلال إضافة ملصقات إلىعلامات التوقف، مما أدى إلى خطأ في تصنيفها.[306]
ومع ذلك، يمكن تدريب الشبكات العصبية الاصطناعية على اكتشاف محاولاتالخداع هذه، مما قد يؤدي إلى نشوء صراع مستمر بين المهاجمين والمدافعين، يشبه إلى حد كبير السباق التسلحي في مجال مكافحة البرامج الضارة. وقد تم بالفعل تدريب شبكات عصبية اصطناعية على التغلب على برامج مكافحةالبرامج الضارة القائمة على الشبكات العصبية الاصطناعية من خلال هجوم متكرر ومتطور على هذه البرامج. يتم ذلك عن طريق تعديل البرامج الضارة بشكل مستمر باستخدامخوارزميات وراثية، حتى تنجح في خداع برنامج مكافحة البرامج الضارة مع الحفاظ على قدرتها على إلحاق الضرر بالهدف.[306]
في عام 2016، بيّنت مجموعة بحثية أن أصواتًا معينة قادرة على توجيه نظامجوجل ناو الصوتي لفتح عنوان ويب محدد. وخلص الباحثون إلى أن هذه الثغرة يمكن استغلالها كمنطلق لشن هجمات أكثر تعقيدًا، مثل فتح صفحات ويب تضم برمجيات خبيثة.[306]
يتمثل جوهر الهجمات العدائية في مجال تعلم الآلة في التلاعب المتعمد ببيانات التدريب المقدمة لأنظمة التعلم الآلي، بهدف إعاقتها عن تحقيق الكفاءة المرجوة.[306]
تعتمد أغلب أنظمة التعلم العميق على بيانات التدريب والتحقق التي ينشئها البشر أو يشرحونها.[308] وقد جادلت فلسفة الإعلام بأن العمل اليدوي ذو الأجر المتدني لا يُنشر بانتظام فقط لهذا الغرض (كما في منصة أمازون ميكانيكال تورك)، بل إن الأشكال الضمنية للعمل البشري الجزئي التي غالبًا ما تُتجاهل بهذا الصدد تُنشر أيضًا.[309] ويميز الفيلسوف راينر مولهاف بين خمسة أنواع من "الالتقاط الآلي" للعمل البشري الجزئي بهدف توليد بيانات التدريب وهي:
التلعيب: أي تضمين مهام الشرح أو الحساب ضمن تدفق اللعبة.
المحاصرة والتتبع: مثلالكاباتشا لتعريف الصور أو تتبع النقرات على صفحات نتائج بحث غوغل.
استغلال الدوافع الاجتماعية: كوضع علامات على الوجوه فيفيسبوك للحصول على صور للوجوه المعلمة.
يُجادل مولهاف بأن أغلب التطبيقات التجارية للتعلم العميق التي يتفاعل معها المستخدم مباشرة، مثل نظام التعرف على الوجوه في فيسبوك، لا يكفي فيها تدريب الشبكة العصبية الاصطناعية مرة واحدة. بل إن هناك حاجة مستمرة إلى بيانات تحقق يوفرها الإنسان لمعايرةالشبكة العصبية وتحديثها بشكل متواصل. ولتحقيق هذا الغرض، قدم فيسبوك ميزة تتيح للمستخدم، حالما يتعرف النظام عليه في صورة ما، أن يتلقى إشعارًا. ويمكن للمستخدم حينها أن يختار ما إذا كان يرغب في وضع علامة عليه علنًا على الصورة أم لا، أو أن يبلغ فيسبوك بأن الصورة ليست له.[310] وتعد هذه الواجهة التفاعلية آلية لتوليد "تدفق مستمر من بيانات التحقق"،[309] التي تساهم في مواصلة تدريب الشبكة في الوقت الفعلي. ويرى مولهاف أن مشاركة المستخدمين من البشر في توفير بيانات التدريب والتحقق هي سمة أساسية في معظم تطبيقات التعلم العميق التجارية التي يتفاعل معها المستخدم مباشرة، لدرجة أنه يمكن وصف هذه الأنظمة بأنها "ذكاء اصطناعي بمساعدة الإنسان".[309]
^Bengio، Yoshua؛ LeCun، Yann؛ Hinton، Geoffrey (2015)."Deep Learning".Nature. ج. 521: 436–444.DOI:10.1038/nature14539. مؤرشف منالأصل في 2023-06-05. اطلع عليه بتاريخ2024-10-08.
^Deep Machine Learning – A New Frontier in Artificial Intelligence Research – a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. IEEE Computational Intelligence Magazine, 2013
^Glauner، P. (2015).Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis).كلية لندن الإمبراطورية, Department of Computing.arXiv:1508.06535.
^Bengio، Yoshua؛ Lamblin، Pascal؛ Popovici، Dan؛ Larochelle، Hugo (2007)."Greedy layer-wise training of deep networks"(pdf).Advances in neural information processing systems.Advances in Neural Information Processing Systems. ص. 153–160.مؤرشف(PDF) من الأصل في 2019-10-20. اطلع عليه بتاريخ2019-10-06.
^ابAmari، Shun-Ichi (1972). "Learning patterns and pattern sequences by self-organizing nets of threshold elements".IEEE Transactions. ج. C ع. 21: 1197–1206.
^Turing، Alan (1948). "Intelligent Machinery".Unpublished (Later Published in Ince DC, Editor, Collected Works of AM Turing—Mechanical Intelligence, Elsevier Science Publishers, 1992).
^Amari، Shun'ichi (1967). "A theory of adaptive pattern classifier".IEEE Transactions. ج. EC ع. 16: 279–307.
^Ramachandran، Prajit؛ Barret، Zoph؛ Quoc، V. Le (16 أكتوبر 2017). "Searching for Activation Functions".arXiv:1710.05941 [cs.NE].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^Linnainmaa, Seppo (1970).The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (بالفنلندية). University of Helsinki. p. 6–7.
^Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives. Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
^ابSchmidhuber، Juergen (25 أكتوبر 2014)."Who Invented Backpropagation?".TR FKI-148, TU Munich. IDSIA, Switzerland. مؤرشف منالأصل في 2024-07-30. اطلع عليه بتاريخ2024-09-14.
^Werbos، Paul J. (1994).The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons.ISBN:0-471-59897-6.
^Waibel، Alex (ديسمبر 1987)."Phoneme Recognition Using Time-Delay Neural Networks"(PDF).Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan. مؤرشف منالأصل(pdf) في 2024-09-17. اطلع عليه بتاريخ2024-10-08.
^ابSchmidhuber، Jürgen (1991). "A possibility for implementing curiosity and boredom in model-building neural controllers".Proc. SAB'1991. MIT Press/Bradford Books. ص. 222–227.
^Graves، Alex؛ Eck، Douglas؛ Beringer، Nicole؛ Schmidhuber، Jürgen (2003)."Biologically Plausible Speech Recognition with LSTM Neural Nets"(pdf).1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. ص. 175–184.مؤرشف(PDF) من الأصل في 2021-05-09. اطلع عليه بتاريخ2016-04-09.
^Graves، Alex؛ Fernández، Santiago؛ Gomez، Faustino؛Schmidhuber، Jürgen (2006). "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks".Proceedings of the International Conference on Machine Learning, ICML 2006: 369–376.CiteSeerX:10.1.1.75.6306.
^Sze، Vivienne؛ Chen، Yu-Hsin؛ Yang، Tien-Ju؛ Emer، Joel (2017). "Efficient Processing of Deep Neural Networks: A Tutorial and Survey".arXiv:1703.09039 [cs.CV].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^ابCiresan، Dan؛ Giusti، Alessandro؛ Gambardella، Luca M.؛ Schmidhuber، Jürgen (2012). Pereira، F.؛ Burges، C. J. C.؛ Bottou، L.؛ Weinberger، K. Q. (المحررون).Advances in Neural Information Processing Systems 25(pdf). Curran Associates, Inc. ص. 2843–2851.مؤرشف(PDF) من الأصل في 2017-08-09. اطلع عليه بتاريخ2017-06-13.
^Ng، Andrew؛ Dean، Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning".arXiv:1112.6209 [cs.LG].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^Vinyals، Oriol؛ Toshev، Alexander؛ Bengio، Samy؛ Erhan، Dumitru (2014). "Show and Tell: A Neural Image Caption Generator".arXiv:1411.4555 [cs.CV].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة).
^Fang، Hao؛ Gupta، Saurabh؛ Iandola، Forrest؛ Srivastava، Rupesh؛ Deng، Li؛ Dollár، Piotr؛ Gao، Jianfeng؛ He، Xiaodong؛ Mitchell، Margaret؛ Platt، John C؛ Lawrence Zitnick، C؛ Zweig، Geoffrey (2014). "From Captions to Visual Concepts and Back".arXiv:1411.4952 [cs.CV].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة).
^Kiros، Ryan؛ Salakhutdinov، Ruslan؛ Zemel، Richard S (2014). "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models".arXiv:1411.2539 [cs.LG].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة).
^Simonyan، Karen؛ Zisserman، Andrew (10 أبريل 2015)،Very Deep Convolutional Networks for Large-Scale Image Recognition،arXiv:1409.1556
^He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (2016). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification".arXiv:1502.01852 [cs.CV].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (10 ديسمبر 2015).Deep Residual Learning for Image Recognition.arXiv:1512.03385.
^Gatys، Leon A.؛ Ecker، Alexander S.؛ Bethge، Matthias (26 أغسطس 2015). "A Neural Algorithm of Artistic Style".arXiv:1508.06576 [cs.CV].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^Goodfellow، Ian؛ Pouget-Abadie، Jean؛ Mirza، Mehdi؛ Xu، Bing؛ Warde-Farley، David؛ Ozair، Sherjil؛ Courville، Aaron؛ Bengio، Yoshua (2014)."Generative Adversarial Networks"(pdf).Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014).Advances in Neural Information Processing Systems. ص. 2672–2680.مؤرشف(PDF) من الأصل في 2019-11-22. اطلع عليه بتاريخ2019-08-20.
^Karras، T.؛ Aila، T.؛ Laine، S.؛ Lehtinen، J. (26 فبراير 2018). "Progressive Growing of GANs for Improved Quality, Stability, and Variation".arXiv:1710.10196 [cs.NE].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^Li، Xiangang؛ Wu، Xihong (2014). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition".arXiv:1410.4281 [cs.CL].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^Szegedy، Christian؛ Toshev، Alexander؛ Erhan، Dumitru (2013)."Deep neural networks for object detection".Advances in Neural Information Processing Systems: 2553–2561.مؤرشف من الأصل في 2017-06-29. اطلع عليه بتاريخ2017-06-13.
^Graves، Alex؛ Eck، Douglas؛ Beringer، Nicole؛ Schmidhuber، Jürgen (2003)."Biologically Plausible Speech Recognition with LSTM Neural Nets"(pdf).1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. ص. 175–184.مؤرشف(PDF) من الأصل في 2021-05-09. اطلع عليه بتاريخ2016-04-09.
^ابSocher، Richard؛ Manning، Christopher."Deep Learning for NLP"(pdf).Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.مؤرشف(PDF) من الأصل في 2014-07-06. اطلع عليه بتاريخ2014-10-26.
^Socher، Richard؛ Bauer، John؛ Manning، Christopher؛ Ng، Andrew (2013)."Parsing With Compositional Vector Grammars"(pdf).Proceedings of the ACL 2013 Conference.مؤرشف(PDF) من الأصل في 2014-11-27. اطلع عليه بتاريخ2014-09-03.
^Socher, R.؛ Perelygin, A.؛ Wu, J.؛ Chuang, J.؛ Manning, C.D.؛ Ng, A.؛ Potts, C. (أكتوبر 2013)."Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank"(pdf).Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.مؤرشف(PDF) من الأصل في 2016-12-28. اطلع عليه بتاريخ2023-12-21.
^ابBoitet، Christian؛ Blanchon، Hervé؛ Seligman، Mark؛ Bellynck، Valérie (2010)."MT on and for the Web"(PDF). مؤرشف منالأصل(pdf) في 2017-03-29. اطلع عليه بتاريخ2016-12-01.
^Wallach، Izhar؛ Dzamba، Michael؛ Heifets، Abraham (9 أكتوبر 2015). "AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery".arXiv:1510.02855 [cs.LG].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^Gilmer، Justin؛ Schoenholz، Samuel S.؛ Riley، Patrick F.؛ Vinyals، Oriol؛ Dahl، George E. (12 يونيو 2017). "Neural Message Passing for Quantum Chemistry".arXiv:1704.01212 [cs.LG].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^Tkachenko، Yegor (8 أبريل 2015). "Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space".arXiv:1504.01840 [cs.LG].{{استشهاد بأرخايف}}:الوسيط|arxiv= مطلوب (مساعدة)
^van den Oord، Aaron؛ Dieleman، Sander؛ Schrauwen، Benjamin (2013). Burges، C. J. C.؛ Bottou، L.؛ Welling، M.؛ Ghahramani، Z.؛ Weinberger، K. Q. (المحررون).Advances in Neural Information Processing Systems 26(pdf). Curran Associates, Inc. ص. 2643–2651.مؤرشف(PDF) من الأصل في 2017-05-16. اطلع عليه بتاريخ2017-06-14.