
مرحبا ، habrozhiteli! تعتبر معالجة اللغات الطبيعية (NLP) مهمة بالغة الأهمية في مجال الذكاء الاصطناعي. التنفيذ الناجح يمكّن منتجات مثل Amazon's Amazon و Google Translate. سيساعدك هذا الكتاب على تعلم PyTorch ، وهي مكتبة تعليمية عميقة للغة Python ، وهي واحدة من الأدوات الرائدة لعلماء البيانات ومطوري برامج NLP. سيوفر لك Delip Rao و Brian McMahan السرعة مع NLP وخوارزميات التعلم العميق. وضح كيف يسمح لك PyTorch بتنفيذ التطبيقات التي تستخدم تحليل النص.
في هذا الكتاب • الرسوم البيانية الحاسوبية ونموذج التعلم مع المعلم. • أساسيات مكتبة PyTorch الأمثل للعمل مع التنسورات. • لمحة عامة عن مفاهيم وأساليب البرمجة اللغوية العصبية التقليدية. • الشبكات العصبية الاستباقية (الإدراك الحسي متعدد الطبقات وغيرها). • تحسين RNN مع الذاكرة طويلة المدى طويلة المدى (LSTM) وكتل التكرار التي تسيطر عليها • نماذج التنبؤ وتسلسل التحول. • تصميم أنماط أنظمة البرمجة اللغوية العصبية المستخدمة في الإنتاج.
مقتطفات. تداخل الكلمات وأنواع أخرى
عند حل مشاكل معالجة النصوص باللغات الطبيعية ، يتعين على المرء التعامل مع أنواع مختلفة من أنواع البيانات المنفصلة. المثال الأكثر وضوحا هو الكلمات. الكثير من الكلمات (القاموس) بالطبع. من بين الأمثلة الأخرى ، الرموز ، تسميات أجزاء الكلام ، الكيانات المسماة ، أنواع الكيانات المسماة ، السمات المرتبطة بالتحليل ، المواضع في كتالوج المنتج ، إلخ. في الواقع ، أي ميزة إدخال مأخوذة من محدد (أو غير محدود ، ولكن مجموعات).
أساس التطبيق الناجح للتعلم العميق في البرمجة اللغوية العصبية NLP هو تمثيل أنواع البيانات المنفصلة (على سبيل المثال ، الكلمات) في شكل متجهات كثيفة. تعني مصطلحا "تعلم التمثيل" و "التضمين" تعلم التعلم / التمثيل من نوع بيانات منفصل إلى نقطة في مساحة متجهة. إذا كانت الأنواع المنفصلة عبارة عن كلمات ، فسيتم تسمية التمثيل المتجه الكثيف بكلمة تضمين. لقد رأينا بالفعل أمثلة لأساليب التعشيش استنادًا إلى عدد التكرارات ، على سبيل المثال ، TF-IDF ("تردد المصطلح هو التردد العكسي لوثيقة ما") في الفصل 2. في هذا الفصل ، سنركز على طرق التعشيش القائمة على التدريب وأساليب التعشيش القائمة على التنبؤ (انظر مقال بقلم Baroni et al. (Baroni et al. ، 2014]) ، حيث يتم إجراء التدريب على الأداء من خلال تعظيم الوظيفة الموضوعية لمهمة تعليمية محددة ؛ على سبيل المثال ، توقع كلمة حسب السياق. تعد أساليب الاستثمار القائمة على التدريب حاليًا هي المعيار بسبب تطبيقها على نطاق واسع وكفاءتها العالية. في الواقع ، إن تضمين الكلمات في مهام البرمجة اللغوية العصبية واسع الانتشار لدرجة أنها تسمى "سريراتشا من البرمجة اللغوية العصبية" ، حيث يمكن توقع أن استخدامها في أي مهمة سوف يزيد من كفاءة الحل. لكن هذا الاسم المستعار مضلل بعض الشيء ، لأنه على عكس syraci ، عادةً لا تتم إضافة المرفقات إلى النموذج بعد وقوعها ، ولكنها مكونها الأساسي.
في هذا الفصل ، سنناقش تمثيلات المتجهات فيما يتعلق بتزيين الكلمات: أساليب تضمين الكلمات ، وطرق تحسين دمج الكلمات لمهام التدريس مع وبدون معلم ، وطرق التصور المرئي للتضمين المرئي ، وكذلك طرق الجمع بين دمج الكلمات للجمل والمستندات. ومع ذلك ، لا تنس أن الأساليب الموضحة هنا تنطبق على أي نوع منفصل.
لماذا التدريب الاستثمار
في الفصول السابقة ، أظهرنا لك الطرق المعتادة لإنشاء تمثيلات متجهة للكلمات. لقد تعرفت على كيفية استخدام التمثيلات الوحدوية - المتجهات ذات الطول المطابق لحجم القاموس ، مع الأصفار في جميع المواضع ، باستثناء واحد يحتوي على القيمة 1 المقابلة لكلمة معينة. بالإضافة إلى ذلك ، قابلت تمثيلات عدد مرات التكرار - متجهات الطول تساوي عدد الكلمات الفريدة في النموذج ، والتي تحتوي على عدد مرات تواجد الكلمات في الجملة في المواضع المقابلة. وتسمى هذه العروض أيضًا التمثيلات التوزيعية ، حيث أن محتواها / معانيها المجدية ينعكس في عدة أبعاد من المتجه. إن تاريخ التمثيل التوزيعي مستمر منذ عدة عقود (انظر مقالة فيرث [فيرث ، 1935]) ؛ فهي ممتازة للعديد من نماذج التعلم الآلي والشبكات العصبية. يتم إنشاء هذه التمثيلات بشكل استرشادي 1 ، ولا يتم تدريبها على البيانات.
حصل التمثيل الموزع على اسمه لأن الكلمات الموجودة فيها يتم تمثيلها بواسطة متجه كثيف ذي بعد أصغر بكثير (على سبيل المثال ، d = 100 بدلاً من حجم القاموس بأكمله ، والذي يمكن أن يكون حسب الترتيب)

) ، ويتم توزيع معنى الكلمة وخصائصها الأخرى على عدة أبعاد لهذا المتجه الكثيف.
تتميز التمثيلات الكثيفة منخفضة الأبعاد التي تم الحصول عليها نتيجة التدريب بمزايا عديدة مقارنة بالنواقل الوحدوية التي تحتوي على عدد الأحداث التي واجهناها في الفصول السابقة. أولاً ، الحد من الأبعاد فعال من الناحية الحسابية. ثانياً ، تؤدي التمثيلات المستندة إلى عدد التكرارات إلى متجهات عالية الأبعاد ذات تشفير مفرط لنفس المعلومات بأبعاد مختلفة ، وقدرتها الإحصائية ليست كبيرة جدًا. ثالثًا ، يمكن أن تؤدي أبعاد بيانات الإدخال إلى مشاكل في التعلم الآلي والتحسين - وهي ظاهرة تسمى غالبًا لعنة الأبعاد (
http://bit.ly/2CrhQXm ). لحل هذه المشكلة مع الأبعاد ، يتم استخدام طرق مختلفة لتقليل البعد ، على سبيل المثال ، تحليل القيمة المفرد (SVD) وطريقة تحليل المكون الرئيسي (PCA) ، ولكن من المفارقات أن هذه الطرق لا تتناسب بشكل جيد مع أبعاد ترتيب الملايين ( حالة نموذجية في البرمجة اللغوية العصبية). رابعا ، إن العروض المستفادة من (أو المجهزة على أساس) البيانات الخاصة بمشكلة ما هي مناسبة على النحو الأمثل لهذه المهمة بالذات. في حالة الخوارزميات الإرشادية مثل TF-IDF وطرق التخفيض الأبعاد مثل SVD ، ليس من الواضح ما إذا كانت وظيفة التحسين الموضوعية مناسبة لمهمة معينة باستخدام طريقة التضمين هذه.
كفاءة الاستثمار
لفهم كيفية عمل الزخارف ، خذ بعين الاعتبار مثالًا عن ناقل أحادي يتم بموجبه مضاعفة مصفوفة الوزن في طبقة خطية ، كما هو موضح في الشكل. 5.1. في الفصلين 3 و 4 ، تزامن حجم المتجهات الوحدية مع حجم القاموس. يسمى المتجه الوحدوي لأنه يحتوي على 1 في الموضع المقابل لكلمة معينة ، مما يدل على وجودها.
التين. 5.1. مثال على ضرب المصفوفة لحالة المتجه الوحدوي ومصفوفة الأوزان لطبقة خطية. نظرًا لأن المتجه الوحدوي يحتوي على جميع الأصفار ووحدة واحدة فقط ، فإن موضع هذه الوحدة يلعب دور مشغل الاختيار عند ضرب المصفوفة. يظهر هذا في الشكل كظلام لخلايا مصفوفة الوزن والناقل الناتج. على الرغم من أن طريقة البحث هذه تعمل ، إلا أنها تتطلب استهلاكًا كبيرًا لموارد الحوسبة وغير فعالة ، نظرًا لأن الموجه الوحدوي مضروب في كل رقم من الأرقام في مصفوفة الوزن ويتم حساب المجموع في صفوف
بحكم التعريف ، يجب أن يكون عدد صفوف مصفوفة الأوزان لطبقة خطية تستقبل متجهًا أحاديًا عند المدخل مساويًا لحجم المتجه الوحدوي. عند ضرب المصفوفة ، كما هو مبين في الشكل. 5.1 ، المتجه الناتج هو في الواقع سلسلة مطابقة لعنصر غير صفري في متجه وحدوي. استنادًا إلى هذه الملاحظة ، يمكنك تخطي خطوة الضرب واستخدام قيمة عددية كفهرس لاستخراج الصف المطلوب.
ملاحظة أخيرة بخصوص أداء الاستثمار: على الرغم من المثال الوارد في الشكل 5.1 ، عندما يتزامن بُعد مصفوفة الوزن مع البعد الخاص بموجه الموجة الوحدوي ، لا يكون هذا هو الحال دائمًا. في الحقيقة ، غالبًا ما يتم استخدام المرفقات لتمثيل الكلمات من مساحة ذات بعد أقل مما سيكون ضروريًا عند استخدام ناقل أحادي أو تمثيل عدد التكرارات. حجم الاستثمار النموذجي في المقالات العلمية يتراوح من 25 إلى 500 قياسات ، ويتم تقليل اختيار قيمة محددة إلى مقدار ذاكرة GPU المتوفرة.
مناهج التعلم المرفق
ليس الغرض من هذا الفصل هو تعليمك أساليب محددة لاستثمار الكلمات ، ولكن ليساعدك على معرفة الاستثمارات ، وكيف وأين يمكن تطبيقها ، وأفضل السبل لاستخدامها في النماذج ، وكذلك ما هي حدودها. والحقيقة هي أنه في الممارسة العملية ، نادراً ما يتعين على المرء أن يكتب خوارزميات تعليمية جديدة لتزيين الكلمات. ومع ذلك ، في هذا القسم الفرعي ، سنقدم لمحة موجزة عن الأساليب الحديثة في هذا التدريب. يتم التعلم في جميع طرق تداخل الكلمات باستخدام الكلمات فقط (مثل البيانات غير المسماة) ، ولكن مع المعلم. هذا ممكن بسبب إنشاء مهام التدريس المساعدة مع المعلم ، والتي يتم تمييز البيانات ضمنيا ، لأسباب أن التمثيل الأمثل لحل المهمة الإضافية يجب أن يحتوي على العديد من الخصائص الإحصائية واللغوية لمجموعة النص من أجل تحقيق بعض الفوائد على الأقل. فيما يلي بعض الأمثلة على مثل هذه المهام المساعدة.
- توقع الكلمة التالية في تسلسل معين من الكلمات. كما أنه يحمل اسم مشكلة نمذجة اللغة.
- توقع كلمة مفقودة بالكلمات الموجودة قبلها وبعدها.
- توقع الكلمات داخل نافذة معينة ، بغض النظر عن الموضع ، لكلمة معينة.
بالطبع ، هذه القائمة ليست كاملة ويعتمد اختيار مشكلة مساعدة على حدس مطور الخوارزمية والتكاليف الحسابية. من الأمثلة على ذلك GloVe ، حقيبة الكلمات المستمرة (CBOW) ، Skipgrams ، وما إلى ذلك. يمكن الاطلاع على التفاصيل في الفصل 10 من كتاب Goldberg (Goldberg، 2017) ، لكننا سنناقش باختصار نموذج CBOW هنا. ومع ذلك ، في معظم الحالات ، يكفي استخدام مرفقات الكلمات المدربة مسبقًا وتناسبها مع المهمة الحالية.
التطبيق العملي لمرفقات كلمة المدربين مسبقا
الجزء الأكبر من هذا الفصل ، وكذلك بقية الكتاب ، يتعلق باستخدام مرفقات الكلمات المدربة مسبقًا. تم التدريب مسبقًا على استخدام إحدى الطرق العديدة الموضحة أعلاه على هيئة كبيرة - على سبيل المثال ، كامل أخبار Google أو Wikipedia أو Common Crawl1 - يمكن تنزيل مرفقات الكلمات واستخدامها مجانًا. علاوة على ذلك ، سنبين في الفصل كيفية العثور على هذه المرفقات وتحميلها بشكل صحيح ، ودراسة بعض خصائص زخارف الكلمات وإعطاء أمثلة على استخدام زخارف الكلمات المدربة مسبقًا في مهام البرمجة اللغوية العصبية.
تحميل المرفقات
أصبحت مرفقات الكلمات شائعة وواسعة الانتشار بحيث تتوفر العديد من الخيارات المختلفة للتنزيل ، من Word2Vec2 الأصلي إلى Stanford GloVe (
https://stanford.io/2PSIvPZ ) ، بما في ذلك FastText3 على Facebook (
https://fasttext.cc) / ) وغيرها الكثير. عادة ، يتم تسليم المرفقات بالتنسيق التالي: يبدأ كل سطر بكلمة / نوع متبوعًا بتسلسل من الأرقام (أي تمثيل متجه). طول هذا التسلسل يساوي بُعد العرض التقديمي (بعد المرفق). البعد من الاستثمارات عادة ما يكون من أجل المئات. غالبًا ما يكون عدد أنواع الرموز مساويًا لحجم القاموس ويبلغ حوالي مليون. على سبيل المثال ، فيما يلي أول سبعة أبعاد للكلب وناقلات القط من GloVe.
من أجل التحميل الفعال والتعامل مع المرفقات ، نصف PreTrainedEmbeddings لفئة المساعد (مثال 5.1). يخلق فهرس لجميع الكلمات المتجهات المخزنة في ذاكرة الوصول العشوائي لتبسيط البحث السريع والاستفسارات من أقرب الجيران بمساعدة من أقرب حزمة حساب الجوار التقريبية ، إزعاج.
مثال 5.1. استخدام مرفقات Word المدربة مسبقًا
في هذه الأمثلة ، نستخدم تضمين الكلمات GloVe. تحتاج إلى تنزيلها وإنشاء مثيل لفئة PreTrainedEmbeddings ، كما هو موضح في الإدخال [1] من مثال 5.1.
العلاقات بين مرفقات الكلمات
الخاصية الرئيسية لأحرف الزينة هي ترميز العلاقات النحوية والدلالية ، والتي تتجلى في شكل أنماط استخدام الكلمات. على سبيل المثال ، عادة ما يتم التحدث عن القطط والكلاب بشكل مشابه (يناقشون حيواناتهم الأليفة ، وعادات التغذية ، إلخ). نتيجة لذلك ، فإن مرفقات الكلمات القطط والكلاب أقرب إلى بعضها البعض من المرفقات الخاصة بأسماء الحيوانات الأخرى ، مثل البط والفيلة.
هناك العديد من الطرق لدراسة العلاقات الدلالية التي يتم ترميزها في مرفقات الكلمات. إحدى الطرق الأكثر شيوعًا هي استخدام مهمة القياس (أحد الأنواع الشائعة لمهام التفكير المنطقي في اختبارات مثل SAT):
Word1: Word2 :: Word3: ______
في هذه المهمة ، من الضروري تحديد الرابع ، بالنظر إلى العلاقة بين الأولين ، بالكلمات الثلاث المعطاة. بمساعدة تداخل الكلمات ، يمكن ترميز هذه المشكلة مكانيًا. أولاً ، قم بطرح Word2 من Word1. يرسل متجه الاختلاف بينهما العلاقة بين Word1 و Word2. يمكن بعد ذلك إضافة هذا الاختلاف إلى Slovo3 وستكون النتيجة هي المتجه الأقرب إلى الكلمة المفقودة الرابعة. لحل مشكلة القياس ، يكفي الاستعلام عن أقرب جيران عن طريق الفهرس باستخدام هذا المتجه الذي تم الحصول عليه. تعمل الوظيفة المقابلة الموضحة في المثال 5.2 تمامًا كما هو موضح أعلاه: تستخدم الحساب المتجه وفهرس تقريبي لأقرب الجيران للعثور على العنصر المفقود في القياس.
مثال 5.2. حل مشكلة القياس باستخدام كلمة embeddings
ومن المثير للاهتمام ، وباستخدام تشبيه لفظي بسيط ، يمكن للمرء أن يوضح كيف أن زخارف الكلمات قادرة على التقاط مجموعة متنوعة من العلاقات الدلالية والنحوية (مثال 5.3).
مثال 5.3 ترميز مع مساعدة كلمة الزينة من الكثير من الروابط اللغوية على سبيل المثال من المهام على تشبيه SAT
على الرغم من أنه قد يبدو أن الاتصالات تعكس بوضوح أداء اللغة ، إلا أن كل شيء ليس بهذه البساطة. كما يوضح المثال 5.4 ، يمكن تعريف الاتصالات بشكل غير صحيح لأنه يتم تحديد متجهات الكلمات بناءً على حدوث المفصل.
مثال 5.4. مثال يوضح خطر ترميز معنى الكلمات بناءً على التواجد المشترك - أحيانًا لا ينجح!
يوضح المثال 5.5 إحدى المجموعات الأكثر شيوعًا عند الترميز لأدوار الجنسين.
مثال 5.5 كن حذرًا مع السمات المحمية ، مثل الجنس ، المشفرة بواسطة مرفقات الكلمات. يمكن أن تؤدي إلى التحيز غير المرغوب فيه في النماذج المستقبلية.
اتضح أنه من الصعب للغاية التمييز بين أنماط اللغة والتحيزات الثقافية العميقة الجذور. على سبيل المثال ، الأطباء ليسوا رجالًا على الإطلاق بأي حال من الأحوال ، والممرضات ليسن دائمًا من النساء ، ولكن مثل هذه التحيزات مثبتة إلى حد كبير بحيث تنعكس في اللغة ، ونتيجة لذلك ، في متجهات الكلمات ، كما هو موضح في المثال 5.6.
مثال 5.6. التحيزات الثقافية "مخيط" في ناقلات الكلمات
لا ينبغي أن ننسى الأخطاء المنهجية المحتملة في الاستثمارات ، مع مراعاة نمو شعبيتها وانتشارها في تطبيقات البرمجة اللغوية العصبية. يعد القضاء على الأخطاء المنهجية في تضمين الكلمات مجالًا جديدًا وممتعًا جدًا للبحث العلمي (انظر مقال بولوكباشي وآخرون [بولوكباسي وآخرون ، 2016]). نوصيك
بالاطلاع على
ethicsinnlp.org حيث يمكنك العثور على أحدث المعلومات حول أخلاقيات
المقطع العرضي و NLP.
عن المؤلفين
Delip Rao هو مؤسس شركة الاستشارات Joostware ومقرها سان فرانسيسكو والمتخصصة في التعلم الآلي وبحوث البرمجة اللغوية العصبية. أحد مؤسسي لعبة Fake News Challenge - وهي مبادرة تهدف إلى الجمع بين المتسللين والباحثين في مجال الذكاء الاصطناعى حول مهام التحقق من الحقائق في وسائل الإعلام. عملت Delip سابقًا على الأبحاث والبرامج المتعلقة بـ NLP على Twitter و Amazon (Alexa).
براين مكماهان هو زميل أبحاث في ويلز فارغو ، ويركز بشكل أساسي على البرمجة اللغوية العصبية. عملت سابقا في جوستوير.
»يمكن الاطلاع على مزيد من المعلومات حول الكتاب على
موقع الناشر»
المحتويات»
مقتطفاتخصم 25٪ على كوبون
الباعة المتجولين -
PyTorchعند دفع النسخة الورقية من الكتاب ، يتم إرسال كتاب إلكتروني عبر البريد الإلكتروني.