من المستحيل قياس أي الفتيات أكثر جمالا بشكل موضوعي: الشقراوات أو السمراوات ، الداكن أو ذو البشرة البيضاء ، طويل القامة أو صغيرتي. ولكن يمكنك حساب ميزات المظهر المذكورة في كثير من الأحيان عندما يتحدثون عن الجمال.
كان لدي أسبوع للتجارب ومحركات تحليل البيانات لدينا و 16 ألف رواية ورواية روسية من القرن التاسع عشر و 15 ألفًا من الأعمال الطويلة الحديثة. وبطبيعة الحال ، لم يكن هناك بيانات الموسومة.
كانت الفكرة الرئيسية هي استخراج أجزاء من أوصاف النساء الجميلات من جبل النصوص ، ثم استخراج خطوط تردد من ظهور هذه الأجزاء.
هنا تصور لما حدث. بتعبير أدق ، أحد الخيارات الشائعة.
لون العيون والشعر واللباس والنمو والتعليم - كل هذا يمكن تمييزه عن مجموعة النصوص.بالطبع ، ليس كل شيء بسيطًا ولا لبس فيه كما في الأشكال ، لكنك تلقيت بالفعل فكرة تقريبية. الآن دعنا نتحدث عن التفاصيل وتسلسل الإجراءات.
نص كوربوس
تمكنت من العثور على موارد برخصة مفتوحة لتوزيع النصوص. شكرا لأولئك الذين جمعوا ونشر كل هذا.
تضمن كل من القرن التاسع عشر والحاضر نصوصًا باللغة الروسية الأصلية فقط في السلك ، أي أنه لا يوجد أدب مترجم.
لقد أجريت كل التحليلات على مجموعة من تحليلات SAS المرئية للنصوص ومكتبات بيثون (pymorphy2 ، gensim ، tensorflow).
الخطوة 1. القواعد اللغوية
لذلك ، أولاً ، كان من الضروري تسليط الضوء على الشظايا مع وصف لمظهر الإناث. لم تكن هناك بيانات محددة ، لذلك بدأت بقواعد بسيطة بروح "فتاة و (عيون أو شعر أو وجه)". تمت كتابة القواعد في SAS Visual Text Analytics ، بحيث تأخذ في الاعتبار الأشكال المورفولوجية والأخطاء المطبعية (للحالة الحديثة كانت ذات صلة) ، بناء الجملة البسيط ، المسافة بين الرموز والسياق غير المرغوب فيها المصفاة.
حكم مبسطPREDICATE_RULE: (arg1 ، arg2 ، arg3): (UNLESS ، "bad_contexts" ، (SENT_5 ، "_arg1 {beauty}" ، "_arg2 {woman}" ، "_arg3 {traits}")))
وبعبارة أخرى ، في غضون الجمل الخمس ، يجب أن يكون هناك ذكر للمرأة ، مع ذكر حقيقة جاذبيتها ، ووصف لأي مظهر ، ويجب ألا يكون هناك أي سياقات غير مرغوب فيها.
كتابة مثل هذه القاعدة ليست صعبة ، والمشكلة هي في التفاصيل. كيف ، على سبيل المثال ، جمع كل الإشارات الممكنة للنساء؟ في الواقع ، في النص يمكن أن يكون "عشيقة" ، و "فتاة" ، و "مارغريتا" ، و "ابن عم". لا غنى عن المرادفات البسيطة هنا ، ولن يقدم قاموس واحد كلمة "typist" أو "student" كمرادف لكلمة "woman". يمكنك سرد "من الرأس" ، في حين أن هناك ما يكفي من الخيال ، ولكن القائمة ستكون غير مكتملة (ومملة).
لتوسيع القواعد والبحث عن المرادفات السياقية ، نقوم بتوصيل تمثيلات المتجهات.
الخطوة 2. نموذج word2vec
Word2vec هي أداة لتوجيه الكلمات تعتمد على فكرة "أخبرني من يقف بجانبك وسأخبر من أنت". على سبيل المثال ، في الجملة "أنا ___ لها من النظرة الأولى" ، استبدل معظمها كلمة
المرور بكلمة "أحب". الفكرة بسيطة - توجد كلمات مماثلة في سياقات مماثلة. بالنسبة للغة الروسية ، هناك نماذج جاهزة مُدرَّبة مسبقًا يتم نشرها
هنا . تُظهر التجربة في المشروعات أن النماذج المدربة في مجال الموضوع تعمل بشكل أفضل من النماذج "للغة بأكملها" ، لذلك قمت بتدريب نموذجين على أجسدي.
أولاً ، قسمت السلك مع الثعبان إلى كلمات ، وأوصلت الكلمات إلى الشكل الأولي (بفضل pymorphy2) ، واستخلصت التعبيرات المطوّلة للترددات مثل
ابن عم ، بدة الأسد ، وخصر
الزنبور (بفضل عبارات من gensim). على البيانات التي تمت معالجتها ، تعلمت نموذج word2vec (خوارزمية skipgram ، النافذة - 3 ، البعد - 300).
باستخدام النموذج المدرب ، جمعت قوائم متكررة من الكلمات المتشابهة. تأخذ الدالة most_similar في gensim كلمة كمدخلات وتُرجع قائمة بالكلمات / التعبيرات التي تكون متجهاتها قريبة من جيب التمام وقياس متجه الكلمة الأصلية.
المتجهات القريبة من متجه كلمة "الجمال" في مبنى القرن الحادي والعشرين. القيمة الثانية هي مقياس جيب التمام.("الجمال" ، 0.6690341234207153)
("جميل" ، 0.6438576579093933)
("الساحرة" ، 0.6156517267227173)
("الفتاة الذكية" ، 0.6063219308853149)
("وسيم" ، 0.6044491529464722)
("جرلي" ، 0.5829722285270691)
("العين الزرقاء" ، 0.5814758539199829)
("سيدة شابة" ، 0.5773882865905762)
("أميرة" ، 0.5754760503768921)
("مشرق" ، 0.5743755102157593)
("أشقر" ، 0.5731547474861145)
("العين الزرقاء" ، 0.5724368095397949)
كانت المشكلة هنا أنه من بين المتجهات المماثلة ، يمكن أن تأتي المتضادات ، حيث يمكن أن تكون في نفس السياقات. على سبيل المثال ، في مكان المقطع في المثال الخاص بـ "الوقوع في الحب من النظرة الأولى" ، قد يكون ذلك هو "الكراهية من النظرة الأولى". في حالتنا ، على سبيل المثال ، يكون المتجه "الشاب" أقرب إلى كلمة "فتاة" ، وفقط بعد أن يأتي "النساء" ، "السيدات" ، إلخ. تم حل مشكلة المتضادات من خلال الاختيار اليدوي. ولكن كان هناك عدد قليل من المتضادات ، لذلك استغرق الأمر القليل من الجهد.
بالمناسبة ، من المضحك أن الكلمات المشابهة للمرأة في القرن التاسع عشر هي كل أنواع المفاهيم الأسرية (الابنة ، الأخت ، ابن العم) أو المهن التي تخدم (الخادمة ، الخادمة ، الطباخ) ، الحالة الاجتماعية للزوج (أميرال ، عام ، بارونة). في القرن الحادي والعشرين ، يتوسع الطيف: يوجد طالب وزميل دراسة ورياضي ومساعد مختبر وعضو كومسومول ومترجم وزعيم.
نساء القرن التاسع عشر:كاثرين
كاتيا
كلوديا
Clotilda
أميرة
أميرة
المغازل
رفيق
ممرضة
الجمال
امرأة الفلاحين
صانع الدانتيل
ابن عم
حشره في الطور الإنتقالي
نميمة
امرأة تاجر
طبخ
نساء القرن الحادي والعشرين:كارين
كارينا
أمين الصندوق
كاثرين
كاترينا
Katka
كاتيا
مستأجر
كيرا
كلارا
زبون
المغازل
عضو كومسومول
الملكة
الجمال
فتاة
كريستينا
زينيا
كسينيا
ابن عم
استخدم نفس المبدأ لتوسيع القواعد المتبقية.
على سبيل المثال ، لاستخراج سياقات الشعر:عرف الفرس
حليقة
صدمة
منجل
جديلة
تجعيد الشعر
شعر مجعد
حليقة
تصفيفة الشعر
ساحل
ساحل
حزمة
قصة شعر
فرقعة
cholochka
شعر
ذيل
ذيل
الخطوة 3. السياقات غير المرغوب فيها
لذلك ، لديّ قواعد مفصلة منذ فترة طويلة تمكّن من الحصول على وصف للمظهر ، وأذكر امرأة ، وأذكر حقيقة جاذبيتها. أصف القيود الواضحة في القواعد اللغوية: يجب على المرء أن يأخذ في الحسبان السلبيات ، والطريقة ، والمزاج الشرطي حتى لا يتم اكتشاف سياقات مثل "لا يتميز بالجمال" ، "بعيدًا عن الجمال".
هذا ما لا نحتاجه.في شبابها ، لم تكن جمالًا على الإطلاق ، بل كانت فتاة جيدة التغذية ذات أنف بطة عريض. كانت قلقة للغاية بشأن أنفها ، ووفقًا لقصص أخواتها ، فقد غالبًا ما كانت تلبس بقماش خشبي على أنفها لتضييقه بهذه الطريقة.
P. Rebenina ، "مؤسف Zinka".
بالإضافة إلى ذلك ، غالبًا ما يثير الدهشة أن يتمكن المؤلفون من وصف الشخصيات البغيضة عمومًا والتي لها لمسة واحدة لطيفة. يصعب التعامل مع هذه السياقات ، فهي يمكن أن تحدث ضجيجًا ، لذلك أزيلها عن النظر.
الآن لدي بين يدي شظايا من النصوص مع الترميز على أساس القواعد والتمثيلات المتجهة. على الرغم من أن الأمر استغرق بضعة أيام لتوضيح القواعد ، فإن السياقات التي تم العثور عليها بها خطأ ، وهو ما يناسبني جيدًا لهذه المهمة. على سبيل المثال ، لم يتم استخراج بعض أوصاف المظهر بسبب حقيقة أنه ليس من الواضح حول المرأة أو الرجل المعني: "كان لدى فالي عيون زرقاء رمادية مختبئة تحت نظارات رقيقة من النظارات". من حيث المبدأ ، يمكن حل هذا الغموض على أساس جزء أكبر من النص ، لكن لم يكن لدي سوى أسبوع واحد ، لذلك تركت جميع الأخطاء في الانتظار في الأجنحة.
هنا هو العلامات.
أمثلة على التحليل ، يتم تمييز السياق بخط غامق ، مما يؤكد وجود حقائق حول المظهر.
باستثناء بعض. وهذا الرابط هو أيضا ليس رابط ولا ينقر!ألينا ، بعد كل شيء ، كانت من دائرة مختلفة ، وبشكل عام كل شيء آخر. كانت جميلة للغاية: امرأة سمراء بعيون رمادية زرقاء ، وجبهة منحدرة ، وأنف أنيق ، ووجه منقوش ، ومعصمين نحيفين ، مما جعلها تتدلى بأناقة الحلي التي رأيتها في حياتي. كانت مقطوعة فوق رأسي ، وكان رقمها ... حسناً ، لا تمزح ، بارد .
ك. Belozyorova ، "صديق ليس كذلك".لم تكن واحدة من أولئك الذين صعدوا إلى جيبها للحصول على كلمة ، جمالها الطبيعي وجاذبيتها مفتونين . كان الجزء العلوي من الرأس مغطى بنصف شعر ناعم ، وشعر أسود ناعم ، لامع في ضوء مصابيح البيسترو ، ووصل إلى الكتفين ، ويتدفق بلطف على طول الرقبة المدبوغة الجميلة . أظهرت عيناها الخضراء اهتمامًا واضحًا بشخصي : استمرت ألينا في فرك جسر الأنف الرفيع بإصبعها الفكي من يدها اليمنى ، مما يدل على إحراجها. في مزاحتي التالية ، ضحكت الفتاة ، وهذا جعل شفتيها الحسية تمتد إلى ابتسامة ، وظهرت الدمامل بالقرب من زوايا شفتيها. مسكت نفسي أفكر أنني أريد حقًا أن ينتهي هذا المساء.
إيلين ، "مفترق طرق المصير".كان هناك شيء غامض وجذاب فيها ، كانت نحيفة وجميلة . شعر أشقر طويل مجعد قليلاً ، ومزايا منتظمة ، وعينان زرقاءان حيويتان للغاية جعلت لينا ساحرة . بوريس أحببت ابتسامتها المشؤومة ، والفم الحسي ، وحزنها. بدا مظهرها وطريقة احتجازها جذابًا بشكل لا يقاوم لها.
أ. بولشاكوف ، "منبوذ".كانت امرأة جميلة جداً ذات ملامح حادة وأنف حاد وذقن محفور ، وكان اسمها أقل إثارة للإعجاب - أديلايد. خرجت لمقابلتي في ثوب أخضر طويل ساطع ، وعلقت على يديها ويديها العديد من الزخارف العرقية الغريبة. قالت بكل ثقة: "يمكنك فقط إيدا" ، وانفصلت زوايا فمه الرفيع بشكل غير متماثل. "يا له من جمال مع تطور!" اعتقدت.
أو بافلينكو ، "حكاية السحرة".وقفت امرأة شابة عند باب الغرفة المجاورة مع شمعة في يديها ... نظرت ودهشت - كانت جميلة للغاية في غطاء أبيض ، وشعرها فضفاض فوق كتفيها. يالها من ميزة جميلة ، على الرغم من حقيقة أنهم مشوهون بالغضب! عيون زرقاء مع تلاميذ متوسعة أشرقت بذكاء مشؤوم ... الشكل نحيل ومرن.
ك. ستانيوكوفيتش ، "الزوجان الأصليان".وكان لدى يعقوب شيء يحب شابه: امرأة - امرأة مجتهدة ، ليست فارغة ، ولا دمعة ، امرأة صحية وجميلة . وجهها مستطيل ، ذو أنف مستقيمة ورقيقة ، وله شفاه منتفخة . عيونها الزرقاء تحدق بصراحة على الضوء الأبيض. وفوقهم ، مثل فرشاة ، عقدت الحاجبين الظلام . استحى كثيف يلعب على خديها المدبوغين .
P. Zasodimsky ، "من المحراث إلى البندقية".الخطوة 4. تجميع النتيجة
يبقى لجمع فرانكشتاين والجمع بين معظم ميزات التردد. كان لبعض العلامات تردد قريب جدًا ، لذلك سمحنا لأنفسنا بتخيل القليل وجمع بعض الأحرف.
أول نوعين من السمات:
سيدة القرن التاسع عشر ، سيدة القرن الحادي والعشرين.كان: أشقر طويلاً ورفيعاً وله بشرة فاتحة للغاية وشبه العينين وعيون زرقاء ضخمة. على الأرجح ، مع "مبعثرة على أكتاف" تجعيد الشعر. ربما هي مدللة ، الضال والمزاجية قليلا. تقريبا التناظرية الحديثة المقابلة: سيدة ذات عيون بنية مجعدة ذات شعر داكن طويل ، تبرز شفاه ممتلئة على وجه مدبوغ. ربما كانت مليئة بالراحة والاسترخاء ، ولكن في نفس الوقت رومانسية وضعيفة.
النوع الثاني. أنت معتاد بالفعل على هذه الصورة:

كان: امرأة سمراء شابة ذات عيون زرقاء تبتسم بحرارة. يتم إيلاء الكثير من الاهتمام لتنظيف الأصابع الرفيعة. انها مدروس ، وديع ، متوافقة ، حتى خجولة. غالبا ما تبدو من وراء حليقة. الجمال الحديث سيكون مختلفا. لا تزال العيون الزرقاء علامة على الجمال جنبًا إلى جنب مع العيون السوداء ، لكن العيون الخضراء تبدو في السابق لم تكن موجودة على الإطلاق. لقد تبين أنها فتاة شابة ذات عيون خضراء وذات شعر أحمر (وهي أيضًا علامة جديدة تمامًا!) فتاة ، ذات بنية جيدة ، وهي أيضًا نحيفة ، طويلة القامة ، ترتدي فستانًا خفيفًا فاتحًا. إنها متفائلة وهادئة وذكية.
من المرجح أن تظهر المرئيات الاختلافات: يرى الفنانون صفيفات المعلمات الخاصة بي بهذه الطريقة. كما ظهرت خيالات شخصية من صفات التردد الموجودة في الأجزاء المستخرجة.
لماذا هذا كله؟
مجرد ممارسة بين المشاريع. بنفس الطريقة ، يمكنني البحث عن علامات الأسرار التجارية في مراسلاتك ، حتى لو كنت تصفها بطريقة محجبة جدًا. بنفس الطريقة ، يمكنني مراقبة الأخبار للبحث عن أحداث أو أحداث محددة متعلقة بشركتك. بنفس الطريقة ، يمكنني مراقبة إشارات العلامة التجارية وتقسيمها إلى فئات حسب الإدارة ، الدرجة اللونية وسبب الاتصال. يمكنني تحليل التطبيقات للحصول على الدعم الفني من المستخدمين غير المناسبين جدًا. يمكنني تحليل المدينة التي تجري فيها الحوارات. يمكنني ضبط المنصة على جميع مدفوعاتك من داخل البنك ولجميع الأطراف المقابلة في البنك ، قم بإعداد قائمة بالمنتجات المصنعة وقائمة بالمنتجات التي تم تسليمها وفهم ما يثير اهتمام المدير. بشكل عام ، أخافني!
حسنًا ، أو يمكنني فقط رؤية أي شيء في النصوص. تحليل أوصاف المنازل والديكورات الداخلية. البحث عن آثار جانبية على الدواء. اكتشف أن الفطائر تخطئ بطريقة أو بأخرى ، وأن السكر في ملفات تعريف الارتباط ليس حلوًا بدرجة كافية. اكتشف أن الشقراوات لا تزال تحظى بشعبية تقريبًا ضعف شعبية السمراوات ، والعيون الزرقاء لا تخرج عن الأنظار. وهلم جرا ...
لكن التطبيق العملي:
كيف بحثنا عن علامات الأخطاء الطبية .