إعداد البيانات في مشروع علوم البيانات: وصفات لربات البيوت الشباب



تحدثت في مقالة سابقة عن بنية مشروع "علوم البيانات" استنادًا إلى مواد منهجية IBM: كيف يتم تنظيمها ، والمراحل التي يتكون منها ، والمهام التي يتم حلها في كل مرحلة. الآن أود أن أقدم لمحة عامة عن المرحلة الأكثر استهلاكا للوقت ، والتي يمكن أن تستغرق ما يصل إلى 90 ٪ من إجمالي وقت المشروع: هذه هي المراحل المرتبطة بإعداد البيانات - جمع وتحليلها وتنظيفها.

في الوصف الأصلي للمنهجية ، تتم مقارنة مشروع Data Science بإعداد طبق ، والمحلل مع رئيس الطهاة. وفقًا لذلك ، تتم مقارنة مرحلة إعداد البيانات مع إعداد المنتجات: بعد أن قررنا وصفة للطبق الذي سنعده في مرحلة تحليل مهمة العمل ، نحتاج إلى العثور على المكونات وجمعها في مكان واحد وتنظيفها وختمها. وفقًا لذلك ، سيعتمد طعم الطبق على مدى جودة أداء هذه المرحلة (لنفترض أننا خمننا الوصفة ، خاصة وأن هناك الكثير من الوصفات في المجال العام). إن العمل مع المكونات ، أي إعداد البيانات ، هو دائمًا مجوهرات ومجوهرات شاقة ومسؤولة: منتج واحد مدلل أو غير مغسول - وكل العمل يضيع.

جمع البيانات


بعد تلقينا قائمة بالمكونات التي قد نحتاجها ، ننتقل إلى البحث عن البيانات لحل المشكلة ونشكل عينة سنعمل معها في المستقبل. أذكر لماذا نحتاج إلى عينة: أولاً ، نستخدمها لعمل فكرة عن طبيعة البيانات في مرحلة إعداد البيانات ، وثانياً ، سنقوم بتكوين عينات اختبار وتدريب منها في مراحل تطوير النموذج وتكوينه.


بالطبع ، لا نأخذ الحالات عندما يتعين عليك ، تحت تهديد NDA الثابت ، فهم شيء ما حول البيانات في مشروع كبير الحجم ، وتتلقى البيانات من عميل شديد على محرك أقراص محمول أو كمرفق برسالة. افترض أنك بصحة جيدة ولديك حق الوصول إلى البيانات. في هذه المرحلة ، من الضروري تحضير عينة من شأنها:

  1. يعكس جميع الخصائص الضرورية للسكان
  2. كانت مريحة للعمل ، وهذا ليس كبيرًا جدًا.

يبدو ، لماذا تقتصر على كمية البيانات في عصر البيانات الكبيرة؟ هذا في علم الاجتماع ، وكقاعدة عامة ، لا يكون عامة السكان متاحين: عندما نفحص الرأي العام ، من المستحيل استجواب جميع الناس ، حتى من الناحية النظرية. أو في الطب ، حيث تتم دراسة دواء جديد على عدد معين من الأرانب / الفئران / الذباب التجريبية: كل كائن إضافي في مجموعة الدراسة باهظ الثمن ومزعج وصعب. ومع ذلك ، حتى إذا كان كل السكان متاحًا لنا بالفعل ، فإن البيانات الضخمة تتطلب بنية تحتية مناسبة لإجراء العمليات الحسابية ، كما أن نشرها مكلف في حد ذاته (لا نتحدث عن الحالات التي تكون فيها بنية تحتية جاهزة ومجهزة في متناول يدك). هذا هو ، حتى لو كان من الممكن نظريًا حساب جميع البيانات ، إلا أنه عادةً ما يكون طويلًا ومكلفًا وعمومًا لماذا ، لأنه يمكنك الاستغناء عن كل هذا إذا قمت بإعداد عينة عالية الجودة ، وإن كانت صغيرة ، تتكون من عدة آلاف من السجلات.

يسمح لك الوقت والجهد المبذول في إنشاء العينة بتخصيص مزيد من الوقت لاستخراج البيانات: على سبيل المثال ، يمكن أن تحتوي البيانات الخارجية أو البيانات المفقودة على معلومات قيمة ، ولكن من بين ملايين السجلات يكون من المستحيل العثور عليها ، ومن بين عدة آلاف يكون ذلك مستحيلًا.

كيفية تقييم تمثيل البيانات؟


من أجل فهم مدى تمثيلية العينة لدينا ، فإن الفطرة السليمة والإحصاءات مفيدة لنا. بالنسبة للبيانات الفئوية ، نحتاج إلى التأكد من أنه في نموذجنا ، يتم تقديم كل سمة مهمة من وجهة نظر مشكلة الأعمال بنسب متماثلة في عموم السكان. على سبيل المثال ، إذا قمنا بفحص بيانات المرضى في العيادة والسؤال يتعلق بالأشخاص من جميع الأعمار ، فإن العينة التي تضم الأطفال فقط لن تكون مناسبة لنا. بالنسبة للبيانات التاريخية ، يجدر التحقق من أن البيانات تغطي فترة زمنية تمثيلية تأخذ فيها الميزات قيد التحقيق جميع القيم الممكنة. على سبيل المثال ، إذا قمنا بتحليل طلبات الاستئناف المقدمة إلى الوكالات الحكومية ، فمن المحتمل ألا تكون بيانات الأسبوع الأول من شهر يناير مناسبة لنا ، لأن الانخفاض في الطعون يقع في الوقت الحالي. بالنسبة إلى العلامات العددية ، يكون من المنطقي حساب الإحصاءات الأساسية (إحصائيات النقطة على الأقل: المتوسط ​​، المتوسط ​​، التباين والمقارنة مع الإحصائيات المماثلة لعامة السكان ، إن أمكن ، بالطبع).

قضايا جمع البيانات


يحدث غالبًا أننا نفتقر إلى البيانات. على سبيل المثال ، تم تغيير نظام المعلومات وعدم توفر البيانات من النظام القديم ، أو أن هيكل البيانات مختلف: يتم استخدام مفاتيح جديدة ولا يمكن إقامة اتصال بين البيانات القديمة والبيانات الجديدة. كما أن المشكلات التنظيمية ليست غير شائعة عند الاحتفاظ بالبيانات من قبل مالكيها المختلفين ولا يمكن تكوين الجميع لقضاء بعض الوقت والموارد في التحميل لمشروع تابع لجهة خارجية.

ماذا تفعل في هذه الحالة؟ في بعض الأحيان ، يتبين أن العثور على بديل: إذا لم تكن هناك طماطم طازجة ، فيمكن أن تأتي الطماطم المعلبة. وإذا تبين أن الجزرة كلها فاسدة ، فأنت بحاجة إلى الذهاب إلى السوق للحصول على جزء جديد. لذلك من الممكن تمامًا في هذه المرحلة أن نحتاج إلى العودة إلى المرحلة السابقة ، حيث قمنا بتحليل مهمة العمل وتساءلنا عما إذا كان من الممكن إعادة صياغة السؤال بطريقة أو بأخرى: على سبيل المثال ، لا يمكننا تحديد إصدار الصفحة المخزن على الإنترنت بشكل أفضل يبيع منتجًا (على سبيل المثال ، لا توجد بيانات مبيعات كافية) ، ولكن يمكننا أن نقول على الصفحة التي يقضي فيها المستخدمون المزيد من الوقت وأي عدد أقل من الإخفاقات (جلسات تصفح قصيرة جدًا تستغرق عدة ثوانٍ).


تحليل البيانات الاستكشافية


افترض أن البيانات قد تم استلامها ، وهناك ثقة في أنها تعكس عامة السكان وتحتوي على إجابة لمهمة العمل المطروحة. الآن يجب فحصهم من أجل فهم نوعية منتجات البيانات الموجودة في أيدينا وما إذا كانت مناسبة للوصفة المقصودة. لنفترض أننا أخذنا بالفعل أمثلة قليلة من السجلات ، وقمنا بتصنيف ما هو المفتاح وأنواع البيانات التي يحتوي عليها: رقمية ، ثنائية ، قاطعة. بعد ذلك ، يمكنك البدء في دراسة كل أعراض بشكل فردي. الأداة الرئيسية للبحث هي الإحصاءات الوصفية.


تقييم الموقف المركزي


في المرحلة الأولى من الدراسة ، سيكون من الجيد فهم القيم التقليدية لكل خاصية. أبسط تقدير هو الوسط الحسابي: مؤشر بسيط ومعروف. ومع ذلك ، إذا كان حجم البيانات كبيرًا ، فلن يخبرنا المتوسط ​​كثيرًا عن القيم النموذجية: على سبيل المثال ، نريد أن نفهم مستوى الراتب في المستشفى. للقيام بذلك ، أضف رواتب جميع الموظفين ، بما في ذلك المدير ، الذي يحصل على عدة مرات أكثر من الممرضة. سيكون المتوسط ​​الحسابي الذي تم الحصول عليه أعلى من راتب أي من الموظفين (باستثناء المدير) ولن يخبرنا بأي شيء عن راتب نموذجي. مثل هذا المؤشر مناسب فقط لتقديم التقارير إلى وزارة الصحة ، والتي ستعلن بفخر عن زيادة الرواتب. القيمة التي تم الحصول عليها تخضع أيضًا لتأثير القيم الحدية. لتجنب تأثير القيم المتطرفة (غير نمطية ، قيم الحد) ، يتم استخدام إحصائيات أخرى: الوسيط ، الذي يتم حسابه كقيمة مركزية في القيم التي تم فرزها.

إذا كانت البيانات ثنائية أو فاصلة ، فيجب عليك معرفة القيم الأكثر شيوعًا والأقل شيوعًا. للقيام بذلك ، استخدم mod: القيمة أو الفئة الأكثر شيوعًا. هذا مفيد ، من بين أمور أخرى ، لفهم الطابع التمثيلي للعينة: على سبيل المثال ، قمنا بفحص بيانات السجلات الطبية للمريض ووجدنا أن البطاقات تخص النساء. هذا سيجعلك تتساءل عما إذا كان هناك خطأ أثناء أخذ العينات. لعرض نسب الفئات بالنسبة لبعضها البعض ، يكون التمثيل البياني للبيانات مفيدًا ، على سبيل المثال ، في شكل مخطط شريطي أو دائري.

تقييم تباين البيانات


بعد أن نحدد القيم النموذجية لعيناتنا ، يمكننا أن ننظر إلى القيم غير النمطية - القيم المتطرفة. يمكن أن تخبرنا الانبعاثات بشيء عن جودة البيانات: على سبيل المثال ، يمكن أن تكون علامات على أخطاء: التشويش على البعد ، وفقدان المنازل العشرية أو منحنى التشفير. يتحدثون أيضًا عن مدى اختلاف البيانات ، ما هي القيم المحددة للخصائص المدروسة.

بعد ذلك ، يمكننا المضي قدمًا في تقييم عام لمدى اختلاف البيانات. يُظهر التباين (وهو أيضًا تشتت) مدى اختلاف قيم السمات. طريقة واحدة لقياس التباين هي تقييم الانحرافات النموذجية للميزات من قيمة مركزية. من الواضح أن متوسط ​​هذه الانحرافات لن يعطينا الكثير ، لأن الانحرافات السلبية تحيد الانحرافات الإيجابية. أفضل التقديرات المعروفة للتغير هي التباين والانحراف المعياري ، مع مراعاة القيمة المطلقة للانحرافات (التباين هو متوسط ​​الانحرافات المربعة ، والانحراف المعياري هو الجذر التربيعي للتباين).

تعتمد طريقة أخرى على النظر في انتشار البيانات المصنفة (بالنسبة لمجموعات البيانات الكبيرة ، لا يتم استخدام هذه المقاييس ، حيث يجب عليك أولاً فرز القيم ، وهي مكلفة بحد ذاتها). على سبيل المثال ، التقييم باستخدام النسب المئوية (يمكنك أيضًا العثور على النسب المئوية فقط). النسبة المئوية التاسعة - هذه هي القيم التي يأخذ بها ما لا يقل عن N بالمائة من البيانات هذه القيمة أو أكثر. من أجل منع الحساسية الخارجية ، يمكن إسقاط القيم من كل نهاية. مقياس التباين المقبول عمومًا هو الفرق بين النسبتين 25 و 75 - النطاق الرباعي.

مسح توزيع البيانات


بعد قيامنا بتقييم البيانات باستخدام الخصائص العددية المعممة ، يمكننا تقدير كيف يبدو توزيع البيانات ككل. ويتم ذلك بسهولة أكبر باستخدام أدوات النمذجة البصرية - الرسوم البيانية.

أنواع المخططات الأكثر شيوعًا هي مخطط مربع (أو مربع به شارب) ومخططات شريطية. يتيح لك مربع يحتوي على شارب - عرض مضغوط مناسب للاختيار ، رؤية العديد من الخصائص المدروسة على صورة واحدة ، وبالتالي ، يمكنك مقارنتها مع بعضها البعض. بخلاف ذلك ، يسمى هذا النوع من المخططات رسم تخطيطي لمربع وشعيرات أو مخطط قطعة. يوضح هذا النوع من المخططات في شكل يمكن فهمه الوسيط (أو ، إذا لزم الأمر ، المتوسط) ، والرباعيات العلوية والسفلية ، والحد الأدنى والحد الأقصى للقيم والعينة. يمكن رسم العديد من هذه الصناديق جنبًا إلى جنب لمقارنة بصريًا توزيعًا ما بآخر ؛ يمكن وضعها على حد سواء أفقيا وعموديا. تتيح لك المسافات بين أجزاء مختلفة من الصندوق تحديد درجة التشتت (التشتت) وعدم تناسق البيانات وتحديد القيم المتطرفة.


من الأدوات المفيدة أيضًا رسم بياني مشهور - تصور جدول التردد ، حيث يتم تخطيط فترات التردد على المحور X وكمية البيانات على المحور Y. سيكون المخطط الشريطي مفيدًا أيضًا في البحث عن البيانات التاريخية: سيساعدك على فهم كيفية توزيع السجلات مع مرور الوقت و هل يمكنك الوثوق بهم باستخدام الرسم البياني ، من الممكن تحديد كل من أخطاء أخذ العينات والبيانات المعطلة: يمكن أن تؤدي الرشقات في أماكن غير متوقعة أو وجود سجلات مرتبطة بالمستقبل إلى اكتشاف مشاكل في تنسيق البيانات ، على سبيل المثال ، مزج تنسيقات التاريخ في جزء العينة.

ارتباط


بعد أن نظرنا إلى جميع المتغيرات ، نحتاج أن نفهم ما إذا كان هناك أي منها إضافي. للقيام بذلك ، يتم استخدام معامل الارتباط - وهو مؤشر متري يقيس الدرجة التي ترتبط بها المتغيرات العددية ببعضها البعض ويأخذ القيم في النطاق من 1 إلى -1. مصفوفة الارتباط هي جدول فيه الصفوف والأعمدة متغيرات. وقيم الخلية هي ارتباطات بين هذه المتغيرات. مخطط التشتت - على طول المحور س ، قيم متغير واحد ، على طول المحور ص - آخر.

تطهير البيانات


بعد فحصنا للبيانات ، يجب تنظيفها وربما تحويلها. في هذه المرحلة ، يجب أن نحصل على إجابة للسؤال: كيف نحتاج إلى إعداد البيانات من أجل استخدامها بأكبر قدر ممكن من الكفاءة؟ نحتاج إلى التخلص من البيانات الخاطئة ومعالجة السجلات المفقودة وإزالة التكرارات والتأكد من تنسيق كل شيء بشكل صحيح. في هذه المرحلة أيضًا ، نحدد مجموعة من الميزات التي سيتم بناء عليها مزيد من التعلم الآلي. ستحدد جودة تنفيذ هذه المرحلة ما إذا كانت الإشارة في البيانات قابلة للتمييز بالنسبة لخوارزمية التعلم الآلي. إذا كنا نعمل مع النص ، فقد تكون هناك حاجة إلى خطوات إضافية لتحويل البيانات غير المهيكلة إلى مجموعة من السمات المناسبة للاستخدام في النموذج. يعد إعداد البيانات الأساس الذي سيتم بناء عليه الخطوات التالية. كما هو الحال في الطهي ، يمكن لمكون واحد مدلل أو غير مقشر أن يفسد الطبق بأكمله. أي إهمال في التعامل مع البيانات يمكن أن يؤدي إلى حقيقة أن النموذج لن يظهر نتائج جيدة وسيتعين عليه الرجوع إلى بضع خطوات.


حذف الإدخالات غير المرغوب فيها


إحدى عمليات تنظيف البيانات الأولى هي حذف السجلات غير الضرورية. يتضمن خطوتين: حذف إدخالات مكررة أو خاطئة. وجدنا قيمًا خاطئة في المرحلة السابقة ، عندما درسنا القيم المتطرفة والقيم غير النمطية. يمكننا الحصول على بيانات مكررة عند استلام بيانات مماثلة من مصادر مختلفة.

تصحيح الأخطاء الإنشائية


هناك حالات متكررة يمكن فيها تسمية نفس الفئات بشكل مختلف (أسوأ ، عندما يكون للفئات المختلفة نفس الاسم): على سبيل المثال ، في البيانات المفتوحة لحكومة موسكو ، يتم تقديم بيانات البناء كل ثلاثة أشهر ، ولكن يتم توقيع إجمالي حجم السنة كسنة ، وفي تم تعيين بعض السجلات في الربع الرابع. في هذه الحالة ، نستعيد قيم الفئات الصحيحة (إن أمكن).

إذا كان عليك العمل مع البيانات النصية ، فأنت بحاجة على الأقل إلى تنفيذ المعالجات التالية: إزالة المسافات ، إزالة جميع التنسيقات ، محاذاة الحالة ، تصحيح الأخطاء الإملائية.

إزالة خارجية


بالنسبة لمهام التعلم الآلي ، يجب ألا تحتوي البيانات الموجودة في العينة على القيم الخارجية وأن تكون موحدة قدر الإمكان ، لذلك يجب حذف قيم حد الوحدة.

إدارة البيانات المفقودة


يعد العمل باستخدام البيانات المفقودة أحد أصعب الخطوات في تنظيف البيانات. يمثل غياب جزء من البيانات ، كقاعدة عامة ، مشكلة بالنسبة لمعظم الخوارزميات ، لذلك يجب عليك إما عدم استخدام السجلات التي يفتقد جزء منها ، أو محاولة استعادة السجلات المفقودة بناءً على أي افتراضات حول طبيعة البيانات. في الوقت نفسه ، نحن نفهم أن ملء الفجوات في البيانات (بغض النظر عن مدى تعقيد الطريقة التي نقوم بها بها) لا يضيف معلومات جديدة ، ولكن مجرد عكاز يسمح لك باستخدام بقية المعلومات بطريقة أكثر فعالية. كلا النهجين ليسا منطلقين لأننا نفقد المعلومات على أي حال. ومع ذلك ، يمكن أن يكون نقص البيانات إشارة في حد ذاته. على سبيل المثال ، نقوم بفحص بيانات التزود بالوقود ونقص بيانات المستشعر يمكن أن يكون علامة واضحة على حدوث انتهاك.

عند العمل مع البيانات الفئوية ، فإن أفضل ما يمكننا فعله بالبيانات المفقودة من هذا النوع هو وضع علامة عليها على أنها "مفقودة". تتضمن هذه الخطوة بالفعل إضافة فئة بيانات فئوية جديدة. هناك طريقة مماثلة تتمثل في التعامل مع البيانات المفقودة من النوع العددي: تحتاج إلى تمييز البيانات المفقودة بطريقة أو بأخرى ، على سبيل المثال ، استبدال البيانات المفقودة بصفر. لكن عليك أن تضع في اعتبارك أن الصفر لا يناسب دائمًا. على سبيل المثال ، بياناتنا هي قراءات مضادة ولا يمكن الخلط بين عدم وجود قراءات وأصفار حقيقية في قيم البيانات.

أدوات تنظيف البيانات


وكقاعدة عامة ، فإن تنظيف البيانات ليس حدثًا لمرة واحدة ؛ فعلى الأرجح سيكون علينا إضافة بيانات جديدة إلى العينة ، والتي يجب أن يتم تمريرها مرة أخرى من خلال إجراءات التنظيف المتقدمة. لتحسين هذه العملية ، من الجيد استخدام التطبيقات المتخصصة (إلى جانب ، بالطبع ، Excel 'I ، والتي قد تكون مفيدة أيضًا) ، على سبيل المثال:

  • يعد Talend Data Preparation تطبيقًا مجانيًا لسطح المكتب مع واجهة مرئية تعمل على تبسيط مهام تنظيف البيانات وأتمتة: فهي تتيح لك إنشاء خط أنابيب مخصص لمعالجة البيانات. يمكنك استخدام مجموعة متنوعة من مصادر البيانات مع Talend ، بما في ذلك ملفات CSV أو بيانات Excel.
  • OpenRefine. تستخدم هذه الأداة في Google Refine أو Freebase Gridworks. Now OpenRefine هو تطبيق سطح مكتب شهير لتنظيف وتحويل تنسيقات البيانات.
  • Trifacta Wrangler - , , . .

, — Scala, , .


, ...


, , - , , , . هذا طبيعي.



, - , , , , : , , .

, .

PS: , , , !

Source: https://habr.com/ru/post/ar470650/


All Articles