
جعل التطور الحديث لتقنيات تكنولوجيا المعلومات من الممكن الحد من التدفق الهائل للبيانات.
لدى الشركة أدوات متنوعة: CRM ، ERP ، BPM ، أنظمة المحاسبة ، أو في الحالات القصوى فقط Excel و Word.
تختلف الشركات أيضًا. يتكون بعضها من العديد من الفروع المنفصلة. في هذه الحالة ، تواجه الشركة مشكلة مزامنة البيانات في حديقة الحيوانات لأنظمة تكنولوجيا المعلومات. علاوة على ذلك ، تختلف الفروع في البائعين أو إصدارات البرامج. وتسبب التغييرات المتكررة في متطلبات إعداد التقارير من شركة الإدارة نوبات من "الفرح" غير المنضبط في هذا المجال.
تدور هذه القصة حول مشروع واجهت فيه حالة من الفوضى التي كانت بحاجة إلى التنظيم والأتمتة. حدت الميزانية المتواضعة والمواعيد النهائية الضيقة من استخدام معظم الحلول الصناعية ، لكنها فتحت المجال للإبداع.
تنسيق عالمي
قام العميل بتعيين مهمة جمع البيانات للتقارير من جميع فروع الشركة. لفهم حجم الكارثة ، هناك العشرات من الأنظمة ، بما في ذلك الوحوش ذاتية الصنع والوحوش مثل SAP ، وبالطبع ، 1C - حيث بدونها.
في أحد التقارير ، يمكن أن تتقاطع البيانات من: مسك الدفاتر والإصلاح والمتخصصين في العلاقات العامة ووزارة الطوارئ وعلماء الأرصاد الجوية.
قبل بدء المشروع ، تم إرسال الجزء الأكبر من البيانات إلى الشركة الأم عن طريق البريد الإلكتروني في شكل مرفقات Word / Excel. علاوة على ذلك ، كانت العملية تشبه غروب الشمس يدويًا: تمت معالجة البيانات من قبل أشخاص مدربين بشكل خاص ودخلت في نظامين. وكانت نتيجة العمل عشرات التقارير التي اتخذت على أساسها قرارات إدارية.
كان اختيار الأسلوب مدفوعًا بتنسيق الملفات المنقولة ، أي xlsx / docx. حتى الأنظمة "القديمة" في الفروع دعمت تحميل البيانات إلى هذه التنسيقات ، بشكل جيد ، أو في الحالات القصوى ، لم يقم أحد بإلغاء لصق النسخ.
كانت خطتنا العنيدة هي:
- وصف هيكل كل تقرير وقواعد إرساله ؛
- نخفض متطلبات إعداد أنظمة لإرسال المستندات عبر البريد الإلكتروني وفقًا للوائح الفروع. حيث لا توجد أنظمة - ترسل ، كما كان من قبل ، باليد ؛
- نقوم بتطوير برنامج:
- اختيار مستندات معينة من البريد الوارد ؛
- يستخرج البيانات منها ؛
- يكتب البيانات المستخرجة إلى قاعدة البيانات ، وكذلك "ضرب" منتهكي اللوائح.

التنفيذ
المسائل التنظيمية
في مرحلة جمع وإضفاء الطابع الرسمي على متطلبات هيكل وتنظيم نقل البيانات ، اتضح أنه لا يوجد وصف لهيكل التقارير على الإطلاق. تم تخزين كل شيء في أذهان بعض الموظفين وتم نقله كقصص شعبية روسية عن طريق الفم. لكن المشاكل الحقيقية بدأت لاحقًا - عند إنشاء تبادل البيانات.
المشكلة الأولى
الفرق بين هيكل المستندات من المرجع وجودة البيانات. في التقارير ، لم تتقارب المبالغ في بعض الأحيان ، وكانت الأعمدة مختلطة أو تحمل أسماء غير صحيحة. وقد لوحظت المشكلة بشكل رئيسي في الفروع حيث تم دفع البيانات يدويًا.
الحل هو تنفيذ التحقق من ثلاث خطوات:
- إنشاء مستندات Excel مرجعية ذات هيكل صلب باستخدام Excel نفسه. في هذه الوثائق ، كانت خلايا إدخال البيانات فقط متاحة. التي فرضت عليها الشيكات الإضافية: النوع ، تقارب المبالغ ، إلخ.
- الشيكات عند استخراج البيانات من التقرير. على سبيل المثال ، تقوم مقارنة التاريخ والتاريخ الحاليين في فقرة من مستند Word أو عمليات حسابية بالتحقق من البيانات من مستند Excel (إذا كان لا يمكن تحديدها في المستند نفسه).
- تحليل البيانات العميقة بعد جمعها. على سبيل المثال ، الكشف عن انحرافات كبيرة في المؤشرات الرئيسية مقارنة بالفترات السابقة.
المشكلة الثانية
انتهاك منهجي لجدول نقل البيانات أو محاولات عديمة الضمير للتخريب: "بشكل عام ، لم نرسل أبدًا أي بيانات إلى أي شخص ، ولكن هنا أنت مع بلدي ..." ، "نعم ، لقد أرسلت كل شيء في الوقت المحدد ، ربما يكون هذا أمرًا سيئًا."
الحل هو التغذية المرتدة. يقوم النظام بإخطار الأشخاص المسؤولين في الفرع تلقائيًا في حالة انتهاك الجدول. في وقت لاحق ، تم ثني النظام الفرعي للتغذية المرتدة إلى نظام التحكم في جودة بيانات الإدخال ونظام الإبلاغ النهائي ، بحيث يتلقى الفرع على الفور مجموعة من البيانات ومقارنة مع "الجيران".
لتوضيح سبب ركعه.النظم الفرعية المطورة
- أداة تكوين أنواع المستندات بالبيانات ، التي يمكنك وصفها بسرعة:
- علامات لتحديد الوثيقة ؛
- لوائح التحويل ؛
- خوارزمية استخراج البيانات ؛
- سمات أخرى مثل مسار الرمز الذي يتحقق من صحة البيانات وتخزينها.
- مستلم البريد الذي ينقل المرفقات إلى مخزن معزول (وضع الحماية) ويخزن المعلومات ذات الصلة بالحرف ؛
- محلل مرفق يحدد أنواع المستندات ويستخرج البيانات منها.

مكوّن
تاريخيًا ، تأتي جميع المستندات التي تحتوي على بيانات إلى البريد العام ، حيث تكون مليئة بالرسائل الأخرى المهمة وغير المهمة. نحتاج إلى علامات يتم من خلالها تحديد الوثائق اللازمة. اسم المستند أو النص الموجود في نص البريد الإلكتروني غير موثوق به وغير مريح بالنسبة للمرسل. لذلك ، تقرر أنه لن يتم تحديد العضوية في التقرير إلا من خلال محتويات الوثيقة. بالإضافة إلى ذلك ، يجب عليك تحديد نوع التقرير الذي يحتوي عليه المستند بشكل لا لبس فيه.
لقد توصلوا إلى فجل عصف ذهني يعرف عدد العلامات لتحديد المستند: لون النص في الخلية ، الخط ، إلخ. ولكن الأصح هو علامة وجود سلسلة فرعية في "فتحة" خلية معينة أو مجموعة من الخلايا لـ Excel وفقرة أو عنوان لـ Word. تمت إضافة منطق رسمي بسيط لـ "الفتحة": "يساوي" ، "غير متساوٍ" ، "أكثر" ، "أقل" ، إلخ. مثال لـ Excel: في النطاق A2-E4 ، يجب أن يكون نص الخلية مساويًا لـ "الملخص اليومي لتحميل المعدات".

يتم تكوين منطقة المستند التي تريد البحث فيها عن بداية البيانات ونهايتها بطريقة مماثلة (تقريبًا شروط العثور على النهاية: سطرين فارغين على التوالي).

تتضمن الإعدادات المفيدة الأخرى قائمة المرسلين الذين تم حلهم ، ونوع المستند (Excel / Word) ، ومسار لتصدير البيانات.
عند الإخراج ، نحصل على بنية (نموذج) JSON تصف التقرير.
مستلم البريد
قارئ بريد يضع جميع المستندات من المرفقات في وضع الحماية ويحفظ سمات الرسالة ويضع المستندات في قائمة انتظار المهام للتحليل.
هناك سؤالان للأمان:
- ماذا لو تم إرسال البيانات إلى فرع آخر؟
- ماذا لو تم إرسال البيانات من قبل المهاجمين؟
يتم حل المشكلة الأولى عن طريق التوفيق بين عنوان البريد الإلكتروني للفرع المرسل والفرع المحدد في نص التقرير.
والثاني هو استخدام
نظام التعرف على هوية المرسل (SPF) .
مرفق المحلل
تحتوي جميع مكتبات تحليل Word و Excel تقريبًا على قيود خطيرة على الإصدارات المدعومة ، لذلك يجب تحويل المستند كبداية. يحل مكتب ليبر هذه المشكلة بخمسة.
بعد التحويل:
- نقوم بتصفية مجموعة من القوالب وفقًا للخصائص الأساسية من المكوّن (Word / Excel ، المرسل ...) ؛
- تشغيل المستند مع القوالب المتبقية ؛
- إذا تم العثور على القالب ، نقوم باستخراج البيانات ونقلها إلى المستودع.
الملخص
لقد فعلناها!
بعد شهرين من العمل الشاق ، بدأ المكتب الرئيسي في تلقي البيانات بانتظام لتقارير من جميع الفروع. علاوة على ذلك ، كانت جودة واكتمال البيانات مختلفة بشكل غير مسبوق عما كانت عليه من قبل ، واستعادت الموارد البشرية التي تم إصدارها تكاليف المشروع بحلول نهاية العام.
لأنفسنا ، تعلمنا أن التكامل ليس مؤلمًا دائمًا وسلط الضوء على الجوانب الرئيسية للنجاح:
- لم نحصل على أنظمة داخلية في الفروع ،
- إضفاء الطابع الرسمي والموافق على هيكل واحد من التقارير واللوائح لإرسالها ؛
- إنشاء قوالب تنسيقات الإخراج متاحة بشكل عام لجميع الأنظمة في شكل مستندات Excel و Word ؛
- اختار الطريقة الأكثر شيوعًا لتسليم البيانات - البريد الإلكتروني.
واثنين من العيوب الرئيسية:
- سرعة توصيل البيانات منخفضة.
- يجب ألا يتجاوز حجم حزمة البيانات حجم مرفق البريد الإلكتروني العادي.