تحرير ملفات CSV حتى لا يتم فصل البيانات



منتجات HFLabs في وحدات التخزين الصناعية معالجة البيانات: العناوين والأسماء الكاملة وتفاصيل الشركة وحتى النقل في المجموع. وبطبيعة الحال ، يتعامل المختبرون مع هذه البيانات كل يوم: تحديث حالات الاختبار ، ودراسة نتائج التنظيف. في كثير من الأحيان ، يعطي العملاء قاعدة "حية" للاختبار لتكوين الخدمة لها.

أول شيء نعلمه ضمانات الجودة الجديدة هو حفظ البيانات في شكلها الأصلي. كل ذلك وفقا للعهود: "لا تؤذي". في هذه المقالة ، سأوضح لك كيفية العمل بعناية مع ملفات CSV في Excel و Open Office. ستساعدك النصائح على عدم إفساد أي شيء ، وحفظ المعلومات بعد التحرير والشعور عمومًا بمزيد من الثقة.

المواد الأساسية ، بالتأكيد سيشعر المحترفون بالملل.

ما هي ملفات CSV؟


يتم استخدام تنسيق CSV لتخزين الجداول في ملفات نصية. غالبًا ما يتم تجميع البيانات في جداول ، لذا فإن ملفات CSV شائعة جدًا.


يتكون ملف CSV من صفوف البيانات ومحددات تشير إلى حدود الأعمدة

CSV تعني القيم المفصولة بفواصل - "القيم مفصولة بفواصل." لكن لا تنخدع بالاسم: فالفواصل المنقوطة وعلامات التبويب يمكن أن تكون بمثابة فواصل أعمدة في ملف CSV. سيظل ملف CSV.

تتمتع CSV بمزايا كثيرة مقارنة بنفس تنسيق Excel: الملفات النصية بسيطة كزر ، وتفتح بسرعة ، وتقرأ على أي جهاز وفي أي بيئة بدون أدوات إضافية.

نظرًا لميزاتها ، يعد CSV تنسيقًا شائعًا لتبادل البيانات ، على الرغم من أنه عمره 40 عامًا بالفعل ، وتستخدم ملفات CSV التطبيقات الصناعية ، فهي تقوم بتنزيل البيانات من قواعد البيانات.

مشكلة واحدة - محرر النص للعمل مع CSV لا يكفي. ومع ذلك ، إذا كان الجدول بسيطًا: في الحقل الأول يكون المعرف من نفس الطول ، وفي الثاني يكون التاريخ بنفس التنسيق ، وفي الثالث يكون بعض العناوين. ولكن عندما تكون الحقول ذات الأطوال المختلفة ، وهناك أكثر من ثلاثة ، يبدأ العذاب.


تتبع الفواصل والأعمدة - تغمض عينيك

والأسوأ من ذلك مع تحليل البيانات - حاول المفكرة لإضافة كل الأرقام على الأقل في عمود على الأقل. أنا لا أتحدث عن رسومات جميلة.

لذلك ، يتم تحليل ملفات CSV وتحريرها في Excel ونظائرها: Open Office و LibreOffice وغيرها.

إلى قدامى المحاربين الذين قرأوا مع ذلك: أيها الرجال ، نحن نعلم بالتحليل مباشرة في قاعدة البيانات باستخدام SQL ، ونحن نعلم عن Tableau و Talend Open Studio . هذه المقالة مخصصة للمبتدئين ، ولكن على مستوى أساسي وكمية صغيرة من بيانات Excel مع نظائرها كافية.

كيف يفسد Excel البيانات: من الكلاسيكيات


كل شيء سيكون على ما يرام ، ولكن Excel ، بالكاد فتح ملف CSV ، يبدأ الحيل ماكرة. يغير البيانات دون طلب حتى تصبح عديمة القيمة. ويفعل ذلك دون أن يلاحظها أحد. وبسبب هذا ، في وقت واحد انتزعنا مجموعة من المشاكل.

تعود معظم الحوادث إلى حقيقة أن البرنامج يحول السلاسل مع مجموعة من الأرقام إلى أرقام دون طلب.

جولات قبالة. على سبيل المثال ، في الخلية الأصلية ، يتم تخزين هاتفين مفصولين بفواصل بدون مسافات: "5235834.5235835". ماذا سيفعل اكسل؟ يحول المشهور الأرقام إلى رقم واحد ويتم تقريبه إلى منزلتين عشريتين: "5235834.52". لذلك فقدنا الهاتف الثاني.

يؤدي إلى شكل الأسي. يقوم Excel بتحويل "123456789012345" بعناية إلى الرقم "1،2E + 15". نفقد القيمة الأصلية تماما.

المشكلة ذات صلة بالخطوط الطويلة المكونة من خمسة عشر خطًا رقميًا. على سبيل المثال ، رموز CLADR (هذا هو معرف الدولة لكائن العنوان: المدينة ، الشارع ، المنزل).

يزيل المزايا الرائدة. يعتقد Excel أن علامة الجمع في بداية السطر بالأرقام هي حرف غير ضروري تمامًا. مثل ، ومن الواضح أن الرقم إيجابي ، لأنه لا يوجد ناقص أمامه. لذلك ، سيتم تجاهل الإضافة الأولى في الرقم "+74955235834" باعتبارها غير ضرورية - ستظهر "74955235834". (في الواقع ، سيعاني العدد أكثر ، ولكن من أجل الوضوح ، سوف أتوافق مع علامة الجمع).

يعد فقدان علامة زائد أمرًا بالغ الأهمية ، على سبيل المثال ، في حالة انتقال البيانات إلى نظام تابع لجهة خارجية ، ويفحص ذلك التنسيق بشكل صارم عند الاستيراد.

ينهار ثلاثة أرقام. يعد Excel روحًا جيدة ستؤدي إلى تحليل سلسلة رقمية أطول من ثلاثة أحرف. على سبيل المثال ، "8 495 5235834" سوف يتحول إلى "84 955 235 834".

التنسيق مهم على الأقل بالنسبة لأرقام الهواتف: فالمسافات تفصل رموز البلد والمدينة عن بقية العدد وعن بعضها البعض. يتفوق Excel بسهولة على التقسيم الصحيح للهاتف.

يزيل الأصفار الرائدة. سيقوم Excel بتحويل السلسلة "00523446" إلى "523446".
وفي TIN ، على سبيل المثال ، أول رقمين هما رمز المنطقة. بالنسبة لجمهورية ألتاي ، يبدأ من الصفر - "04". بدون الصفر ، سيتم تشويه معنى الرقم ، ولن يتم التحقق من تنسيق INN على الإطلاق.

يغير التواريخ إلى الإعدادات المحلية. سيقوم Excel بتصحيح رقم المنزل "1/2" إلى "01. فبراير" لأن نظام التشغيل Windows اقترح أنه في هذا النموذج ، سيكون من المناسب لك قراءة التواريخ.

نحن هزيمة تلف البيانات عن طريق الاستيراد السليم


لكن على محمل الجد ، لا يتحمل برنامج Excel المسؤولية عن المشكلات ، ولكنه طريقة غير واضحة لاستيراد البيانات إلى البرنامج.

افتراضيًا ، يطبق Excel النوع العام على البيانات الموجودة في ملف CSV الذي تم تنزيله - النوع العام. بسبب ذلك ، يتعرف البرنامج على الأوتار الرقمية كأرقام. يمكن هزيمة هذا الطلب باستخدام أداة الاستيراد المدمجة.

أبدأ آلية الاستيراد المضمنة في Excel. في القائمة هو "البيانات → الحصول على البيانات الخارجية → من النص".

يمكنني تحديد ملف CSV مع البيانات ، يفتح مربع حوار. في مربع الحوار ، انقر فوق نوع الملف المحدد (محدد). الترميز - عادة ما يتم تحديد الملف الموجود في الملف تلقائيًا. إذا كان السطر الأول من الملف عبارة عن رأس ، فسأضع علامة على "بياناتي تحتوي على رؤوس".

أذهب إلى الخطوة الثانية من الحوار. أختار فاصل الحقل (عادة فاصلة منقوطة - فاصلة منقوطة). أطفئ "معاملة المحددات المتتالية كواحد" ، واضبط "مؤهل النص" على "{بلا}". (مؤهل النص هو رمز لبداية ونهاية النص. إذا كان الفاصل في CSV فاصلة ، فسيكون مؤهل النص مطلوبًا لتمييز الفواصل داخل النص عن فواصل الفاصل.)

في الخطوة الثالثة ، اخترت تنسيق الحقول ، من أجل ذلك بدأ كل شيء. بالنسبة لجميع الأعمدة ، اضبط النوع على "نص". بالمناسبة ، إذا قمت بالنقر فوق العمود الأول ، فاستمر في الضغط على المفتاح "shift" وانقر فوق "الأخير" ، وسيتم تمييز جميع الأعمدة مرة واحدة. مريح.

بعد ذلك ، سيسأل Excel عن مكان لصق البيانات من ملف CSV - يمكنك فقط النقر فوق "موافق" ، وستظهر البيانات في ورقة مفتوحة.


يجب عليك إنشاء مصنف جديد في Excel قبل الاستيراد

لكن! إذا كنت تخطط لإضافة بيانات إلى ملف CSV عبر Excel ، فهناك شيء آخر يجب القيام به.

بعد الاستيراد ، من الضروري إجبار جميع الخلايا على الورقة على تنسيق "النص". خلاف ذلك ، ستكتسب الحقول الجديدة نفس النوع عام.

  • أضغط على Ctrl + A مرتين ، يقوم Excel بتحديد جميع الخلايا الموجودة على الورقة ؛
  • أنا انقر فوق زر الماوس الأيمن.
  • اخترت "تنسيق الخلايا" في قائمة السياق ؛
  • في مربع الحوار الذي يفتح ، حدد نوع بيانات النص على اليسار.


لتحديد كل الخلايا ، تحتاج إلى الضغط على Ctrl + A مرتين. بالضبط اثنين ، وهذا ليس مزحة ، حاول

بعد ذلك ، مع أي حظ ، سيترك Excel البيانات الأصلية وحدها. لكن هذا ليس أصعب ضمان ، لذلك بعد الحفظ ، سنقوم بالتأكيد بفحص الملف من خلال عارض النصوص.

البديل: افتح مكتب Calc


للعمل مع ملفات CSV ، أستخدم Calc. ليس أنها لا تعتبر البيانات الرقمية سلاسل على الإطلاق ، ولكنها على الأقل لا تطبق إعادة التنسيق عليها وفقًا للإعدادات الإقليمية لنظام Windows. نعم ، والاستيراد أبسط.

بالطبع ، ستحتاج إلى حزمة Open Office (OO). أثناء التثبيت ، سيعرض إعادة تعيين ملفات MS Office لنفسه. لا أوصي: على الرغم من أن OO وظيفية تمامًا ، إلا أنها لا تفهم تمامًا تنسيق Microsoft الصعب للوثائق.

ولكن لجعل OO البرنامج الافتراضي لملفات CSV معقول للغاية. يمكنك القيام بذلك بعد تثبيت الحزمة.

لذلك ، نبدأ استيراد البيانات من CSV. بعد النقر المزدوج فوق الملف ، يعرض Open Office مربع حوار.


لاحظ أنه في OO لا تحتاج إلى إنشاء مصنف جديد وإجبار الاستيراد على البدء ، كل ذلك بمفرده

  1. الترميز - كما في الملف.
  2. "فاصل" هو فاصلة منقوطة. بطبيعة الحال ، إذا كان هو بالضبط الفاصل في الملف.
  3. "فاصل النص" - فارغ (كل نفس في Excel).
  4. في قسم "الحقول" ، أقوم بالنقر فوق المربع العلوي الأيسر من الجدول ، حيث يتم تمييز جميع الأعمدة. أشير إلى نوع "النص".

الشيء الذي أفسد الكثير من الدماء: إذا قمت بتحديد عدة فواصل للحقول عن طريق الخطأ أو تم تقسيم النص الخطأ ، فقد يتم فتح الملف بشكل صحيح ، ولكن قد يتم حفظه بشكل غير صحيح.

بالإضافة إلى Calc ، تحظى libreOffice بشعبية كبيرة في HFLabs ، خاصة في نظام Linux. يتم استخدام كل منهما بشكل أكثر فعالية لملف CSV من Excel.

مسار المكافأة: مشاكل عند الحفظ من Calc إلى .xlsx


إذا قمت بحفظ البيانات من تنسيق Calc إلى Excel .xlsx ، ضع في اعتبارك - OO أحيانًا لا يمكن تفسيره وعلى نطاق واسع يفقد البيانات.


تمتلئ الأراضي القاحلة البيضاء في الوسط بالبيانات الموجودة في ملف CSV الأصلي

لذلك ، بعد الحفظ ، أفتح الملف مرة أخرى وأتأكد من أن البيانات في مكانها الصحيح.

إذا تم فقد شيء ما ، فسيتم توفير العلاج من CSV إلى .xlsx. أو إذا تم تثبيت Windows ، فقم بالاستيراد من CSV إلى Excel واحفظ من هناك.

بعد إعادة الادخار ، سوف أتحقق بالتأكيد مرة أخرى من أن جميع البيانات موجودة ولا توجد خطوط فارغة إضافية.

إذا كنت مهتمًا بالعمل مع البيانات ، فراجع الوظائف الشاغرة لدينا . تحتاج HFLabs دائمًا إلى محللين واختبارين ومهندسي تنفيذ ومطورين. سوف نقدم البيانات بحيث يبدو قليلا :)

Source: https://habr.com/ru/post/ar432906/


All Articles