
منتجات HFLabs في وحدات التخزين الصناعية معالجة البيانات: العناوين والأسماء الكاملة وتفاصيل الشركة وحتى النقل في المجموع. وبطبيعة الحال ، يتعامل المختبرون مع هذه البيانات كل يوم: تحديث حالات الاختبار ، ودراسة نتائج التنظيف. في كثير من الأحيان ، يعطي العملاء قاعدة "حية" للاختبار لتكوين الخدمة لها.
أول شيء نعلمه ضمانات الجودة الجديدة هو حفظ البيانات في شكلها الأصلي. كل ذلك وفقا للعهود: "لا تؤذي". في هذه المقالة ، سأوضح لك كيفية العمل بعناية مع ملفات CSV في Excel و Open Office. ستساعدك النصائح على عدم إفساد أي شيء ، وحفظ المعلومات بعد التحرير والشعور عمومًا بمزيد من الثقة.
المواد الأساسية ، بالتأكيد سيشعر المحترفون بالملل.ما هي ملفات CSV؟
يتم استخدام تنسيق CSV لتخزين الجداول في ملفات نصية. غالبًا ما يتم تجميع البيانات في جداول ، لذا فإن ملفات CSV شائعة جدًا.
يتكون ملف CSV من صفوف البيانات ومحددات تشير إلى حدود الأعمدةCSV تعني القيم المفصولة بفواصل - "القيم مفصولة بفواصل." لكن لا تنخدع بالاسم: فالفواصل المنقوطة وعلامات التبويب يمكن أن تكون بمثابة فواصل أعمدة في ملف CSV. سيظل ملف CSV.
تتمتع CSV بمزايا كثيرة مقارنة بنفس تنسيق Excel: الملفات النصية بسيطة كزر ، وتفتح بسرعة ، وتقرأ على أي جهاز وفي أي بيئة بدون أدوات إضافية.
نظرًا لميزاتها ، يعد CSV تنسيقًا شائعًا لتبادل البيانات ، على الرغم من أنه عمره 40 عامًا بالفعل ، وتستخدم ملفات CSV التطبيقات الصناعية ، فهي تقوم بتنزيل البيانات من قواعد البيانات.
مشكلة واحدة - محرر النص للعمل مع CSV لا يكفي. ومع ذلك ، إذا كان الجدول بسيطًا: في الحقل الأول يكون المعرف من نفس الطول ، وفي الثاني يكون التاريخ بنفس التنسيق ، وفي الثالث يكون بعض العناوين. ولكن عندما تكون الحقول ذات الأطوال المختلفة ، وهناك أكثر من ثلاثة ، يبدأ العذاب.
تتبع الفواصل والأعمدة - تغمض عينيكوالأسوأ من ذلك مع تحليل البيانات - حاول المفكرة لإضافة كل الأرقام على الأقل في عمود على الأقل. أنا لا أتحدث عن رسومات جميلة.
لذلك ، يتم تحليل ملفات CSV وتحريرها في Excel ونظائرها:
Open Office و
LibreOffice وغيرها.
إلى قدامى المحاربين الذين قرأوا مع ذلك: أيها الرجال ، نحن نعلم بالتحليل مباشرة في قاعدة البيانات باستخدام SQL ، ونحن نعلم عن Tableau و Talend Open Studio . هذه المقالة مخصصة للمبتدئين ، ولكن على مستوى أساسي وكمية صغيرة من بيانات Excel مع نظائرها كافية.كيف يفسد Excel البيانات: من الكلاسيكيات
كل شيء سيكون على ما يرام ، ولكن Excel ، بالكاد فتح ملف CSV ، يبدأ الحيل ماكرة. يغير البيانات دون طلب حتى تصبح عديمة القيمة. ويفعل ذلك دون أن يلاحظها أحد. وبسبب هذا ، في وقت واحد انتزعنا مجموعة من المشاكل.
تعود معظم الحوادث إلى حقيقة أن البرنامج يحول السلاسل مع مجموعة من الأرقام إلى أرقام دون طلب.
جولات قبالة. على سبيل المثال ، في الخلية الأصلية ، يتم تخزين هاتفين مفصولين بفواصل بدون مسافات: "5235834.5235835". ماذا سيفعل اكسل؟ يحول المشهور الأرقام إلى رقم واحد ويتم تقريبه إلى منزلتين عشريتين: "5235834.52". لذلك فقدنا الهاتف الثاني.
يؤدي إلى شكل الأسي. يقوم Excel بتحويل "123456789012345" بعناية إلى الرقم "1،2E + 15". نفقد القيمة الأصلية تماما.
المشكلة ذات صلة بالخطوط الطويلة المكونة من خمسة عشر خطًا رقميًا. على سبيل المثال ، رموز CLADR (هذا هو معرف الدولة لكائن العنوان: المدينة ، الشارع ، المنزل).
يزيل المزايا الرائدة. يعتقد Excel أن علامة الجمع في بداية السطر بالأرقام هي حرف غير ضروري تمامًا. مثل ، ومن الواضح أن الرقم إيجابي ، لأنه لا يوجد ناقص أمامه. لذلك ، سيتم تجاهل الإضافة الأولى في الرقم "+74955235834" باعتبارها غير ضرورية - ستظهر "74955235834". (في الواقع ، سيعاني العدد أكثر ، ولكن من أجل الوضوح ، سوف أتوافق مع علامة الجمع).
يعد فقدان علامة زائد أمرًا بالغ الأهمية ، على سبيل المثال ، في حالة انتقال البيانات إلى نظام تابع لجهة خارجية ، ويفحص ذلك التنسيق بشكل صارم عند الاستيراد.
ينهار ثلاثة أرقام. يعد Excel روحًا جيدة ستؤدي إلى تحليل سلسلة رقمية أطول من ثلاثة أحرف. على سبيل المثال ، "8 495 5235834" سوف يتحول إلى "84 955 235 834".
التنسيق مهم على الأقل بالنسبة لأرقام الهواتف: فالمسافات تفصل رموز البلد والمدينة عن بقية العدد وعن بعضها البعض. يتفوق Excel بسهولة على التقسيم الصحيح للهاتف.
يزيل الأصفار الرائدة. سيقوم Excel بتحويل السلسلة "00523446" إلى "523446".
وفي TIN ، على سبيل المثال ، أول رقمين هما رمز المنطقة. بالنسبة لجمهورية ألتاي ، يبدأ من الصفر - "04". بدون الصفر ، سيتم تشويه معنى الرقم ، ولن يتم التحقق من تنسيق INN على الإطلاق.
يغير التواريخ إلى الإعدادات المحلية. سيقوم Excel بتصحيح رقم المنزل "1/2" إلى "01. فبراير" لأن نظام التشغيل Windows اقترح أنه في هذا النموذج ، سيكون من المناسب لك قراءة التواريخ.
نحن هزيمة تلف البيانات عن طريق الاستيراد السليم
لكن على محمل الجد ، لا يتحمل برنامج Excel المسؤولية عن المشكلات ، ولكنه طريقة غير واضحة لاستيراد البيانات إلى البرنامج.
افتراضيًا ، يطبق Excel النوع العام على البيانات الموجودة في ملف CSV الذي تم تنزيله - النوع العام. بسبب ذلك ، يتعرف البرنامج على الأوتار الرقمية كأرقام. يمكن هزيمة هذا الطلب باستخدام أداة الاستيراد المدمجة.
أبدأ آلية الاستيراد المضمنة في Excel. في القائمة هو "البيانات → الحصول على البيانات الخارجية → من النص".
يمكنني تحديد ملف CSV مع البيانات ، يفتح مربع حوار. في مربع الحوار ، انقر فوق نوع الملف المحدد (محدد). الترميز - عادة ما يتم تحديد الملف الموجود في الملف تلقائيًا. إذا كان السطر الأول من الملف عبارة عن رأس ، فسأضع علامة على "بياناتي تحتوي على رؤوس".
أذهب إلى الخطوة الثانية من الحوار. أختار فاصل الحقل (عادة فاصلة منقوطة - فاصلة منقوطة). أطفئ "معاملة المحددات المتتالية كواحد" ، واضبط "مؤهل النص" على "{بلا}". (مؤهل النص هو رمز لبداية ونهاية النص. إذا كان الفاصل في CSV فاصلة ، فسيكون مؤهل النص مطلوبًا لتمييز الفواصل داخل النص عن فواصل الفاصل.)
في الخطوة الثالثة ، اخترت تنسيق الحقول ، من أجل ذلك بدأ كل شيء. بالنسبة لجميع الأعمدة ، اضبط النوع على "نص". بالمناسبة ، إذا قمت بالنقر فوق العمود الأول ، فاستمر في الضغط على المفتاح "shift" وانقر فوق "الأخير" ، وسيتم تمييز جميع الأعمدة مرة واحدة. مريح.
بعد ذلك ، سيسأل Excel عن مكان لصق البيانات من ملف CSV - يمكنك فقط النقر فوق "موافق" ، وستظهر البيانات في ورقة مفتوحة.
يجب عليك إنشاء مصنف جديد في Excel قبل الاستيرادلكن! إذا كنت تخطط لإضافة بيانات إلى ملف CSV عبر Excel ، فهناك شيء آخر يجب القيام به.بعد الاستيراد ، من الضروري إجبار جميع الخلايا على الورقة على تنسيق "النص". خلاف ذلك ، ستكتسب الحقول الجديدة نفس النوع عام.
- أضغط على Ctrl + A مرتين ، يقوم Excel بتحديد جميع الخلايا الموجودة على الورقة ؛
- أنا انقر فوق زر الماوس الأيمن.
- اخترت "تنسيق الخلايا" في قائمة السياق ؛
- في مربع الحوار الذي يفتح ، حدد نوع بيانات النص على اليسار.
لتحديد كل الخلايا ، تحتاج إلى الضغط على Ctrl + A مرتين. بالضبط اثنين ، وهذا ليس مزحة ، حاولبعد ذلك ، مع أي حظ ، سيترك Excel البيانات الأصلية وحدها. لكن هذا ليس أصعب ضمان ، لذلك بعد الحفظ ، سنقوم بالتأكيد بفحص الملف من خلال عارض النصوص.
البديل: افتح مكتب Calc
للعمل مع ملفات CSV ، أستخدم Calc. ليس أنها لا تعتبر البيانات الرقمية سلاسل على الإطلاق ، ولكنها على الأقل لا تطبق إعادة التنسيق عليها وفقًا للإعدادات الإقليمية لنظام Windows. نعم ، والاستيراد أبسط.
بالطبع ، ستحتاج إلى حزمة Open Office (OO). أثناء التثبيت ، سيعرض إعادة تعيين ملفات MS Office لنفسه. لا أوصي: على الرغم من أن OO وظيفية تمامًا ، إلا أنها لا تفهم تمامًا تنسيق Microsoft الصعب للوثائق.
ولكن لجعل OO البرنامج الافتراضي لملفات CSV معقول للغاية. يمكنك القيام بذلك بعد تثبيت الحزمة.
لذلك ، نبدأ استيراد البيانات من CSV. بعد النقر المزدوج فوق الملف ، يعرض Open Office مربع حوار.
لاحظ أنه في OO لا تحتاج إلى إنشاء مصنف جديد وإجبار الاستيراد على البدء ، كل ذلك بمفرده- الترميز - كما في الملف.
- "فاصل" هو فاصلة منقوطة. بطبيعة الحال ، إذا كان هو بالضبط الفاصل في الملف.
- "فاصل النص" - فارغ (كل نفس في Excel).
- في قسم "الحقول" ، أقوم بالنقر فوق المربع العلوي الأيسر من الجدول ، حيث يتم تمييز جميع الأعمدة. أشير إلى نوع "النص".
الشيء الذي أفسد الكثير من الدماء: إذا قمت بتحديد عدة فواصل للحقول عن طريق الخطأ أو تم تقسيم النص الخطأ ، فقد يتم فتح الملف بشكل صحيح ، ولكن قد يتم حفظه بشكل غير صحيح.
بالإضافة إلى Calc ، تحظى libreOffice بشعبية كبيرة في HFLabs ، خاصة في نظام Linux. يتم استخدام كل منهما بشكل أكثر فعالية لملف CSV من Excel.
مسار المكافأة: مشاكل عند الحفظ من Calc إلى .xlsx
إذا قمت بحفظ البيانات من تنسيق Calc إلى Excel .xlsx ، ضع في اعتبارك - OO أحيانًا لا يمكن تفسيره وعلى نطاق واسع يفقد البيانات.
تمتلئ الأراضي القاحلة البيضاء في الوسط بالبيانات الموجودة في ملف CSV الأصليلذلك ، بعد الحفظ ، أفتح الملف مرة أخرى وأتأكد من أن البيانات في مكانها الصحيح.
إذا تم فقد شيء ما ، فسيتم توفير العلاج من CSV إلى .xlsx. أو إذا تم تثبيت Windows ، فقم بالاستيراد من CSV إلى Excel واحفظ من هناك.
بعد إعادة الادخار ، سوف أتحقق بالتأكيد مرة أخرى من أن جميع البيانات موجودة ولا توجد خطوط فارغة إضافية.
إذا كنت مهتمًا بالعمل مع البيانات ، فراجع الوظائف الشاغرة لدينا . تحتاج HFLabs دائمًا إلى محللين واختبارين ومهندسي تنفيذ ومطورين. سوف نقدم البيانات بحيث يبدو قليلا :)