पायथन में डेटा विश्लेषण को गति देने के लिए 10 सुविधाएँ

स्रोत

युक्तियाँ और चालें, विशेष रूप से प्रोग्रामिंग में, बहुत मददगार हो सकती हैं। एक छोटा शॉटकट, एडऑन या हैक एक टन समय बचा सकता है और नाटकीय रूप से उत्पादकता बढ़ा सकता है। मैंने अपने पसंदीदा लोगों को इकट्ठा किया और उनमें से यह लेख बनाया। नीचे दिए गए सुझावों में से कुछ पहले से ही कई के लिए जाने जाते हैं, और कुछ हाल ही में दिखाई दिए हैं। एक तरह से या किसी अन्य, मुझे यकीन है कि जब आप एक बार फिर से डेटा विश्लेषण परियोजना शुरू करते हैं तो वे निश्चित रूप से अतिश्योक्तिपूर्ण नहीं होंगे।


1. पंडाल डाटाफ्रेम की रूपरेखा तैयार करना


प्रोफाइलिंग आपको हमारे डेटा को बेहतर ढंग से समझने में मदद करता है, और पंडास प्रोफाइलिंग पैकेज सिर्फ इसके लिए बनाया गया था। पुस्तकालय पंडों के डेटाफ्रेम के अन्वेषणात्मक विश्लेषण को आसानी से और जल्दी से करने का अवसर प्रदान करेगा। आमतौर पर, ऐसे मामलों में, df.describe () और df.info () फ़ंक्शन का उपयोग पहले चरण के रूप में किया जाता है, लेकिन वे बहुत कम रिपोर्ट करते हैं और बड़े डेटा सेट के साथ खराब करते हैं। इसके विपरीत, पंडों की रूपरेखा का उपयोग करते हुए कोड की एक पंक्ति, एक इंटरैक्टिव HTML रिपोर्ट में बहुत सारी जानकारी का उत्पादन करेगी।


यहां एक निर्दिष्ट डेटासेट के लिए गणना की गई है:


पंडों प्रोफाइलिंग द्वारा सांख्यिकी उत्पादन।

स्थापना


pip install pandas-profiling  conda install -c anaconda pandas-profiling 

के उपयोग


प्रोफाइलर को दिखाने के लिए टाइटैनिक पैसेंजर डेटासेट का इस्तेमाल करते हैं।


 #    import pandas as pd import pandas_profiling 

 df = pd.read_csv('titanic/train.csv') pandas_profiling.ProfileReport(df) 

यह आपको केवल प्रोफाइलिंग परिणाम प्रदर्शित करने की आवश्यकता है। रिपोर्ट विवरणों से भरी है, जिसमें उपयुक्त, चार्ट शामिल हैं।



रिपोर्ट को एक इंटरैक्टिव HTML फ़ाइल में निर्यात किया जा सकता है:


 profile = pandas_profiling.ProfileReport(df) profile.to_file(outputfile="Titanic data profiling.html") 


लाइव देखने के लिए यहां क्लिक करें


( उदाहरण के साथ फ़ोल्डर - लगभग अनुवाद।)




2. पंडों ग्राफिक्स इंटरएक्टिव बनाना


पंडों में DataFrame वर्ग में एक अंतर्निर्मित .plot () फ़ंक्शन होता है। हालांकि, इसकी मदद से बनाया गया दृश्य इंटरैक्टिव नहीं है, जिसे मैं सुधारना चाहूंगा। दूसरी ओर, मैं फ़ंक्शन का उपयोग करने की सादगी से इनकार नहीं करना चाहता हूं। क्या होगा अगर हम वास्तव में कोड में कोई बदलाव किए बिना पंडों के ग्राफिक्स को इंटरैक्टिव बना सकते हैं? कफ़लिंक लाइब्रेरी के साथ भी यही संभव है


कफ़लिंक इंटरैक्टिव रेखांकन के लिए पंडों के लचीलेपन के साथ कथानक की ताकत को जोड़ता है। आइए देखें कि आप लाइब्रेरी को कैसे स्थापित कर सकते हैं और इसे पंडों के साथ काम कर सकते हैं।


स्थापना


 pip install plotly # Plotly     Cufflinks pip install cufflinks 

के उपयोग


 #  Pandas import pandas as pd # plotly  cufflinks    import cufflinks as cf 

 import plotly.offline cf.go_offline() cf.set_config_file(offline=False, world_readable=True) 

टाइटैनिक के यात्रियों पर डेटा पर साधन की सभी शक्ति को देखने का समय।


 df.iplot() 

df.plot () df.iplot () की तुलना में

नीचे का दृश्य एक स्थिर आरेख दिखाता है, जबकि ऊपरी आरेख संवादात्मक और अधिक विस्तृत है, सभी बिना किसी महत्वपूर्ण वाक्यविन्यास परिवर्तन के।


यहां आप अधिक उदाहरण देख सकते हैं।




3. थोड़ा सा जादू


मैजिक कमांड मानक डेटा विश्लेषण के सामान्य कार्यों को हल करने के लिए डिज़ाइन किए गए जुपिटर लैपटॉप में सुविधाजनक कार्यों का एक समूह है। आप सभी उपलब्ध सुविधाओं को % lsmagic के साथ देख सकते हैं।


सभी उपलब्ध "जादू" कार्यों की सूची

दो प्रकार के जादू कमांड हैं: लाइन मैजिक्स , जो एक % से शुरू होता है और एक ही लाइन पर काम करता है; और सेल मैजिक , जो डबल %% से जुड़े हैं और कई लाइनों पर काम करते हैं।


आइए उन लोगों को देखें जो सामान्य डेटा विश्लेषण कार्यों में उपयोगी हैं:


  • % पास्टबीन

% pastebin Pastebin में कोड लोड करता है और url लौटाता है। पास्टबिन एक ऐसी साइट है जहां हम सादे पाठ को सहेज सकते हैं, उदाहरण के लिए, स्रोत कोड का एक टुकड़ा, फिर दूसरों को इसके लिए लिंक पास करें। वास्तव में, GitHub Gist Pastebin के समान है, यद्यपि संस्करण नियंत्रण के साथ।


निम्नलिखित स्क्रिप्ट पर विचार करें:


 # file.py def foo(x): return x 

Jupyter नोटबुक में % pastebin का उपयोग करना Pastebin पर url बनाएगा।



  • % मटप्लोटलिब नोटबुक

% Matplotlib इनलाइन कमांड का उपयोग Jupyter नोटबुक में matplotlib स्थिर भूखंडों की कल्पना करने के लिए किया जाता है। स्केलेबल और म्यूटेबल चार्ट प्राप्त करने के लिए नोटबुक के साथ इनलाइन को बदलें। बस यह सुनिश्चित करें कि matplotlib आयात करने से पहले कमांड जोड़ा गया है।


% matplotlib नोटबुक की तुलना में % matplotlib इनलाइन
  • % रन

% रन कमांड जुपिटर नोटबुक के अंदर स्क्रिप्ट चलाता है।


 %run file.py 

  • %% राइटफाइल

%% राइटफाइल सेल की सामग्री को फाइल में लिखता है। नीचे दिए गए कोड को foo.py नाम की फ़ाइल में लिखा जाएगा और वर्तमान निर्देशिका में सहेजा जाएगा।



  • %% लेटेक्स

%% लेटेक्स फ़ंक्शन सेल की सामग्री को LaTeX के रूप में प्रदर्शित करता है। यह एक सेल में गणितीय सूत्र और समीकरण लिखने के लिए उपयोगी है।





4. समस्या निवारण


इंटरैक्टिव डिबगर भी एक जादू टीम है, लेकिन मैंने इसे अपनी श्रेणी दी। यदि कोड के साथ सेल शुरू करते समय अपवाद होता है, तो एक नई लाइन पर % डिबग कमांड दर्ज करें और इसे निष्पादित करें। एक इंटरैक्टिव डिबगिंग वातावरण खुलता है, वह स्थान दिखाता है जहां अपवाद हुआ। आप चर के मूल्यों की जांच कर सकते हैं और विभिन्न ऑपरेशन कर सकते हैं। डिबगर से बाहर निकलने के लिए, q दबाएं।





5. निष्कर्ष सुंदर हो सकता है


यदि आप चाहते हैं कि आपकी डेटा संरचनाएं खूबसूरती से प्रदर्शित हों, तो प्रिंट आपकी पसंद है। यह विशेष रूप से उपयोगी है जब शब्दकोशों या JSON डेटा को प्रिंट करना। आइए कोड को देखें जो आउटपुट के लिए प्रिंट और प्रिंट दोनों का उपयोग करता है।





6. हाइलाइटिंग नोट्स


हम कुछ महत्वपूर्ण चीजों को उजागर करने के लिए अपने ज्यूपिटर नोटबुक में अलर्ट का उपयोग कर सकते हैं। रंग चेतावनी के प्रकार पर निर्भर करेगा। जिस सेल को आप हाइलाइट करना चाहते हैं, उसमें निम्न या सभी कोड जोड़ें।


  • ब्लू अलर्ट: जानकारी

 <div class="alert alert-block alert-info"> <b>Tip:</b> Use blue boxes (alert-info) for tips and notes. If it's a note, you don't have to include the word “Note”. </div> 


  • पीला अलर्ट: चेतावनी

 <div class="alert alert-block alert-warning"> <b>Example:</b> Yellow Boxes are generally used to include additional examples or mathematical formulas. </div> 


  • ग्रीन अलर्ट: सफलता

 <div class="alert alert-block alert-success"> Use green box only when necessary like to display links to related content. </div> 


  • रेड अलर्ट: खतरा

 <div class="alert alert-block alert-danger"> It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc. </div> 




7. एक सेल में प्रत्येक आउटपुट प्रिंट करें


इस कोड से युक्त ज्यूपिटर नोटबुक सेल पर विचार करें:


 In [1]: 10+5 11+6 

 Out [1]: 17 

यह सेल की एक सामान्य संपत्ति है जो केवल अंतिम आउटपुट मुद्रित होती है, और अन्य के लिए हमें प्रिंट () फ़ंक्शन को जोड़ना होगा। ठीक है, यह पता चला है कि हम ऊपर से निम्नलिखित टुकड़े जोड़कर सभी निष्कर्षों को प्रिंट कर सकते हैं:


 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" 

अब सभी निष्कर्ष एक के बाद एक मुद्रित होते हैं।


 In [1]: 10+5 11+6 12+7 

 Out [1]: 15 Out [1]: 17 Out [1]: 19 

प्रारंभिक सेटिंग पर लौटने के लिए:


 InteractiveShell.ast_node_interactivity = "last_expr" 



8. -i विकल्प के साथ पायथन स्क्रिप्ट चला रहा है।


कमांड लाइन से पायथन लिपि को चलाने का एक विशिष्ट तरीका है: पायथन हेल्लोस्टोन । हालांकि, यदि आप पैरामीटर जोड़ते हैं - i, i.e. python -i hello.py को कॉल करें आपको बहुत कुछ मिलेगा। आइए देखें क्या है।


  • सबसे पहले, कार्यक्रम के अंत तक पहुंचने के बाद, पायथन अब दुभाषिया से बाहर नहीं निकलता है। इस प्रकार, हम चर के मूल्यों और हमारे कार्यक्रम में परिभाषित कार्यों की शुद्धता की जांच कर सकते हैं।


  • दूसरे, चूंकि हम अभी भी दुभाषिया में हैं, हम आसानी से अजगर डिबगर कह सकते हैं:

 import pdb pdb.pm() 

यह हमें उस स्थान पर ले जाएगा जहां अपवाद हुआ, और हम कोड पर काम करना जारी रख सकते हैं।


सुविधाओं का मूल स्रोत




9. स्वचालित (रास) टिप्पणी कोडिंग


Ctrl / Cmd + / स्वचालित रूप से सेल में चयनित लाइनों पर टिप्पणी करता है। संयोजन को फिर से दबाने से समान पंक्तियाँ असहज हो जाएंगी।


(यह, वैसे, जैसे कि Pycharm या उदात्त पाठ - लगभग सभी संपादकों के लिए सही है। अनुवाद। अनुवाद)





10. यादृच्छिक क्रियाओं को रद्द करना


क्या आपने कभी गलती से एक ज्यूपिटर नोटबुक सेल को हटा दिया है? यदि हां, तो यहां शॉटकट हैं जो इस कार्रवाई को रद्द कर देंगे।


  • यदि आपने सेल के अंदर की सामग्रियों को हटा दिया है, तो आप CTRL / CMD + Z दबाकर इसे आसानी से बहाल कर सकते हैं
  • यदि आपको हटाए गए सेल को स्वयं पुनर्स्थापित करने की आवश्यकता है - ESC + Z या EDIT> सेल हटाएं




निष्कर्ष


इस लेख में, मैंने उन बुनियादी युक्तियों को सूचीबद्ध किया है जो पायथन और जुपिटर नोटबुक के साथ काम करते समय मेरी मदद करते हैं। मुझे आशा है कि वे आपकी भी मदद करेंगे। हैप्पी कोडिंग!

Source: https://habr.com/ru/post/hi457302/


All Articles