स्रोतयुक्तियाँ और चालें, विशेष रूप से प्रोग्रामिंग में, बहुत मददगार हो सकती हैं। एक छोटा शॉटकट, एडऑन या हैक एक टन समय बचा सकता है और नाटकीय रूप से उत्पादकता बढ़ा सकता है। मैंने अपने पसंदीदा लोगों को इकट्ठा किया और उनमें से यह लेख बनाया। नीचे दिए गए सुझावों में से कुछ पहले से ही कई के लिए जाने जाते हैं, और कुछ हाल ही में दिखाई दिए हैं। एक तरह से या किसी अन्य, मुझे यकीन है कि जब आप एक बार फिर से डेटा विश्लेषण परियोजना शुरू करते हैं तो वे निश्चित रूप से अतिश्योक्तिपूर्ण नहीं होंगे।
1. पंडाल डाटाफ्रेम की रूपरेखा तैयार करना
प्रोफाइलिंग आपको हमारे डेटा को बेहतर ढंग से समझने में मदद करता है, और पंडास प्रोफाइलिंग पैकेज सिर्फ इसके लिए बनाया गया था। पुस्तकालय पंडों के डेटाफ्रेम के अन्वेषणात्मक विश्लेषण को आसानी से और जल्दी से करने का अवसर प्रदान करेगा। आमतौर पर, ऐसे मामलों में, df.describe () और df.info () फ़ंक्शन का उपयोग पहले चरण के रूप में किया जाता है, लेकिन वे बहुत कम रिपोर्ट करते हैं और बड़े डेटा सेट के साथ खराब करते हैं। इसके विपरीत, पंडों की रूपरेखा का उपयोग करते हुए कोड की एक पंक्ति, एक इंटरैक्टिव HTML रिपोर्ट में बहुत सारी जानकारी का उत्पादन करेगी।
यहां एक निर्दिष्ट डेटासेट के लिए गणना की गई है:
पंडों प्रोफाइलिंग द्वारा सांख्यिकी उत्पादन।स्थापना
pip install pandas-profiling conda install -c anaconda pandas-profiling
के उपयोग
प्रोफाइलर को दिखाने के लिए टाइटैनिक पैसेंजर डेटासेट का इस्तेमाल करते हैं।
# import pandas as pd import pandas_profiling
df = pd.read_csv('titanic/train.csv') pandas_profiling.ProfileReport(df)
यह आपको केवल प्रोफाइलिंग परिणाम प्रदर्शित करने की आवश्यकता है। रिपोर्ट विवरणों से भरी है, जिसमें उपयुक्त, चार्ट शामिल हैं।
रिपोर्ट को एक इंटरैक्टिव HTML फ़ाइल में निर्यात किया जा सकता है:
profile = pandas_profiling.ProfileReport(df) profile.to_file(outputfile="Titanic data profiling.html")
लाइव देखने के लिए यहां क्लिक करें ।
( उदाहरण के साथ फ़ोल्डर - लगभग अनुवाद।)
2. पंडों ग्राफिक्स इंटरएक्टिव बनाना
पंडों में DataFrame वर्ग में एक अंतर्निर्मित .plot () फ़ंक्शन होता है। हालांकि, इसकी मदद से बनाया गया दृश्य इंटरैक्टिव नहीं है, जिसे मैं सुधारना चाहूंगा। दूसरी ओर, मैं फ़ंक्शन का उपयोग करने की सादगी से इनकार नहीं करना चाहता हूं। क्या होगा अगर हम वास्तव में कोड में कोई बदलाव किए बिना पंडों के ग्राफिक्स को इंटरैक्टिव बना सकते हैं? कफ़लिंक लाइब्रेरी के साथ भी यही संभव है ।
कफ़लिंक इंटरैक्टिव रेखांकन के लिए पंडों के लचीलेपन के साथ कथानक की ताकत को जोड़ता है। आइए देखें कि आप लाइब्रेरी को कैसे स्थापित कर सकते हैं और इसे पंडों के साथ काम कर सकते हैं।
स्थापना
pip install plotly # Plotly Cufflinks pip install cufflinks
के उपयोग
# Pandas import pandas as pd # plotly cufflinks import cufflinks as cf
import plotly.offline cf.go_offline() cf.set_config_file(offline=False, world_readable=True)
टाइटैनिक के यात्रियों पर डेटा पर साधन की सभी शक्ति को देखने का समय।
df.iplot()
df.plot () df.iplot () की तुलना मेंनीचे का दृश्य एक स्थिर आरेख दिखाता है, जबकि ऊपरी आरेख संवादात्मक और अधिक विस्तृत है, सभी बिना किसी महत्वपूर्ण वाक्यविन्यास परिवर्तन के।
यहां आप अधिक उदाहरण देख सकते हैं।
3. थोड़ा सा जादू
मैजिक कमांड मानक डेटा विश्लेषण के सामान्य कार्यों को हल करने के लिए डिज़ाइन किए गए जुपिटर लैपटॉप में सुविधाजनक कार्यों का एक समूह है। आप सभी उपलब्ध सुविधाओं को % lsmagic के साथ देख सकते हैं।
सभी उपलब्ध "जादू" कार्यों की सूचीदो प्रकार के जादू कमांड हैं: लाइन मैजिक्स , जो एक % से शुरू होता है और एक ही लाइन पर काम करता है; और सेल मैजिक , जो डबल %% से जुड़े हैं और कई लाइनों पर काम करते हैं।
आइए उन लोगों को देखें जो सामान्य डेटा विश्लेषण कार्यों में उपयोगी हैं:
% pastebin Pastebin में कोड लोड करता है और url लौटाता है। पास्टबिन एक ऐसी साइट है जहां हम सादे पाठ को सहेज सकते हैं, उदाहरण के लिए, स्रोत कोड का एक टुकड़ा, फिर दूसरों को इसके लिए लिंक पास करें। वास्तव में, GitHub Gist Pastebin के समान है, यद्यपि संस्करण नियंत्रण के साथ।
निम्नलिखित स्क्रिप्ट पर विचार करें:
# file.py def foo(x): return x
Jupyter नोटबुक में % pastebin का उपयोग करना Pastebin पर url बनाएगा।
% Matplotlib इनलाइन कमांड का उपयोग Jupyter नोटबुक में matplotlib स्थिर भूखंडों की कल्पना करने के लिए किया जाता है। स्केलेबल और म्यूटेबल चार्ट प्राप्त करने के लिए नोटबुक के साथ इनलाइन को बदलें। बस यह सुनिश्चित करें कि matplotlib आयात करने से पहले कमांड जोड़ा गया है।
% matplotlib नोटबुक की तुलना में % matplotlib इनलाइन% रन कमांड जुपिटर नोटबुक के अंदर स्क्रिप्ट चलाता है।
%run file.py
%% राइटफाइल सेल की सामग्री को फाइल में लिखता है। नीचे दिए गए कोड को foo.py नाम की फ़ाइल में लिखा जाएगा और वर्तमान निर्देशिका में सहेजा जाएगा।
%% लेटेक्स फ़ंक्शन सेल की सामग्री को LaTeX के रूप में प्रदर्शित करता है। यह एक सेल में गणितीय सूत्र और समीकरण लिखने के लिए उपयोगी है।
4. समस्या निवारण
इंटरैक्टिव डिबगर भी एक जादू टीम है, लेकिन मैंने इसे अपनी श्रेणी दी। यदि कोड के साथ सेल शुरू करते समय अपवाद होता है, तो एक नई लाइन पर % डिबग कमांड दर्ज करें और इसे निष्पादित करें। एक इंटरैक्टिव डिबगिंग वातावरण खुलता है, वह स्थान दिखाता है जहां अपवाद हुआ। आप चर के मूल्यों की जांच कर सकते हैं और विभिन्न ऑपरेशन कर सकते हैं। डिबगर से बाहर निकलने के लिए, q दबाएं।
5. निष्कर्ष सुंदर हो सकता है
यदि आप चाहते हैं कि आपकी डेटा संरचनाएं खूबसूरती से प्रदर्शित हों, तो प्रिंट आपकी पसंद है। यह विशेष रूप से उपयोगी है जब शब्दकोशों या JSON डेटा को प्रिंट करना। आइए कोड को देखें जो आउटपुट के लिए प्रिंट और प्रिंट दोनों का उपयोग करता है।
6. हाइलाइटिंग नोट्स
हम कुछ महत्वपूर्ण चीजों को उजागर करने के लिए अपने ज्यूपिटर नोटबुक में अलर्ट का उपयोग कर सकते हैं। रंग चेतावनी के प्रकार पर निर्भर करेगा। जिस सेल को आप हाइलाइट करना चाहते हैं, उसमें निम्न या सभी कोड जोड़ें।
<div class="alert alert-block alert-info"> <b>Tip:</b> Use blue boxes (alert-info) for tips and notes. If it's a note, you don't have to include the word “Note”. </div>
<div class="alert alert-block alert-warning"> <b>Example:</b> Yellow Boxes are generally used to include additional examples or mathematical formulas. </div>
<div class="alert alert-block alert-success"> Use green box only when necessary like to display links to related content. </div>
<div class="alert alert-block alert-danger"> It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc. </div>
7. एक सेल में प्रत्येक आउटपुट प्रिंट करें
इस कोड से युक्त ज्यूपिटर नोटबुक सेल पर विचार करें:
In [1]: 10+5 11+6
Out [1]: 17
यह सेल की एक सामान्य संपत्ति है जो केवल अंतिम आउटपुट मुद्रित होती है, और अन्य के लिए हमें प्रिंट () फ़ंक्शन को जोड़ना होगा। ठीक है, यह पता चला है कि हम ऊपर से निम्नलिखित टुकड़े जोड़कर सभी निष्कर्षों को प्रिंट कर सकते हैं:
from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all"
अब सभी निष्कर्ष एक के बाद एक मुद्रित होते हैं।
In [1]: 10+5 11+6 12+7
Out [1]: 15 Out [1]: 17 Out [1]: 19
प्रारंभिक सेटिंग पर लौटने के लिए:
InteractiveShell.ast_node_interactivity = "last_expr"
8. -i विकल्प के साथ पायथन स्क्रिप्ट चला रहा है।
कमांड लाइन से पायथन लिपि को चलाने का एक विशिष्ट तरीका है: पायथन हेल्लोस्टोन । हालांकि, यदि आप पैरामीटर जोड़ते हैं - i, i.e. python -i hello.py को कॉल करें आपको बहुत कुछ मिलेगा। आइए देखें क्या है।
- सबसे पहले, कार्यक्रम के अंत तक पहुंचने के बाद, पायथन अब दुभाषिया से बाहर नहीं निकलता है। इस प्रकार, हम चर के मूल्यों और हमारे कार्यक्रम में परिभाषित कार्यों की शुद्धता की जांच कर सकते हैं।
- दूसरे, चूंकि हम अभी भी दुभाषिया में हैं, हम आसानी से अजगर डिबगर कह सकते हैं:
import pdb pdb.pm()
यह हमें उस स्थान पर ले जाएगा जहां अपवाद हुआ, और हम कोड पर काम करना जारी रख सकते हैं।
सुविधाओं का मूल स्रोत ।
9. स्वचालित (रास) टिप्पणी कोडिंग
Ctrl / Cmd + / स्वचालित रूप से सेल में चयनित लाइनों पर टिप्पणी करता है। संयोजन को फिर से दबाने से समान पंक्तियाँ असहज हो जाएंगी।
(यह, वैसे, जैसे कि Pycharm या उदात्त पाठ - लगभग सभी संपादकों के लिए सही है। अनुवाद। अनुवाद)
10. यादृच्छिक क्रियाओं को रद्द करना
क्या आपने कभी गलती से एक ज्यूपिटर नोटबुक सेल को हटा दिया है? यदि हां, तो यहां शॉटकट हैं जो इस कार्रवाई को रद्द कर देंगे।
- यदि आपने सेल के अंदर की सामग्रियों को हटा दिया है, तो आप CTRL / CMD + Z दबाकर इसे आसानी से बहाल कर सकते हैं
- यदि आपको हटाए गए सेल को स्वयं पुनर्स्थापित करने की आवश्यकता है - ESC + Z या EDIT> सेल हटाएं
निष्कर्ष
इस लेख में, मैंने उन बुनियादी युक्तियों को सूचीबद्ध किया है जो पायथन और जुपिटर नोटबुक के साथ काम करते समय मेरी मदद करते हैं। मुझे आशा है कि वे आपकी भी मदद करेंगे। हैप्पी कोडिंग!