अनुवाद "आर पर लागू विश्लेषिकी" पाठ्यक्रम के छात्रों के लिए तैयार किया गया था।

हम, एक डेटा वैज्ञानिक के रूप में, अक्सर एक डेटा सेट दिया जाता है और जानकारी प्राप्त करने के लिए इसका उपयोग करने के लिए कहा जाता है। हम परिणाम साझा करने या उन्हें प्रकाशित करने के लिए प्रसंस्करण, विज़ुअलाइज़ेशन, मॉडलिंग, टेबल और ग्राफ़ तैयार करने के लिए आर का उपयोग करते हैं। यदि हम इस तरह से डेटा को देखते हैं, तो इससे कोई फर्क नहीं पड़ता कि डेटा कहाँ से आया है। नमूना आकार, सुविधाओं का सेट और उनके पैमाने तय किए जाते हैं। हालांकि, डेटा एकत्र करने या उत्पन्न करने के लिए उपयोग की जाने वाली प्रक्रियाएं भविष्य के विश्लेषण के लिए अत्यंत महत्वपूर्ण हैं, साथ ही सूचना की गुणवत्ता के लिए जो हम अंततः प्राप्त कर सकते हैं। डेटा संग्रह प्रक्रिया प्रभावित करती है कि डेटा का विश्लेषण कैसे किया जाना चाहिए। अध्ययन के लिए जो कार्य-कारण को मापता है, यह महत्वपूर्ण है कि कौन से डेटा को ध्यान में रखा जाए और कौन सा नहीं।

चूंकि ये प्रक्रियाएं बहुत महत्वपूर्ण हैं, इसलिए हम एक ऐसा उपकरण बनाना चाहते थे जो वैज्ञानिकों और अन्य शोधकर्ताओं को एकत्र करने से पहले उनके डेटा को प्रस्तुत (अनुकरण) करने में मदद करे, ताकि डेटा संग्रह चरण में कोई भी बदलाव होने से पहले ही बहुत देर हो जाए।

यदि डेटा पहले से ही एकत्र किया गया है, तो उपकरण आपको विश्लेषण करने से पहले अपने डेटा की कल्पना करने की अनुमति देता है। जब हम प्रत्येक ऑपरेशन से प्राप्त परिणामों के आधार पर डेटा प्रोसेसिंग और मॉडलिंग के बारे में निर्णय लेते हैं, या सांख्यिकीय मॉडल का उपयोग करते हैं, तो हम अनजाने में ऐसे पूर्वाग्रहों के प्रति संवेदनशील होते हैं, जैसे "पथों का बगीचा" या पी-हैकिंग , जो हमें विश्लेषण प्रक्रिया का चयन करने के लिए प्रेरित कर सकते हैं। जो सबसे अच्छा परिणाम देगा। हम वास्तविक डेटा का उपयोग करते हैं क्योंकि हमारे पास एक अच्छा विकल्प नहीं है: उसी संरचना और विशेषताओं के साथ कोई डेटा नहीं है जिसे हमने एकत्र किया है।

यह लेख फैब्रैट्रर पैकेज ( डेक्लेयरडिजाइन सूट ऑफ पैकेज्स ) से परिचय कराता है, जिसकी भूमिका डेटा संरचना और विशेषताओं को मॉडल करना है। अपने दर्शन का वर्णन करने वाले RViews पर एक DeclareDesign समीक्षा देखें। फैब्रैट्रैट आपको विश्लेषण या यहां तक कि संग्रह शुरू करने से पहले अपने डेटा के बारे में सोचने में मदद करता है। किस तरह का डेटा? वे कैसे संरचित हैं? आप क्या माप लेंगे? उनकी सीमाएं क्या हैं और वे कैसे सहसंबद्ध हैं? फैब्रैट्र आपको वास्तविक डेटा एकत्र करने से पहले डमी डेटा का अनुकरण करने और आपकी मान्यताओं को बदलने की चिंता किए बिना विभिन्न मूल्यांकन रणनीतियों का परीक्षण करने में मदद कर सकता है।

अपनी डेटा संरचना की कल्पना करें

सरलतम मामले में, फैब्रैट्र एक दिए गए राशि के साथ एकल-स्तरीय डेटा संरचना बनाएगा।

library(fabricatr) fabricate(N = 100, temp_fahrenheit = rnorm(N, mean = 80, sd = 20)) ## Warning: `is_lang()` is deprecated as of rlang 0.2.0. ## Please use `is_call()` instead. ## This warning is displayed once per session. ## Warning: `lang_name()` is deprecated as of rlang 0.2.0. ## Please use `call_name()` instead. ## This warning is displayed once per session.

आईडी	TEMP_FAHRENHEIT
001	56.6
002	46.3
003	90.5
004	75.1
005	85.1
006	102.8

समाजशास्त्रीय डेटा अक्सर पदानुक्रमित होता है । उदाहरण के लिए, स्कूलों में कक्षाएं होती हैं, कक्षाओं में छात्र होते हैं। Add_level कमांड का उपयोग करके, फैब्रैट्र इस समस्या को भी हल करेगा। डिफ़ॉल्ट रूप से, नए स्तरों को उच्च स्तरों में नेस्टेड किया जाता है।

 library(fabricatr) fabricate( # five schools school = add_level(N = 5, n_classrooms = sample(10:15, N, replace = TRUE)), # 10 to 15 classrooms per school classroom = add_level(N = n_classrooms), # 15 students per classroom student = add_level(N = 15) ) ## Warning: `lang_modify()` is deprecated as of rlang 0.2.0. ## Please use `call_modify()` instead. ## This warning is displayed once per session.

स्कूल	N_CLASSROOMS	कक्षा	छात्र
1	12	01	001
1	12	01	002
1	12	01	003
1	12	01	004
1	12	01	005
1	12	01	006

वास्तविक दुनिया में, अनियमित, अतिव्यापी पदानुक्रम अक्सर उत्पन्न होते हैं। उदाहरण के लिए, छात्र का डेटा हाई स्कूल के साथ-साथ हाई स्कूल से भी प्राप्त किया जा सकता है। इस मामले में, छात्र दो अलग-अलग स्कूलों में होंगे और ये स्कूल एक-दूसरे से जुड़े नहीं होंगे। नीचे इस तरह के "क्रॉस" डेटा बनाने का एक उदाहरण है। आरएचओ पैरामीटर यह निर्धारित करता है कि कितने प्राथमिक_ क्रैंक और दूसरे_रैंक को सहसंबंधित होना चाहिए।

 dat <- fabricate( primary_schools = add_level(N = 5, primary_rank = 1:N), secondary_schools = add_level(N = 6, secondary_rank = 1:N, nest = FALSE), students = link_levels(N = 15, by = join(primary_rank, secondary_rank, rho = 0.9)) ) ## `link_levels()` calls are faster if the `mvnfast` package is installed. ggplot(dat, aes(primary_rank, secondary_rank)) + geom_point(position = position_jitter(width = 0.1, height = 0.1), alpha = 0.5) + theme_bw()

इसी तरह, आप cross_levels के माध्यम से अनुदैर्ध्य डेटा उत्पन्न कर सकते हैं:

 fabricate( students = add_level(N = 2), years = add_level(N = 20, year = 1981:2000, nest = FALSE), student_year = cross_levels(by = join(students, years)) )

छात्रों	साल	वर्ष	STUDENT_YEAR
1	01	1981	01
2	01	1981	02
1	02	1982	03
2	02	1982	04
1	03	1983	05
2	03	1983	06

अपने संकेतों की कल्पना करें

R में कई बेहतरीन फीचर मॉडलिंग टूल हैं। हालांकि, कुछ मामलों में, सामान्य प्रकार के चर मॉडल के लिए आश्चर्यजनक रूप से कठिन होते हैं। फैब्रैट्र्र में आमतौर पर उपयोग किए जाने वाले प्रकारों के साथ विशेषताओं को बनाने के लिए सरल सिंटैक्स के साथ बहुत कम कार्य होते हैं। यहां हम दो उदाहरणों का वर्णन करते हैं, बाकी लेख में है ।

इंट्राक्लास सहसंबंध के साथ विशेषताएँ

ऊपर वर्णित टूल का उपयोग करके, आप ऐसे डेटा का निर्माण कर सकते हैं जिसमें इंट्रा-ब्लॉक और इंटर-ब्लॉक विविधताएं हैं, उदाहरण के लिए, कक्षाओं में विविधताएं और कक्षाओं के बीच भिन्नताएं। कई मामलों में, इंट्रा-क्लास सहसंबंध (आईसीसी) के स्तर को अधिक सटीक रूप से स्थापित करना आवश्यक है। यहाँ draw_normal_icc और draw_binary_icc मदद करेगा।

 dat <- fabricate( N = 1000, clusters = sample(LETTERS, N, replace = TRUE), Y1 = draw_normal_icc(clusters = clusters, ICC = .2), Y2 = draw_binary_icc(clusters = clusters, ICC = .2) ) ICC::ICCbare(clusters, Y1, dat) ## [1] 0.09726701 ICC::ICCbare(clusters, Y2, dat) ## [1] 0.176036

परिणाम का आदेश दिया

हमारे पास असतत यादृच्छिक चर (आदेशित परिणामों सहित) के उपकरण भी हैं। हम एक अव्यक्त चर (उदाहरण के लिए test_ability ) लेते हैं और इसे एक आदेशित विशेषता ( test_score ) में परिवर्तित करते हैं।

 dat <- fabricate( N = 100, test_ability = rnorm(N), test_score = draw_ordered(test_ability, breaks = c(-.5, 0, .5)) ) ggplot(dat, aes(test_ability, test_score)) + geom_point() + theme_bw()

fabricatr लगभग किसी भी R वैरिएबल क्रिएशन फंक्शन के साथ संगत है। इस लेख में, हमने कुछ भयानक आर पैकेजों का वर्णन किया है जो समाजशास्त्र से संबंधित विशेषताओं की नकल करने में मदद करते हैं।

आगे कहाँ जाना है

यह लेख फैब्रैट्र कार्यक्षमता का एक उच्च-स्तरीय अवलोकन है। एक गहरी नज़र के लिए, लेख देखें फैब्रैट्रैट के साथ शुरुआत करना ।

आप CRAN के माध्यम से फैब्रिकैट स्थापित कर सकते हैं:

 install.packages("fabricatr") library(fabricatr)

एक सवाल है? टिप्पणियों में लिखें!

अपने डेटा को इकट्ठा करने से पहले कल्पना करें।

अपनी डेटा संरचना की कल्पना करें

अपने संकेतों की कल्पना करें

इंट्राक्लास सहसंबंध के साथ विशेषताएँ

परिणाम का आदेश दिया

आगे कहाँ जाना है

More articles: