🚵🏼 🆎 👩🏽‍🚒 كيف قللنا وقت تطوير نماذج التسجيل خمس مرات بالانتقال إلى Python ♐️ 🕚 👨🏽‍🔧

يتحدث الجميع الآن كثيرًا عن الذكاء الاصطناعي وتطبيقه في جميع مجالات الشركة. ومع ذلك ، هناك بعض المجالات التي هيمن فيها نوع واحد من النماذج ، منذ العصور القديمة ، على ما يسمى "الصندوق الأبيض" - الانحدار اللوجستي. أحد هذه المجالات هو تسجيل الائتمان المصرفي.

هناك عدة أسباب لذلك:

يمكن تفسير معاملات الانحدار بسهولة على عكس "الصناديق السوداء" مثل التعزيز ، والتي يمكن أن تتضمن أكثر من 500 متغير
لا تزال الإدارة غير موثوقة من قبل الإدارة بسبب صعوبة تفسير النماذج
هناك متطلبات غير مكتوبة للجهة التنظيمية لتفسير النماذج: في أي وقت ، على سبيل المثال ، قد يطلب البنك المركزي تفسيرًا - لماذا تم رفض قرض للمقترض
تستخدم الشركات برامج التنقيب عن البيانات الخارجية (على سبيل المثال ، عامل التعدين السريع ، أو SAS Enterprise Miner ، أو STATISTICA أو أي حزمة أخرى) التي تتيح لك التعرف بسرعة على كيفية بناء النماذج دون حتى مهارات البرمجة

تجعل هذه الأسباب من المستحيل تقريبًا استخدام نماذج معقدة للتعلم الآلي في بعض المجالات ، لذا من المهم أن تكون قادرًا على "ضغط الحد الأقصى" من الانحدار اللوجستي البسيط ، الذي يسهل تفسيره وتفسيره.

في هذا المنشور ، سنتحدث عن كيفية التخلي عن حزم استخراج البيانات الخارجية لصالح حلول المصادر المفتوحة في شكل Python ، وزيادة سرعة التطوير عدة مرات ، وكذلك تحسين جودة جميع النماذج.

عملية التهديف

تبدو العملية الكلاسيكية لبناء نماذج التسجيل على الانحدار كما يلي:

الصورة

يمكن أن تختلف من شركة إلى أخرى ، ولكن المراحل الرئيسية لا تزال ثابتة. نحتاج دائمًا إلى إجراء تجميع للمتغيرات (على النقيض من نموذج التعلم الآلي ، حيث لا يلزم في معظم الحالات الترميز القاطع فقط) ، وفحصها حسب قيمة المعلومات (IV) ، والتحميل اليدوي لجميع المعاملات وصناديق الاندماج اللاحق في DSL.
نجح هذا النهج في بناء بطاقات تسجيل النقاط بشكل جيد في التسعينات ، لكن تقنيات حزم استخراج البيانات الكلاسيكية قديمة جدًا ولا تسمح باستخدام تقنيات جديدة ، مثل ، على سبيل المثال ، تسوية L2 في الانحدار ، والتي يمكن أن تحسن بشكل كبير من جودة النماذج.

في مرحلة ما ، كدراسة ، قررنا إعادة إنتاج جميع الخطوات التي يقوم بها المحللون عند بناء النقاط ، واستكمالها بمعرفة علماء البيانات ، وأتمتة العملية بأكملها قدر الإمكان.

تحسين بايثون

كأداة تطوير ، اخترنا Python لبساطتها ومكتباتها الجيدة ، وبدأنا في لعب جميع الخطوات بالترتيب.

الخطوة الأولى هي جمع البيانات وتوليد المتغيرات - هذه المرحلة هي جزء مهم من عمل المحللين.

في Python ، يمكنك تحميل البيانات التي تم جمعها من قاعدة البيانات باستخدام pymysql.

كود للتحميل من قاعدة البيانات

def con(): conn = pymysql.connect( host='10.100.10.100', port=3306, user='******* ', password='*****', db='mysql') return conn; df = pd.read_sql(''' SELECT * FROM idf_ru.data_for_scoring ''', con=con())

بعد ذلك ، نستبدل القيم النادرة والمفقودة بفئة منفصلة لمنع الاحتواء ، وتحديد الهدف ، وحذف الأعمدة الإضافية ، والقسمة حسب القطار والاختبار.

إعداد البيانات

 def filling(df): cat_vars = df.select_dtypes(include=[object]).columns num_vars = df.select_dtypes(include=[np.number]).columns df[cat_vars] = df[cat_vars].fillna('_MISSING_') df[num_vars] = df[num_vars].fillna(np.nan) return df def replace_not_frequent(df, cols, perc_min=5, value_to_replace = "_ELSE_"): else_df = pd.DataFrame(columns=['var', 'list']) for i in cols: if i != 'date_requested' and i != 'credit_id': t = df[i].value_counts(normalize=True) q = list(t[t.values < perc_min/100].index) if q: else_df = else_df.append(pd.DataFrame([[i, q]], columns=['var', 'list'])) df.loc[df[i].value_counts(normalize=True)[df[i]].values < perc_min/100, i] =value_to_replace else_df = else_df.set_index('var') return df, else_df cat_vars = df.select_dtypes(include=[object]).columns df = filling(df) df, else_df = replace_not_frequent_2(df, cat_vars) df.drop(['credit_id', 'target_value', 'bor_credit_id', 'bchg_credit_id', 'last_credit_id', 'bcacr_credit_id', 'bor_bonuses_got' ], axis=1, inplace=True) df_train, df_test, y_train, y_test = train_test_split(df, y, test_size=0.33, stratify=df.y, random_state=42)

يبدأ الآن المرحلة الأكثر أهمية في التسجيل للتراجع - تحتاج إلى كتابة WOE-binning للمتغيرات الرقمية والفئوية. في المجال العام ، لم نجد خيارات جيدة ومناسبة لنا وقررنا كتابة أنفسنا. تم أخذ مقالة عام 2017 هذه كأساس للتنظيم العددي ، بالإضافة إلى هذا ، القاطع ، كتبوا هم أنفسهم من الصفر. كانت النتائج مثيرة للإعجاب (ارتفع جيني في الاختبار بنسبة 3-5 مقارنة بخوارزميات binning لبرامج استخراج البيانات الخارجية).

بعد ذلك ، يمكنك إلقاء نظرة على الرسوم البيانية أو الجداول (التي نكتبها بعد ذلك في excel) كيف يتم تقسيم المتغيرات إلى مجموعات والتحقق من الرتابة:

الصورة

تقديم مخططات الفول

 def plot_bin(ev, for_excel=False): ind = np.arange(len(ev.index)) width = 0.35 fig, ax1 = plt.subplots(figsize=(10, 7)) ax2 = ax1.twinx() p1 = ax1.bar(ind, ev['NONEVENT'], width, color=(24/254, 192/254, 196/254)) p2 = ax1.bar(ind, ev['EVENT'], width, bottom=ev['NONEVENT'], color=(246/254, 115/254, 109/254)) ax1.set_ylabel('Event Distribution', fontsize=15) ax2.set_ylabel('WOE', fontsize=15) plt.title(list(ev.VAR_NAME)[0], fontsize=20) ax2.plot(ind, ev['WOE'], marker='o', color='blue') # Legend plt.legend((p2[0], p1[0]), ('bad', 'good'), loc='best', fontsize=10) #Set xticklabels q = list() for i in range(len(ev)): try: mn = str(round(ev.MIN_VALUE[i], 2)) mx = str(round(ev.MAX_VALUE[i], 2)) except: mn = str((ev.MIN_VALUE[i])) mx = str((ev.MAX_VALUE[i])) q.append(mn + '-' + mx) plt.xticks(ind, q, rotation='vertical') for tick in ax1.get_xticklabels(): tick.set_rotation(60) plt.savefig('{}.png'.format(ev.VAR_NAME[0]), dpi=500, bbox_inches = 'tight') plt.show() def plot_all_bins(iv_df): for i in [x.replace('WOE_','') for x in X_train.columns]: ev = iv_df[iv_df.VAR_NAME==i] ev.reset_index(inplace=True) plot_bin(ev)

تمت كتابة وظيفة تجميع يدوي بشكل منفصل ، وهو أمر مفيد ، على سبيل المثال ، في حالة المتغير "إصدار نظام التشغيل" ، حيث تم تجميع جميع هواتف Android و iOS يدويًا.

وظيفة binning اليدوية

 def adjust_binning(df, bins_dict): for i in range(len(bins_dict)): key = list(bins_dict.keys())[i] if type(list(bins_dict.values())[i])==dict: df[key] = df[key].map(list(bins_dict.values())[i]) else: #Categories labels categories = list() for j in range(len(list(bins_dict.values())[i])): if j == 0: categories.append('<'+ str(list(bins_dict.values())[i][j])) try: categories.append('(' + str(list(bins_dict.values())[i][j]) +'; '+ str(list(bins_dict.values())[i][j+1]) + ']') except: categories.append('(' + str(list(bins_dict.values())[i][j])) elif j==len(list(bins_dict.values())[i])-1: categories.append(str(list(bins_dict.values())[i][j]) +'>') else: categories.append('(' + str(list(bins_dict.values())[i][j]) +'; '+ str(list(bins_dict.values())[i][j+1]) + ']') values = [df[key].min()] + list(bins_dict.values())[i] + [df[key].max()] df[key + '_bins'] = pd.cut(df[key], values, include_lowest=True, labels=categories).astype(object).fillna('_MISSING_').astype(str) df[key] = df[key + '_bins']#.map(df.groupby(key + '_bins')[key].agg('median')) df.drop([key + '_bins'], axis=1, inplace=True) return df bins_dict = { 'equi_delinquencyDays': [ 200,400,600] 'loan_purpose': {'medicine':'1_group', 'repair':'1_group', 'helpFriend':'2_group'} } df = adjust_binning(df, bins_dict)

الخطوة التالية هي اختيار المتغيرات حسب قيمة المعلومات. يتم قطع القيمة الافتراضية 0.1 (جميع المتغيرات أدناه ليس لديها قوة تنبؤية جيدة).

بعد ذلك ، تم إجراء فحص الارتباط. من بين المتغيرين المترابطين ، تحتاج إلى إزالة المتغير الأقل IV. تم قطع الإزالة 0.75.

الصورة

إزالة الارتباط

 def delete_correlated_features(df, cut_off=0.75, exclude = []): # Create correlation matrix corr_matrix = df.corr().abs() # Select upper triangle of correlation matrix upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool)) # Plotting All correlations f, ax = plt.subplots(figsize=(15, 10)) plt.title('All correlations', fontsize=20) sns.heatmap(X_train.corr(), annot=True) # Plotting highly correlated try: f, ax = plt.subplots(figsize=(15, 10)) plt.title('High correlated', fontsize=20) sns.heatmap(corr_matrix[(corr_matrix>cut_off) & (corr_matrix!=1)].dropna(axis=0, how='all').dropna(axis=1, how='all'), annot=True, linewidths=.5) except: print ('No highly correlated features found') # Find index of feature columns with correlation greater than cut_off to_drop = [column for column in upper.columns if any(upper[column] > cut_off)] to_drop = [column for column in to_drop if column not in exclude] print ('Dropped columns:', to_drop, '\n') df2 = df.drop(to_drop, axis=1) print ('Features left after correlation check: {}'.format(len(df.columns)-len(to_drop)), '\n') print ('Not dropped columns:', list(df2.columns), '\n') # Plotting final correlations f, ax = plt.subplots(figsize=(15, 10)) plt.title('Final correlations', fontsize=20) sns.heatmap(df2.corr(), annot=True) plt.show() return df2

بالإضافة إلى التحديد عن طريق IV ، أضفنا بحثًا متكررًا عن العدد الأمثل للمتغيرات باستخدام طريقة RFE من sklearn.
كما نرى في الرسم البياني ، بعد 13 متغيرًا لا تتغير الجودة ، مما يعني أنه يمكن حذف المتغيرات الإضافية. للتراجع ، يعتبر أكثر من 15 متغيرًا في التسجيل شكلًا سيئًا ، والذي يتم تصحيحه في معظم الحالات باستخدام RFE.

الصورة

RFE

 def RFE_feature_selection(clf_lr, X, y): rfecv = RFECV(estimator=clf_lr, step=1, cv=StratifiedKFold(5), verbose=0, scoring='roc_auc') rfecv.fit(X, y) print("Optimal number of features : %d" % rfecv.n_features_) # Plot number of features VS. cross-validation scores f, ax = plt.subplots(figsize=(14, 9)) plt.xlabel("Number of features selected") plt.ylabel("Cross validation score (nb of correct classifications)") plt.plot(range(1, len(rfecv.grid_scores_) + 1), rfecv.grid_scores_) plt.show() mask = rfecv.get_support() X = X.ix[:, mask] return X

بعد ذلك ، تم بناء الانحدار وتقييم مقاييسه على التحقق المتبادل وأخذ العينات الاختبارية. عادة ما ينظر الجميع إلى معامل جيني (مقالة جيدة عنه هنا ).

الصورة

نتائج المحاكاة

 def plot_score(clf, X_test, y_test, feat_to_show=30, is_normalize=False, cut_off=0.5): #cm = confusion_matrix(pd.Series(clf.predict_proba(X_test)[:,1]).apply(lambda x: 1 if x>cut_off else 0), y_test) print ('ROC_AUC: ', round(roc_auc_score(y_test, clf.predict_proba(X_test)[:,1]), 3)) print ('Gini: ', round(2*roc_auc_score(y_test, clf.predict_proba(X_test)[:,1]) - 1, 3)) print ('F1_score: ', round(f1_score(y_test, clf.predict(X_test)), 3)) print ('Log_loss: ', round(log_loss(y_test, clf.predict(X_test)), 3)) print ('\n') print ('Classification_report: \n', classification_report(pd.Series(clf.predict_proba(X_test)[:,1]).apply(lambda x: 1 if x>cut_off else 0), y_test)) skplt.metrics.plot_confusion_matrix(y_test, pd.Series(clf.predict_proba(X_test)[:,1]).apply(lambda x: 1 if x>cut_off else 0), title="Confusion Matrix", normalize=is_normalize,figsize=(8,8),text_fontsize='large') display(eli5.show_weights(clf, top=20, feature_names = list(X_test.columns))) clf_lr = LogisticRegressionCV(random_state=1, cv=7) clf_lr.fit(X_train, y_train) plot_score(clf_lr, X_test, y_test, cut_off=0.5)

عندما نتأكد من أن جودة النموذج تناسبنا ، فمن الضروري كتابة جميع النتائج (معاملات الانحدار ، ومجموعات الحاويات ، والرسوم البيانية والمتغيرات الثباتية في Gini ، وما إلى ذلك) في excel. لهذا ، من الملائم استخدام xlsxwriter ، والتي يمكن أن تعمل مع كل من البيانات والصور.

أمثلة على أوراق التفوق:

الصورة

سجل في التفوق

  #WRITING writer = pd.ExcelWriter('PDL_Score_20180815-3.xlsx', engine='xlsxwriter') workbook = writer.book worksheet = workbook.add_worksheet('Sample information') bold = workbook.add_format({'bold': True}) percent_fmt = workbook.add_format({'num_format': '0.00%'}) worksheet.set_column('A:A', 20) worksheet.set_column('B:B', 15) worksheet.set_column('C:C', 10) # Sample worksheet.write('A2', 'Sample conditions', bold) worksheet.write('A3', 1) worksheet.write('A4', 2) worksheet.write('A5', 3) worksheet.write('A6', 4) # Model worksheet.write('A8', 'Model development', bold) worksheet.write('A9', 1) #labels worksheet.write('C8', 'Bads') worksheet.write('D8', 'Goods') worksheet.write('B9', 'Train') worksheet.write('B10', 'Valid') worksheet.write('B11', 'Total') # goods and bads worksheet.write('C9', y_train.value_counts()[1]) worksheet.write('C10', y_test.value_counts()[1]) worksheet.write('D9', y_train.value_counts()[0]) worksheet.write('D10', y_test.value_counts()[0]) worksheet.write('C11', y.value_counts()[1]) worksheet.write('D11', y.value_counts()[0]) # NPL worksheet.write('A13', 2) worksheet.write('B13', 'NPL') worksheet.write('C13', (y.value_counts()[1]/(y.value_counts()[1]+y.value_counts()[0])), percent_fmt) worksheet.write('A16', 3) worksheet.write('C15', 'Gini') worksheet.write('B16', 'Train') worksheet.write('B17', 'Valid') worksheet.write('B18', 'CV Scores') worksheet.write('C18', str([round(sc, 2) for sc in scores])) worksheet.write('C16', round(2*roc_auc_score(y_train, clf_lr.predict_proba(X_train)[:,1]) - 1, 3)) worksheet.write('C17', round(2*roc_auc_score(y_test, clf_lr.predict_proba(X_test)[:,1]) - 1, 3)) # Regreesion coefs feat.to_excel(writer, sheet_name='Regression coefficients', index=False) worksheet2 = writer.sheets['Regression coefficients'] worksheet2.set_column('A:A', 15) worksheet2.set_column('B:B', 50) #WOE ivs[['VAR_NAME', 'Variable range', 'WOE', 'COUNT', 'WOE_group']].to_excel(writer, sheet_name='WOE', index=False) worksheet3 = writer.sheets['WOE'] worksheet3.set_column('A:A', 50) worksheet3.set_column('B:B', 60) worksheet3.set_column('C:C', 30) worksheet3.set_column('D:D', 20) worksheet3.set_column('E:E', 12) for num, i in enumerate([x.replace('WOE_','') for x in X_train.columns]): ev = iv_df[iv_df.VAR_NAME==i] ev.reset_index(inplace=True) worksheet3.insert_image('G{}'.format(num*34+1), '{}.png'.format(i)) df3.to_excel(writer, sheet_name='Data', index=False) table.to_excel(writer, sheet_name='Scores by buckets', header = True, index = True) worksheet4 = writer.sheets['Scores by buckets'] worksheet4.set_column('A:A', 20) worksheet4.insert_image('J1', 'score_distribution.png') Ginis.to_excel(writer, sheet_name='Gini distribution', header = True, index = True) worksheet5 = writer.sheets['Gini distribution'] worksheet5.insert_image('E1', 'gini_stability.png') writer.save()

في النهاية ، تنظر إدارة التفوق النهائي مرة أخرى من قبل الإدارة ، وبعد ذلك يتم منحها لتكنولوجيا المعلومات لتضمين النموذج في الإنتاج.

الملخص

كما رأينا ، يمكن أتمتة جميع مراحل التسجيل تقريبًا بحيث لا يحتاج المحللون إلى مهارات البرمجة لبناء النماذج. في حالتنا ، بعد إنشاء هذا الإطار ، يحتاج المحلل فقط إلى جمع البيانات وتحديد العديد من المعلمات (حدد المتغير الهدف ، والأعمدة التي يجب إزالتها ، والحد الأدنى لعدد الصناديق ، ومعامل القطع لربط المتغيرات ، وما إلى ذلك) ، وبعد ذلك يمكنك تشغيل البرنامج النصي في python ، التي ستبني النموذج وتنتج التفوق مع النتائج المرجوة.
بالطبع ، في بعض الأحيان يكون من الضروري تصحيح الرمز لاحتياجات مشروع معين ، ولا يمكنك فعل ذلك بزر واحد لتشغيل البرنامج النصي أثناء النمذجة ، ولكن حتى الآن نرى جودة أفضل من حزم استخراج البيانات المستخدمة في السوق بفضل تقنيات مثل تجميع مثالي ورتيب ، والتحقق من الارتباط ، RFE ، نسخة منتظمة من الانحدار ، إلخ.

وهكذا ، بفضل استخدام Python ، قللنا بشكل كبير من وقت تطوير بطاقات التسجيل ، وكذلك خفضنا تكاليف العمالة للمحللين.

كيف قللنا وقت تطوير نماذج التسجيل خمس مرات بالانتقال إلى Python

عملية التهديف

تحسين بايثون

الملخص

More articles: