Verringerung der StichprobengrĂ¶ĂŸe experimenteller Daten ohne Informationsverlust



Was ist das Problem der experimentellen Datenhistogramme?


Die Grundlage des ProduktqualitĂ€tsmanagements eines Industrieunternehmens ist die Erfassung experimenteller Daten mit deren anschließender Verarbeitung.

Die anfĂ€ngliche Verarbeitung der experimentellen Ergebnisse beinhaltet den Vergleich der Hypothesen ĂŒber das Gesetz der Datenverteilung, das mit dem kleinsten Fehler eine Zufallsvariable ĂŒber die beobachtete Stichprobe beschreibt.

Hierzu wird die Probe in Form eines Histogramms bestehend aus dargestellt k SĂ€ulen in LĂ€ngenintervallen aufgebaut d .

Die Identifizierung der Form der Verteilung der Messergebnisse erfordert auch eine Reihe von Problemen, deren Lösungseffizienz fĂŒr verschiedene Verteilungen unterschiedlich ist (z. B. unter Verwendung der Methode der kleinsten Quadrate oder Berechnung der EntropieschĂ€tzungen).

DarĂŒber hinaus ist auch die Identifizierung der Verteilung erforderlich, da die Streuung aller SchĂ€tzungen (Standardabweichung, Überschuss, Kurtosis usw.) auch von der Form des Verteilungsgesetzes abhĂ€ngt.

Der Erfolg der Identifizierung der Verteilungsform experimenteller Daten hĂ€ngt von der StichprobengrĂ¶ĂŸe ab. Wenn diese klein ist, werden die Verteilungsmerkmale durch die ZufĂ€lligkeit der Stichprobe selbst maskiert. In der Praxis ist es aus verschiedenen GrĂŒnden nicht möglich, eine große StichprobengrĂ¶ĂŸe bereitzustellen, beispielsweise mehr als 1000.

In einer solchen Situation ist es wichtig, die Probendaten bestmöglich in den Intervallen zu verteilen, wenn die Intervallreihen fĂŒr weitere Analysen und Berechnungen erforderlich sind.

FĂŒr eine erfolgreiche Identifizierung ist es daher notwendig, das Problem der Zuweisung der Anzahl von Intervallen k zu lösen

A. Hald in dem Buch [1] ĂŒberzeugt weitgehend davon, dass es eine optimale Anzahl von Gruppierungsintervallen gibt, wenn die schrittweise HĂŒllkurve des Histogramms, das auf diesen Intervallen aufgebaut ist, der glatten Verteilungskurve der allgemeinen Bevölkerung am nĂ€chsten kommt.

Eines der praktischen Anzeichen fĂŒr die AnnĂ€herung an das Optimum ist das Verschwinden von EinbrĂŒchen im Histogramm, und dann wird das grĂ¶ĂŸte k als nahe am Optimum betrachtet, bei dem das Histogramm immer noch einen glatten Charakter behĂ€lt.

Offensichtlich hĂ€ngt die Art des Histogramms von der Konstruktion von Intervallen ab, die zu einer Zufallsvariablen gehören, aber selbst im Fall einer einheitlichen Partition ist eine zufriedenstellende Methode fĂŒr diese Konstruktion immer noch nicht verfĂŒgbar.

Die Partition, die als korrekt angesehen werden könnte, fĂŒhrt dazu, dass der Approximationsfehler durch die stĂŒckweise konstante Funktion der vermeintlich kontinuierlichen Verteilungsdichte (Histogramm) minimal ist.

Die Schwierigkeiten werden durch die Tatsache verursacht, dass die geschĂ€tzte Dichte unbekannt ist, daher beeinflusst die Anzahl der Intervalle stark die Form der HĂ€ufigkeitsverteilung der endgĂŒltigen Probe.

Bei einer festen StichprobenlĂ€nge fĂŒhrt die VergrĂ¶ĂŸerung der Verteilungsintervalle nicht nur zu einer Verfeinerung der empirischen Wahrscheinlichkeit, in sie zu fallen, sondern auch zu einem unvermeidlichen Informationsverlust (sowohl im allgemeinen Sinne als auch im Sinne der Wahrscheinlichkeitsdichteverteilungskurve), weshalb bei weiterer ungerechtfertigter VergrĂ¶ĂŸerung die untersuchte Verteilung zu stark geglĂ€ttet wird .

Sobald dies geschehen ist, verschwindet die Aufgabe der optimalen Aufteilung des Bereichs unter dem Histogramm nicht aus dem Sichtfeld der Spezialisten, und bis die einzig festgelegte Meinung zu ihrer Lösung erscheint, bleibt die Aufgabe relevant.

Auswahl der Kriterien zur Bewertung der QualitÀt des Histogramms der experimentellen Daten


Das Pearson-Kriterium erfordert bekanntlich die Aufteilung der Stichprobe in Intervalle - in diesen wird der Unterschied zwischen dem angenommenen Modell und der verglichenen Stichprobe bewertet.

 chi2= summj=1 frac(Ej−Mj)2Mj

wo: Ej - experimentelle Frequenzen (nj) ;; Mj - Frequenzwerte in derselben Spalte, m-Anzahl der Histogrammspalten.

Die Anwendung dieses Kriteriums bei Intervallen konstanter LĂ€nge, die ĂŒblicherweise zur Erstellung von Histogrammen verwendet werden, ist jedoch ineffizient. Daher werden in den Arbeiten zur Wirksamkeit des Pearson-Kriteriums die Intervalle nicht mit gleicher LĂ€nge, sondern mit gleicher Wahrscheinlichkeit gemĂ€ĂŸ dem akzeptierten Modell betrachtet.

In diesem Fall unterscheiden sich jedoch die Anzahl der Intervalle gleicher LÀnge und die Anzahl der Intervalle gleicher Wahrscheinlichkeit um ein Vielfaches (mit Ausnahme einer gleich wahrscheinlichen Verteilung), so dass man die ZuverlÀssigkeit der in [2] erhaltenen Ergebnisse bezweifeln kann.

Als NĂ€herungskriterium wird empfohlen, den Entropiekoeffizienten zu verwenden, der wie folgt berechnet wird [3]:

ke= fracdn2 sigma10 beta

 beta=− frac1n summi=1nilg(ni)

wo: ni - die Anzahl der Beobachtungen im i-ten Intervall i=0,...,m

Algorithmus zur Bewertung der QualitÀt des Histogramms experimenteller Daten unter Verwendung des Entropiekoeffizienten und des Moduls numpy.histogram


Die Syntax fĂŒr die Verwendung des Moduls lautet wie folgt [4]:

numpy.histogram (a, BehÀlter = m, Bereich = keine, normiert = keine, Gewichte = keine, Dichte = keine)

Wir werden Methoden zum Ermitteln der optimalen Anzahl m von Histogramm-Aufteilungsintervallen betrachten, die im Modul numpy.histogram implementiert sind:

‱ 'auto' - maximale Bewertungen von 'sturges' und 'fd' sorgen fĂŒr gute Leistung;
‱ 'fd' (Freedman Diaconis Estimator) - ein zuverlĂ€ssiger (emissionsbestĂ€ndiger) Bewerter, der die VariabilitĂ€t und GrĂ¶ĂŸe der Daten berĂŒcksichtigt;
‱ 'doane' - eine verbesserte Version der StörschĂ€tzung, die mit DatensĂ€tzen mit einer nicht normalen Verteilung genauer funktioniert;
‱ 'scott' ist ein weniger zuverlĂ€ssiger Bewerter, der die VariabilitĂ€t und GrĂ¶ĂŸe der Daten berĂŒcksichtigt.
‱ 'Stein' - Der Bewerter basiert auf einer GegenprĂŒfung der SchĂ€tzung des Quadrats des Fehlers und kann als Verallgemeinerung der Scottschen Regel angesehen werden.
‱ „Reis“ - Der Gutachter berĂŒcksichtigt nicht die VariabilitĂ€t, sondern nur die GrĂ¶ĂŸe der Daten und ĂŒberschĂ€tzt hĂ€ufig die Anzahl der erforderlichen Intervalle.
‱ 'sturges' - Die Methode (standardmĂ€ĂŸig), bei der nur die GrĂ¶ĂŸe der Daten berĂŒcksichtigt wird, ist nur fĂŒr Gaußsche Daten optimal und unterschĂ€tzt die Anzahl der Intervalle fĂŒr große nicht-Gaußsche DatensĂ€tze.
‱ 'sqrt' ist der QuadratwurzelschĂ€tzer fĂŒr die DatengrĂ¶ĂŸe, die von Excel und anderen Programmen zur schnellen und einfachen Berechnung der Anzahl der Intervalle verwendet wird.

Um mit der Beschreibung des Algorithmus zu beginnen, passen wir das Modul numpy.histogram () an, um den Entropiekoeffizienten und den Entropiefehler zu berechnen:

from numpy import* def diagram(a,m,n): z=histogram(a, bins=m) if type(m) is str:#       m=len(z[0]) y=z[0] d=z[1][1]-z[1][0]#   h=0.5*d*n*10**(-sum([w*log10(w) for w in y if w!=0])/n)#  ke=h/std (a)#    (1). return ke,h 


Betrachten Sie nun die Hauptstufen des Algorithmus:

1) Wir bilden eine Kontrollprobe (im Folgenden als "große Probe" bezeichnet), die die Anforderungen fĂŒr den Fehler bei der Verarbeitung experimenteller Daten erfĂŒllt . Aus einer großen Stichprobe bilden wir durch Entfernen aller ungeraden Elemente eine kleinere Stichprobe (im Folgenden als "kleine Stichprobe" bezeichnet);

2) FĂŒr alle Bewerter 'auto', 'fd', 'doane', 'scott', 'stone', 'Rice', 'sturges', 'sqrt' berechnen wir den Entropiekoeffizienten ke1 und den Fehler h1 fĂŒr eine große Stichprobe und den Entropiekoeffizienten ke2 und der Fehler h2 fĂŒr eine kleine Stichprobe sowie der Absolutwert der Differenz - abs (ke1-ke2);

3) Wir steuern die numerischen Werte der Bewerter in mindestens vier Intervallen und wÀhlen den Bewerter aus, der den Mindestwert der absoluten Differenz liefert - abs (ke1-ke2).

4) FĂŒr die endgĂŒltige Entscheidung ĂŒber die Wahl eines Gutachters bauen wir auf einem Histogramm die Verteilungen fĂŒr die großen und kleinen Stichproben auf, wobei der Gutachter den minimalen abs-Wert (ke1-ke2) und auf dem zweiten mit dem Gutachter den maximalen abs-Wert (ke1-ke2) liefert. Das Auftreten zusĂ€tzlicher SprĂŒnge in einer kleinen Stichprobe im zweiten Histogramm bestĂ€tigt die richtige Wahl des Bewerters im ersten.

Betrachten Sie die Arbeit des vorgeschlagenen Algorithmus an einer Stichprobe von Daten aus einer Veröffentlichung [2]. Die Daten wurden durch zufĂ€llige Auswahl von 80 Rohlingen aus 500 mit anschließender Messung ihrer Masse erhalten. Das WerkstĂŒck muss eine Masse in folgenden Grenzen haben: m=17+0,6−0,4 kg Wir bestimmen die optimalen Histogrammparameter anhand der folgenden Auflistung:

Auflistung
 import matplotlib.pyplot as plt from numpy import* def diagram(a,m,n): z=histogram(a, bins=m) if type(m) is str:#      m=len(z[0]) y=z[0] d=z[1][1]-z[1][0]#   h=0.5*d*n*10**(-sum([w*log10(w) for w in y if w!=0])/n)#   ke=h/std (a)#  return ke,h a =array([17.37, 17.06, 16.96, 16.83, 17.34, 17.45, 17.60, 17.30, 17.02, 16.73, 17.08, 17.28, 17.08, 17.21, 17.29,17.47, 16.84, 17.39, 16.95, 16.92, 17.59, 17.28, 17.31, 17.25, 17.43,17.30, 17.18, 17.26, 17.19, 17.09,16.61, 17.16, 17.17, 17.06, 17.09,16.83, 17.17, 17.06, 17.59, 17.37,17.09, 16.94, 16.76, 16.98, 16.70, 17.27, 17.48, 17.21, 16.74, 17.12,17.33, 17.15, 17.56, 17.45, 17.49,16.94, 17.28, 17.09, 17.39, 17.05, 16.97, 17.16, 17.38, 17.23, 16.87,16.84, 16.94, 16.90, 17.27, 16.93,17.25, 16.85, 17.41, 17.37, 17.50,17.13, 17.16, 17.05, 16.68, 17.56 ] ) c=['auto','fd','doane','scott','stone','rice','sturges','sqrt'] n=len(a) b=[a[i] for i in arange(0,len(a),1) if not i%2 == 0] n1=len(b) print("     (n=80) : %s"%round(std(a),3)) print("    (n=80):%s"%round(mean(a),3)) print("     (n=40): %s"%round(std(b),3)) print("   (n=40): %s"%round(mean(b),3)) u=[] for m in c: ke1,h1=diagram(a,m,n) ke2,h2=diagram(b,m,n1) u.append(abs(ke1-ke2)) print("ke1=%s,h1=%s,ke2=%s,h2=%s,dke=%s,m=%s"%(round(ke1,3),round(h1,3),round(ke2,3),round(h2,3),round(abs(ke1-ke2),3),m)) u1=min(u) c1=c[u.index(min(u))] u2=max(u) c2=c[u.index(max(u))] plt.title(' : %s \n    abs(ke1-ke2) :%s '%(c1,round(u1,3))) plt.hist(a,bins=str(c1)) plt.hist(b,bins=str(c1)) plt.grid() plt.show() plt.title('  : %s \n    abs(ke1-ke2):%s '%(c2,round(u2,3))) plt.hist(a,bins=str(c2)) plt.hist(b,bins=str(c2)) plt.grid() plt.show() 


Wir bekommen:

Die Standardabweichung fĂŒr die Probe (n = 80): 0,24
Die mathematische Erwartung fĂŒr die Stichprobe (n = 80): 17.158
Die Standardabweichung fĂŒr die Stichprobe (n = 40): 0,202
Die mathematische Erwartung der Stichprobe (n = 40): 17.138
ke1 = 1,95, h1 = 0,467, ke2 = 1,917, h2 = 0,387, dke = 0,033, m = auto
ke1 = 1,918, h1 = 0,46, ke2 = 1,91, h2 = 0,386, dke = 0,008, m = fd
ke1 = 1,831, h1 = 0,439, ke2 = 1,917, h2 = 0,387, dke = 0,086, m = doane
ke1 = 1,918, h1 = 0,46, ke2 = 1,91, h2 = 0,386, dke = 0,008, m = scott
ke1 = 1,898, h1 = 0,455, ke2 = 1,934, h2 = 0,39, dke = 0,036, m = Stein
ke1 = 1,831, h1 = 0,439, ke2 = 1,917, h2 = 0,387, dke = 0,086, m = Reis
ke1 = 1,95, h1 = 0,467, ke2 = 1,917, h2 = 0,387, dke = 0,033, m = Störe
ke1 = 1,831, h1 = 0,439, ke2 = 1,917, h2 = 0,387, dke = 0,086, m = sqrt



Die Form der Verteilung einer großen Probe Ă€hnelt der Form der Verteilung einer kleinen Probe. Wie aus dem Skript hervorgeht, ist 'fd' ein zuverlĂ€ssiger (emissionsbestĂ€ndiger) Bewerter, der die VariabilitĂ€t und GrĂ¶ĂŸe der Daten berĂŒcksichtigt. In diesem Fall nimmt der Entropiefehler der kleinen Probe sogar geringfĂŒgig ab: h1 = 0,46, h2 = 0,386 mit einer leichten Abnahme des Entropiekoeffizienten von k1 = 1,918 auf k2 = 1,91.



Die Verteilungsmuster von großen und kleinen Proben unterscheiden sich. Wie aus der Beschreibung hervorgeht, ist 'doane' eine verbesserte Version des 'sturges'-Scores, die bei DatensĂ€tzen mit einer nicht normalen Verteilung besser funktioniert. In beiden Stichproben liegt der Entropiekoeffizient nahe bei zwei und die Verteilung nahe am Normalen. Das Auftreten zusĂ€tzlicher SprĂŒnge in einer kleinen Stichprobe in diesem Histogramm im Vergleich zur vorherigen zeigt zusĂ€tzlich die richtige Wahl des Bewerters 'fd' an .

Wir erzeugen zwei neue Stichproben fĂŒr die Normalverteilung mit den Parametern mu = 20, Sigma = 0,5 und GrĂ¶ĂŸe = 100 unter Verwendung der Beziehung:

 a= list([round(random.normal(20,0.5),3) for x in arange(0,100,1)]) 


Die entwickelte Methode ist auf die erhaltene Probe unter Verwendung des folgenden Programms anwendbar:

Auflistung
 import matplotlib.pyplot as plt from numpy import* def diagram(a,m,n): z=histogram(a, bins=m) if type(m) is str:#      m=len(z[0]) y=z[0] d=z[1][1]-z[1][0]#   h=0.5*d*n*10**(-sum([w*log10(w) for w in y if w!=0])/n)#   ke=h/std (a)#  return ke,h #a= list([round(random.normal(20,0.5),3) for x in arange(0,100,1)]) a=array([20.525, 20.923, 18.992, 20.784, 20.134, 19.547, 19.486, 19.346, 20.219, 20.55, 20.179,19.767, 19.846, 20.203, 19.744, 20.353, 19.948, 19.114, 19.046, 20.853, 19.344, 20.384, 19.945,20.312, 19.162, 19.626, 18.995, 19.501, 20.276, 19.74, 18.862, 19.326, 20.889, 20.598, 19.974,20.158, 20.367, 19.649, 19.211, 19.911, 19.932, 20.14, 20.954, 19.673, 19.9, 20.206, 20.898, 20.239, 19.56,20.52, 19.317, 19.362, 20.629, 20.235, 20.272, 20.022, 20.473, 20.537, 19.743, 19.81, 20.159, 19.372, 19.998,19.607, 19.224, 19.508, 20.487, 20.147, 20.777, 20.263, 19.924, 20.049, 20.488, 19.731, 19.917, 19.343, 19.26,19.804, 20.192, 20.458, 20.133, 20.317, 20.105, 20.384, 21.245, 20.191, 19.607, 19.792, 20.009, 19.526, 20.37,19.742, 19.019, 19.651, 20.363, 21.08, 20.792, 19.946, 20.179, 19.8]) c=['auto','fd','doane','scott','stone','rice','sturges','sqrt'] n=len(a) b=[a[i] for i in arange(0,len(a),1) if not i%2 == 0] n1=len(b) print("     (n=100):%s"%round(std(a),3)) print("    (n=100):%s"%round(mean(a),3)) print("     (n=50):%s"%round(std(b),3)) print("   (n=50): %s"%round(mean(b),3)) u=[] for m in c: ke1,h1=diagram(a,m,n) ke2,h2=diagram(b,m,n1) u.append(abs(ke1-ke2)) print("ke1=%s,h1=%s,ke2=%s,h2=%s,dke=%s,m=%s"%(round(ke1,3),round(h1,3),round(ke2,3),round(h2,3),round(abs(ke1-ke2),3),m)) u1=min(u) c1=c[u.index(min(u))] u2=max(u) c2=c[u.index(max(u))] plt.title(' : %s \n    abs(ke1-ke2) :%s '%(c1,round(u1,3))) plt.hist(a,bins=str(c1)) plt.hist(b,bins=str(c1)) plt.grid() plt.show() plt.title('  : %s \n    abs(ke1-ke2):%s '%(c2,round(u2,3))) plt.hist(a,bins=str(c2)) plt.hist(b,bins=str(c2)) plt.grid() plt.show() 



Wir bekommen:
Die Standardabweichung fĂŒr die Probe (n = 100): 0,524
Die mathematische Erwartung fĂŒr die Stichprobe (n = 100): 19.992
Die Standardabweichung fĂŒr die Probe (n = 50): 0,462
Die mathematische Erwartung der Stichprobe (n = 50): 20.002
ke1 = 1,979, h1 = 1,037, ke2 = 2,004, h2 = 0,926, dke = 0,025, m = auto
ke1 = 1,979, h1 = 1,037, ke2 = 1,915, h2 = 0,885, dke = 0,064, m = fd
ke1 = 1,979, h1 = 1,037, ke2 = 1,804, h2 = 0,834, dke = 0,175, m = doane
ke1 = 1,943, h1 = 1,018, ke2 = 1,934, h2 = 0,894, dke = 0,009, m = scott
ke1 = 1,943, h1 = 1,018, ke2 = 1,804, h2 = 0,834, dke = 0,139, m = Stein
ke1 = 1,946, h1 = 1,02, ke2 = 1,804, h2 = 0,834, dke = 0,142, m = Reis
ke1 = 1,979, h1 = 1,037, ke2 = 2,004, h2 = 0,926, dke = 0,025, m = Störe
ke1 = 1,946, h1 = 1,02, ke2 = 1,804, h2 = 0,834, dke = 0,142, m = sqrt



Die Form der Verteilung einer großen Probe Ă€hnelt der Form der Verteilung einer kleinen Probe. Wie aus der Beschreibung hervorgeht, ist 'scott' ein weniger zuverlĂ€ssiger Bewerter, der die VariabilitĂ€t und GrĂ¶ĂŸe der Daten berĂŒcksichtigt. In diesem Fall nimmt der Entropiefehler einer kleinen Probe sogar geringfĂŒgig ab: h1 = 1,018 und h2 = 0,894 mit einer leichten Abnahme des Entropiekoeffizienten von k1 = 1,943 auf k2 = 1,934. . Es ist zu beachten, dass wir fĂŒr die neue Stichprobe die gleiche Tendenz hatten, die Parameter wie im vorherigen Beispiel zu Ă€ndern.



Die Verteilungsmuster von großen und kleinen Proben unterscheiden sich. Wie aus der Beschreibung hervorgeht, ist 'doane' eine verbesserte Version der 'sturges'- SchĂ€tzung, die bei DatensĂ€tzen mit einer nicht normalen Verteilung genauer funktioniert. In beiden Proben ist die Verteilung normal. Das Auftreten zusĂ€tzlicher SprĂŒnge in einer kleinen Stichprobe in diesem Histogramm im Vergleich zum vorherigen zeigt zusĂ€tzlich die richtige Wahl des "Scott" -Bewerters an.

Verwendung von Anti-Aliasing zur vergleichenden Analyse von Histogrammen


Durch GlĂ€tten der Histogramme, die auf den großen und kleinen Stichproben erstellt wurden, können Sie deren IdentitĂ€t unter dem Gesichtspunkt der Beibehaltung der in einer grĂ¶ĂŸeren Stichprobe enthaltenen Informationen genauer bestimmen. Stellen Sie sich die letzten beiden Histogramme als GlĂ€ttungsfunktionen vor:

Auflistung
 from numpy import* from scipy.interpolate import UnivariateSpline from matplotlib import pyplot as plt a =array([20.525, 20.923, 18.992, 20.784, 20.134, 19.547, 19.486, 19.346, 20.219, 20.55, 20.179,19.767, 19.846, 20.203, 19.744, 20.353, 19.948, 19.114, 19.046, 20.853, 19.344, 20.384, 19.945, 20.312, 19.162, 19.626, 18.995, 19.501, 20.276, 19.74, 18.862, 19.326, 20.889, 20.598, 19.974,20.158, 20.367, 19.649, 19.211, 19.911, 19.932, 20.14, 20.954, 19.673, 19.9, 20.206, 20.898, 20.239, 19.56,20.52, 19.317, 19.362, 20.629, 20.235, 20.272, 20.022, 20.473, 20.537, 19.743, 19.81, 20.159, 19.372, 19.998,19.607, 19.224, 19.508, 20.487, 20.147, 20.777, 20.263, 19.924, 20.049, 20.488, 19.731, 19.917, 19.343, 19.26,19.804, 20.192, 20.458, 20.133, 20.317, 20.105, 20.384, 21.245, 20.191, 19.607, 19.792, 20.009, 19.526, 20.37,19.742, 19.019, 19.651, 20.363, 21.08, 20.792, 19.946, 20.179, 19.8]) b=[a[i] for i in arange(0,len(a),1) if not i%2 == 0] plt.title('    \n  abs(ke1-ke2)' ,size=12) z=histogram(a, bins="fd") x=z[1][:-1]+(z[1][1]-z[1][0])/2 f = UnivariateSpline(x, z[0], s=len(a)/2) plt.plot(x, f(x),linewidth=2,label='  n=100') z=histogram(b, bins="fd") x=z[1][:-1]+(z[1][1]-z[1][0])/2 f = UnivariateSpline(x, z[0], s=len(a)/2) plt.plot(x, f(x),linewidth=2,label='  n=50') plt.legend(loc='best') plt.grid() plt.show() plt.title('    \n  abs(ke1-ke2)' ,size=12) z=histogram(a, bins="doane") x=z[1][:-1]+(z[1][1]-z[1][0])/2 f = UnivariateSpline(x, z[0], s=len(a)/2) plt.plot(x, f(x),linewidth=2,label='  n=100') z=histogram(b, bins="doane") x=z[1][:-1]+(z[1][1]-z[1][0])/2 f = UnivariateSpline(x, z[0], s=len(a)/2) plt.plot(x, f(x),linewidth=2,label='  n=50') plt.legend(loc='best') plt.grid() plt.show() 




Das Auftreten zusĂ€tzlicher SprĂŒnge in einer kleinen Stichprobe in der Grafik eines geglĂ€tteten Histogramms im Vergleich zum vorherigen zeigt zusĂ€tzlich die richtige Wahl des Scott- Gutachters an.

Schlussfolgerungen


Die im Artikel vorgestellten Berechnungen im Bereich der bei der Herstellung ĂŒblichen kleinen Proben bestĂ€tigten die Effizienz der Verwendung des Entropiekoeffizienten als Kriterium fĂŒr die Aufrechterhaltung des Informationsgehalts der Probe bei gleichzeitiger Verringerung ihres Volumens . Die Technik der Verwendung der neuesten Version des Moduls numpy.histogram mit integrierten Evaluatoren wird in Betracht gezogen: "Auto", "FD", "Doane", "Scott", "Stein", "Reis", "Stör", "Sqrt", die fĂŒr die Optimierung völlig ausreichend sind Analyse experimenteller Daten zu IntervallschĂ€tzungen.

Referenzen:


1. Hald A. Mathematische Statistik mit technischen Anwendungen. - Moskau: Verlag. Lit., 1956
2. Kalmykov V.V., Antonyuk F.I., Zenkin N.V.
Bestimmung der optimalen Anzahl experimenteller Datengruppierungsklassen fĂŒr IntervallschĂ€tzungen // South Siberian Scientific Bulletin. - 2014. - Nr. 3. - P. 56-58.
3. Novitsky P. V. Das Konzept des Entropiewertes des Fehlers // Messtechnik. - 1966. - Nr. 7. —S. 11-14.
4.numpy.histogram - NumPy v1.16 Handbuch

Source: https://habr.com/ru/post/de445464/


All Articles