Geburtenraten in England und Wales von 1991 bis 2015 Essay (Kritisches Schreiben)

Words: 1435
Topic: Statistik

Excel-Ausgabe

Der Datensatz, der in diesem Beitrag analysiert wird, wurde von der Website des Office for National Statistics (2016) zusammengestellt. Er beschreibt die Geburtenraten in England und Wales über den Zeitraum von 1991 bis 2015. Der Datensatz enthält Informationen über die Anzahl der Babys, die von Müttern verschiedener Alterskategorien (nämlich unter 20 Jahre alt, 20-24 Jahre alt, 25-29 Jahre alt, 30-34 Jahre alt, 35-39 Jahre alt und 40 Jahre oder älter) geboren wurden, sowie über die Gesamtzahl der Kinder, die in jedem Jahr des betreffenden Zeitraums geboren wurden.

Die deskriptive Statistik für die Zahl der Lebendgeburten in England und Wales von 1991 bis 2015 sieht wie folgt aus:

Die Pivot-Tabelle für die Daten:

Die Häufigkeitstabelle für die Daten wird im Folgenden dargestellt. Die Häufigkeiten wurden für die Anzahl der Jahre berechnet, in denen die Zahl der Lebendgeburten in die in der Spalte “Labels” beschriebenen Kategorien fiel. Die Spalte “Bin” beschreibt die Obergrenze einer Kategorie.

Es folgt das Häufigkeitsdiagramm. Sie enthält dieselben Daten wie die oben dargestellte Häufigkeitstabelle.

Kommentare und Schlussfolgerungen

Daher ermöglicht die mitgelieferte Excel-Ausgabe die Interpretation der Daten über die Anzahl der Geburten von Kindern in England und Wales über die Jahre hinweg. Insbesondere die Tabelle mit den deskriptiven Statistiken liefert einige Details zur Verteilung dieser Geburten über die Jahre.

Der Mittelwert eines Datensatzes ist ein Maß für seine zentrale Tendenz; er ist einfach das arithmetische Mittel und zeigt, wie viele Babys im Durchschnitt produziert wurden (Remenyi, Onofrei, & English, 2011). Wenn also über einen Zeitraum von 25 Jahren jedes Jahr fast 666.828,04 Babys geboren wurden, entspricht die Gesamtzahl der auf diese Weise erzeugten Babys der Gesamtzahl der Babys, die im Zeitraum 1991-2015 in England und Wales geboren wurden.

Der Standardfehler des Mittelwerts ist die Standardabweichung der Stichprobenverteilung der Mittelwerte (George & Mallery, 2016); mit anderen Worten: Wenn die analysierten Daten eine Stichprobe darstellen würden, hätten andere Stichproben, die aus derselben Grundgesamtheit gezogen wurden, eine Standardabweichung von 8180,73. Es ist jedoch zu bedenken, dass die analysierten Daten die gesamte Grundgesamtheit und nicht eine Stichprobe beschreiben.

Der Median ist der mittlere Wert der Verteilung (George & Mallery, 2016). In einigen Fällen kann der Median eine ungefähre Einschätzung der Schiefe der Daten ermöglichen; wenn der Medianwert der gegebenen Verteilung z. B. 710.000 beträgt, könnte man daraus schließen, dass die Daten mehr große Werte als kleine Werte enthalten. In diesem Fall liegt der Median jedoch ziemlich nahe am Mittelwert, was darauf schließen lässt, dass die Daten nicht sehr schief sind.

Es gibt keinen Modus (der am häufigsten vorkommende Wert) in den Daten, denn es ist nicht vorgekommen, dass in zwei (oder mehr) Jahren in England und Wales von 1991 bis 2015 die gleiche Anzahl von Babys geboren wurde. Wäre dies der Fall gewesen (was ein Ereignis von eher geringer Wahrscheinlichkeit ist), hätte die Verteilung einen Modus gehabt. Im Großen und Ganzen ist das Modell jedoch kein geeignetes Maß für die zentrale Tendenz kontinuierlicher Daten (Warner, 2013).

Die Standardabweichung einer Verteilung zeigt, wie weit die Werte einer Variablen gestreut sind (Forthofer, Lee, & Hernandez, 2007). Sie ist am informativsten, wenn sie zusammen mit dem Mittelwert angegeben wird. Bei normalverteilten Daten liegen etwa 68 % der Werte der Variablen innerhalb von ± 1 Standardabweichung vom Mittelwert, fast 95,5 % der Werte liegen innerhalb von ± 2 Standardabweichungen vom Mittelwert und fast 99,7 % der Werte liegen innerhalb von ± 3 Standardabweichungen vom Mittelwert (George & Mallery, 2016, S. 113).

Wenn die Zahl der Lebendgeburten in England und Wales im Zeitraum 1991-2015 annähernd normalverteilt ist, lässt sich daraus schließen, dass die Zahl der Geburten in fast zwei Dritteln der Jahre (d. h. in etwa 16 Jahren) einer Zahl innerhalb des Intervalls 666828,04 ± 40903,67494 entsprach, also zwischen 625 924 und 707 732 lag. Und in fast 95 % der Jahre (d. h. in etwa 24 Jahren) war die Zahl der Geburten gleich einigen Zahlen innerhalb des Intervalls 666828,04 ± 2 * 40903,67494, d. h. zwischen 585 020 und 748636. Aus den Daten ist ersichtlich, dass alle Zahlen in das letztgenannte Intervall fallen, was bei der gegebenen Stichprobengröße (25) leicht möglich ist.

Die Varianz der Daten ist gleich dem Quadrat der Standardabweichung. Sie kann auch verwendet werden, um den Grad der Streuung der Daten zu messen, aber die Standardabweichung ist oft wesentlich praktischer, da sie die Berechnung des ungefähren Prozentsatzes der Werte innerhalb der gewünschten Intervalle um den Mittelwert ermöglicht (Remenyi et al., 2011).

Anhand der Kurtosis lässt sich beurteilen, wie “spitz” oder “flach” eine Verteilung ist, d. h. ob es mehr Werte in der Nähe des Mittelwerts oder mehr Werte weit vom Mittelwert entfernt gibt (Warner, 2013). Die negative Kurtosis in der gegebenen Verteilung (-1,04) bedeutet, dass es mehr Werte gibt, die weit vom Mittelwert entfernt sind als in einer Normalverteilung; der Wert der Kurtosis ist jedoch nicht extrem und kann für die meisten Analysezwecke als akzeptabel angesehen werden (George & Mallery, 2016, S. 114).

Gleichzeitig zeigt die Schiefe an, wie schief die Daten sind, d. h., ob es mehr Werte gibt, die größer als der Mittelwert sind, als solche, die kleiner als der Mittelwert sind, oder umgekehrt. Eine negative Schiefe bedeutet, dass es mehr Werte gibt, die größer als der Mittelwert sind, als Werte, die kleiner als der Mittelwert sind. Im vorliegenden Fall ist die Schiefe zwar negativ, aber ihr Wert liegt sehr nahe bei Null (-0,23), so dass die Daten fast symmetrisch um den Mittelwert herum sind.

Die Spanne stellt die Differenz zwischen dem größten und dem kleinsten Wert der Verteilung dar. Das bedeutet, dass in dem Jahr, in dem die Zahl der Geburten am kleinsten war, 135040 weniger Babys geboren wurden als in dem Jahr, in dem die Zahl der Geburten am größten war.

Der Minimalwert (Maximalwert) ist einfach die Anzahl der Babys, die in dem Jahr gezeugt wurden, in dem die Anzahl der Geburten am geringsten (am höchsten) war. Die für den kleinsten (1) (größten (1)) Wert angegebenen Werte bezeichnen auch die minimalen (maximalen) Werte dieser Verteilung.

Die Summe ist die Gesamtzahl der Babys, die im Zeitraum 1991-2015 in England und Wales geboren wurden.

Die Anzahl ist die Gesamtzahl der Jahre, auf die sich die Daten beziehen, die analysiert wurden. In diesem Fall kann sie als Stichprobengröße betrachtet werden.

Die Statistik des Konfidenzniveaus (95 %) zeigt, dass die Wahrscheinlichkeit 95 % beträgt, dass der Mittelwert der Grundgesamtheit gleich dem Mittelwert der gegebenen Stichprobe plus/minus dem Konfidenzniveau ist (d. h. 666828,04 ± 16884,20706). Die Zahl der Geburten wird jedoch für die Gesamtbevölkerung von England und Wales berechnet, so dass eine Bewertung des Mittelwerts der “Bevölkerung” sinnvoll ist, wenn die Zahl der Geburten in einem anderen Jahr als 1991-2015 geschätzt werden soll.

Die Pivot-Tabelle ermöglicht es, die Daten aus verschiedenen Blickwinkeln zu betrachten; sie erlaubt beispielsweise die Berechnung der Gesamtzahl der in den Zellen der Daten dargestellten Einheiten (Jelen & Alexander, 2013). Im vorliegenden Fall wurde die Pivot-Tabelle verwendet, um die Gesamtzahl der Geburten von Müttern bestimmter Altersgruppen im Zeitraum 1991-2015 zu berechnen. Es zeigt sich beispielsweise, dass im Zeitraum 1991-2015 insgesamt 3.191.343 Babys von Müttern im Alter von 20-24 Jahren geboren wurden. Die Gesamtzahl der Geburten (16.670.701) wurde auch in der Spalte “Summe der Lebendgeburten” berechnet.

Die Häufigkeitstabelle zeigt, wie oft die Zahl der Geburten in den Jahren 1991-2015 innerhalb der angegebenen Spannen lag. Zum Beispiel lag die Zahl der Geburten im fraglichen Zeitraum sieben Mal zwischen 690 001 und 720 000. Aus der Häufigkeitstabelle kann man schließen, wie oft die Daten in eine bestimmte Kategorie fallen.

Das mitgelieferte Häufigkeitsdiagramm stellt die gleichen Daten wie die Häufigkeitstabelle dar, allerdings in visueller Form. Mit diesem Diagramm kann man auch vergleichen, mit welcher relativen Häufigkeit die Daten in eine bestimmte Kategorie fallen.

Sowohl Häufigkeitsdiagramme als auch Häufigkeitstabellen sind am nützlichsten, wenn sie für kategoriale (nominale oder ordinale) Daten verwendet werden, denn in diesen Fällen kann man sehen, wie oft bestimmte Werte der Daten in der Stichprobe vorkommen (z. B. wie viele Männer und Frauen es in der Stichprobe gibt).

Referenzen

Forthofer, R. N., Lee, E. S., & Hernandez, M. (2007). Biostatistik: A guide to design, analysis, and discovery (2. Aufl.). Burlington, MA: Elsevier Academic Press.

George, D., & Mallery, P. (2016). IBM SPSS Statistics 23 Schritt für Schritt: A simple guide and reference (14th ed.). New York, NY: Routledge.

Jelen, B., & Alexander, M. (2013). Pivot-Tabelle Datenverarbeitung: Microsoft Excel 2010. Upper Saddle River, NJ: Pearson Education.

Amt für nationale Statistiken. (2016). Übersichtstabellen zur Geburt – England und Wales. Web.

Remenyi, D., Onofrei, G., & English, J. (2011). Eine Einführung in die Statistik mit Microsoft Excel. Kidmore End, UK: Academic Publishing Limited.

Warner, R. M. (2013). Applied Statistics: From bivariate through multivariate techniques (2nd ed.). Thousand Oaks, CA: SAGE Publications.