Lineare Regressionsanalyse mittels Stata Einführung Lineare Regression, auch als einfache lineare Regression oder als bivariante lineare Regression bezeichnet, wird verwendet, wenn wir den Wert einer abhängigen Variablen basierend auf dem Wert einer unabhängigen Variablen vorhersagen wollen. Beispielsweise könnten Sie die lineare Regression verwenden, um zu verstehen, ob die Prüfungsleistung anhand der Revisionszeit vorhergesagt werden kann (dh Ihre abhängige Variable wäre die Prüfungsleistung, gemessen von 0-100 Mark und Ihre unabhängige Variable wäre die Revisionszeit in Stunden) . Alternativ können Sie die lineare Regression verwenden, um zu verstehen, ob der Zigarettenkonsum aufgrund der Dauer des Rauchens vorhergesagt werden kann (dh Ihre abhängige Variable wäre Zigarettenkonsum, gemessen an der Anzahl der täglich verbrauchten Zigaretten, und Ihre unabhängige Variable würde die Dauer des Rauchens betragen in Tagen). Wenn Sie zwei oder mehr unabhängige Variablen und nicht nur einen haben, müssen Sie mehrere Regression verwenden. Alternativ, wenn Sie nur wollen, um festzustellen, ob eine lineare Beziehung existiert, könnten Sie Pearsons Korrelation. Hinweis: Die abhängige Variable wird auch als Ergebnis-, Ziel - oder Kriteriumvariable bezeichnet, während die unabhängige Variable auch als Prädiktor-, Erklärungs - oder Regressor-Variable bezeichnet wird. Letztlich, je nachdem, welcher Begriff Sie verwenden, ist es am besten, konsistent zu sein. Wir werden auf diese als abhängige und unabhängige Variablen in diesem Leitfaden zu verweisen. In dieser Anleitung zeigen wir Ihnen, wie Sie mit Stata eine lineare Regression durchführen und die Ergebnisse aus diesem Test interpretieren und berichten. Bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie jedoch die unterschiedlichen Annahmen verstehen, die Ihre Daten erfüllen müssen, damit die lineare Regression Ihnen ein gültiges Ergebnis liefert. Wir diskutieren diese Annahmen als nächstes. Annahmen Es gibt sieben Annahmen, die eine lineare Regression untermauern. Wenn eine dieser sieben Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht linear analysieren, da Sie kein gültiges Ergebnis erhalten. Da die Annahmen 1 und 2 sich auf Ihre Wahl der Variablen beziehen, können sie nicht für die Verwendung von Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie erfüllt diese Annahmen, bevor Sie fortfahren. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Inch), die Temperatur (gemessen in ° C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit IQ - Gemessen in Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie nicht sicher sind, ob Ihre abhängige Variable kontinuierlich ist (d. h. auf der Intervall - oder der Verhältnisstufe), finden Sie in unseren Variablen-Typen. Annahme 2: Ihre unabhängige Variable sollte auf kontinuierlicher oder kategorischer Ebene gemessen werden. Wenn Sie jedoch eine kategoriale unabhängige Variable haben, ist es üblicher, einen unabhängigen t-Test (für 2 Gruppen) oder eine Einweg-ANOVA (für 3 Gruppen oder mehr) zu verwenden. Beispiele für kategorische Variablen sind das Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispanic), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und Hoch) und Beruf (zB 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut). In dieser Anleitung zeigen wir Ihnen das lineare Regressionsverfahren und die Stata-Ausgabe, wenn sowohl Ihre abhängigen als auch unabhängigen Variablen auf einer kontinuierlichen Ebene gemessen wurden. Glücklicherweise können Sie Annahmen 3, 4, 5, 6 und 7 mit Stata. Wenn wir uns auf die Annahmen 3, 4, 5, 6 und 7 begeben, empfehlen wir, diese in dieser Reihenfolge zu testen, da es einen Auftrag darstellt, bei dem, falls ein Verstoß gegen die Annahme nicht korrigierbar ist, die lineare Regression nicht mehr möglich ist. In der Tat, nicht wundern, wenn Ihre Daten nicht eine oder mehrere dieser Annahmen, da dies ziemlich typisch ist, wenn die Arbeit mit realen Daten anstatt Lehrbuch Beispiele, die oft nur zeigen, wie die Durchführung linearer Regression, wenn alles gut geht. Jedoch sorgen Sie sich nicht, weil, selbst wenn Ihre Daten bestimmte Annahmen ausfallen, es häufig eine Lösung gibt, zum dieses zu überwinden (zB Ihre Daten zu verwandeln oder einen anderen statistischen Test anstatt zu verwenden). Denken Sie daran, dass die Ergebnisse, die Sie beim Ausführen der linearen Regression erhalten, nicht gültig sind, wenn Sie nicht überprüfen, ob Daten diese Annahmen erfüllen oder ob Sie sie falsch testen. Annahme 3: Es muss eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen bestehen. Während es eine Reihe von Möglichkeiten gibt, zu überprüfen, ob eine lineare Beziehung zwischen den beiden Variablen existiert, empfehlen wir die Erstellung eines Scatterplots mit Stata, in dem Sie die abhängige Variable mit Ihrer unabhängigen Variablen darstellen können. Sie können das Scatterplot dann visuell überprüfen, um die Linearität zu überprüfen. Ihr Scatterplot kann etwa so aussehen: Wenn die Beziehung, die in Ihrem Scatterplot angezeigt wird, nicht linear ist, müssen Sie entweder eine nicht lineare Regressionsanalyse durchführen oder Ihre Daten transformieren, was Sie mit Stata tun können. Annahme 4: Es sollten keine signifikanten Ausreißer vorhanden sein. Ausreißer sind einfach einzelne Datenpunkte innerhalb Ihrer Daten, die nicht dem üblichen Muster folgen (zB in einer Studie von 100 Studenten IQ Scores, wo die mittlere Punktzahl 108 mit nur einer kleinen Abweichung zwischen den Schülern war, hatte ein Schüler eine Punktzahl von 156, die Ist sehr ungewöhnlich, und kann sie sogar in die obersten 1 der IQ-Scores weltweit setzen). Die folgenden Scatterplots zeigen die möglichen Auswirkungen von Ausreißern auf: Das Problem bei Ausreißern besteht darin, dass sie einen negativen Einfluss auf die Regressionsgleichung haben können, die dazu verwendet wird, den Wert der abhängigen Variablen basierend auf der unabhängigen Variablen vorherzusagen. Dies ändert die Ausgabe, die Stata produziert, und verringert die prädiktive Genauigkeit Ihrer Ergebnisse. Glücklicherweise können Sie Stata verwenden, um eine Casewise-Diagnose durchzuführen, damit Sie mögliche Ausreißer erkennen können. Annahme 5: Sie sollten die Unabhängigkeit der Beobachtungen haben. Die Sie bequem mit der Durbin-Watson-Statistik überprüfen können. Das ist ein einfacher Test, mit Stata laufen. Annahme 6: Ihre Daten müssen Homosedastizität zeigen. Wo die Abweichungen entlang der Linie der besten Passform bleiben ähnlich, wie Sie entlang der Linie bewegen. Die beiden Scatterplots unten bieten einfache Beispiele für Daten, die diese Annahme erfüllt und eine, die die Annahme nicht: Wenn Sie Ihre eigenen Daten zu analysieren, werden Sie Glück haben, wenn Ihr Scatterplot sieht aus wie eine der beiden oben. Während sie dazu beitragen, die Unterschiede in den Daten zu veranschaulichen, die die Annahme der Homoscedastizität erfüllen oder verletzen, sind Daten in der realen Welt oft viel chaotischer. Sie können überprüfen, ob Ihre Daten Homosedastizität zeigten, indem sie die standardisierten Rückstände der Regression auf den standardisierten Vorhersagewert der Regression skizzierten. Annahme 7: Schließlich müssen Sie überprüfen, ob die Residuen (Fehler) der Regressionsgeraden annähernd normal verteilt sind. Zwei gängige Methoden, um diese Annahme zu überprüfen, umfassen die Verwendung entweder eines Histogramms (mit einer überlagerten Normalkurve) oder eines normalen P-P-Plots. In der Praxis wird die Überprüfung der Annahmen 3, 4, 5, 6 und 7 voraussichtlich die meiste Zeit in Anspruch nehmen, wenn sie eine lineare Regression durchführt. Allerdings ist es keine schwierige Aufgabe, und Stata bietet alle Werkzeuge, die Sie benötigen, um dies zu tun. Im Abschnitt Verfahren. Veranschaulichen wir das Stata-Verfahren, das erforderlich ist, um eine lineare Regression unter der Annahme durchzuführen, dass keine Annahmen verletzt worden sind. Zuerst beschreiben wir das Beispiel, das wir verwenden, um das lineare Regressionsverfahren in Stata zu erklären. Studien zeigen, dass die Ausübung kann dazu beitragen, Herzkrankheiten zu verhindern. Innerhalb vernünftiger Grenzen, je mehr Sie üben, desto weniger Risiko haben Sie von Herzkrankheiten leiden. Eine Möglichkeit, in der Übung verringert Ihr Risiko von Herzkrankheiten leiden, ist durch die Verringerung eines Fett in Ihrem Blut, genannt Cholesterin. Je mehr Sie üben, desto niedriger die Cholesterin-Konzentration. Darüber hinaus wurde vor kurzem gezeigt, dass die Menge der Zeit, die Sie verbringen TV ndash ein Indikator für eine sitzende Lebensweise ndash könnte ein guter Prädiktor für Herzerkrankungen sein (dh, je mehr TV Sie sehen, desto größer ist das Risiko von Herzerkrankungen ). Daher entschied ein Forscher, festzustellen, ob Cholesterinkonzentration im Zusammenhang mit Zeit verbrachten Fernsehen in ansonsten gesunden 45 bis 65 Jahre alten Männern (eine gefährdete Kategorie von Menschen). Zum Beispiel, da die Menschen mehr Zeit damit verbracht, fernzusehen, hat ihre Cholesterinkonzentration auch zunehmen (ein positives Verhältnis) oder das Gegenteil passieren. Der Forscher wollte auch wissen, wie viel Cholesterin Konzentration, die Zeit Fernsehen fernsehen könnte erklären, als auch sein Die Cholesterinkonzentration vorherzusagen. Der Forscher konnte dann feststellen, ob zum Beispiel Menschen, die acht Stunden verbrachte Fernsehen pro Tag hatte gefährlich hohe Konzentrationen von Cholesterin im Vergleich zu Menschen, die nur zwei Stunden Fernsehen. Zur Durchführung der Analyse rekrutierte der Forscher 100 gesunde männliche Teilnehmer im Alter zwischen 45 und 65 Jahren. Die Zeitspanne, die für das Fernsehen (d. H. Die unabhängige Variable, Zeitsteuerung) und die Cholesterolkonzentration (d. h. die abhängige Variable, Cholesterol) verbracht wurde, wurde für alle 100 Teilnehmer aufgezeichnet. In variablen Ausdrücken ausgedrückt, wollte der Forscher Cholesterin auf Timetv regressiv. Hinweis: Das Beispiel und die Daten, die für dieses Handbuch verwendet werden, sind fiktiv. Wir haben sie gerade für die Zwecke dieses Leitfadens erstellt. Setup in Stata In Stata haben wir zwei Variablen erstellt: (1) timetv. Was die durchschnittliche tägliche Fernsehzeit in Minuten (d. H. Die unabhängige Variable) und (2) Cholesterin ist. Die die Cholesterinkonzentration in mmolL (d. h. die abhängige Variable) ist. Hinweis: Es spielt keine Rolle, ob Sie zuerst die abhängige oder unabhängige Variable erstellen. Nachdem wir diese beiden Variablen ndash timetv und cholesterol ndash erstellt haben, haben wir die Scores in die beiden Spalten der Dateneditor-Tabelle (Bearbeiten) eingetragen (dh die Zeit in Stunden, die die Teilnehmer in der linken Spalte (z Unabhängige Variable) und die Cholesterinkonzentration der Teilnehmer in mmolL in der rechten Spalte (zB Cholesterin, abhängige Variable) wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP Testverfahren in Stata In diesem Abschnitt zeigen wir Ihnen, wie Sie Analysieren Sie Ihre Daten mithilfe von linearen Regression in Stata, wenn die sechs Annahmen im vorherigen Abschnitt, Annahmen nicht verletzt worden sind. Sie können lineare Regression mit Code oder statas grafische Benutzeroberfläche (GUI) durchführen. Nachdem Sie Ihre Analyse durchgeführt haben, Zeigen Sie an, wie Sie Ihre Ergebnisse interpretieren können: Wählen Sie zuerst aus, ob Sie den Code oder die grafische Benutzeroberfläche von GUI verwenden möchten. Der Code für die Durchführung der linearen Regression Ihrer Daten erfolgt wie folgt: regress DependentVariable IndependentVariable Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP . Mit unserem Beispiel, wo die abhängige Variable ist Cholesterin und die unabhängige Variable ist timetv. Der erforderliche Code wäre: regress cholesterol timetv Anmerkung 1: Sie müssen präzise sein, wenn Sie den Code in das Feld eingeben. Der Code ist case sensitive. Wenn Sie zum Beispiel Cholesterin eingegeben haben, wo das C Großbuchstaben und nicht Kleinbuchstaben (dh ein kleines c) sind, erhalten Sie eine Fehlermeldung wie die folgende: Anmerkung 2: Wenn Sie die Fehlermeldung in Anmerkung 2 immer noch erhalten : Oben, ist es wert, den Namen zu überprüfen, den Sie Ihre zwei Variablen im Daten-Editor gab, wenn Sie Ihre Akte gründen (dh sehen Sie den Dateneditorschirm oben). In dem Feld auf der rechten Seite des Dateneditor-Bildschirms ist es die Art und Weise, dass Sie Ihre Variablen im Abschnitt geschrieben haben, nicht den Abschnitt, den Sie in den Code eingeben müssen (siehe unten für unsere abhängige Variable). Dies mag offensichtlich sein, aber es ist ein Fehler, der manchmal gemacht wird, was zu dem Fehler in Anmerkung 2 oben führt. Geben Sie daher den Code ein, regressieren Sie den Cholesterinspiegel. Und drücken Sie die ReturnEnter-Taste auf Ihrer Tastatur. Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Sie können die Stata-Ausgabe sehen, die hier erzeugt wird. Grafische Benutzeroberfläche (GUI) Die drei Schritte, die zur Durchführung der linearen Regression in den Stata 12 und 13 erforderlich sind, sind nachfolgend aufgeführt: Klicken Sie auf S tatistics gt Lineare Modelle und zugehörige gt Lineare Regression im Hauptmenü, wie unten gezeigt: Publiziert mit schriftlicher Genehmigung von StataCorp LP. Sie werden mit dem Regress ndash Linear Regression Dialogbox präsentiert: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie Cholesterin aus dem Dropdown-Feld Abhängige Variable aus, und wählen Sie innerhalb der Dropdown-Liste Independent variables die Option timetv aus. Sie werden am Ende mit dem folgenden Bildschirm: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Ausgabe der linearen Regressionsanalyse in Stata Wenn Ihre Daten die Annahme 3 (dh, es gab eine lineare Beziehung zwischen den beiden Variablen), 4 (dh keine signifikanten Ausreißer), Annahme 5 (dh Sie hatten Unabhängigkeit von Beobachtungen) Dh Ihre Daten zeigten Homosedastizität) und Annahme 7 (dh die Residuen (Fehler) wurden annähernd normalverteilt), die wir bereits im Abschnitt Annahmen erklärt haben, müssen Sie nur die folgende lineare Regressionsausgabe in Stata interpretieren: Published with written permission from StataCorp LP. Die Ausgabe besteht aus vier wichtigen Informationen: a) Der R 2 - Wert (R-Quadrat-Zeile) repräsentiert den Variationsanteil der abhängigen Variablen, der sich durch unsere unabhängige Variable erklären lässt (technisch gesehen ist der Anteil der Variation Durch das Regressionsmodell über das mittlere Modell hinaus). Allerdings basiert R2 auf der Stichprobe und ist eine positiv voreingestellte Schätzung des Anteils der vom Regressionsmodell ermittelten Varianz der abhängigen Variablen (dh zu groß) (b) ein eingestellter R 2 - Wert (Adj R - (F (1, 98)) und die statistische Signifikanz des Regressionsmodells (Prob gt F-Reihe), die eine positive Vorspannung korrigiert, um einen Wert zu liefern, Und (d) die Koeffizienten für die konstante und unabhängige Variable (Coef-Spalte), die die Information ist, die Sie benötigen, um die abhängige Variable, Cholesterin vorherzusagen. Mit der unabhängigen Variable, timetv. In diesem Beispiel ist R 2 0,151. Angepasst R 2 0,143 (zu 3 d. p.), was bedeutet, dass die unabhängige Variable, timetv. Erklärt 14,3 der Variabilität der abhängigen Variablen, Cholesterin. In der Bevölkerung. Die bereinigte R 2 ist ebenfalls eine Schätzung der Effektgröße, die bei 0,143 (14,3) für eine mittlere Effektgröße nach Cohens (1988) Klassifizierung anzeigt. Normalerweise ist es jedoch R 2 nicht das eingestellte R 2, das in den Ergebnissen berichtet wird. In diesem Beispiel ist das Regressionsmodell statistisch signifikant, F (1, 98) 17.47, p .0001. Dies zeigt, dass insgesamt das angewandte Modell die abhängige Variable, Cholesterin, statistisch signifikant vorhersagen kann. Anmerkung: Wir geben den Ausgang der linearen Regressionsanalyse vor. Da Sie jedoch Ihre Daten für die Annahmen getestet haben, die wir im Abschnitt Annahmen erläutert haben, müssen Sie auch die Stata-Ausgabe interpretieren, die bei der Prüfung dieser Annahmen erstellt wurde. Dazu gehören: a) die Scatterplots, mit denen Sie überprüft haben, ob eine lineare Beziehung zwischen den beiden Variablen existiert (dh Assumption 3), b) casewise Diagnostik, um zu überprüfen, dass keine signifikanten Ausreißer vorhanden sind (dh Annahme 4) Die Durbin-Watson-Statistik zur Überprüfung der Unabhängigkeit der Beobachtungen (dh Assumption 5) (d) eines Streudiagramms der regressions-standardisierten Residuen gegen den standardisierten Regressionsvorhersagewert, um zu bestimmen, ob Ihre Daten eine Homosedastizität (dh Annahme 6) und ein Histogramm (mit überlagerten Normalkurve) und Normal PP Plot, um zu überprüfen, ob die Residuen (Fehler) annähernd normalverteilt waren (dh Annahme 7). Denken Sie auch daran, dass die Ausgabe, die Sie aus dem linearen Regressionsverfahren (dh der Ausgabe, die wir oben besprochen haben) nicht mehr relevant ist, wenn Ihre Daten eine dieser Annahmen nicht bestanden haben, und Sie müssen möglicherweise einen anderen statistischen Test ausführen, um zu analysieren deine Daten. Berichte über die Ausgabe der linearen Regressionsanalyse Wenn Sie die Ausgabe Ihrer linearen Regression messen, ist es empfehlenswert, a) eine Einführung in die von Ihnen durchgeführte Analyse einzugeben. B) Informationen über die Stichprobe, einschließlich fehlender Werte (c) Der beobachtete F-Wert, Freiheitsgrade und Signifikanzniveau (dh der p-Wert) (d) der Prozentsatz der Variabilität in der abhängigen Variablen, die durch die unabhängige Variable (dh Ihre bereinigte R 2) und (e) die Regressionsgleichung erklärt wird Für Ihr Modell. Basierend auf den obigen Ergebnissen konnten wir die Ergebnisse dieser Studie wie folgt berichten: Eine lineare Regression ergab, dass die tägliche Verweildauer feststellen konnte, dass die Cholesterinkonzentration F (1, 98) 17.47, p .0001 und die Zeit, die TV verbrachte, statistisch signifikant vorhergesagt werden konnten Entfielen 14,3 der erklärten Variabilität in der Cholesterinkonzentration. Die Regressionsgleichung war: vorhergesagte Cholesterinkonzentration -2.135 0.044 x (Zeit verbrachte Fernsehen). Zusätzlich zur Meldung der Ergebnisse wie oben kann ein Diagramm verwendet werden, um Ihre Ergebnisse visuell darzustellen. Zum Beispiel könnten Sie dies mit einem Scatterplot mit Vertrauen und Vorhersageintervalle (obwohl es nicht sehr häufig, um die letzten hinzuzufügen). Dies kann es einfacher für andere, Ihre Ergebnisse zu verstehen. Darüber hinaus können Sie Ihre lineare Regressionsgleichung verwenden, um Vorhersagen über den Wert der abhängigen Variablen basierend auf verschiedenen Werten der unabhängigen Variablen vorzunehmen. Während Stata diese Werte nicht als Teil des linearen Regressionsverfahrens oben produziert, gibt es eine Prozedur in Stata, die Sie verwenden können, um dies zu tun. HINWEIS: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben FAQ Wie interpretiere ich ein Regressionsmodell, wenn einige Variablen logarithmiert werden Einleitung Auf dieser Seite wird diskutiert, wie ein Regressionsmodell interpretiert wird, wenn einige Variablen in Das Modell wurden log-transformiert. Die Beispieldaten können hier heruntergeladen werden (die Datei befindet sich im. csv-Format). Die Variablen in dem Datensatz sind Schreib-, Lese - und Mathematikwerte (Lese - und Schreibberechtigung). Das logarithmisch transformierte Schreiben (lgwrite) und logarithmisch transformierte mathematische Werte (lgmath) und weiblich. Für diese Beispiele haben wir das natürliche log (ln) genommen. Alle Beispiele werden in Stata durchgeführt, aber sie können leicht in jedem statistischen Paket generiert werden. In den folgenden Beispielen wird die Variable write oder ihre log-transformierte Version als Ergebnisvariable verwendet. Die Beispiele dienen der Veranschaulichung und sollen keinen substantiellen Sinn ergeben. Hier ist eine Tabelle von verschiedenen Arten von Mitteln für Variable schreiben. Ergebnisvariable ist logarithmiert Sehr häufig wird eine lineare Beziehung zwischen einer logarithmisch transformierten Ergebnisvariable und einer Gruppe von Prädiktorvariablen hypothetisiert. Mathematisch geschrieben folgt die Beziehung der Gleichung, wobei y die Ergebnisvariable und x1 ist. Xk die Prädiktorvariablen sind. Mit anderen Worten, wir nehmen an, daß log (y) - x 946 normal verteilt ist (oder y log-normal an alle Kovariaten gebunden ist). Da es sich nur um eine gewöhnliche kleinste Quadrate-Regression handelt, können wir leicht einen Regressionskoeffizienten interpretieren, Z. B. 946 1, als die erwartete Änderung in log von y in Bezug auf eine Ein-Einheitszunahme in x1, die alle anderen Variablen bei einem beliebigen festen Wert hält, wobei angenommen wird, daß x1 nur als Haupteffekt in das Modell eintritt. Aber was ist, wenn wir wissen wollen, was mit der Ergebnisvariablen y selbst geschieht, um eine einheitliche Zunahme von x1 zu erreichen? Die natürliche Weise, dies zu tun, besteht darin, die exponentierten Regressionskoeffizienten exp (946) zu interpretieren. Da Potenzierung die Umkehrung der Logarithmusfunktion ist. Beginnen wir mit dem Intercept-Modell, log (write) 946 0. Wir können sagen, dass 3.95 der unbedingte erwartete Mittelwert des Protokolls des Schreibens ist. Daher ist der exponentifizierte Wert exp (3.948347) 51.85. Dies ist das geometrische Mittel des Schreibens. Der Schwerpunkt liegt hierbei, dass es das geometrische Mittel statt des arithmetischen Mittels ist. OLS-Regression der ursprünglichen Variablen y verwendet wird, um das erwartete arithmetische Mittel zu schätzen, und die OLS-Regression der logarithmisch transformierten Ergebnisvariable ist, das erwartete geometrische Mittel der ursprünglichen Variablen zu schätzen. Nun können Sie zu einem Modell mit einer einzigen binären Prädiktorvariablen wechseln. Vor dem Tauchen in die Interpretation dieser Parameter, können wir die Mittel unserer abhängigen Variablen, schreiben. Nach Geschlecht. Nun können wir die Parameterschätzungen den geometrischen Mitteln für die beiden Gruppen zuordnen. Der Schnittpunkt von 3.89 ist der logarithmische geometrische Mittelwert des Schreibens, wenn weiblich 0, d. h. für Männer. Daher ist der exponentierte Wert des geometrischen Mittels für die männliche Gruppe: exp (3.892) 49.01. Was können wir über den Koeffizienten für Frauen sagen. In der logarithmischen Skala ist es der Unterschied in der erwarteten geometrischen Mittel des Protokolls des Schreibens zwischen den weiblichen Studenten und männlichen Studenten. In der ursprünglichen Skala der Variable schreiben. Es ist das Verhältnis des geometrischen Mittels des Schreibens für Schülerinnen über das geometrische Mittel des Schreibens für männliche Studenten, exp (.1032614) 54.3438349.01222 1.11. In Bezug auf die prozentuale Veränderung, können wir sagen, dass die Umstellung von männlichen Studenten zu weiblichen Studenten, erwarten wir zu sehen, über 11 Erhöhung der geometrischen Mittel der schriftlichen Punktzahlen. Zuletzt können Sie ein Modell mit mehreren Prädiktorvariablen betrachten. Der exponentiierte Koeffizient exp (946 1) für weiblich ist das Verhältnis des erwarteten geometrischen Mittels für die Schülerinnengruppe über das erwartete geometrische Mittel für die männliche Studentengruppe, wenn das Lesen und das Mathemma mit einem festen Wert gehalten werden. Natürlich werden die erwarteten geometrischen Mittel für die männliche und weibliche Studenten-Gruppe für verschiedene Werte von Lesen und Mathematik unterschiedlich sein. Ihr Verhältnis ist jedoch eine Konstante: exp (946 1). In unserem Beispiel exp (946 1) exp (.114718) 1,12. Wir können sagen, dass das Schreiben von Noten 12 höher für die weiblichen Studenten als für die männlichen Studenten. Für die Variable lesen. Können wir sagen, dass für eine einheitliche Erhöhung der Lese-. Wir erwarten, um eine 0.7 Anstieg der schriftlichen Gäste zu sehen, da exp (.0066305) 1,006653. Für eine zehnfache Erhöhung des Lesens. Wir erwarten, um eine 6,9 Anstieg der Schreibleistung zu sehen, da exp (.006630510) 1,0685526. Der Intercept wird weniger interessant, wenn die Prädiktorvariablen nicht zentriert und stetig sind. In diesem speziellen Modell ist das Intercept das erwartete Mittel für log (write) für männlich (female 0), wenn read und math gleich null sind. Zusammenfassend lässt sich sagen, dass, wenn die Ergebnisvariable log-transformiert ist, es natürlich ist, die exponentierten Regressionskoeffizienten zu interpretieren. Diese Werte entsprechen Änderungen im Verhältnis der erwarteten geometrischen Mittel der ursprünglichen Ergebnisvariablen. Einige (nicht alle) Prädiktorvariablen werden logarithmiert. Gelegentlich haben wir auch einige Prädiktorvariablen, die logarithmiert werden. In diesem Abschnitt werden wir einen Blick auf ein Beispiel werfen, in dem einige Vorhersagevariablen log-transformiert werden, aber die Ergebnisvariable in ihrer ursprünglichen Skala ist. Wir haben in der Gleichung geschrieben, Da es sich um eine OLS-Regression handelt, ist die Interpretation der Regressionskoeffizienten für die nicht transformierten Variablen unverändert gegenüber einer OLS-Regression ohne transformierte Variablen. Zum Beispiel beträgt die erwartete mittlere Differenz beim Schreiben von Scores zwischen den weiblichen und männlichen Studenten etwa 5,4 Punkte, wobei die anderen Prädiktorvariablen konstant gehalten werden. Andererseits sind aufgrund der logarithmierten Transformation die abgeschätzten Effekte von Mathematik und Lesen nicht mehr linear, obwohl die Wirkung von lgmath und lgread linear ist. Das Diagramm unten zeigt die Kurve der vorhergesagten Werte gegen die Lese-Scores für die weibliche Studenten-Gruppe Holding mathematische Punktzahl konstant. Wie interpretieren wir den Koeffizienten von 16.85218 für die Variable der Logarithmen des Lesepunkts, können wir zwei Werte des Lesespiegels, r1 und r2, verwenden. Der erwartete mittlere Unterschied bei der Schreibbewertung bei r1 und r2, bei dem die anderen Prädiktorvariablen konstant gehalten werden, ist schreiben (r2) - schreiben (r1) 946 3 (log (r2) - log (r1)) 946 3 log (r2r1). Dies bedeutet, dass, solange die prozentuale Zunahme des Lesens (die Prädiktorvariable) fest ist, wir die gleiche Differenz in der Schreibbewertung sehen werden, unabhängig davon, wo die Baseline-Leserate ist. Zum Beispiel können wir sagen, dass für eine 10 Erhöhung der Lese-Score, die Differenz in der erwarteten durchschnittlichen Schreibergebnisse immer 946 3 log (1,10) 16,85218log (1,1) 1,61. Sowohl die Ergebnisvariable als auch einige Prädiktorvariablen werden logarithmiert. Was passiert, wenn sowohl die Ergebnisvariable als auch die Prädiktorvariablen logarithmiert werden, können wir die beiden zuvor beschriebenen Situationen zu einem kombinieren. Hier ist ein Beispiel für ein solches Modell. Als Gleichung beschrieben, können wir das Modell beschreiben: Für Variablen, die nicht transformiert werden, wie z. B. weiblich. Ihr exponentierter Koeffizient ist das Verhältnis des geometrischen Mittels für das weibliche zu dem geometrischen Mittel für die männliche Studentengruppe. Zum Beispiel können wir in unserem Beispiel sagen, dass die erwartete prozentuale Zunahme des geometrischen Mittels von der männlichen Schülergruppe zur weiblichen Schülergruppe etwa 12 ist, die andere Variablen konstant hält, da exp (.1142399) 1,12. Für das Lesen der Partitur können wir sagen, dass für eine einheitliche Zunahme des Lesungsergebnisses eine Zunahme des geometrischen Mittels der Schreibbewertung von 0,7 erwartet wird, da exp (0,0066086) 1,007. Nun, konzentriert sich auf die Wirkung der Mathematik. Nehmen Sie zwei Werte der Mathematik. M1 und m2 und halten die anderen Prädiktorvariablen bei jedem festen Wert. Die obige Gleichung kann vereinfacht werden, um log (write (m2) write (m1)) 946 2 (log (m2m1)) zu loggen. Dies führt dazu, dass, solange das Verhältnis der beiden Mathe-Scores, m2m1 bleibt die gleiche, das erwartete Verhältnis der Ausgang Variable, schreiben. bleibt gleich. Zum Beispiel können wir sagen, dass für jede 10 Erhöhung der Mathematik Partitur, das erwartete Verhältnis der beiden geometrischen Mitteln für das Schreiben der Gäste wird 1.10946 2 1.10.4085369 1.0397057. Mit anderen Worten, erwarten wir etwa 4 Anstieg der Schreib-Score, wenn die Mathematik Punktzahl von 10 erhöht. Der Inhalt dieser Website sollte nicht als eine Anerkennung für eine bestimmte Website, Buch oder Software-Produkt von der University of California. Linear ausgelegt werden Regressionsanalyse mittels Stata Einführung Lineare Regression, auch als einfache lineare Regression oder bivariate lineare Regression bekannt, wird verwendet, wenn wir den Wert einer abhängigen Variablen basierend auf dem Wert einer unabhängigen Variablen vorhersagen wollen. Beispielsweise könnten Sie die lineare Regression verwenden, um zu verstehen, ob die Prüfungsleistung anhand der Revisionszeit vorhergesagt werden kann (dh Ihre abhängige Variable wäre die Prüfungsleistung, gemessen von 0-100 Mark und Ihre unabhängige Variable wäre die Revisionszeit in Stunden) . Alternativ können Sie die lineare Regression verwenden, um zu verstehen, ob der Zigarettenkonsum aufgrund der Dauer des Rauchens vorhergesagt werden kann (dh Ihre abhängige Variable wäre Zigarettenkonsum, gemessen an der Anzahl der täglich verbrauchten Zigaretten, und Ihre unabhängige Variable würde die Dauer des Rauchens betragen in Tagen). Wenn Sie zwei oder mehr unabhängige Variablen und nicht nur einen haben, müssen Sie mehrere Regression verwenden. Alternativ, wenn Sie nur wollen, um festzustellen, ob eine lineare Beziehung existiert, könnten Sie Pearsons Korrelation. Hinweis: Die abhängige Variable wird auch als Ergebnis-, Ziel - oder Kriteriumvariable bezeichnet, während die unabhängige Variable auch als Prädiktor-, Erklärungs - oder Regressor-Variable bezeichnet wird. Letztlich, je nachdem, welcher Begriff Sie verwenden, ist es am besten, konsistent zu sein. Wir werden auf diese als abhängige und unabhängige Variablen in diesem Leitfaden zu verweisen. In dieser Anleitung zeigen wir Ihnen, wie Sie mit Stata eine lineare Regression durchführen und die Ergebnisse aus diesem Test interpretieren und berichten. Bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie jedoch die unterschiedlichen Annahmen verstehen, die Ihre Daten erfüllen müssen, damit die lineare Regression Ihnen ein gültiges Ergebnis liefert. Wir diskutieren diese Annahmen als nächstes. Annahmen Es gibt sieben Annahmen, die eine lineare Regression untermauern. Wenn eine dieser sieben Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht linear analysieren, da Sie kein gültiges Ergebnis erhalten. Da die Annahmen 1 und 2 sich auf Ihre Wahl der Variablen beziehen, können sie nicht für die Verwendung von Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie erfüllt diese Annahmen, bevor Sie fortfahren. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Inch), die Temperatur (gemessen in ° C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit IQ - Gemessen in Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie nicht sicher sind, ob Ihre abhängige Variable kontinuierlich ist (d. h. auf der Intervall - oder der Verhältnisstufe), finden Sie in unseren Variablen-Typen. Annahme 2: Ihre unabhängige Variable sollte auf kontinuierlicher oder kategorischer Ebene gemessen werden. Wenn Sie jedoch eine kategoriale unabhängige Variable haben, ist es üblicher, einen unabhängigen t-Test (für 2 Gruppen) oder eine Einweg-ANOVA (für 3 Gruppen oder mehr) zu verwenden. Beispiele für kategorische Variablen sind das Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispanic), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und Hoch) und Beruf (zB 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut). In dieser Anleitung zeigen wir Ihnen das lineare Regressionsverfahren und die Stata-Ausgabe, wenn sowohl Ihre abhängigen als auch unabhängigen Variablen auf einer kontinuierlichen Ebene gemessen wurden. Glücklicherweise können Sie Annahmen 3, 4, 5, 6 und 7 mit Stata. Wenn wir uns auf die Annahmen 3, 4, 5, 6 und 7 begeben, empfehlen wir, diese in dieser Reihenfolge zu testen, da es einen Auftrag darstellt, bei dem, falls ein Verstoß gegen die Annahme nicht korrigierbar ist, die lineare Regression nicht mehr möglich ist. In der Tat, nicht wundern, wenn Ihre Daten nicht eine oder mehrere dieser Annahmen, da dies ziemlich typisch ist, wenn die Arbeit mit realen Daten anstatt Lehrbuch Beispiele, die oft nur zeigen, wie die Durchführung linearer Regression, wenn alles gut geht. Jedoch sorgen Sie sich nicht, weil, selbst wenn Ihre Daten bestimmte Annahmen ausfallen, es häufig eine Lösung gibt, zum dieses zu überwinden (zB Ihre Daten zu verwandeln oder einen anderen statistischen Test anstatt zu verwenden). Denken Sie daran, dass die Ergebnisse, die Sie beim Ausführen der linearen Regression erhalten, nicht gültig sind, wenn Sie nicht überprüfen, ob Daten diese Annahmen erfüllen oder ob Sie sie falsch testen. Annahme 3: Es muss eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen bestehen. Whilst there are a number of ways to check whether a linear relationship exists between your two variables, we suggest creating a scatterplot using Stata, where you can plot the dependent variable against your independent variable. You can then visually inspect the scatterplot to check for linearity. Your scatterplot may look something like one of the following: If the relationship displayed in your scatterplot is not linear, you will have to either run a non-linear regression analysis or transform your data, which you can do using Stata. Assumption 4: There should be no significant outliers . Outliers are simply single data points within your data that do not follow the usual pattern (e. g. in a study of 100 students IQ scores, where the mean score was 108 with only a small variation between students, one student had a score of 156, which is very unusual, and may even put her in the top 1 of IQ scores globally). The following scatterplots highlight the potential impact of outliers:The problem with outliers is that they can have a negative effect on the regression equation that is used to predict the value of the dependent variable based on the independent variable. This will change the output that Stata produces and reduce the predictive accuracy of your results. Fortunately, you can use Stata to carry out casewise diagnostics to help you detect possible outliers. Assumption 5: You should have independence of observations . which you can easily check using the Durbin-Watson statistic . which is a simple test to run using Stata. Assumption 6: Your data needs to show homoscedasticity . which is where the variances along the line of best fit remain similar as you move along the line. The two scatterplots below provide simple examples of data that meets this assumption and one that fails the assumption:When you analyse your own data, you will be lucky if your scatterplot looks like either of the two above. Whilst these help to illustrate the differences in data that meets or violates the assumption of homoscedasticity, real-world data is often a lot more messy. You can check whether your data showed homoscedasticity by plotting the regression standardized residuals against the regression standardized predicted value . Assumption 7: Finally, you need to check that the residuals (errors) of the regression line are approximately normally distributed . Two common methods to check this assumption include using either a histogram (with a superimposed normal curve) or a Normal P-P Plot . In practice, checking for assumptions 3, 4, 5, 6 and 7 will probably take up most of your time when carrying out linear regression. However, it is not a difficult task, and Stata provides all the tools you need to do this. In the section, Procedure. we illustrate the Stata procedure required to perform linear regression assuming that no assumptions have been violated. First, we set out the example we use to explain the linear regression procedure in Stata. Studies show that exercising can help prevent heart disease. Within reasonable limits, the more you exercise, the less risk you have of suffering from heart disease. One way in which exercise reduces your risk of suffering from heart disease is by reducing a fat in your blood, called cholesterol. The more you exercise, the lower your cholesterol concentration. Furthermore, it has recently been shown that the amount of time you spend watching TV ndash an indicator of a sedentary lifestyle ndash might be a good predictor of heart disease (i. e. that is, the more TV you watch, the greater your risk of heart disease). Therefore, a researcher decided to determine if cholesterol concentration was related to time spent watching TV in otherwise healthy 45 to 65 year old men (an at-risk category of people). For example, as people spent more time watching TV, did their cholesterol concentration also increase (a positive relationship) or did the opposite happen The researcher also wanted to know the proportion of cholesterol concentration that time spent watching TV could explain, as well as being able to predict cholesterol concentration. The researcher could then determine whether, for example, people that spent eight hours spent watching TV per day had dangerously high levels of cholesterol concentration compared to people watching just two hours of TV. To carry out the analysis, the researcher recruited 100 healthy male participants between the ages of 45 and 65 years old. The amount of time spent watching TV (i. e. the independent variable, timetv ) and cholesterol concentration (i. e. the dependent variable, cholesterol ) were recorded for all 100 participants. Expressed in variable terms, the researcher wanted to regress cholesterol on timetv . Note: The example and data used for this guide are fictitious. We have just created them for the purposes of this guide. Setup in Stata In Stata, we created two variables: (1) timetv. which is the average daily time spent watching TV in minutes (i. e. the independent variable) and (2) cholesterol. which is the cholesterol concentration in mmolL (i. e. the dependent variable). Note: It does not matter whether you create the dependent or independent variable first. After creating these two variables ndash timetv and cholesterol ndash we entered the scores for each into the two columns of the Data Editor (Edit) spreadsheet (i. e. the time in hours that the participants watched TV in the left-hand column (i. e. timetv. the independent variable), and participants cholesterol concentration in mmolL in the right-hand column (i. e. cholesterol. the dependent variable), as shown below: Published with written permission from StataCorp LP. Test Procedure in Stata In this section, we show you how to analyse your data using linear regression in Stata when the six assumptions in the previous section, Assumptions. have not been violated. You can carry out linear regression using code or Statas graphical user interface (GUI) . After you have carried out your analysis, we show you how to interpret your results. First, choose whether you want to use code or Statas graphical user interface (GUI) . The code to carry out linear regression on your data takes the form: regress DependentVariable IndependentVariable Published with written permission from StataCorp LP. Using our example where the dependent variable is cholesterol and the independent variable is timetv. the required code would be: regress cholesterol timetv Note 1: You need to be precise when entering the code into the box. The code is case sensitive. For example, if you entered Cholesterol where the C is uppercase rather than lowercase (i. e. a small c), which it should be, you will get an error message like the following: Note 2: If youre still getting the error message in Note 2: above, it is worth checking the name you gave your two variables in the Data Editor when you set up your file (i. e. see the Data Editor screen above ). In the box on the right-hand side of the Data Editor screen, it is the way that you spelt your variables in the section, not the section that you need to enter into the code (see below for our dependent variable). This may seem obvious, but it is an error that is sometimes made, resulting in the error in Note 2 above. Therefore, enter the code, regress cholesterol timetv . and press the ReturnEnter button on your keyboard. Published with written permission from StataCorp LP. You can see the Stata output that will be produced here . Graphical User Interface (GUI) The three steps required to carry out linear regression in Stata 12 and 13 are shown below: Click S tatistics gt Linear models and related gt Linear regression on the main menu, as shown below: Published with written permission from StataCorp LP. You will be presented with the Regress ndash Linear regression dialogue box: Published with written permission from StataCorp LP. Select cholesterol from within the Dependent variable: drop-down box, and timetv from within the Independent variables: drop-down box. You will end up with the following screen: Published with written permission from StataCorp LP. Output of linear regression analysis in Stata If your data passed assumption 3 (i. e. there was a linear relationship between your two variables), 4 (i. e. there were no significant outliers), assumption 5 (i. e. you had independence of observations), assumption 6 (i. e. your data showed homoscedasticity) and assumption 7 (i. e. the residuals (errors) were approximately normally distributed), which we explained earlier in the Assumptions section, you will only need to interpret the following linear regression output in Stata: Published with written permission from StataCorp LP. The output consists of four important pieces of information: (a) the R 2 value ( R-squared row) represents the proportion of variance in the dependent variable that can be explained by our independent variable (technically it is the proportion of variation accounted for by the regression model above and beyond the mean model). However, R 2 is based on the sample and is a positively biased estimate of the proportion of the variance of the dependent variable accounted for by the regression model (i. e. it is too large) (b) an adjusted R 2 value ( Adj R-squared row), which corrects positive bias to provide a value that would be expected in the population (c) the F value, degrees of freedom ( F( 1, 98) ) and statistical significance of the regression model ( Prob gt F row) and (d) the coefficients for the constant and independent variable ( Coef. column), which is the information you need to predict the dependent variable, cholesterol. using the independent variable, timetv . In this example, R 2 0.151. Adjusted R 2 0.143 (to 3 d. p.), which means that the independent variable, timetv. explains 14.3 of the variability of the dependent variable, cholesterol. in the population. Adjusted R 2 is also an estimate of the effect size, which at 0.143 (14.3), is indicative of a medium effect size, according to Cohens (1988) classification. However, normally it is R 2 not the adjusted R 2 that is reported in results. In this example, the regression model is statistically significant, F (1, 98) 17.47, p .0001. This indicates that, overall, the model applied can statistically significantly predict the dependent variable, cholesterol . Note: We present the output from the linear regression analysis above. However, since you should have tested your data for the assumptions we explained earlier in the Assumptions section, you will also need to interpret the Stata output that was produced when you tested for these assumptions. This includes: (a) the scatterplots you used to check if there was a linear relationship between your two variables (i. e. Assumption 3) (b) casewise diagnostics to check there were no significant outliers (i. e. Assumption 4) (c) the output from the Durbin-Watson statistic to check for independence of observations (i. e. Assumption 5) (d) a scatterplot of the regression standardized residuals against the regression standardized predicted value to determine whether your data showed homoscedasticity (i. e. Assumption 6) and a histogram (with superimposed normal curve) and Normal P-P Plot to check whether the residuals (errors) were approximately normally distributed (i. e. Assumption 7). Also, remember that if your data failed any of these assumptions, the output that you get from the linear regression procedure (i. e. the output we discuss above) will no longer be relevant, and you may have to carry out an different statistical test to analyse your data. Reporting the output of linear regression analysis When you report the output of your linear regression, it is good practice to include: (a) an introduction to the analysis you carried out (b) information about your sample, including any missing values (c) the observed F - value, degrees of freedom and significance level (i. e. the p - value) (d) the percentage of the variability in the dependent variable explained by the independent variable (i. e. your Adjusted R 2 ) and (e) the regression equation for your model. Based on the results above, we could report the results of this study as follows: A linear regression established that daily time spent watching TV could statistically significantly predict cholesterol concentration, F (1, 98) 17.47, p .0001 and time spent watching TV accounted for 14.3 of the explained variability in cholesterol concentration. The regression equation was: predicted cholesterol concentration -2.135 0.044 x (time spent watching tv). In addition to the reporting the results as above, a diagram can be used to visually present your results. For example, you could do this using a scatterplot with confidence and prediction intervals (although it is not very common to add the last). This can make it easier for others to understand your results. Furthermore, you can use your linear regression equation to make predictions about the value of the dependent variable based on different values of the independent variable. Whilst Stata does not produce these values as part of the linear regression procedure above, there is a procedure in Stata that you can use to do so. NOTICE: The IDRE Statistical consulting group will be migrating the website to the WordPress CMS in February to facilitate maintenance and creation of new content. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Welcome to the Institute for Digital Research and Education Help the Stat Consulting Group by giving a gift FAQ How do I interpret a regression model when some variables are log transformed Introduction In this page, we will discuss how to interpret a regression model when some variables in the model have been log transformed. The example data can be downloaded here (the file is in. csv format). The variables in the data set are writing, reading, and math scores ( write . read and math) . the log transformed writing ( lgwrite ) and log transformed math scores ( lgmath ) and female . For these examples, we have taken the natural log (ln). All the examples are done in Stata, but they can be easily generated in any statistical package. In the examples below, the variable write or its log transformed version will be used as the outcome variable. The examples are used for illustrative purposes and are not intended to make substantive sense. Here is a table of different types of means for variable write . Outcome variable is log transformed Very often, a linear relationship is hypothesized between a log transformed outcome variable and a group of predictor variables. Written mathematically, the relationship follows the equation where y is the outcome variable and x1. xk are the predictor variables. In other words, we assume that log(y) - x 946 is normally distributed, (or y is log-normal conditional on all the covariates.) Since this is just an ordinary least squares regression, we can easily interpret a regression coefficient, say 946 1 , as the expected change in log of y with respect to a one-unit increase in x1 holding all other variables at any fixed value, assuming that x1 enters the model only as a main effect. But what if we want to know what happens to the outcome variable y itself for a one-unit increase in x1 The natural way to do this is to interpret the exponentiated regression coefficients, exp( 946). since exponentiation is the inverse of logarithm function. Lets start with the intercept-only model, log( write ) 946 0 . We can say that 3.95 is the unconditional expected mean of log of write. Therefore the exponentiated value is exp(3.948347) 51.85. This is the geometric mean of write . The emphasis here is that it is the geometric mean instead of the arithmetic mean. OLS regression of the original variable y is used to to estimate the expected arithmetic mean and OLS regression of the log transformed outcome variable is to estimated the expected geometric mean of the original variable. Now lets move on to a model with a single binary predictor variable. Before diving into the interpretation of these parameters, lets get the means of our dependent variable, write . by gender. Now we can map the parameter estimates to the geometric means for the two groups. The intercept of 3.89 is the log of geometric mean of write when female 0, i. e. for males. Therefore, the exponentiated value of it is the geometric mean for the male group: exp(3.892) 49.01. What can we say about the coefficient for female . In the log scale, it is the difference in the expected geometric means of the log of write between the female students and male students. In the original scale of the variable write . it is the ratio of the geometric mean of write for female students over the geometric mean of write for male students, exp(.1032614) 54.3438349.01222 1.11. In terms of percent change, we can say that switching from male students to female students, we expect to see about 11 increase in the geometric mean of writing scores. Last, lets look at a model with multiple predictor variables. The exponentiated coefficient exp( 946 1 ) for female is the ratio of the expected geometric mean for the female students group over the expected geometric mean for the male students group, when read and math are held at some fixed value. Of course, the expected geometric means for the male and female students group will be different for different values of read and math . However, their ratio is a constant: exp( 946 1 ). In our example, exp( 946 1 ) exp( .114718) 1.12. We can say that writing scores will be 12 higher for the female students than for the male students. For the variable read . we can say that for a one-unit increase in read . we expect to see about a 0.7 increase in writing score, since exp(.0066305) 1.006653. For a ten-unit increase in read . we expect to see about a 6.9 increase in writing score, since exp(.006630510) 1.0685526. The intercept becomes less interesting when the predictor variables are not centered and are continuous. In this particular model, the intercept is the expected mean for log(write) for male ( female 0) when read and math are equal to zero. In summary, when the outcome variable is log transformed, it is natural to interpret the exponentiated regression coefficients. These values correspond to changes in the ratio of the expected geometric means of the original outcome variable. Some (not all) predictor variables are log transformed Occasionally, we also have some predictor variables being log transformed. In this section, we will take a look at an example where some predictor variables are log-transformed, but the outcome variable is in its original scale. Written in equation, we have Since this is an OLS regression, the interpretation of the regression coefficients for the non-transformed variables are unchanged from an OLS regression without any transformed variables. For example, the expected mean difference in writing scores between the female and male students is about 5.4 points, holding the other predictor variables constant. On the other hand, due to the log transformation, the estimated effects of math and read are no longer linear, even though the effect of lgmath and lgread are linear. The plot below shows the curve of predicted values against the reading scores for the female students group holding math score constant. How do we interpret the coefficient of 16.85218 for the variable of log of reading score Lets take two values of reading score, r1 and r2. The expected mean difference in writing score at r1 and r2, holding the other predictor variables constant, is write (r2) - write (r1) 946 3 (log(r2) - log(r1)) 946 3 log(r2r1). This means that as long as the percent increase in read (the predictor variable) is fixed, we will see the same difference in writing score, regardless where the baseline reading score is. For example, we can say that for a 10 increase in reading score, the difference in the expected mean writing scores will be always 946 3 log(1.10) 16.85218log(1.1) 1.61. Both the outcome variable and some predictor variables are log transformed What happens when both the outcome variable and predictor variables are log transformed We can combine the two previously described situations into one. Here is an example of such a model. Written as an equation, we can describe the model: For variables that are not transformed, such as female . its exponentiated coefficient is the ratio of the geometric mean for the female to the geometric mean for the male students group. For example, in our example, we can say that the expected percent increase in geometric mean from male student group to female student group is about 12 holding other variables constant, since exp(.1142399) 1.12. For reading score, we can say that for a one-unit increase in reading score, we expected to see about 0.7 of increase in the geometric mean of writing score, since exp(.0066086) 1.007. Now, lets focus on the effect of math . Take two values of math . m1 and m2, and hold the other predictor variables at any fixed value. The equation above yields It can be simplified to log( write (m2) write (m1)) 946 2 (log(m2m1)). leading to This tells us that as long as the ratio of the two math scores, m2m1 stays the same, the expected ratio of the outcome variable, write . stays the same. For example, we can say that for any 10 increase in math score, the expected ratio of the two geometric means for writing score will be 1.10946 2 1.10.4085369 1.0397057. In other words, we expect about 4 increase in writing score when math score increases by 10. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.
Comments
Post a Comment