Vad är R Squared (R2) i regression?
R-kvadrat (R2) är ett viktigt statistiskt mått som är en regressionsmodell som representerar andelen skillnaden eller variansen i statistiska termer för en beroende variabel som kan förklaras med en oberoende variabel eller variabler. Kort sagt bestämmer det hur bra data passar regressionsmodellen.
R kvadratformel
För beräkning av R kvadrat måste du bestämma korrelationskoefficienten och sedan måste du kvadrera resultatet.
R kvadratformel = r2
Där r kan korrelationskoefficienten beräknas enligt nedan:
Var,
- r = Korrelationskoefficienten
- n = nummer i den angivna datasetet
- x = första variabeln i sammanhanget
- y = andra variabel
Förklaring
Om det finns någon relation eller korrelation som kan vara linjär eller icke-linjär mellan dessa två variabler ska den ange om det finns en förändring i den oberoende variabeln i värde, då kommer den andra beroende variabeln sannolikt att förändras i värde, säg linjärt eller icke- linjärt.
Täljarens del av formeln gör ett test om de rör sig tillsammans och tar bort sina individuella rörelser och relativa styrka för dem båda som rör sig tillsammans och nämnarens del av formeln skalar täljaren genom att ta kvadratroten av produkten av skillnaderna i variabler från deras kvadrerade variabler. Och när du kvadrerar detta resultat får vi R i kvadrat vilket är ingenting annat än bestämningskoefficienten.
Exempel
Du kan ladda ner denna Excel-mall för R Squared Formula här - R Squared Formula Excel-mallExempel nr 1
Tänk på följande två variabler x och y, du måste beräkna R kvadrat i regression.
Lösning:
Med hjälp av ovan nämnda formel måste vi först beräkna korrelationskoefficienten.
Vi har alla värden i tabellen ovan med n = 4.
Låt oss nu ange värdena i formeln för att komma fram till figuren.
r = (4 * 26,046,25) - (265,18 * 326,89) / √ [(4 * 21,274,94) - (326,89) 2] * [(4 * 31,901,89) - (326,89) 2]
r = 17,501,06 / 17,512,88
Korrelationskoefficient kommer att
r = 0,99932480
Så beräkningen kommer att vara som följer,
r2 = (0,99932480) 2
R kvadratformel i regression
r2 = 0,998650052
Exempel 2
Indien, ett utvecklingsland, vill göra en oberoende analys om förändringar i råoljepriset har påverkat dess rupier. Följande är historien om Brent råoljepris och rupier värdering både mot dollar som rådde i genomsnitt under dessa år per nedan.
RBI Indiens centralbank har kontaktat dig för att ge en presentation om samma i nästa möte. Bestäm om rörelserna i råolja påverkar rörelserna i Rupee per dollar?
Lösning:
Med hjälp av formeln för korrelationen ovan kan vi först beräkna korrelationskoefficienten. Att behandla genomsnittligt råoljepris som en variabel säger x och behandla rupie per dollar som en annan variabel som y.
Vi har alla värden i tabellen ovan med n = 6.
Låt oss nu ange värdena i formeln för att komma fram till figuren.
r = (6 * 23592,83) - (356,70 * 398,59) / √ [(6 * 22829,36) - (356,70) 2] * [(6 * 26529,38) - (398,59) 2]
r = -620,06 / 1 715,95
Korrelationskoefficient kommer att
r = -0,3614
Så beräkningen kommer att vara som följer,
r2 = (-0,3614) 2
R kvadratformel i regression
r2 = 0,1306
Analys: Det verkar som om det finns ett mindre samband mellan förändringar i råoljepriset och förändringar i priset på den indiska rupien. I takt med att råoljepriset stiger påverkas också förändringarna i indisk rupie. Men eftersom R-kvadraten bara är 13% förklarar förändringarna i råoljepriset mycket mindre om förändringar i indisk rupie och den indiska rupien är föremål för förändringar i andra variabler som också måste redovisas.
Exempel # 3
XYZ-laboratorium bedriver forskning om längd och vikt och är intresserad av att veta om det finns någon form av samband mellan dessa variabler. Efter att ha samlat ett urval på 5000 personer för varje kategori och kommit fram till en genomsnittlig vikt och genomsnittlig höjd i just den gruppen.
Nedan är detaljerna som de har samlat in.
Du måste beräkna R Squared och avsluta om den här modellen förklarar varianter i höjd påverkar vikter i vikt.
Lösning:
Med hjälp av formeln för korrelationen ovan kan vi först beräkna korrelationskoefficienten. Behandla höjd som en variabel säg x och behandla vikt som en annan variabel som y.
Vi har alla värden i tabellen ovan med n = 6.
Låt oss nu ange värdena i formeln för att komma fram till figuren.
r = (7 * 74 058,67) - (1031 * 496,44) / √ [(7 * 153595 - (1031) 2] * [(7 * 35793,59) - (496,44) 2]
r = 6581,05 / 7,075,77
Korrelationskoefficient kommer att
Korrelationskoefficient (r) = 0,930
Så beräkningen kommer att vara som följer,
r2 = 0,865
Analys: Korrelationen är positiv och det verkar som om det finns något samband mellan höjd och vikt eftersom höjden ökar vikten på personen också verkar öka. Medan R2 föreslår att 86% av förändringarna i höjd tillskrivs viktförändringar och 14% är oförklarliga.
Relevans och användningsområden
Relevansen av R kvadrat vid regression är dess förmåga att hitta sannolikheten för framtida händelser som inträffar inom de givna förutsagda resultaten eller resultaten. Om fler prover läggs till i modellen, kommer koefficienten att visa sannolikheten eller sannolikheten för att en ny punkt eller den nya datasetet faller på raden. Även om båda variablerna har en stark koppling, visar bestämningen inte kausalitet.
Några av de utrymmen där R kvadrat används mest är för att spåra fondens resultat, för att spåra risk i hedgefonder, för att bestämma hur väl aktier rör sig med marknaden, där R2 skulle föreslå hur mycket av rörelserna i aktien kan förklaras av rörelserna på marknaden.