Korelační vztah charakterizuje. Kvantitativní posouzení těsnosti spoje podle empirických dat: empirický koeficient určení, empirický korelační poměr

empirický korelační vztah

K měření blízkosti asociace se používá několik indikátorů. U párového spojení je těsnost spojení určena především korelačním poměrem, který se značí η. Druhá mocnina korelačního poměru je poměr meziskupinového rozptylu výsledného znaku, který vyjadřuje vliv rozdílů ve znaku seskupovacího faktoru na průměrnou hodnotu výsledného znaku, k celkovému rozptylu výsledného znaku, který vyjadřuje vliv všech příčin a podmínek na něj. Druhá mocnina korelačního poměru se nazývá koeficient determinace.

ny jevy a jejich znaky: ________________ nebo přísně deterministické

kde k je počet skupin

N je počet pozorování

y i - počáteční hodnoty efektivního prvku

y j - průměrné hodnoty efektivního atributu pro tuto skupinu

y je průměrná hodnota prvku

f j je velikost skupiny

Výše uvedený vzorec se používá při výpočtu ukazatele blízkosti spojení pro analytické seskupení. Při výpočtu korelačního poměru podle úrovně komunikace se používá následující vzorec:

Součet čtverců v čitateli je rozptyl výsledného znaku y vysvětlený vztahem s faktorem x (faktory). Vypočítává se z jednotlivých dat získaných pro každou jednotku populace na základě regresní rovnice.

Pokud je rovnice zvolena špatně nebo dojde k chybě při výpočtu jejích parametrů, pak může být součet čtverců v čitateli větší než ve jmenovateli a poměr ztratí význam, jaký by měl mít. Vyhnout se chybný výsledek, je lepší vypočítat korelační poměr pomocí následujícího vzorce:

Tento vzorec je založen na známém pravidle pro rozšíření součtů čtverců odchylek při seskupování populace:

D běžný= D intergr+D intragr

Podle tohoto pravidla můžete místo meziskupinového (faktoriálního) rozptylu použít rozdíl:

D běžný-D intragr

co dává:

Při výpočtu η nikoli seskupením, ale korelační rovnicí (regresní rovnicí) použijeme vzorec. V tomto případě je pravidlo rozkladu pro součet čtverců odchylek výsledného prvku zapsáno jako

D celkem \u003d D jádro + D zbytek

Nejdůležitějším bodem, který by se nyní měl naučit každý, kdo chce správně aplikovat metodu korelační-regresní analýzy, je interpretace vzorců (1.2) a (1.3). Toto ustanovení zní:

Korelační rovnice měří vztah mezi variací výsledného znaku a změnou faktoru(ů). Míry těsnosti spojení měří podíl variace výsledného znaku, který je spojen s variací faktorového znaku (vlastností).

| další přednáška ==>

Korelační analýza zahrnuje měření těsnosti spojení pomocí korelačního koeficientu a korelačního poměru. Při lineární formě závislosti se síla spojení odhaduje podle Pearsonův korelační koeficient :

Korelační koeficient se pohybuje od (- 1) do (+ 1), (– 1 r 1).

Záporné znaménko indikátoru znamená zpětnou vazbu, kladné znaménko přímé spojení. Čím více se hodnota indikátoru blíží jedné, v absolutní hodnotě, tím je spojení silnější, čím blíže k nule, tím slabší spojení.

Pro měření síly spojení s jakoukoli formou závislosti, lineární i nelineární, a také pro vyhodnocení vícenásobného spojení, použijte teoretická korelace (korelační index). Jeho výpočet je založen na pravidle sčítání rozptylu:

Kde celkový rozptyl - odráží variaci efektivního znaku v důsledku všech faktorů, které na něj působí;

nebo

rozptyl faktorů , odráží variaci efektivní funkce v důsledku faktoru (X).

zbytková disperze , odráží variaci efektivní funkce kvůli všem faktorům kromě faktoru (X);

Teoretický korelační poměr je druhá odmocnina poměru faktoriálového rozptylu k celkovému rozptylu:

kořenový výraz - koeficient determinace :

ukazuje podíl variace výsledného znaku v důsledku vlivu faktorového znaku na celkové variaci. Čím vyšší je tento podíl, tím silnější je vztah mezi znaky.

Teoretický korelační poměr mění z 0 na 1 (0 R 1) .Hodnota ukazatele se blíží jedné, tím je vztah silnější.

Chcete-li posoudit sílu vztahu, můžete použít měřítko H eddoka:

Hlavní vývojový trend a metody jeho zjišťování

Každá řada dynamiky má svůj vývojový trend, tzn. obecný směr ke zvýšení, snížení nebo stabilizaci úrovně jevu v čase. Závažnost tohoto trendu závisí na vlivu konstantních, periodických (sezónních) a náhodných faktorů na úrovně řady dynamiky. Proto je třeba hovořit nejen o trendu vývoje, ale o trendu hlavním.

Hlavní vývojový trend (trend) se nazývá plynulá a stabilní změna úrovně jevu v čase, bez periodických a náhodných výkyvů.

Pro identifikaci trendu jsou řady dynamiky zpracovány metodami zvětšování intervalů, klouzavého průměru a analytického zarovnání.

Metoda intervalového zhrubnutí je založena na konsolidaci časových úseků, které zahrnují úrovně řady dynamiky. K tomu se slučují původní údaje, tzn. sečteny nebo zprůměrovány za delší časové intervaly do Obecný trend vývoj nebude dostatečně jasný. Například denní data o produkci se slučují do desetidenních dat, měsíční data do čtvrtletních dat, roční data do víceletých dat. Výhodou metody je její jednoduchost. Nevýhodou je, že vyhlazená série je mnohem kratší než ta původní.

metoda klouzavého průměru spočívá v tom, že na základě výchozích dat se vypočítávají klouzavé průměry z určitého počtu prvních úrovní řady, nejprve v řadě, poté ze stejného počtu úrovní, počínaje druhou, třetí atd. Průměrná hodnota se jakoby posouvá podél dynamické řady a pohybuje se o jeden interval. Klouzavé průměry vyhlazují náhodné výkyvy.

Schéma pro výpočet 3-úrovňového klouzavého průměru

Časový interval

(číslo v pořadí)

Aktuální úrovně dynamických řad

na i

klouzavé průměry

na sk

na 1

na 2

na 3

na 4

na sc3

na 5

na sc4

na 6

Vyhlazená řada dynamiky je o hodnotu kratší než původní (l - 1), pokud se zvětšení provádí přes lichý počet úrovní, kde l je délka období rozšíření. Například pokud l = 3, pak je zarovnaný řádek o 2 úrovně kratší. Vyhlazená série tedy není o moc kratší než ta původní.

Metoda analytického zarovnání spočívá v nahrazení skutečných úrovní časové řady jejich teoretickými hodnotami vypočtenými na základě trendové rovnice:

Vypočítají se parametry rovnice metoda nejmenších čtverců:

Kde na– skutečné úrovně; na ti jsou zarovnané (vypočítané) úrovně, které jim odpovídají v čase.

Pokud se vývoj provádí v aritmetickém postupu (se stejnými absolutními přírůstky řetězce), pak lineární funkce:

Pokud existuje dynamika v geometrickém postupu (se stejnými rychlostmi růstu řetězce), pak je nutné použít exponenciální funkce:

na t = a 0 A 1 t .

Pokud vývoj nastane se stejnou rychlostí růstu, použije se s výkonová funkce, například druhého řádu (parabola):

na t = a 0 + a 1 t+ a 2 t 2 .

Kritériem pro správnou volbu trendové rovnice je chyba aproximace . Představuje standardní odchylku skutečných úrovní dynamických řad od teoretických:

Za optimální se považuje rovnice s nejmenší aproximační chybou.

Zvažte „techniku“ vyrovnání časové řady podle lineární funkce:


Kde A 0 , A 1 jsou parametry rovnice přímky; t- ukazatele času (zpravidla pořadové číslo období nebo bodu v čase).

Parametry linky A 0 A A 1 , splňující metodu nejmenších čtverců, se nalézají řešením následující soustavy normálních rovnic:

Kde n je počet úrovní řady dynamiky; parametr A 1 odpovídá průměrnému absolutnímu nárůstu.

Pro zjednodušení výpočtu časových ukazatelů
mohou být dány takové hodnoty
, Pak

Za tímto účelem se v řádcích s lichým počtem úrovní bere centrální interval jako začátek časové reference, kde t rovnat nule. Na obou stranách nuly jsou příslušně řady záporných a kladných přirozených čísel, například:

Časový interval

(číslo v pořadí)

t i

Pro sudý počet úrovní se počítání provádí ze dvou centrálních intervalů, ve kterých t rovná se (-1) respektive (+1) a na obou stranách jsou řady záporných a kladných lichých čísel, například:

Časový interval

(číslo v pořadí)

t i

Schéma pro výpočet parametrů lineární rovnice

Časové intervaly

Úrovně dynamických řad

na i

t i

i t 2

na i t i

na ti

Na základě vypočtené trendové rovnice je možné vyrábět extrapolace – nalezení pravděpodobnostních (projektovaných) úrovní mimo počáteční řadu dynamiky.

Hodnota 0,86 charakterizuje významný vztah mezi seskupením a výkonnostními charakteristikami.

Hodnota volal determinační koeficient a ukazuje podíl meziskupinové rozptylu na celkovém rozptylu.

Spolu s variacemi kvantitativních znaků lze pozorovat i variace kvalitativních znaků. Takové studie variací je dosaženo, pokud jde o podíly kvantitativních znaků, výpočtem a analýzou následujících typů rozptylů.

Rozptyl podílu v rámci skupiny je určeno vzorcem

. (3.17)

Průměr rozptylů v rámci skupiny se vypočítá jako

. (3.18)

Vzorec meziskupinový rozptyl má následující podobu:

, (3.19)

Kde n i– počet jednotek v samostatných skupinách;

- podíl studovaného znaku v celé populaci, který je určen vzorcem

. (3.20)

Celkový rozptyl má formu

. (3.21)

Tyto tři typy disperze spolu souvisí následovně:

. (3.22)

Příklad 3.4

Definujme skupinové rozptyly, průměr skupiny, meziskupinové a celkové rozptyly podle údajů v tabulce. 3.3.

Tabulka 3.3

Číslo a specifická gravitace jedna z kategorií chovů dobytka okresu

Řešení

Stanovme podíl dojnic obecně pro tři farmy:

;

Celkový rozptyl v podílu dojnic:

Vnitroskupinové rozdíly:

; ;
.

Průměr odchylek v rámci skupiny:

Rozdíl mezi skupinami:

Pomocí pravidla pro sčítání rozptylů dostaneme: 0,1025+0,0031=0,1056. Příklad je správný.

Příklad 3.5

Na základě údajů výběrového šetření mezd zaměstnanců ve veřejném sektoru byly získány následující ukazatele (tabulka 3.4).

Tabulka 3.4

Definovat:

    průměrná mzda ve dvou odvětvích;

    mzdový rozptyl:

a) průměr skupinových rozptylů (odvětví),

b) meziskupinové (mezisektorové),

    determinační koeficient;

    empirická korelace.

Řešení

    Střední mzda počet zaměstnanců ve dvou odvětvích se vypočítá podle vzorce (2.10):

třít.

    Mzdové rozdíly:

a) průměr skupinových rozptylů podle (3.14)

b) meziskupinový rozptyl podle (3.12)

.

c) celkový rozptyl získaný na základě pravidla pro sčítání rozptylů (3.15):

    Koeficient determinace se rovná hodnotě

; (3.23)

těch.
nebo 44,24 %.

Ukazuje, že odměňování ze 44,24 % závisí na odvětvové příslušnosti zaměstnanců az 55,76 % na vnitroodvětvových důvodech.

Podle vzorce (3.16) empirický korelační poměr
,

což ukazuje na významný vliv na diferenciaci mezd odvětvových charakteristik.

3. Empirický korelační poměr se vypočítá podle vzorce

Meziskupinový rozptyl, který charakterizuje hodnotu druhé mocniny odchylky průměrů skupiny od obecného průměru efektivního atributu.

Celkový rozptyl, zobrazující průměrnou hodnotu kvadrátů odchylek hodnoty výsledného prvku od jejich průměrné úrovně.

Vytvořme tabulku pro výpočet celkového rozptylu (viz tabulka 8)

Tabulka 8

Tabulka údajů pro stanovení celkového rozptylu

N, p/p Výdaje na jídlo
1 21 441
2 16 256
3 26,1 681,21
4 28 784
5 26 676
6 22,5 506,25
7 27,6 761,76
8 35 1225
9 23,9 571,21
10 22,5 506,25
11 15 225
12 25,2 635,04
13 29 841
14 21,4 457,96
15 24,9 620,01
16 24,8 615,04
17 16 256
18 23,6 556,96
19 27,2 739,84
20 35 1225
21 17 289
22 23,8 566,44
23 22,6 510,76
24 25 625
25 27 729
26 30 900
27 35 1225
28 25,4 645,16
29 27,2 739,84
30 26,3 691,69
Celkový 750 19502,42

Celkový rozptyl výsledného atributu se vypočítá podle vzorce:

=

Meziskupinový rozptyl se vypočítá podle vzorce:

Sestavme si pomocnou tabulku pro výpočet dat (viz tabulka 9)


Tabulka 9

Datová tabulka pro výpočet meziskupinového rozptylu

Číslo skupiny Počet domácností, ks Výdaje na jídlo, tisíce rublů
Celkový Průměr na domácnost
F
1 28-40 3 48 16 -9 81 243
2 40-52 5 105 21 -4 16 80
3 52-64 12 300 25 0 0 0
4 64-76 6 165 27,5 2,5 6,25 37,5
5 76-88 4 132 33 8 64 256
Celkový 30 750 616,5

Závěr: vztah mezi faktory je velmi úzký, protože nabývá hodnot od 0,9 do 0,99.

Koeficient determinace je druhou mocninou empirické korelace. Proto,

(81,9%)

Závěr: výstup u těchto podniků závisí na rentabilitě aktiv z 81,9 % a na ostatních faktorech z 18,1 %.

Úkol 3

Na základě výsledků úlohy 1 s pravděpodobností 0,9543 určete:

1. Výběrová chyba průměrného hrubého příjmu na člena domácnosti za rok a hranice, ve kterých se bude nacházet v běžné populaci.

2. Výběrová chyba podílu domácností s hrubým příjmem nižším než 52 tisíc rublů. a více než milion rublů. a hranice, ve kterých obecný podíl.

1. Výběrová chyba pro průměr je určena vzorcem:

, Kde

výběrový rozptyl;

n - velikost vzorku;

t je koeficient spolehlivosti, který je určen z tabulky hodnot Laplaceovy integrální funkce pro danou pravděpodobnost. V tento případ při P=0,954 je hodnota t=2.

N-počet jednotek v běžné populaci, N=6000 ks.

Pojďme spočítat rozptyl. Údaje budou prezentovány ve formě tabulky (viz tabulka 11).

Tabulka 11

Údaje pro výpočet rozptylu úrovně rentability aktiv

Číslo skupiny Seskupení domácností podle hrubého příjmu Počet domácností, ks
F
1 28-40 3 34 -25,1 630,01 1890,03
2 40-52 5 46 -13,1 171,61 858,05
3 52-64 12 58 -1,1 1,21 14,52
4 64-76 6 70 10,9 118,81 712,86
5 76-88 4 82 22,9 524,41 2097,64
Celkový 30 5573,1

Empirický korelační poměr měří, jak velká část celkového kolísání výsledného atributu je způsobena studovaným faktorem. Empirický korelační průměr se pohybuje od 0 do 1.

Empirická korelace se obvykle nachází v následující typyúkoly:

  • 1), když je nutné vytvořit analytické seskupení pro dvě datové řady X a Y
  • 2) seskupování již bylo provedeno, je nutné zaškrtnout pravidlo pro přidávání odchylek
  • 3) pro dvě datové řady X a Y je nutné najít regresní rovnici a vyhodnotit její významnost

Vzorec rozptylu alternativní funkce

Na základě výše uvedeného můžeme odvodit vzorec pro zjištění rozptylu alternativního znaku, pokud známe procento takového znaku v celkovém vzorku.

Zpočátku předpokládáme, že funkce nabývá pouze dvou hodnot.

Tedy součet podílu prvků, ve kterých mají prvky statistické řady hodnotu atributu „ne“ a prvky řady, které mají hodnotu atributu „ano“, je roven jedné.

Abychom našli průměrnou hodnotu řady, dosadíme hodnoty alternativních znaků (0 a 1) do vzorce pro zjištění vážené průměrné hodnoty statistické řady. Odkud bude zcela zjevně jednotka ve jmenovateli a procentuální hodnota prvků "1" v čitateli. Tedy přesně procentuální hodnotu prvků s atributem „1“. (Formule 2)

Vzorec rozptylu je váženým průměrem kvadrátů odchylek každé hodnoty v řadě dat. (Formule 3)

Protože v naší řadě mají data pouze dva typy hodnot - "0" a "1", je vzorec pro nalezení rozptylu pro řadu s alternativní funkcí redukován na vzorec 4. Vysvětlení. protože jsme právě odvodili, že střední hodnota vzorku je p (vzorec 2), pak hodnota druhé mocniny rozdílu mezi hodnotou (0/1) a střední hodnotou podle vzorce 1 bude (1-p)2 v prvním případě a (1-q)2 ve druhém případě, nyní s použitím důsledků z prvního vzorce: p = 1 - q, p. Dostaneme p2 a q2 . V důsledku toho je poměr hodnot „0“ a „1“ roven p a q v čitateli a ukazuje se q2 p a p2 q. Součet podílů vlastností hodnot „0“ a „1“ podle vzorce 1 je roven 1. Výsledkem je, že vzorec 4 nabývá hodnoty pq, která se bude rovnat hodnotě rozptylu alternativního znaku. Na základě zjištěné hodnoty rozptylu alternativního znaku najdeme směrodatnou odchylku (vzorec 5). Vložením hodnoty ze vzorce 1 do vzorce 5 získáme vzorec pro směrodatnou odchylku pro rozptyl řady s alternativní funkcí.