Analiza statystyczna liczby zgonów kobiet i mężczyzn w Polsce w latach 2010–2020 na podstawie danych GUS.
Projekt wykonany w języku R w ramach przedmiotu Statystyczna analiza danych.
W folderze docs/dokumentacja - demografia.pdf znajduje się pełna dokumentacja projektu wraz z zrzutami ekranu.
demographic-statistical-analysis/
├── README.md
├── LICENSE
├── docs/
│ └── dokumentacja - demografia.pdf
├── src/
│ └── analysis.R
└── data/
└── tablice_trwania_zycia_w_latach_1990-2022.xlsx
Celem analizy było:
- przygotowanie i oczyszczenie danych demograficznych,
- obliczenie podstawowych statystyk opisowych,
- wizualizacja zjawisk demograficznych,
- zbadanie zależności pomiędzy zmiennymi,
- przetestowanie wybranych hipotez statystycznych.
Dane pochodzą z „Tablic trwania życia 1990–2020” udostępnionych przez Główny Urząd Statystyczny (GUS).
W analizie wykorzystano dane:
- z arkuszy Excel zawierających liczbę zgonów kobiet i mężczyzn,
- lata: 2010–2020,
- zakres wieku: 0–100 lat.
Plik źródłowy dostarczał m.in. kolumny:
- płeć (1 – mężczyzna, 2 – kobieta),
- wiek,
- liczba zmarłych w danym roku i grupie.
W ramach analizy wykonano:
- import arkuszy
xlsprzy użyciuread_excel, - przekształcenie struktury do
data.frame.
- usunięcie kolumn niedotyczących projektu,
- usunięcie wierszy z wartościami brakującymi,
- konwersja typów,
- standaryzacja nazw kolumn,
- zamiana kodów płci (1 → M, 2 → K).
- utworzenie osobnych tabel dla kobiet i mężczyzn dla każdego roku.
- połączenie tabel z lat 2010–2020,
- obliczenie średniej liczby zgonów dla każdego wieku (0–100).
W projekcie obliczono:
- średnią,
- medianę,
- modę (własna funkcja),
- odchylenie standardowe,
- median absolute deviation (MAD),
- kwartyle,
- rozstęp międzykwartylowy (IQR),
- współczynnik zmienności (CV),
- współczynnik asymetrii.
Wyniki obliczono osobno dla kobiet i mężczyzn.
W projekcie wykonano m.in.:
- rozkład średniej liczby zgonów dla kobiet,
- rozkład średniej liczby zgonów dla mężczyzn.
- średnia liczba zgonów według wieku,
- słupki z linią trendu / średniej.
- udział procentowy liczby zgonów w latach 2010–2020.
- wykresy gęstości (density),
- ECDF – empiryczna dystrybuanta skumulowana.
Przeprowadzono dwa testy:
Czy średnia liczba zgonów kobiet w latach 2010–2020 jest równa 1000?
➡ Wynik: brak podstaw do odrzucenia hipotezy zerowej.
Czy średnia liczba zgonów mężczyzn jest większa niż 1000?
➡ Wynik: odrzucenie hipotezy zerowej (średnia > 1000).
- Zainstaluj R i RStudio
- Zainstaluj pakiety: install.packages(c("readxl","ggplot2","plotrix","dplyr"))
- Pobierz data/tablice_trwania_zycia.csv
- Pobierz src/demographic-analysis.R
- Otwórz plik demographic-analysis.R
- Zainstaluj wymagane biblioteki
- Wybierz ścieżkę danych (linijki od 3 do 13 w kodzie src/demographic-analysis.R
- Skompiluj kod
- Wyniki oraz wykresy zostaną wyświetlone w interfejsie R.