자주 쓰는 기초 통계 용어 50가지 1편

250x250
728x90

자주 쓰는 기통계 용어 50가지 1편

  1. 평균 (Mean): 데이터 집합의 총합을 데이터 개수로 나눈 값으로, 대표적인 중심 경향성 척도입니다.
  2. 중앙값 (Median): 데이터를 오름차순으로 정렬했을 때 가운데 위치한 값으로, 이상치의 영향을 적게 받는 중심 경향성 척도입니다.
  3. 표준편차 (Standard Deviation): 데이터의 분산 정도를 나타내는 측정값으로, 평균과의 거리의 제곱을 평균한 뒤 제곱근을 취한 값입니다.
  4. 분산 (Variance): 데이터가 평균에서 얼마나 퍼져있는지를 나타내는 측정값으로, 편차의 제곱의 평균입니다.
  5. 상관관계 (Correlation): 두 변수 간의 관련성을 나타내는 지표로, 어떤 방향과 강도로 변수들이 함께 움직이는지를 알려줍니다.
  6. 회귀분석 (Regression Analysis): 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 분석 기법입니다.
  7. 표본 (Sample): 모집단에서 추출한 일부 데이터로, 모집단을 대표할 수 있는 정보를 제공합니다.
  8. 모집단 (Population): 조사하고자 하는 전체 데이터 집합입니다.
  9. 표본평균 (Sample Mean): 표본 데이터의 총합을 표본의 크기로 나눈 값으로, 표본의 대표값입니다.
  10. 모평균 (Population Mean): 모집단 데이터의 총합을 모집단의 크기로 나눈 값으로, 모집단의 대표값입니다.
  11. 표본분산 (Sample Variance): 표본 데이터와 표본 평균 사이의 편차를 제곱한 값의 평균입니다.
  12. 모분산 (Population Variance): 모집단 데이터와 모집단 평균 사이의 편차를 제곱한 값의 평균입니다.
  13. 표준오차 (Standard Error): 표본 평균이 모평균을 추정하는 데 얼마나 정확한지를 나타내는 측정값입니다.
  14. 신뢰구간 (Confidence Interval): 신뢰구간 (Confidence Interval)은 통계적 추론에서 사용되는 개념으로, 모수(모집단의 특성)에 대한 추정값 주변에 위치한 범위를 나타냅니다. 신뢰구간은 추정값의 신뢰도를 표현하며, 추정값이 포함될 가능성이 높은 구간을 제공합니다.
  15. 일반적으로, 신뢰구간은 점추정값 주변에 상한과 하한을 설정하여 구성됩니다. 이는 표본 데이터로부터 계산된 추정치를 중심으로, 모수의 신뢰 구간이 어느 정도의 정확성을 가지는지를 제시합니다. 신뢰수준(confidence level)은 신뢰구간의 구성에 사용되며, 일반적으로 95%나 99%로 설정됩니다.
  16. 예를 들어, 평균 수명을 추정한다고 가정해봅시다. 표본 데이터로부터 계산된 평균값을 중심으로, 신뢰구간을 구성할 수 있습니다. 95% 신뢰수준에서 1000명의 표본에서 얻은 평균 수명이 70세이고, 신뢰구간이 (68세, 72세)라면, 95%의 신뢰도로 모집단의 평균 수명이 68세에서 72세 사이에 존재할 것으로 추정할 수 있습니다.
  17. 신뢰구간은 추정값의 변동성과 표본 크기에 영향을 받습니다. 표본 크기가 증가하면 신뢰구간은 좁아지며, 추정값의 변동성이 작을수록 신뢰구간은 좁아집니다. 신뢰구간은 모수 추정의 불확실성을 고려하여 데이터 분석과 의사 결정에 도움을 줍니다.
  18. 유의수준 (Significance Level): 가설 검정에서 귀무 가설을 기각할 기준이 되는 임계값으로, 주로 0.05 또는 0.01로 설정됩니다.
  19. 가설검정 (Hypothesis Testing): 통계적 가설을 세우고 표본 데이터를 통해 가설을 검증하는 과정입니다.
  20. t-검정 (t-Test): 두 개의 표본 평균 간의 차이가 우연히 발생한 것인지를 검정하는 통계적 방법입니다.
  21. z-검정 (z-Test): 표본의 평균을 모집단의 평균과 비교하여 차이를 검정하는 방법입니다.
  22. 카이제곱 검정 (Chi-Square Test): 범주형 변수 간의 관련성을 검정하는 방법으로, 관찰된 빈도와 기대되는 빈도의 차이를 검정합니다.
  23. ANOVA (Analysis of Variance): 세 개 이상의 그룹 간의 평균 차이가 우연히 발생한 것인지를 검정하는 분석 방법입니다.
  24. 자유도 (Degrees of Freedom): 통계적 추론에서 모집단에서 독립적으로 변동할 수 있는 값의 수입니다.
  25. 오차제곱합 (Sum of Squares): 회귀 분석에서 예측 값과 실제 값의 차이의 제곱의 합입니다.
  26. 회귀계수 (Regression Coefficient): 회귀 모델에서 독립 변수와 종속 변수 간의 관계를 나타내는 값입니다.
  27. 상호작용 (Interaction): 두 개 이상의 독립 변수가 종속 변수에 대해 함께 작용하는 경우, 변수 간의 상호작용을 고려합니다.
  28. 다중공선성 (Multicollinearity): 회귀 모델에서 독립 변수들 사이에 높은 상관관계가 있는 경우 발생하는 문제입니다.
  29. 다중회귀분석 (Multiple Regression Analysis): 둘 이상의 독립 변수를 사용하여 종속 변수를 예측하는 회귀 분석입니다.
  30. 로지스틱 회귀분석 (Logistic Regression Analysis): 종속 변수가 이항적인 경우에 사용되며, 확률 모델을 사용하여 범주를 예측합니다.
  31. 잔차 (Residual): 회귀 모델에서 예측 값과 실제 값 간의 차이입니다.
  32. R제곱 (R-Squared)은 회귀 분석에서 종속 변수의 변동성을 독립 변수로 설명하는 비율을 나타내는 통계적 지표입니다.
  33. R제곱은 0부터 1 사이의 값을 가지며, 종속 변수의 총 변동 중 독립 변수에 의해 설명되는 변동의 비율을 나타냅니다. 즉, R제곱이 클수록 독립 변수가 종속 변수의 변동성을 잘 설명한다고 할 수 있습니다.
  34. R제곱은 다음과 같이 계산됩니다. 먼저, 종속 변수의 총 변동을 SST (Sum of Squares Total)라고 합니다. 이는 종속 변수와 평균 값의 차이의 제곱의 합입니다. 그리고 회귀 모델에 의해 설명되는 종속 변수의 변동을 SSR (Sum of Squares Regression)라고 합니다. SSR은 예측값과 평균 값의 차이의 제곱의 합입니다. 마지막으로, 회귀 모델에 의해 설명되지 않는 종속 변수의 변동을 SSE (Sum of Squares Error)라고 합니다. SSE는 실제 값과 예측값의 차이의 제곱의 합입니다.
  35. 이제 R제곱은 다음과 같이 계산됩니다: R제곱 = SSR / SST = 1 - (SSE / SST)
  36. R제곱은 모델의 적합도를 평가하는 지표로 사용됩니다. 값이 1에 가까울수록 모델이 데이터를 잘 설명하고, 값이 0에 가까울수록 모델이 데이터를 잘 설명하지 못합니다. 하지만 R제곱은 독립 변수의 수가 증가하면 증가하는 경향이 있어 과적합(Overfitting)의 위험이 있습니다. 따라서 R제곱을 평가할 때는 모델의 복잡성과 함께 다른 평가 지표와 함께 고려해야 합니다.
  37. 조정된 R제곱 (Adjusted R-Squared): 회귀 모델에서 독립 변수의 수와 샘플 크기를 고려하여 R제곱을 보정한 값입니다.
  38. 가변수 (Dummy Variable): 범주형 변수를 수치형 변수로 변환하기 위해 사용되는 이진 변수입니다.
  39. 정규분포 (Normal Distribution): 평균과 표준편차에 의해 모양이 결정되는 대표적인 확률 분포입니다.
  40. 이항분포 (Binomial Distribution): 두 가지 결과 중 하나를 갖는 독립적인 시행에서 성공하는 횟수의 분포입니다.
  41. 포아송분포 (Poisson Distribution): 일정한 시간 또는 공간 간격에서 발생하는 사건의 횟수를 나타내는 분포입니다.
  42. t-분포 (t-Distribution): 표본의 크기가 작을 때 표본 평균에 대한 추정치의 분포를 나타내는 확률 분포입니다.
  43. F-분포 (F-Distribution): 두 개 이상의 정규 분포로부터 얻은 분산 추정치의 비율의 분포입니다.
  44. 비모수적 통계 (Nonparametric Statistics): 분포에 대한 가정을 하지 않고 데이터를 분석하는 통계적 기법입니다.
  45. 사분위수 (Quartile): 데이터를 오름차순으로 정렬했을 때 1/4, 2/4, 3/4 지점에 위치한 값입니다.
  46. 히스토그램 (Histogram): 데이터를 구간별로 분할하여 각 구간의 빈도를 시각적으로 표현한 그래프입니다.
  47. 상자그림 (Box Plot): 데이터의 요약 정보인 최솟값, 최댓값, 중앙값, 사분위수 등을 시각적으로 표현한 그래프입니다.
  48. 이상치 (Outlier): 대부분의 데이터와는 다른 극단적인 값을 갖는 관측치입니다.
  49. 확률 (Probability): 어떤 사건이 발생할 가능성을 나타내는 숫자로, 0부터 1 사이의 값입니다.
  50. 표본공간 (Sample Space): 가능한 모든 결과의 집합으로, 확률 이론에서 사건이 발생할 수 있는 모든 경우의 집합입니다.
  51. 사건 (Event): 표본 공간의 부분집합으로, 하나 이상의 결과로 구성된 결과의 집합입니다.
  52. 베이즈 정리 (Bayes' Theorem): 조건부 확률을 계산하기 위한 통계적 정리로, 사전 확률과 관찰된 데이터를 통해 사후 확률을 추정하는데 사용됩니다.
  53. 모수 (Parameter): 확률 분포를 특정하는데 사용되는 수치적인 값으로, 모집단의 특성을 나타냅니다.
  54. 통계량 (Statistic): 표본 데이터를 기반으로 계산되는 수치로, 모집단의 특성을 추정하거나 비교하는 데 사용됩니다.
  55. 최대우도추정 (Maximum Likelihood Estimation): 주어진 데이터를 바탕으로 모수의 값을 추정하는 통계적 방법으로, 가장 가능성이 높은 값으로 추정합니다.
  56. 잔차분석 (Residual Analysis): 회귀 분석에서 예측된 값과 실제 관측값 간의 차이인 잔차를 분석하여 모델의 적합성을 평가합니다.
  57. A/B 테스트 (A/B Testing): 두 개의 변형(그룹 A와 그룹 B)을 비교하여 특정 변화가 결과에 미치는 영향을 평가하는 실험적인 방법입니다.

 
 
 

 
728x90

댓글

Designed by JB FACTORY