자주 쓰는 통계용어 2편 50개

250x250
728x90

자주 쓰는 통계용어 2편 50개

1편은 아래글을 통해서 확인해보세요 !

2023.06.19 - [실무 좀 잘하고 싶다./자격증공부] - 자주 쓰는 기초 통계 용어 50가지 1편

 

자주 쓰는 기초 통계 용어 50가지 1편

자주 쓰는 기통계 용어 50가지 1편평균 (Mean): 데이터 집합의 총합을 데이터 개수로 나눈 값으로, 대표적인 중심 경향성 척도입니다.중앙값 (Median): 데이터를 오름차순으로 정렬했을 때 가운데 위

lookingforwork.tistory.com

 

  1. A/B 테스트 (A/B Testing): 두 개의 변형(그룹 A와 그룹 B)을 비교하여 특정 변화가 결과에 미치는 영향을 평가하는 실험적인 방법입니다.
  2. 신뢰도 (Reliability): 측정 도구나 실험의 일관성과 안정성을 나타내는 지표로, 신뢰성이 높을수록 결과가 일관되게 나타납니다.
  3. 탐색적 데이터 분석 (Exploratory Data Analysis): 데이터의 패턴, 관계, 이상치 등을 파악하기 위해 시각적, 통계적인 방법을 사용하여 데이터를 탐색하는 과정입니다.
  4. 주성분 분석 (Principal Component Analysis): 다변량 데이터의 차원을 축소하고, 변수 간의 상관관계를 설명하는 주성분을 추출하는 통계적 방법입니다.
  5. 요인 분석 (Factor Analysis): 다변량 데이터의 상관 관계를 파악하여 변수들을 잠재적인 요인으로 요약하는 통계적 방법입니다.
  6. 군집 분석 (Cluster Analysis): 유사한 특성을 가진 개체들을 그룹으로 분류하는 비지도학습 방법입니다.
  7. 응답변수 (Response Variable): 회귀 분석에서 종속 변수로 사용되는 변수로, 예측하고자 하는 변수입니다.
  8. 설명변수 (Explanatory Variable): 회귀 분석에서 독립 변수로 사용되는 변수로, 종속 변수에 영향을 주는 요소를 나타냅니다.
  9. 표준화 (Standardization): 데이터의 평균을 0으로, 표준편차를 1로 변환하여 데이터의 척도를 일치시키는 과정입니다.
  10. 통계적 유의성 (Statistical Significance): 통계적 검정 결과가 우연에 의한 것이 아닌 실제적인 차이를 나타내는지를 평가하는 것을 말합니다.
  11. 신뢰구간 (Confidence Interval): 표본 추정치 주변에 위치한 모수 추정치의 범위로, 추정값의 신뢰도를 나타냅니다.
  12. 적합도 검정 (Goodness-of-Fit Test): 표본 데이터가 특정 분포와 얼마나 일치하는지를 평가하는 검정 방법입니다.
  13. 재표본추출 (Resampling): 주어진 표본 데이터로부터 반복적으로 표본을 추출하여 추정치나 분포를 계산하는 비모수적인 방법입니다.
  14. 자기상관 (Autocorrelation): 시계열 데이터에서 현재 값과 이전 값들 사이의 상관관계를 의미합니다.
  15. 편향 (Bias): 추정값이 모집단의 실제 값으로부터 어느 정도 떨어져 있는지를 나타내는 정도를 말합니다.
  16. 정규성 검정 (Normality Test): 데이터가 정규 분포를 따르는지를 확인하기 위해 수행되는 검정입니다.
  17. 비모수 검정 (Nonparametric Test): 모집단의 분포에 대한 가정을 하지 않고 수행되는 통계적 검정 방법입니다.
  18. 상관계수 (Correlation Coefficient): 두 변수 사이의 선형 관계의 강도와 방향을 나타내는 값입니다.
  19. 임계값 (Critical Value): 가설 검정에서 기각 영역과 기각 영역을 나누는 경계값으로, 유의수준에 따라 결정됩니다.
  20. 자유도 조정 (Degrees of Freedom Adjustment): 자유도를 수정하여 표본 크기나 모델 복잡도에 대한 보정을 수행하는 것입니다.
  21. 과적합 (Overfitting): 모델이 훈련 데이터에 지나치게 적합되어 새로운 데이터에 대한 예측 능력이 떨어지는 현상입니다.
  22. 공분산 (Covariance): 두 변수 간의 상관 관계를 나타내는 측정값으로, 변수들의 편차의 곱의 평균입니다.
  23. 상관행렬 (Correlation Matrix): 다변량 데이터에서 변수들 간의 상관계수를 행렬 형태로 나타낸 것입니다.
  24. 결측치 (Missing Data): 데이터에서 일부 값이 누락되어 있는 상태를 의미합니다.
  25. 차원 축소 (Dimensionality Reduction): 고차원 데이터의 특성을 보존하면서 저차원으로 데이터를 축소하는 기법입니다.
  26. 로그 변환 (Log Transformation): 데이터에 로그 함수를 적용하여 데이터의 분포를 변환하는 방법으로, 비대칭 분포의 정규성을 증가시킬 수 있습니다.
  27. 신뢰수준 (Confidence Level): 신뢰구간을 계산할 때 사용되는 신뢰도 수준으로, 일반적으로 95% 또는 99%로 설정됩니다.
  28. 자료형 (Data Types): 데이터가 가질 수 있는 형태를 의미하며, 수치형, 범주형, 시간형 등이 있습니다.
  29. 공분산 행렬 (Covariance Matrix): 다변량 데이터에서 변수들 간의 공분산을 행렬 형태로 나타낸 것으로, 변수들 간의 관계를 나타냅니다.
  30. 비선형 회귀 (Nonlinear Regression): 독립 변수와 종속 변수 사이에 비선형 관계가 있는 경우에 적용되는 회귀 분석 방법입니다.
  31. 로그-선형 모델 (Log-Linear Model): 종속 변수와 독립 변수 사이의 관계를 선형적으로 모델링한 후 로그 변환을 적용하는 모델입니다.
  32. 몬테카를로 시뮬레이션 (Monte Carlo Simulation): 확률적인 요소를 포함한 모델의 결과를 추정하기 위해 확률적인 실험을 반복적으로 수행하는 기법입니다.
  33. 베르누이 시행 (Bernoulli Trial): 두 가지 결과 중 하나가 발생하는 확률 실험을 의미합니다.
  34. 과소적합 (Underfitting): 모델이 훈련 데이터에 적합하지 않아 새로운 데이터에 대한 예측 성능이 제한되는 현상입니다.
  35. 사후확률 (Posterior Probability): 베이즈 정리에 따라 사건이 발생한 후의 확률을 계산하는 것을 의미합니다.
  36. 예측 구간 (Prediction Interval): 회귀 분석에서 독립 변수의 값을 특정할 때 종속 변수의 예측 범위를 나타내는 구간입니다.
  37. 로그 오즈 (Log Odds): 로지스틱 회귀분석에서 독립 변수와 종속 변수 간의 관계를 로그 비율로 표현한 값입니다.
  38. 원-핫 인코딩 (One-Hot Encoding): 범주형 변수를 이진 변수로 변환하는 방법으로, 각 범주에 해당하는 변수는 1로 표시되고 나머지는 0으로 표시됩니다.
  39. 과반응 (Overresponse): 설문 조사나 실험에서 참가자의 편견이나 왜곡으로 인해 예상보다 높은 반응이 발생하는 현상입니다.
  40. 재현율 (Recall): 이진 분류 모델에서 실제 양성인 케이스를 얼마나 정확하게 찾아내는지를 나타내는 지표입니다.
  41. 정밀도 (Precision): 이진 분류 모델에서 예측한 양성 케이스 중 실제로 양성인 케이스의 비율을 나타내는 지표입니다.
  42. ROC 곡선 (ROC Curve): 이진 분류 모델의 성능을 시각화하기 위해 재현율과 1-특이도 간의 관계를 나타낸 곡선입니다.
  43. 혼동 행렬 (Confusion Matrix): 이진 분류 모델의 예측 결과를 실제 클래스와 비교하여 정확성을 평가하는 행렬입니다.
  44. 과거의존성 (Autocorrelation): 시계열 데이터에서 현재 값이 이전 값에 영향을 받는 상관 관계를 의미합니다.
  45. 시계열 분석 (Time Series Analysis): 시간의 흐름에 따라 변화하는 데이터의 패턴과 동향을 분석하는 통계적 방법입니다.
  46. 정규화 (Normalization): 데이터의 크기와 범위를 일정하게 조정하여 서로 다른 척도의 변수들을 비교 가능하게 만드는 과정입니다.
  47. 비대칭 분포 (Skewed Distribution): 데이터의 분포가 좌우 대칭이 아닌 경우를 말합니다. 왼쪽으로 긴 경우를 왼쪽 비대칭, 오른쪽으로 긴 경우를 오른쪽 비대칭이라고 합니다.
  48. 카이제곱 분포 (Chi-Square Distribution): 자유도에 따라 다양한 형태를 갖는 분포로, 카이제곱 검정이나 카이제곱 독립성 검정 등에 사용됩니다.
  49. 회귀 트리 (Regression Tree): 의사결정 트리를 기반으로 한 회귀 분석 방법으로, 독립 변수에 따른 종속 변수의 값을 예측합니다.
  50. 사전 분포 (Prior Distribution): 베이지안 통계에서 사전 지식이나 경험에 따라 모수의 분포를 나타내는 것을 말합니다.
  51. 이변량 분석 (Bivariate Analysis): 두 개의 변수 간의 관계를 조사하고 이해하기 위한 통계적 분석 방법입니다.

이상, 1편과 2편합쳐서 통계학 용어 중 100개를 알려드렸습니다.

728x90

댓글

Designed by JB FACTORY