HOME > 컨설팅 > 통계분석컨설팅 > OVERVIEW/방법론


현대는 정보화 시대를 넘어 디지털 혁명시대라 불리고 있습니다. 그런 만큼 과거와 달리 축적되는 정보의 양이 기하급수적이고, 그에 따른 정보 분석 요구에 대한 수요의 가속화가 이어지고 있습니다. 하지만 기존 분석방법으로 쏟아지는 데이터들 모두를 분석하여 기업의 의사결정에 도움을 주기에는 한계가 있습니다. 따라서 디지털 혁명시대에 맞는 방법론 및 시스템 성능의 변화가 필요합니다.

통계분석은 연구 목적에 의해 수집된 데이터를 분석하여 결론이나 정보를 얻는 일련의 과정입니다. 연구 목적이 설정되면, 통계적 가설이나 모형을 설정하고 관련 데이터를 수집하여 정리, 분석하여 가설 혹은 모형의 유의성을 검정합니다. 이를 확증적 데이터 분석이라 합니다. 반면, 탐색적 데이터 분석은 수집된 데이터로부터 정보나 결론을 얻는 통계적 분석방법 입니다. 최근 데이터 마이닝이(Data Mining) 이 기법에 속합니다. 저희 시벅스는 이렇게 대용량 데이터에 맞게 개발, 구현 된 데이터 마이닝 방법론을 이용하여 좀더 체계적이고 고차원적인 분석을 하고 있습니다. 그리고 강력한 분석 솔루션으로 인정된 SAS를 이용하여 분석 결과의 신뢰도 및 정확성을 높이고자 노력하고 있습니다.

저희 시벅스에서는 보다 객관적이고, 자료의 목적에 맞는 분석방법을 연구하여 정확하고, 올바른 정보를 드리고자 최선을 다하겠습니다. 일시적인 통계분석이 아닌 활용도가 높은 분석으로 기업의 효과적인 의사결정을 내리는데 도움을 드리겠습 니다.



분산분석(Analysis of Variance)

실험계획법에서 주로 사용되는 분산분석은 세 개 이상의 집단 평균을 비교하기 위해 비교 과정에서 분산을 이용하는 통계 적 분석 방법입니다. 분산 분석은 3개 이상의 표본들의 차이를 표본 평균간의 분산과 표본 내 관측치간의 분산을 비교하여 가설을 검정하는 것이 주요 내용이 됩니다. 즉, 특성치의 산포를 변동(편차의 제곱 합)으로 나타내고 이 변동을 실험과 관 련 된 요인마다 변동으로 분해 하여 오차에 비해 특히 큰 영향을 주는 요인이 무엇인가를 찾아내는 방법입니다. 따라서 분 산분석이란 특성치의 산포를 요인 별로 분해하여 어느 요인이 큰 산포를 나타내는가를 규명하는 방법이라 할 수 있습니다.



상관분석(Analysis of Variance)

상관분석은 말 그대로 서로 상관관계에 있는 두 변수간의 결부 관계를 찾아내어 한쪽 것으로 다른 쪽 값을 예측하는 통계적 분석방법 입니다. 즉, 두 변수간에 어떤 인과 관계가 존재하는지 아니면 어떤 관계도 성립하지 않는지를 파악하는 방법으로 회귀분석과 같은 또 다른 통계 분석의 기초가 되는 분석이라 할 수 있습니다.

상관 분석의 예

   1. 광고비용의 지출규모 증가와 판매량의 증가에 연관성이 있는가?
   2. 광고비 증가에 따른 누적효과는 어떤 형태 일까?
   3. 시장 점유율과 영업력의 크기(영업인력 및 대리점 수 등)와는 어떤 연관성이 있는가?
   4. 소비자들이 느끼는 가격에 대한 지각과 품질에 대한 지각 사이에 어떤 연관성이 있는가?
   5. 소비자들이 제품이나 서비스 구매 후 사용 만족도 평가 시 종합적으로 느끼는 지각에 의한 체감 만족과 각 구성 요소
      들간의 상관관계는 어떤 형태이며, 또한 각 구성요소들은 전반적인 사용 만족도와 어떤 관계가 있는가?



신뢰성분석(Reliability Analysis)

신뢰성 분석이란 측정도구의 신뢰성을 확인하기 위한 분석 방법입니다. 여기서 측정도구는 연구에 사용 할 것인가, 혹은 설문지, 보다 구체적으로 설문의 문항 정도라 생각하시면 됩니다. 가장 널리 사용되는 신뢰계수는 Cronbach`s alpha로 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균 상관관계에 근거해 동질적인 요소로 구성 되어 있는가를 보려는 것입니다.

상관 분석의 예



회귀분석(Regression Analysis)

하나 혹은 둘 이상의 독립 변수가 다른 하나의 종속변수에게 미치는 영향의 정도와 방향을 파악하고, 독립변수의 변화에 따른 종속변수의 변화를 예측 하기 위한 분석 방법입니다. 즉, 회귀분석은 종속변수의 값을 예측하거나 설명하기 위한 분석방법 입니다.

사용의 예

   - 사람의 라이프 스타일과 수명과의 함수관계를 밝혀 이들 사이의 관계 연구
   - 신제품 개발 시 시장의 규모 예측
   - 관광지 개발 시 수요예측
   - 고객 만족도에 영향을 미치는 각종 변수들의 영향력 검증 등



요인분석(Factor Analysis)

많은 변수들 사이의 상관관계를 기초로 하여 정보의 손실을 최소화 하면서 소수의 요인으로 압축하는데 이용되는 통계 방법입니다.

요인분석의 예



판별분석(Discriminant Analysis)

분류되어 있는 집단간의 차이를 의미 있게 설명해 줄 수 있는 독립변수들을 찾아내고, 이들의 선형결합으로 판별식을 만들어 내어 분류하고자 하는 대상들이 속하는 집단을 찾아내는 방법입니다.



군집분석(Cluster Analysis)

다양한 특성을 지닌 대상들을 동질적인 집단으로 분류하는데 이용하는 기법으로 시장을 세분화 하여 sub-market의 규모 및 profile을 파악할 수 있는 방법입니다.



시계열 분석(Time series Analysis)

시간의 흐름에 따라 일정한 간격마다 연속적으로 관측된 관측 값의 계열을 시계열이라 하며 동일한 시간 간격으로 측정 되는 것인데 측정한 시간에서만 취하는 시계열을 이산 시계열이라 하며, 같은 시간 구간에 걸쳐 동시적으로 또한 순서적 으로 배열된 이러한 시계열의 측징은 연속적인 관측값이 대개 독립적이 아니며, 반드시 시간 순서에 따라 관측 값을 분석 해야 합니다. 되풀이 되는 계절 변동, 규칙적인 순환 변동, 오랜 세월에 걸쳐 나타나는 구조변동이 복잡하게 혼합되어 시계 열 데이터를 이루고 있습니다. 이러한 시계열 데이터에 바탕을 둔 분석 방법을 시계열 분석이라 하며, 연구 목적에 따라 특정한 원인에 의하여 나타나는 변동 부문만을 추출, 소거 하는 일이 필요할 때, 사용되는 기법을 시계열 분석이라 합니다.

시계열 자료의 예

   - 주가, 기업 월별 매출액, 소매 물가 지수, 실업률 등



결합분석(Conjoint Analysis)

각 제품대안들에 대한 선호 순위의 분석을 통해 숨겨진/ 실제적인 소비자의 인가가치구조 및 효용함수를 얻어냄으로써 소비자의 속성 평가 유형을 보다 정확하게 밝혀내고 나아가서는 이를 근거로 선호도 예측, 시장 점유율 예측까지도 가 능하게 하고, 최적의 신상품 개발에 반영할 수 있는 분석입니다.



대응일치 분석(Multiple Correspondence Analysis)

개념상 정준 상관분석과 비슷한 면을 가지고 있는 분석법으로 두 가지 형태의 변수들의 집합을 하나의 지각도에 표현하는 기법입니다. 상관분석은 주로 마케팅 분야에서 시장세분화,제품 포지셔닝, 광고 캠페인 효과측정, 신제품 개발, 제품 컨셉 설정 등에서 이용합니다. 해당 항목에 대해 평가 응답을 다중 상관 분석으로 상대적 위치로 표시 하는 방법이며, 절대적인 평가가 아니며, 항목간의 거리 차이를 통해 상대적으로 강점을 보유하고 있는 항목을 표시해 줍니다.




다차원 척도법 (Multidimensional Scaling,MDS)

MDS는 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이에서 유사성과 비 유사성을 측정하고, 유사 성과 비 유사성의 값을 이용하여 2차원 공간상에 점으로 표현하는 방법입니다.



의사결정 나무(Decision Tree)

예측과 분류를 위한 보편적이고 강력한 툴로 다양한 알고리즘을 가지고 있습니다. 그 중 가장 보편적인 것으로 CART와 CHAID가 있습니다.

CHAID (Chi-Squared automatic interaction detection)의 예시



T-검정(T-test)

변수간 차이 검정 방법으로 통계적으로 유의한 차이가 있는가를 확인 하는 방법입니다.

T-test의 예시 : 업체별 만족도의 차이가 있는가? 의 결과


Logistic성장 모델은 신제품 도입 및 확산 과정을 설명하는데 주로 사용되는 확산모형으로 , 신제품의 성장과정을 도입, 성장, 성숙, 쇠퇴기로 나누어 각 시기별로 변화 패턴을 가정하고 이를 통해 중장기 수요를 예측할 수 있는 모델입니다.

예측방법의 종류

   예측 방법들은 다양한 기준에 따라 분류할 수 있는데, 한가지 대표적인 방법이 정성적 방법에 의한 예측과 시계열
   모델에 의한 예측 그리고 인과적 모델에 의한 예측으로 분류할 수 있습니다.
   (1) 정성적 방법에 의한 예측 - 델파이 방법, 시장조사, 전망조사등이 있으나 매우 주관적이므로 독특한 수요예측의
                                            경우, 잘 사용하지 않음
   (2) 시계열 모델에 의한 예측 - 이동평균법, 지수평활법,추사투사 등이 있으며 독립변수의 시간의 함수로 종속변수를
                                            정의하는 것임
   (3) 인과적 모델에 의한 예측 - 변수간의 관계를 통계적으로 규명하여 모델을 구성하는 방법
   (4) 시뮬레이션 - 일정기간에 걸친 시장의 행동을 모의 실험을 통하여 구성된 모델을 근거로 하는 방법



다변량 자료의 이해

  통계분석이란 특정 개체들을 대상으로 여러 가지 특성을 관측한 후에 정보를 구하는 과정입니다. 관측된 특성들은
  변수라는 것을 통하여 표현하게 되는데, 일반적으로 각 개체로부터 여러 개의 변수들을 동시에 측정하게 됩니다.
  이와 같이 측정대상으로 부터 여러 개의 변수를 측정하여 구하는 자료를 『다변량 자료』라고 합니다.

1. 다변량과 일변량

다변량 분석은 크게 두 가지의 경우로 생각해 볼 수 있습니다. 먼저, 일변량 분석에 대한 다변량 분석인데 이는 원인을 측정하는 설명변수와 결과를 관측하는 종속변수가 있는 모형에서 종속변수의 수에 의한 구분입니다. 즉, 종속(반응)변 수가 하나이면 일변량, 두 개 이상이면 다변량 분석이라고 합니다. 분석의 틀은 두 가지 분석이 동일합니다. 두 번째로 각 개체로부터 여러 개의 변수들을 측정하였을 때 여러 변수들 사이의 관계를 이용하는 통계분석입니다.

2. 다변량 분석의 목적

    (1) 관측한 변수들의 구조적 특성을 파악하여 소수의 새로운 변수를 생성하는 구조적 단순화.
    (2) 관측한 변수들을 이용하여 개체들을 몇 개의 소집단으로 구분하는 관찰개체의 분류.
    (3) 서로 관련된 변수들을 유사한 것끼리 집단화하는 변수의 군집화.
    (4) 유사한 변수 값을 갖는 개체들이 유사한 형상을 갖도록 변수들을 이용한 관찰개체의 형상화.
    (5) 일반적인 통계분석에서 시행하는 관련 모수의 추정과 가설의 구축 및 검정.



실험계획법이란 실험에 대한 계획방법을 의미하는 것으로 해결하고자 하는 문제에 대해 실험을 어떻게 시행하고, 데이터 를 어떻게 취하며, 어떠한 통계적 방법으로 데이터를 분석하면 최소의 실험 횟수에서 최대의 정보를 얻을 수 잇는가를 계 획하는 것이라 정의할 수 있습니다. 즉, 합리적으로 실험을 할당하여 정밀하고 경제적인 결과가 나올 수 있도록 실험 내용을 설계하는 것입니다. 이처럼 실험 계획법은 거의 모든 분야에서 어떤 특정한 과정 또는 시스템을 이해하려면 연구자 들을 실험할 수 밖에 없습니다. 계획된 실험이란, 실험 시스템에 대한 입력변수를 연구자가 조절하였을 때,출력변수가 어떻게 변화하는지 관찰하고 조사하여 시스템을 보다 더 잘 이해 하려는 시도 입니다.