본문 컨텐츠 바로가기

상세 메뉴

시계열도와 일원 분산 분석

일기 예보를 믿을 수 있습니까?

재생

시계열도와 일원 분산 분석

일기예보를 믿을 수 있습니까?

사람들은 일기 예보를 참고하여 어떤 옷을 입을지, 여행시 어떤 짐을 챙길 지와 같은 일상 활동을 결정합니다. 그런데 이 일기예보는 믿을만합니까?

Minitab 통계소프트웨어의 보조도구를 사용하여 알 수 있습니다.

직접 해 보십시오.

이 데이터 세트는 Minitab 본사가 있는 펜실베니아 주립대학에서 30일 동안의 일일 최고 기온에 대한 내일, 5일 후, 10일 후의 예측 값(화씨)을 수집한 것 입니다. 또한 이 데이터 세트에는 실제 일일 최고 기온, 예측 값들과 실제 최고기온 간의 차이도 있습니다.

1 단계: 데이터 보기

분석의 첫 번째 단계로 데이터를 그래프로 그려보는 것은 매우 좋습니다. 보조도구 > 그래픽 분석을 선택하면 이 데이터를 표현하기에 어떤 그래프가 적절한지에 대한 안내를 볼 수 있습니다.

보조도구는 선택할 수 있는 세 가지 분석의 목적을 제시합니다.

예측 값이 실제 최고 기온과 얼마나 근접하게 일치하는지 알아보려 합니다. 이 데이터는 발생 순서대로 기록되어 있으므로 시간별 그래프 변수를 사용하는 것이 적절해 보입니다. “시계열도”를 선택합니다.

각 예측 값들이 각각 다른 열에 있으므로 “Y 데이터가 두 개 이상의 열에 있음”을 선택합니다. 그 다음으로는 Y열에 세 개의 예측 값 열들과 실제 기온을 입력합니다.

“확인”을 클릭하면 Minitab은 이 분석에 대한 가정을 확인하는 보고서 카드, 데이터의 패턴을 찾는 데 도움을 주는 진단 보고서, 아래와 같은 요약 보고서를 생성합니다.

만약 예측 값들이 실제 기온과 일치하였다면, 시계열도에 나타난 네 가지 연결선들은 왼쪽부터 오른쪽까지 서로 비슷한 형태로 이어질 것 입니다. 하지만 분석결과는 그렇지 않습니다. 때때로 점들은 가깝지만, 급격하게 방향이 변하여 서로 떨어지는 경우도 있습니다. 특히 파란선인 “최고기온(10일후)”는 실제기온인 보라색선 “최고기온”과 자주 멀어지는 것을 볼 수 있습니다. “최고기온(내일)”은 실제 최고기온과 가장 근접하게 나타납니다.

2단계: 가설 검정하기

시계열도에서는 내일, 5일 후, 10일 후 예측 기온을 똑같이 신뢰할 수 없다는 것을 알았습니다. 세가지 예측 기온을 비교하고 이에 대한 가설 검정을 하려면 보조도구 > 가설검정을 사용합니다.

어떤 검정을 사용해야 할지를 잘 모르더라도, 보조도구가 분석방법을 선택할 수 있도록 안내해줍니다.

이 데이터에서는 세 가지의 예측 기온을 볼 수 있으므로 “세 개 이상의 표본 비교”를 선택합니다.

“선택 방법”을 누르면, 의사결정트리를 따라 올바른 선택을 할 수 있습니다. 의사결정트리를 보면 기온은 연속형 데이터이고, 세 개 이상의 표본을 비교해야 하므로 일원 분산 분석이 적절하다는 것을 알 수 있습니다.

일원 분산 분석에 대한 대화 상자를 아래와 같이 작성하고 “확인”을 클릭합니다.

보조도구의 요약보고서는 명확하게 “평균 간의 차이가 유의합니다(p<0.05)”라고 보여줍니다. 평균 비교 차트에서는 10일 후의 예측 값이 내일의 예측 값보다 유의하게 정확하지 않은 반면에, 5일 후의 예측 값은 내일의 예측 값과 동일하게 정확하다는 것을 볼 수 있습니다.

또한 보조도구는 보고서 카드를 생성하는데, 이것은 분석의 가정들을 실제 데이터를 통해 확인하고 잠재적인 문제를 알려줘서, 결과를 신뢰할 수 있도록 해줍니다.

보고서 카드에서는 한 개의 데이터 점이 비정상적이라는 것을 알 수 있습니다. 그러나 이 점을 검토해 본 결과, 이 점은 정확한 데이터이기 때문에 이 분석에 포함되어야 합니다. 보고서 카드는 또한 표본 크기가 차이를 탐지할 만큼 충분히 큰 지와 정규성 가정을 만족시킬 만큼 충분히 큰지도 확인합니다.

이렇게 분석할 수 있습니다!

이 분석에서는 어떤 옷을 입을지 결정하는데 일기예보를 참고한다면, 내일의 일기 예보나 5일 간의 일기 예보 중 하나가 믿을 만 하다는 것을 알았습니다.

물론, 날씨는 심하게 변동적이고 매우 복잡한 프로세스를 가지고 있으며 이 데이터는 단지 한 지역에서 30일 간의 데이터로 분석된 것입니다. 여러분의 지역에서 30일 간의 예측 값에 대한 결과도 같습니까? 이제 여러분은 보조도구를 이용하여 알아볼 수 있습니다!

보조도구를 사용하여 데이터를 분석하면서 다른 사항을 알아냈습니까?

본문으로 돌아가기