티스토리 툴바

트위터에서 아래와 같은 트윗을 보았습니다:

지인의 페이스북에서 본 자료. 제주도 강정마을 날짜별 체포 현황표. 진정으로 "국가란 무엇인가" 질문을 던지게 됨. http://pic.twitter.com/ibAlerLa


얼마전에 Edward Tufte의 책(Visual Explanation)을 읽고 공부한 내용을 적용하여 시각화 연습을 해봤습니다.

1. 주장하고자 하는 바를 정리하기

일단, 위의 표를 작성한 사람이 주장하고자 하는 바가 무엇인지 명확히 이해하는 것이 필요합니다. 표를 자세히 읽어보며 유추해보면 대략 다음과 같은 주장일 것 같습니다.

1) 제주 강정 마을에서 사람들이 체포되고 있다.
2) 이 중에는 명백한 불법 체포도 포함되어 있다.
3) 현 서귀포경찰서장 취임 이후 체포 인원이 크게 늘고 있다.

2. 드러내야 할 데이터와 가려야 할 데이터

위와 같이 주장하고자 하는 바를 정리하였으면 드러낼 데이터와 감출 데이터가 무엇인지 살펴보아야 합니다.

우선, 현 서귀포경찰서장 취임 이후 체포 인원이 크게 늘고 있다는 주장을 드러내기 위해 취임 날짜를 드러낼 필요가 있습니다. 검색을 해보면 2011년 8월 26일임을 알 수 있습니다(해군기지 문책인사 – ‘강호준 서장 업무 돌입’).

한편, 위 주장 1~3에 있어서 사건이 일어난 장소는 중요치 않습니다. 또한, 연행사유의 경우 불필요하게 자세한 사유(업무방해, 체포영장, 폭행, 경범죄, 집시법위반, 상해혐의 등)를 표현하기 보다는 불법 체포인지 아닌지의 구분만 있으면 될 것 같습니다.

3. 표 보다는 그림으로

우선 날짜. 위 표에서는 데이터를 날짜 순으로 정렬한 후 동일한 간격으로 나열하였는데 이는 등수와 같이 순서만 의미가 있는 데이터(ordinal)에 적합한 방식입니다. 날짜의 경우 순서 뿐 아니라 간격이 의미가 있는 자료(즉, interval 성격을 지님)이므로 이 간격을 드러내주는 것이 좋습니다. 예를 들어 2011년 5월 19일과 7월 15일 사이에는 약 25일의 간격이 있는 반면, 10월 2일과 10월 4일에는 2일의 간격만 있는데 이러한 점이 잘 드러나지 않는다는 것이죠.

다음은 체포 인원. 단순히 숫자로만 표현할 경우 빠르게 훑어 읽으며 그 크기를 가늠하기가 쉽지 않습니다. 물론 위 표의 경우, 대부분 체포 인원이 한 자리 수인데 간혹 두 자리 수가 나타나고 있어서(오른쪽 정렬의 경우, 두 자리 수는 한 자리 수에 비해 왼쪽으로 튀어나와 보입니다) “아, 다섯 번 정도는 평소보다 많은 인원이 체포되었구나” 하는 식으로 훑어 보는 것이 어느 정도는 가능합니다. 하지만 이건 일종의 로그 스케일이죠.

4. 그래서 어떻게?

일단 날짜를 X축에 놓고, 체포 인원을 Y축에 넣어 dot plot을 산포도(scatter chart)를 그려보았습니다:

 

그 다음으로는, 위 표에서 불법 체포가 있었음을 나타내는 표시가 있는 경우를 붉은 색 점으로 바꿔 보았습니다(한편, 데이터 포인트가 겹치길래 투명도도 약간 주었습니다):

 

그 다음으로, 현 서귀포경찰서장 취임 날짜를 표시해보았습니다:

 

이제 제목, 범례 등을 표시하여 마무리:

 

5. 평가

제목을 통해 “1) 제주 강정 마을에서 사람들이 체포되고 있다”는 사실을 알 수 있고, 붉은 점들을 통해 “2) 이 중에는 명백한 불법 체포도 포함되어 있다”는 사실을 알 수 있으며, “3) 현 서귀포경찰서장 취임 이후 체포 인원(및 빈도)이 크었다”는 점도 시각적으로 명확히 드러납니다.

물론 데이터를 설득력 있게 표현하는 것 보다 앞서서 가장 중요한 것은 1) 데이터가 얼마나 정확한가(사실에 대한 판단), 2) 주장하고자 하는 바가 진실(주관적 가치 판단을 포함)한가 등이라고 하는데, 이러한 부분에 대해서는 제가 관련 사건에 대한 지식이 부족하여 판단을 보류합니다.


6. 다른 대안들 (2012-02-26 에 추가)

댓글에서 dot plot 산포도보다는 막대 그래프, 누적 막대 그래프 등 다른 표현이 적합하지 않느냐는 지적이 있었습니다. 타당한 지적이라고 생각해서 이것저것 시도를 해봤어요(차트라는 것이 실제로 그려보기 전에는 알 수 없는 경우가 많습니다):


제일 위에서부터 1) 체포인원수를 누적하여 표현한 히스토그램, 2) 체포인원수를 누적하여 표현한 쌓인막대그래프, 3) 막대그래프, 4) dot plot, 5) 겹쳐서 표현한 스파크라인, 6) 나누어 표현한 스파크라인 입니다. 버블차트도 해볼까 하다가 스파크라인과 큰 차이가 없을 것으로 보여서 냅뒀습니다.

어떤 표현 방법이 이해하기 쉽고 오해의 소지가 적으며 주장하고자 하는 바를 잘 전달한다고 생각하세요?

Trackback

http://alankang.tistory.com/trackback/297 관련글 쓰기
< Newer     Older >