수학이야기 74. 통계 (Statistics)
📌 학습 개요
21세기 가장 비싼 자원인 ‘데이터(Data)’ 를 다루는 학문, 통계(Statistics) 의 기초 뼈대를 구축하는 단원입니다.
지저분하고 파편화된 원시 숫자들이 어떻게 수집되고(Crawling), 기준에 따라 썰리며(Filtering), 표와 꺾은선/원 그래프 같은 직관적인 시각적 UI 로 렌더링(Rendering) 되는지 그 연금술의 전 과정을 체험합니다.
아울러 파이썬(Python)의 핵심 도구들(List, If-Elif문, Pandas, Matplotlib) 을 접목하여, 수학 교과서 속의 수동적인 덧셈 놀이가 실제 실리콘밸리 데이터 사이언티스트들의 빅데이터 분석 아키텍처와 어떻게 100% 동일하게 움직이는지 해킹해 봅니다.
📚 목차 (Table of Contents)
- 1. 흩어진 조각 모으기: ‘자료의 수집’
- 통계의 부팅 단계. 세상에서 무작위로 수집한 변량(Variate) 이라는 흙 묻은 원시 데이터 구슬들을 파이썬
List에 쓸어 담는 기초 체력을 기릅니다.
- 통계의 부팅 단계. 세상에서 무작위로 수집한 변량(Variate) 이라는 흙 묻은 원시 데이터 구슬들을 파이썬
- 2. 내 입맛대로 체에 거르기: ‘자료의 분류’
- 똑같은 숫자 뭉치라도 내가 어떤 잣대(Criteria) 의 칼을 들이대느냐에 따라 전혀 다른 정보로 쪼개지는, If 조건문의 필터링 철학을 배웁니다.
- 3. 흩어진 데이터를 묶는 포장지: ‘표(Table)를 활용한 자료의 정리’
- 엑셀과 관계형 데이터베이스(RDBMS) 의 시조새인 가로세로 격자(Matrix) 를 통해 데이터를 한눈에 브리핑 가능한 포장지로 묶어냅니다.
- 4. 모니터로 빨려 들어가는 시각 렌더링: ‘여러 가지 그래프 활용’
- 막대, 꺾은선, 원그래프가 어떻게 인간의 뇌신경(UI) 을 지배하는지 직관력을 관찰하고, 이를 악용한 뉴스 통계 사기 수법을 디버깅합니다.
- 5. 파편화된 숫자의 병합: ‘도수분포표와 히스토그램’
- 서로 다른 30개의 점수를 ‘계급(Bin)’ 이라는 압축 포대에 쓸어 담고, 틈새가 시멘트로 발라진 히스토그램 빌딩을 세워 거시적 분포 곡선의 형태를 엿봅니다.
- 6. 체급이 다른 자들의 불공정 결투 해킹: ‘상대도수와 누적도수’
- 20명 반과 100명 반의 엘리트를 공정하게($0 \sim 1$) 패싸움 붙이는 상대비율 변환술과, 위에서부터 데이터를 눈덩이처럼 덧셈(
+=) 시키는 누적 알고리즘을 체화합니다.
- 20명 반과 100명 반의 엘리트를 공정하게($0 \sim 1$) 패싸움 붙이는 상대비율 변환술과, 위에서부터 데이터를 눈덩이처럼 덧셈(
- 7. 무너진 시소의 중심을 잡아라: 대푯값계의 제왕, ‘평균(Average)’
- 10만 줄의 빅데이터를 멱살 잡고 대표하는 단 1개의 숫자 마법! 모든 숫자를 평등하게 깎아 내는 물리적 밸런스 포인트(무게 중심) 의 진정한 의미를 탐구합니다.
서브목차