새소식

데이터 모델링

1. 데이터 분석에 대해 알아보기 - Microsoft Power BI Data Analyst Associate(PL-300) 학습 모듈

  • -
728x90
      데이터와 정보는 비즈니스의 가장 전략적인 자산
  • 오늘날 조직이 해결해야 하는 기본 과제는 데이터를 이해하고 비즈니스 내의 변화에 긍정적인 영향을 줄 수 있도록 데이터를 사용하는 것
  • 데이터 분석은 기업에서 인사이트를 발견하고 스토리텔링을 통해 방대한 데이터에서 숨겨진 가치를 찾을 수 있도록 지원

1. 데이터를 분석하기 위한 분석의 핵심 구성 요소

  • 설명적 분석(Descriptive analytics)
    • 발생한 상황에 관한 질문에 답변(What has happened)
    • 설명 분석 기술은 대규모 의미 체계 모델(semantic models)을 요약하여 관련자(stakeholders)에게 결과를 설명
    • KPI(핵심 성과 지표)를 개발하여 주요 목표의 성공 또는 실패를 추적(ROI 등의 메트릭)
  • 진단적 분석(Diagnostic analytics)
    • 사건이 발생하는 이유에 대한 질문에 답변(Why events happened)
    • 설명적 분석을 보완하며, 설명적 분석의 결과를 사용하여 사건의 원인을 파악
    • 원인 파악을 위해 성과 지표를 추가로 조사
    • 진단적 분석 프로세스 3단계 
      • 변칙(anomalies) 파악
      • anomalies 관련 데이터 수집
      • 통계학적 기술을 사용하여 이러한 anomalies 를 설명하는 관계 및 추세 검색
  • 예측적 분석(Predictive analytics)
    • 향후 발생하는 상황에 관한 질문에 답변(what will happen in the future)
    • 기록데이터를 사용하여 추세를 파악하고 이를 되풀이할 가능성이 있는지 판단
    • 향후 발생할 수 있는 문제에 대해 유옹한 인사이트 제공
    • 인공신경망, 의사결정트리, 회귀 등 통계학/기계학습기술 활용
  • 처방적 분석(Prescriptive analytics)
    • 목표를 달성하기 위해 수행해야 하는 작업이 무엇인지에 대한 질문에 답변(which actions should be taken to achieve a goal or target)
    • 처방적 분석의 인사이트를 사용하여 데이터 기반의 의사결정을 내릴 수 있음
    • 처방적 분석으로 불확실한 상황에서도 합리적인 의사결정 가능
    • 대규모 의미체계 모델에서 패턴을 찾는 전략으로 기계학습을 사용함
    • 과거의 의사결정 및 이벤트를 분석하여 다양한 결과의 가능성 예측 가능
  • 인지적 분석(Cognitive analytics)
    • 인지적 분석은 기존 데이터 및 패턴에서 추론을 시도하고 기존 지식 기반을 바탕으로 결론을 도출한 다음, 이러한 결과를 지식 기반(knowledge bases)에 추가하여 향후 추론에 활용하는 자가 학습 피드백 루프
    • 상황이 변경될 때 발생할 수 있는 상황과 이러한 상황에 대응하는 방법을 알 수 있음
    • 추론은 데이터베이스를 기반으로 하는 정형 쿼리가 아니라 여러 원본에서 수집되고 다양한 정도의 신뢰도로 표현되는 비정형 가설
    • 효과적인 인지적 분석은 기계 학습 알고리즘에 의존함
    • 여러 자연어 처리 개념을 사용하여, 콜센터 대화로그, 제품 리뷰 등 이전에 사용하지 않았 데이터 소스를 분석

2. 데이터 관련 직무(Roles)

2-1. 비즈니스 분석가(Business Analyst)

  • 데이터 분석가와 유사하나 데이터를 사용하는 방식이 다름
  • 비즈니스와 긴밀하게 관련되어 있으며, 시각화를 통해 제공된 데이터를 해석하는 전문가
  • 데이터 분석가와 비즈니스 분석가의 책임을 동시에 맡기도 함

2-2. 데이터 분석가(Data Analyst)

  • 데이터 분석가는 Power BI와 같은 시각화 및 보고도구를 사용하여 데이터 자산가치를 최대화 하도록 함
  • 데이터 프로파일링, 정리, 변환을 담당함
  • 확장 가능하고(scalable) 효과적인(effective) 의미체계 모델을 설계, 빌드하고,
  • 고급 분석 기능(advanced analytics capabilities)을 분석 리포트에 사용가능하게 하고 구현하는 역할
  • 적절한 관련자와 협업하여 적절하고(appropriate) 필요한(necessary) 데이터 및 보고 요구사항을 확인한 다음, 
  • 원시 데이터(raw data)를 관련성 있고 의미 있는 인사이트로 전환하는 작업을 수행
  • 보고서에 사용되는 보고서(report), 대시보드(dashboard), 작업영역(workspace), 기본 의미체계 모델(underlying semantic models)을 포함한 Power BI 자산(assets)의 관리를 담당
  • 보안 절차 구현 및 구성 작업 담당
  • 요구사항을 충족하는 적절한 데이터 원본을 찾기위해(determine and locate) 데이터 엔지니어와 협력
  • 데이터 분석가가 필요한 데이터 원본에 적절하게 액세스 할 수 있도록 데이터 엔지니어 및 데이터베이스 관리자와 협력
  • 새 프로세스를 파악하거나 분석을 위한 기존의 데이터 수집 프로세스를 개선하기 위해 데이터 엔지니어와 협력

2-3. 데이터 엔지니어(Data Engineer)

  • 온프레미스와 클라우드에 있는 데이터 플랫폼 기술을 프로비저닝하고 설정
  • 여러 소스에서 정형 및 비정형 데이터의 흐름을 관리하고 보호
  • 데이터 엔지니어가 사용하는 데이터 플랫폼
    • 관계형 데이터베이스
    • 비관계형 데이터베이스
    • 데이터 스트림
    • 파일 저장소
  • 데이터 서비스들을 데이터 플랫폼에 안전(securely)하고 원활(seamlessly)하게 통합시키는 역할
  • 데이터 엔지니어 주요 업무
    • 여러 원본 데이터 수집(ingest), 송신(egress), 변환(transform) 작업을 위한 온프레미스 및 클라우드 데이터 서비스와 도구 활용
    • 데이터 요구사항을 식별하고 충족시키기 위해 솔루션을 디자인하고 구현함
    • 데이터베이스 관리자와 역할과 유사한 부분도 있지만 작업 범위에 차이는 있음
      • 서버관리보다는 크나, 전반적인 운영데이터 관리를 담당하지는 않음
  • 데이터 엔지니어가 데이터 랭글링(data wrangling, 데이터 정리 및 통합)을 담당함으로써 데이터 사이언티스트가 업무 영역에 집중할 수 있음
  • 데이터 분석가는 다양한 구조적, 비구조적 데이터 소스에 접근하기 위해 데이터 엔지니와 밀접한 업무 관계가 있음
  • 데이터베이스 관리자, 비즈니스 인텔리전스 전문가는 대규모 데이터 처리 도구 및 기술 학습을 통해 데이터 엔지니어로 역할 전환이 가능함

2-4. 데이터 과학자(Data Scientist)

  • 데이터 과학자는 고급 분석 작업(advanced analytics)을 통해 데이터에서 가치를 뽑아냄
  • 설명적 분석(descriptive analytics)부터 예측 분석(predictive analytics)까지 다양한 분석을 수행
    • 설명적 분석 : EDA(exploratory data analysis, 실험적 데이터 분석)로 알려진 프로세스를 통해 데이터를 평가
    • 예측 분석 : 기계 학습에서 비정상(anomalies) 또는 패턴을 감지할 수 있는 모델링 기법을 적용하는데 사용
  • 딥러닝 영역에서 작업할 수도 있고, 맞춤형 알고리즘을 사용하여 복잡한 데이터 문제를 해결하기 위한 반봅적 실험을 수행하기도 함
  • 데이터 과학자는 답이 필요한 질문을 결정하기 위해 데이터를 살펴보고 실험을 고안한 후 데이터 분석가에게 시각화와 리포팅 지원을 요청할 수 있음

2-5. 데이터베이스 관리자(Database administrator)

  • 데이터베이스 관리자는 데이터 플랫폼 솔루션의 운영측면을 구현하고 관리함
  • 데이터베이스 솔루션 전반적인 가용성과 일관된 성능 및 최적화를 책임지며,
  • 데이터 백업 및 복구 계획의 정책, 도구 프로세스를 식별하고 구현
  • 데이터 엔지니어의 역할과는 다름
    • 데이터베이스 관리자는 데이터베이스 및 데이터베이스 하드웨어의 전반적인 상태를 모니터링하고 관리
    • 데이터 엔지니어는 비즈니스 요구사항 충족을 위해 데이터 랭글링, 변환, 유효성검사 정리 프로세스를 담당
  • 데이터베이스 관리자는 데이터의 전반적인 보안관리, 데이터에 대한 사용자 액세스 권한 관리를 담당

3. 데이터 분석가의 업무

데이터 분석가가 데이터 분석 프로세스에서 관여하는 5개의 주요 영역

  • Prepare
  • Model
  • Visualize
  • Analyze
  • Manage

3-1. 준비(Prepare)

  • 데이터 분석가는 준비 및 모델링 작업에 대부분의 시간을 쓰게 됨
  • 부적절(Deficient)하거나 잘못된 데이터를 사용하면 유효하지않은 보고서가 생성되고 신뢰상실, 수익감소, 부정적인 비스니스 의사결정이 발생
  • 데이터 준비(Data Preparation)는 데이터를 프로파일링, 정리, 변환하여 모델 및 시각화를 준비하는 프로세스
    • 데이터를 신뢰할 수 있고 이해할 수 있는 정보로 변환
    • 데이터의 무결정 보장
    • 잘못되었거나 부정확한 데이터 수정
    • 누락 데이터 파악
    • 데이터를 적합한 구조 도는 형식으로 변환
    • 데이터를 가져오고 연결하는 방법과 의사 결정에 미칠 영향(performance implications)을 이해
    • 개인정보 보호 및 보안(익명화, 데이터 제거 등)

3-2. 모델(Model)

  • 테이블이 서로 관련되는 방식을 결정하는 프로세스
  • 테이블간의 관계를 정의(defining)하고, 관계를 만드는(creating) 작업
  • 메트릭 정의와 커스텀 계산(calculation)을 활용해 데이터를 풍부하게 하고 모델을 개선할 수 있음
  • 효과적이고 적절한 의미체계 모델을 만드는 것이 중요
    • 의미체계 모델을 잘 구성할수록 보고서 유지관리가 간소화됨(정확한 보고서, 데이터의 효율적 탐색 등)
  • 보고서가 느리게 실행되거나 새로고치는데 오래 걸린다면, 데이터 준비 및 모델링 작업을 다시 하여 보고서를 최적화 할 필요가 있음
  • 데이터 준비가 잘 될수록 모델링 단계가 수월함

3-3. 시각화(Visualize)

  • 시각화 작업의 궁극적 목표는 비즈니스 문제를 해결하는 것
  • 보고서는 조직의 업무, 의사결정 및 행동을 유도할 수 있음
  • 데이터가 너무 많으면 핵심 요점을 파악하기 어려울 수 있음, 작고 간결한 데이터 스토리를 통해 인사이트를 찾아야 함
  • 읽을 사람들을 고려하여 특별한 수정(modification)이 필요하지 않도록 접근성을 고려하여 디자인 되어야 함
  • 컬러 스킴(scheme), 폰트, 사이즈 조정 등 스토리텔링을 도와주는 보고서 컴포넌트가 있음

3-4. 분석(Analyze)

  • 보고서에 표시된 정보를 이해하고 해석하는 단계
  • 고급 분석 기능을 통해
    • 데이터를 자세히 파악하여 향후 패턴 추세를 예측
    • 활동과 행동을 식별
    • 데이터에 대한 적절한 질문을 통해 비즈니스를 가능하게 함
  • 시각적 개체, 메트릭을 사용하여 데이터에 대한 인사이트를 신속하게 얻고
  • 다른 사용자가 필요한 정보를 찾을 수 있도록 인사이트를 대시보드에 게시할 수 있음
  • Azure Machine Learning, cognitive service, 빌트인AI visuals 를 통합하여 분석을 고도화할 수 있음

3-5. 관리(Manage)

  • Power BI asset 관리는 데이터 분석가가 담당
  • 보고서 및 대시보드의 공유 및 배포 감독, asset 보안 관리
  • 앱을 통해 광범위한 대상 그룹을 관리 할 수 있음
  • 적절한 관리를 통해 데이터 사일로 최소화, 데이터가 중복되면 관리가 어려워지고 데이터 대기시간이 늘어남
  • 공유 의미체계모델을 사용하여 데이터 사일로를 줄이고, 데이터에 대한 신뢰를 보장

 

 

Contents
  • -

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.