데이터 모델링 1. 데이터 분석에 대해 알아보기 - Microsoft Power BI Data Analyst Associate(PL-300) 학습 모듈 - 728x90 데이터와 정보는 비즈니스의 가장 전략적인 자산 오늘날 조직이 해결해야 하는 기본 과제는 데이터를 이해하고 비즈니스 내의 변화에 긍정적인 영향을 줄 수 있도록 데이터를 사용하는 것 데이터 분석은 기업에서 인사이트를 발견하고 스토리텔링을 통해 방대한 데이터에서 숨겨진 가치를 찾을 수 있도록 지원 1. 데이터를 분석하기 위한 분석의 핵심 구성 요소 설명적 분석(Descriptive analytics) 발생한 상황에 관한 질문에 답변(What has happened) 설명 분석 기술은 대규모 의미 체계 모델(semantic models)을 요약하여 관련자(stakeholders)에게 결과를 설명 KPI(핵심 성과 지표)를 개발하여 주요 목표의 성공 또는 실패를 추적(ROI 등의 메트릭) 진단적 분석(Diagnostic analytics) 사건이 발생하는 이유에 대한 질문에 답변(Why events happened) 설명적 분석을 보완하며, 설명적 분석의 결과를 사용하여 사건의 원인을 파악 원인 파악을 위해 성과 지표를 추가로 조사 진단적 분석 프로세스 3단계 변칙(anomalies) 파악 anomalies 관련 데이터 수집 통계학적 기술을 사용하여 이러한 anomalies 를 설명하는 관계 및 추세 검색 예측적 분석(Predictive analytics) 향후 발생하는 상황에 관한 질문에 답변(what will happen in the future) 기록데이터를 사용하여 추세를 파악하고 이를 되풀이할 가능성이 있는지 판단 향후 발생할 수 있는 문제에 대해 유옹한 인사이트 제공 인공신경망, 의사결정트리, 회귀 등 통계학/기계학습기술 활용 처방적 분석(Prescriptive analytics) 목표를 달성하기 위해 수행해야 하는 작업이 무엇인지에 대한 질문에 답변(which actions should be taken to achieve a goal or target) 처방적 분석의 인사이트를 사용하여 데이터 기반의 의사결정을 내릴 수 있음 처방적 분석으로 불확실한 상황에서도 합리적인 의사결정 가능 대규모 의미체계 모델에서 패턴을 찾는 전략으로 기계학습을 사용함 과거의 의사결정 및 이벤트를 분석하여 다양한 결과의 가능성 예측 가능 인지적 분석(Cognitive analytics) 인지적 분석은 기존 데이터 및 패턴에서 추론을 시도하고 기존 지식 기반을 바탕으로 결론을 도출한 다음, 이러한 결과를 지식 기반(knowledge bases)에 추가하여 향후 추론에 활용하는 자가 학습 피드백 루프 상황이 변경될 때 발생할 수 있는 상황과 이러한 상황에 대응하는 방법을 알 수 있음 추론은 데이터베이스를 기반으로 하는 정형 쿼리가 아니라 여러 원본에서 수집되고 다양한 정도의 신뢰도로 표현되는 비정형 가설 효과적인 인지적 분석은 기계 학습 알고리즘에 의존함 여러 자연어 처리 개념을 사용하여, 콜센터 대화로그, 제품 리뷰 등 이전에 사용하지 않았 데이터 소스를 분석 2. 데이터 관련 직무(Roles) 2-1. 비즈니스 분석가(Business Analyst) 데이터 분석가와 유사하나 데이터를 사용하는 방식이 다름 비즈니스와 긴밀하게 관련되어 있으며, 시각화를 통해 제공된 데이터를 해석하는 전문가 데이터 분석가와 비즈니스 분석가의 책임을 동시에 맡기도 함 2-2. 데이터 분석가(Data Analyst) 데이터 분석가는 Power BI와 같은 시각화 및 보고도구를 사용하여 데이터 자산가치를 최대화 하도록 함 데이터 프로파일링, 정리, 변환을 담당함 확장 가능하고(scalable) 효과적인(effective) 의미체계 모델을 설계, 빌드하고, 고급 분석 기능(advanced analytics capabilities)을 분석 리포트에 사용가능하게 하고 구현하는 역할 적절한 관련자와 협업하여 적절하고(appropriate) 필요한(necessary) 데이터 및 보고 요구사항을 확인한 다음, 원시 데이터(raw data)를 관련성 있고 의미 있는 인사이트로 전환하는 작업을 수행 보고서에 사용되는 보고서(report), 대시보드(dashboard), 작업영역(workspace), 기본 의미체계 모델(underlying semantic models)을 포함한 Power BI 자산(assets)의 관리를 담당 보안 절차 구현 및 구성 작업 담당 요구사항을 충족하는 적절한 데이터 원본을 찾기위해(determine and locate) 데이터 엔지니어와 협력 데이터 분석가가 필요한 데이터 원본에 적절하게 액세스 할 수 있도록 데이터 엔지니어 및 데이터베이스 관리자와 협력 새 프로세스를 파악하거나 분석을 위한 기존의 데이터 수집 프로세스를 개선하기 위해 데이터 엔지니어와 협력 2-3. 데이터 엔지니어(Data Engineer) 온프레미스와 클라우드에 있는 데이터 플랫폼 기술을 프로비저닝하고 설정 여러 소스에서 정형 및 비정형 데이터의 흐름을 관리하고 보호 데이터 엔지니어가 사용하는 데이터 플랫폼 관계형 데이터베이스 비관계형 데이터베이스 데이터 스트림 파일 저장소 데이터 서비스들을 데이터 플랫폼에 안전(securely)하고 원활(seamlessly)하게 통합시키는 역할 데이터 엔지니어 주요 업무 여러 원본 데이터 수집(ingest), 송신(egress), 변환(transform) 작업을 위한 온프레미스 및 클라우드 데이터 서비스와 도구 활용 데이터 요구사항을 식별하고 충족시키기 위해 솔루션을 디자인하고 구현함 데이터베이스 관리자와 역할과 유사한 부분도 있지만 작업 범위에 차이는 있음 서버관리보다는 크나, 전반적인 운영데이터 관리를 담당하지는 않음 데이터 엔지니어가 데이터 랭글링(data wrangling, 데이터 정리 및 통합)을 담당함으로써 데이터 사이언티스트가 업무 영역에 집중할 수 있음 데이터 분석가는 다양한 구조적, 비구조적 데이터 소스에 접근하기 위해 데이터 엔지니와 밀접한 업무 관계가 있음 데이터베이스 관리자, 비즈니스 인텔리전스 전문가는 대규모 데이터 처리 도구 및 기술 학습을 통해 데이터 엔지니어로 역할 전환이 가능함 2-4. 데이터 과학자(Data Scientist) 데이터 과학자는 고급 분석 작업(advanced analytics)을 통해 데이터에서 가치를 뽑아냄 설명적 분석(descriptive analytics)부터 예측 분석(predictive analytics)까지 다양한 분석을 수행 설명적 분석 : EDA(exploratory data analysis, 실험적 데이터 분석)로 알려진 프로세스를 통해 데이터를 평가 예측 분석 : 기계 학습에서 비정상(anomalies) 또는 패턴을 감지할 수 있는 모델링 기법을 적용하는데 사용 딥러닝 영역에서 작업할 수도 있고, 맞춤형 알고리즘을 사용하여 복잡한 데이터 문제를 해결하기 위한 반봅적 실험을 수행하기도 함 데이터 과학자는 답이 필요한 질문을 결정하기 위해 데이터를 살펴보고 실험을 고안한 후 데이터 분석가에게 시각화와 리포팅 지원을 요청할 수 있음 2-5. 데이터베이스 관리자(Database administrator) 데이터베이스 관리자는 데이터 플랫폼 솔루션의 운영측면을 구현하고 관리함 데이터베이스 솔루션 전반적인 가용성과 일관된 성능 및 최적화를 책임지며, 데이터 백업 및 복구 계획의 정책, 도구 프로세스를 식별하고 구현 데이터 엔지니어의 역할과는 다름 데이터베이스 관리자는 데이터베이스 및 데이터베이스 하드웨어의 전반적인 상태를 모니터링하고 관리 데이터 엔지니어는 비즈니스 요구사항 충족을 위해 데이터 랭글링, 변환, 유효성검사 정리 프로세스를 담당 데이터베이스 관리자는 데이터의 전반적인 보안관리, 데이터에 대한 사용자 액세스 권한 관리를 담당 3. 데이터 분석가의 업무 데이터 분석가가 데이터 분석 프로세스에서 관여하는 5개의 주요 영역 Prepare Model Visualize Analyze Manage 3-1. 준비(Prepare) 데이터 분석가는 준비 및 모델링 작업에 대부분의 시간을 쓰게 됨 부적절(Deficient)하거나 잘못된 데이터를 사용하면 유효하지않은 보고서가 생성되고 신뢰상실, 수익감소, 부정적인 비스니스 의사결정이 발생 데이터 준비(Data Preparation)는 데이터를 프로파일링, 정리, 변환하여 모델 및 시각화를 준비하는 프로세스 데이터를 신뢰할 수 있고 이해할 수 있는 정보로 변환 데이터의 무결정 보장 잘못되었거나 부정확한 데이터 수정 누락 데이터 파악 데이터를 적합한 구조 도는 형식으로 변환 데이터를 가져오고 연결하는 방법과 의사 결정에 미칠 영향(performance implications)을 이해 개인정보 보호 및 보안(익명화, 데이터 제거 등) 3-2. 모델(Model) 테이블이 서로 관련되는 방식을 결정하는 프로세스 테이블간의 관계를 정의(defining)하고, 관계를 만드는(creating) 작업 메트릭 정의와 커스텀 계산(calculation)을 활용해 데이터를 풍부하게 하고 모델을 개선할 수 있음 효과적이고 적절한 의미체계 모델을 만드는 것이 중요 의미체계 모델을 잘 구성할수록 보고서 유지관리가 간소화됨(정확한 보고서, 데이터의 효율적 탐색 등) 보고서가 느리게 실행되거나 새로고치는데 오래 걸린다면, 데이터 준비 및 모델링 작업을 다시 하여 보고서를 최적화 할 필요가 있음 데이터 준비가 잘 될수록 모델링 단계가 수월함 3-3. 시각화(Visualize) 시각화 작업의 궁극적 목표는 비즈니스 문제를 해결하는 것 보고서는 조직의 업무, 의사결정 및 행동을 유도할 수 있음 데이터가 너무 많으면 핵심 요점을 파악하기 어려울 수 있음, 작고 간결한 데이터 스토리를 통해 인사이트를 찾아야 함 읽을 사람들을 고려하여 특별한 수정(modification)이 필요하지 않도록 접근성을 고려하여 디자인 되어야 함 컬러 스킴(scheme), 폰트, 사이즈 조정 등 스토리텔링을 도와주는 보고서 컴포넌트가 있음 3-4. 분석(Analyze) 보고서에 표시된 정보를 이해하고 해석하는 단계 고급 분석 기능을 통해 데이터를 자세히 파악하여 향후 패턴 추세를 예측 활동과 행동을 식별 데이터에 대한 적절한 질문을 통해 비즈니스를 가능하게 함 시각적 개체, 메트릭을 사용하여 데이터에 대한 인사이트를 신속하게 얻고 다른 사용자가 필요한 정보를 찾을 수 있도록 인사이트를 대시보드에 게시할 수 있음 Azure Machine Learning, cognitive service, 빌트인AI visuals 를 통합하여 분석을 고도화할 수 있음 3-5. 관리(Manage) Power BI asset 관리는 데이터 분석가가 담당 보고서 및 대시보드의 공유 및 배포 감독, asset 보안 관리 앱을 통해 광범위한 대상 그룹을 관리 할 수 있음 적절한 관리를 통해 데이터 사일로 최소화, 데이터가 중복되면 관리가 어려워지고 데이터 대기시간이 늘어남 공유 의미체계모델을 사용하여 데이터 사일로를 줄이고, 데이터에 대한 신뢰를 보장 공유하기 URL 복사카카오톡 공유페이스북 공유엑스 공유 게시글 관리 구독하기Code_cellar Contents - 당신이 좋아할만한 콘텐츠 2. Power BI로 빌드 시작 - Microsoft Power BI Data Analyst Associate(PL-300) 학습 모듈 2024.03.19 Microsoft Power BI Data Analyst Associate(PL-300) 학습 모듈 1. Microsoft Power BI의 기능 설명 2024.03.13 관계형 데이터 모델링(물리적 데이터 모델링, 역정규화) 2022.11.17 관계형 데이터 모델링(정규화) 2022.11.16 댓글 0 + 이전 댓글 더보기