- effective python,고성능 파이썬의 책을 1회독을 하고 기본 내용들은 원노트에 정리를 하엿다.
블로그의 연재속도는 늦는데 블로깅을 하면서 복습이 되는 효과가 있엇다고 느꼇다.
- 파이썬 디자인 패턴도 건들여 볼가 생각중이다
- 디자인은 크게 3가지로 나눈다
생성(creational) 구조(Structural) 행위(Behavioral)
- 업무때문에 바쁜 날도 있지만 다음주까지 구현을 하는게 완료 될 것같다.
- 프론트분들과 미리 JSON 타입을 명세하고 한번에 api통신 및 웹 구현이 되어서 기분이 좋았다.
- 이번주 주말부터는 데이터 엔지니어링 쪽으로 공부와 기존 프로젝트를 정리를 조금 하기로 했다.
- 낮에는 일하고 밤에는 공부하는 패턴이 반복되는거 같다.
- 기본적인 파이썬을 활용하여 빅데이터 엔지니어 엔지니어링의 토대가 되는 것들을 학습
문제를 해결화기위한 가설 검증단계
문제 -> 데이터 분석 -> 가설 수립 -> 실험 및 테스팅 -> 최적화
데이터 분석 -> 분석할데이터,
실험 테스팅 -> 통계적 실험 설계 클린한 테스팅환경
최적화 -> 데이터 기반 자동화 시스템
=> 모든 비즈니스가 동일한 데이터 환경이 아니고 성장 단계에 따라 선택과 집중을 하여야한다,.
1)유저경험이 중요한 시스템일 경우 데이터 시스템 구축이 성공의 열쇠
이커머스는 마케팅, CRM, 물류데이터분석을 통해 전략 수집
비즈니스 모델상 가장 중요한 데이터
-> 데이터 비용은 낮고 비즈니스 임펙트가 높은 데이터
데이터 거버넌스
1)원칙
데이터를 유지, 관리 하기 위한 가이드(보안 품질 변경)
2) 조직
데이터를 관리할 조직의 역할과 책임
3)프로세서
데이터 관리를 위한 시스템 ( 작업 절차, 모니터 및 측정)
유연하고 변화 가능한 환경
특정 기술 및 솔루션만 쓰는게 아닌 새로운 기술을 빠르게 적용할 수 있는 아키텍쳐 구축이 중요
실시간 데이터 핸들링(스케줄링)이 가능한 시스템
Real time(실시간), cronjob(일정시간), serverless(서버 없이)
보안
내외부 위험 요소를 파악하여 어떻게 안전하게 관리할수 있는지 아키텍쳐 안에 포함하는 것
셀프 서비스 환경 구축
데이터 엔지니어 혼자 엑세스가 가능한 데이터 시스템은 확장성이 없는 데이터 분석 환경
Ex) bi, querry sys, front end data apps
Api
송수신방법으로 데이터를 수집 정제 처리
소프트웨어는 API를 통해 데이터 송수신 환경 구축하여 생태계를 생성
RDB
데이터의 관계도를 기반으로 데이터를 저장, SQL사용
데이터 파이프라인 구축시 고려사항
Scalability: 데이터가 기하급수적으로 늘어 나고 괜찮은가
Stability : 에러, 데이터 플로우 등 다양한 모니터링 관리
Security: : 데이터 이동간 보안에 대한 리스크
NOSQL
NOT ONLY SQL
UNSTRUCTURED, SCHEMA LESS DATA
스케일이 수평적 (예 매신저)
고가용성 / 비용이 싸다.
HADOOP/ SPARK/ PRESTO 등 빅데이터
DISTRIBUTED STORAGE SYSTEM / MAPREDUCE 등으로 병렬 처리
하둡의 진화된 버전으로 빅데이터 분석환경에서 실시간 데이터를 프로세싱하기 최적화
SQL QUERY 환경을 서포트함
서버리스 프레임워크
(API GATEWAY ,AWS LAMBDA)
Triggered By Http request, database events, queuing service
Function Structure
서드드파티 앱들 및 다양한 aPI를 통해 수집
'메타인지 > TIL' 카테고리의 다른 글
TIL 12/20~12/26 (0) | 2019.12.26 |
---|---|
TIL 12/13~12/19 (0) | 2019.12.19 |
TIL 11/29~12/05 (0) | 2019.12.05 |
TIL 11/22~11/28 (0) | 2019.11.27 |
TIL 11/15~11/21 (0) | 2019.11.21 |