-
Notifications
You must be signed in to change notification settings - Fork 489
데이터 엔지니어
Sung Yun Byeon edited this page Jul 31, 2023
·
29 revisions
데이터 엔지니어는 앱 또는 웹에서 발생하는 데이터들을 파이프라인을 통해 저장소(Database, S3,...)에 저장합니다. 대용량 데이터를 수집하고 관리하며 유지하는 일을 담당합니다. 아래 내용들을 가볍게 읽어보시고 추천 링크도 꼭 읽어보세요! :)
유튜브에 올린 Ep 5. 데이터 엔지니어가 하는 일은? 데이터 엔지니어 공부 방법! (저만의 공부 방법 포함!)도 참고해보시면 좋을 것 같아요!
- 여러 서버 클러스터로 빅데이터를 처리
- 클러스터 관리, 분산 컴퓨팅, 리소스 관리, Load Balancing 관련 문제 해결
- ETL(Extract - Transform - Load)
- DW(Data Warehouse) 구축
- BI(Business Intelligence) 구축
- Hadoop, Spark, Kafka 등을 사용해 업무
- 리눅스, 쉘 스크립트
- 데이터 수집 및 가공
- Hadoop
- Spark
- SQL
- DW 시스템 설계 및 운영
- ETL
- 파이프라인 개발
- BI Tool 또는 대시보드 구축
- 추천 시스템 구축
- 머신러닝/딥러닝
- Java, Scala, Python
- 데이터 엔지니어의 업무는 주어진 환경에서 최상의 퍼포먼스를 낼 수 있도록 파이프라인을 구축하는 것입니다
- 아래 역량 밑에 있는 도구들은 도구일 뿐, 모두 알 필요는 없습니다(블럭같이 각 항목에서 몇개를 조합해서 사용해요)
- 특정 기술을 사용할 때 비슷한 도구 대비 왜 이 도구를 선택했는가?를 항상 고민해보는 습관이 필요합니다
- 언어와 플랫폼은 "선택"의 문제이고 문제해결을 위한 "도구"라 생각하는 유연한 개발자가 되길
-
- 데이터 수집
- Apache Kafka, Fluntd, Embulk, Logstash, Redis, Pub/Sub, Kinesis
- 데이터 저장
- HDFS, json, Parquet, AWS S3 or GCP Storage, RDB, NoSQL, Amazon Redshift, Google BigQuery
- 데이터 처리
- Apache Hadoop, Apache Spark, Apache Hive, SQL
- 리눅스
- 클라우드 서비스
- AWS, GCP, Azure, IBM, NBP 등
- Dashboard
- Metabase, Superset, Zeppelin, Redash, Tableau
- Task Management Tool(Luigi, Airflow...)
- Docker
- 데이터 파이프라인 구축
- 파이프라인 : 데이터 수집 및 가공, 저장을 포함하는 일련의 과정. ETL(Extract - Transform - Load)를 수행
-
-
-
-
- 추천 시스템 아키텍쳐 구축(End to End Streaming 사례)
-
- 데이터 분석가를 위한 각종 프로그램 구축
- 대시보드
- GPU 환경 Notebook
- 데이터 엔지니어링 전반적인 내용이 잘 담겨있는 책, 빅데이터를 지탱하는 기술 한번 읽어보시는 것을 추천합니다!, 온라인에 있는 자료는 Data Engineering Cookbook을 추천합니다 :)
- 기업에선 1TB 이상의 데이터를 처리해본 사람을 선호
- 그러나 신입의 경우 1TB 이상의 데이터를 구할 수 없거나, 많은 서버 클러스터가 없기 때문에 빅데이터 경력이 있기 힘듬
- 따라서 컴퓨터 사이언스 전반의 지식을 중점적으로 평가
- Linux, 자료구조, 알고리즘, OS, 네트워크 등
- Hadoop 관련 논문 읽기 : 블로그
- Spark
- Kafka
- 대시보드
- 나와있는 다양한 오픈소스 사용해보기
- 남지열님의 ELK Stack
- 클라우드 환경에서 위 오픈소스들을 직접 구축
- 유결님의 토스 데이터의 흐름과 활용
- Data Engineer Roadmap
- 하용호님의 Spark의 핵심은 무엇일까?
- 배지현님의 멀티클라우드를 이용한 로그 분석 플랫폼 개발하기
- 우버의 Real time analytics at uber
- 박훈님의 스타트업에서 데이터를 더하는 법
- 박훈님의 그들이 AWS 위에서 데이터 파이프 라인을 운영하는 법
- 제 BigQuery의 모든 것 입문편
- 강대명님의 Data pipeline and data lake
- 데이터 엔지니어 관련 유튜브 영상 메모
- 제 발표 자료 바닥부터 시작하는 데이터 인프라
- 마르코님의 데이터 엔지니어가 하는 일
- 박주홍님의 데이터 엔지니어는 무슨 일을 하나요? : 데브시스터즈의 데이터 엔지니어 업무
- 전효준님의 야생의 땅 듀랑고 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
- 윤도영님의 카카오의 데이터 파이프라인
- 백정상님의 로그 기깔나게 잘 디자인하는 법
- 김명보님의 Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
- 리디북스의 데이터 엔지니어 채용공고
- 이근호님의 신입 데이터 엔지니어의 2017년 회고
카일스쿨 유튜브를 시작했습니다-! 이 Wiki 문서에서 다루지 않은 현업 이야기를 공유할 예정입니다!
궁금하시거나 요청할 내용이 있으시면 [email protected]으로 메일 보내주시면 감사하겠습니다 :)