오전
1일차 오전은
간단한 OT
대한상공회의소에서 진행하는 출석과 프로그램 관련 내용
국민취업지원제도 내용 고지 등이었다.
오전 OT중 기억해야 할 내용은
깃허브를 이용하여 기록하는 습관을 가져라
비전공자도 논문을 써 보는것을 추천한다.
자격증 비용 지원 시 AWS자격증 추천 - 아마존 웹 서비스
백준 - 코딩테스트 무료 사이트 - [코딩테스트 연습은 개발자에게 있어 필수다.]
등등으로 정리할 수 있다.
오후
오후에는 네이버페이에서 실제 근무하고 계신 실무자분께서 방문하셔서 데이터 엔지니어에 대한 특강을 진행해주셨다.
나는 지금까지 데이터 엔지니어란 무엇인가에서 사실 잘 알지 못하고 있었다.
컴퓨터 기술? 컴퓨터 기술이라고 표현하는게 맞는지도 잘 모르겠다, 관련된 지식이 전무했다 보니까 개발자란 그저 프론트엔드 백엔드 그리고 프로그램 만드는 사람들? 정도로 생각했었다.
그래서 처음에는 실무자분께서 말해주시는 내용에 대해 전혀 이해를 하지 못하고
아~이런게 있구나~
ㅋㅋ
정도로만 들었던 것 같다.
그럼에도 불구하고 강사분께서 데이터가 흘러가고 모이고 반응하는 방식에 대해서 자세하게 설명해주셔서 특강의 후반부에는 대충 어떤 기술이 어떤 구조를 가지고 움직이는지에 대해서 알 수 있는 시간이 되었다.
특강에서 기억해야 할 내용으로는
* 클라이언트와 서버의 관계
(이는 추후 공부한다면 당연히 알게 되는 아주 기본적인 과정이라고 생각한다)
네이버 도메인을 눌렀을 때 클라이언트와 서버, 데이터간에 어떤 일이 일어나며 어떤 과정으로 움직이고 작용하는지는 당연히 알아야 할 사실이라고 하셨다.
* Fiask, Fast api, Django - 프레임워크
* 스레드 프로세스, 컴퓨터 사이언스, 운영체제 등등에 대한 공부의 필요성
(프로세스와 알고리즘에 대한 내용은 신입들이 꼭 알아야 한다고 말씀하셨다.)
주석 - 어차피 신입은 입사하면 회사에서 사용하는 기술 다시 다 배워야 하니까 기본이 제일 중요하다.
그렇다고 해서 다른 기술과 개념의 공부를 절대 소흘히 하지 말 것.
* 서버와 사이트를 만드는 과정
Fastapi와 AWS를 이용해서 우리도 접속할 수 있는 사이트를 만드는 과정을 보여주셨다. 이 부분은 추후 웹서비스에 대해 공부하며 자세히 다시 공부할 예정이다.
관련 키워드 ( 리눅스, EC2, 포트, DNS, WAS, WS, html)
* 데이터 엔지니어가 어떤 일을 하는지 알려주겠다.
- 예를 들어 사용자의 몸무게를 저장하는 서비스를 만들었다고 해 보자.
- 전 국민 오천만명의 몸무게를 저장해서 관리하면 그 데이터를 데이터베이스에 저장한다.
- 하지만 요즘은 매 분 매 초마다 각 사용자의 혈압, 맥박, 위치 정보등 너무나 다양한 정보를 저장해야 한다, 이에 따른 데이터는 기하급수적으로 늘어나기 마련이다.
- 그로 인해 대용량 데이터 분산처리 저장 기술( Hadoop, map, reduce)등의 기술이 등장하였다.
- hive SELECT 테이블이라는 정형화된 칼럼명에 정형화된 데이터를 만들 필요가 있다.
SELECT = 쿼리라는 함수같은 형태인 것 같다.
관련 키워드 ( hive, SELECT, spark, frino )
- 테이블을 만들어놔야 카카오톡의 경우에도 전체 카톡 메시지의 집계가 가능하고 그걸 이용해서 전 국민의 카톡 개수 등을 파악할 수 있게 된다, 그렇게 적재한 데이터를 가공해서 대시보드를 만들고 머신러닝등을 만드는게 데이터 엔지니어가 하는 일이다.
- 일종의 데이터 파이프라인 순서
카톡 - 서버 - kafka - spark - Hadoop - hive,spark(실무에서 자주 쓰는 기술) - Airflow - 대시보드
* docker를 이용해 mysql 서버 구축
docker = 컨테이너 기반의 기술, 윈도우와 맥 등 환경이 달라도 구동할 수 있도록 도와주는 프로그램? 이라고 들었다.
* 버츄얼 머신 커널 프로그램 = 우븐투 = 운영체제 (윈도우나 맥 같다고 생각하라고 하셨다.)
* RDBMS ( 아주 중요하니 많이 공부하라고 하셨다.)
transaction (acid)
원자성 일관성 격리성 지속성
indexing
검색 속도
schema / constraint
데이터 구조 / 무결성 보장
join
테이블 간 연결
* key 는 겹치지 않아야 한다, 사이트 가입할 때 아이디 같은 개념인 거 같다.
* 파이썬 코드에서 데이터를 긁어와서 mysql에 데이터를 저장해서 정교하게 세분화 한다.
그리고 mysql을 클라우드에 연결해서 다른 사람도 나를 볼 수 있게 데이터베이스에 저장한다.
* mysql은 데이터 저장고이며 hadoop은 같은 내용인데 분산처리해서 저장하는 것이다.
* Devops
지나가는 말로 얘기하셨는데 알아야 할 단어라고
* Airflow
정해진 시간에 코드가 작동하여 업무를 수행하게 만드는 스케쥴러
ex ) 오전 8시에 쿠팡 사이트에서 한 항목을 검색하여 최저가나 상품을 크롤링하게 설정한다 같은 기능.
* 실패 시 멱등성 있는 재시도가 가능해야 한다 = 언제든 일관성 있게 작동해야 한다.
필자는 완전히 관련 지식에 대해서 신생아라서 메모한 내용이 실제와는 안 맞거나 다른 부분이 분명히 있을 수 있다. 관련된 지식이 필요하다면 구글과 챗 gpt에 검색하시는게 맞다.
이 쪽 분야를 잘 알고 있는 사람들에겐 아주 기초적인 내용일 수도 있다고 생각하지만 나에게 있어서는 앞으로 관련된 분야로 진로를 나아갈 생각이라면 분명히 기억해 둬야 할 내용들이라고 생각한다.
그리고 마지막 Q&A시간에는 이 6개월 수업 과정만 수료한다고 해서 절대 취업이 되는것이 아니다.
개발이라는 것은 본인의 배우려는 의지와 태도가 그 어떤 분야보다도 중요한 분야이며 실무를 하고 있는 와중에도 계속해서 업데이트 되는 기술들을 공부하고 적응해야 한다고 하셨다.
차가운 말일 수 있지만 과거보다 지금 신입들은 계속해서 더욱 공부하고 준비하고 있고 당연히 준비하고 꾸준히 공부하는 사람이 더 좋은 결과를 얻게 될 것이니 많은 공부가 필요하다고 하셨다.
공간 디자인을 공부하고 일 할 때가 생각나는 말이었다. 디자인 업계도 계속해서 유행, 트렌드와 각종 컬러 등 너무나 빠르게 변해가는 시대이고 화장실과 각 실의 레이아웃 부터 문 손잡이와 열리는 방향등 아주 세세한 부분부터 신경써야 하고 이에 대해서 알고 있는것은 아주 기본적인 것이기 때문이다.
기술적인 부분에서도 단순히 도배하고 타일 붙이고 전기 빼는 것이 아닌, 나무가 붙고 석고가 붙고 타일이 붙느냐에 따라 잡히는 하지와 그 자재들이 맞물리는 두께에서 오는 n MM의 오차까지 계산하며 디자인하고 시공해야 하는 디테일 적인 부분에서 개발과 디자인은 비슷한 점이 있다고 생각하게 되는 하루였다.
여담이지만 가독성 있게 글을 쓰는것은 참 어려운 것 같다.
다른 티스토리 글들은 잘 읽히던데
'ASAC-SK플래닛 T아카데미 데이터 엔지니어' 카테고리의 다른 글
| 25.10.15 5일차 [ 파이썬 기초 개념 강의_(흐름 제어, 조건식, 조건문, 반복문 for)] (0) | 2025.10.15 |
|---|---|
| 25.10.14 4일차 [ 파이썬 기초 개념 강의_(문자열, 인덱싱, 슬라이싱, 문자열 주요 함수, 리스트, 딕셔너리, 튜플, 집합)] (0) | 2025.10.14 |
| 25.10.13 3일차 [ 파이썬 기초 개념 강의_(주석,변수, 상수, 리터럴, 네이밍 컨벤션, statement(표현식) 끝표식, 단일 데이터형, 문자열)] (0) | 2025.10.13 |
| 25.10.02 2일차 [ 챗GPT를 이용한 엑셀에서 데이터를 분석하는 법, 자소서와 포트폴리오 특강 ] (0) | 2025.10.02 |
| 25.10.01 0일차 [ 데이터 디자이너의 첫 시작점 ] (0) | 2025.10.02 |