회고/회고노트(격주)(35)
-
회고노트 22주차 : Streamlit 80% 이해완료, 웹페이지 틀 제작 끝
01 K-means Clustering- 수집한 컬럼을 모두 집어넣어서 군집시각화를 살펴보기도 하고, 스케일링을 전부 돌려서 살펴보기도 하고, 부분 스케일링 결과와 비교해보기도 하고, 컬럼을 직접 다이어트 시키면서 군집 결과가 어떻게 달라지는지 내 눈으로 확인했던 한 주 였다.- 컬럼을 직접 축소하면서 그 축소에 대한 이유를 시각화를 통해 근거를 댈 수 있다.- 신기했던 점은 데이터가 너무 극소량 수집되어 한쪽으로 치우친 컬럼의 경우 오히려 노이즈로 작용할 수 있다는 점이었다.- 또, 군집이 비교적 골고루 이루어졌다 생각해서 로우데이터를 봤더니 군집의 특성을 구분짓기 너무 어려웠더너 경우도 있었다. (이 경우는 스케일링이 되지 않은 데이터셋의 경우였다.)- 정답이 정해져 있지 않은 만큼 어렵기도 하지만 ..
2024.04.29 -
회고노트 21주차 : K-means clustering, Streamlit 도전
01 K-means clustering- 정답이 없는 문제에 가장 가까운 정답을 찾고, 이름을 붙이는 과정이다.- 정답이 없다 = 로우 데이터를 보고 해답을 찾는다!- 진득하게 앉아서 답을 찾는 걸 좋아하는 성향이라면 잘 맞겠다👍- 데이터 수집 및 정제를 잘 했다면 금방 찾을 수 있지 않을까 ? 싶다. 02 PCA Plot- 배운 과정이 다르니 팀원과의 이해도가 달랐던 문제가 있었다.- 생각이 다른 부분은 튜터님의 상담을 통해 해결했다.- 값이 살짝 다를 수 있지만 고차원의 시각화 용도로 사용할 수 있다. 02 Streamlit 시각화- CSS 지식이 있었다면 디자인적으로도 완성도가 높은 웹페이지를 구현할 수 있을거란 생각이 든다.- 내부에 데이터를 집어넣는 것은 함수..
2024.04.22 -
회고노트 20주차 : 프롬프트 엔지니어링
01 LLM - GPT 프롬프트 엔지니어링 1. 이번주 프로젝트 과정에서 가장 많은 시간을 소요한 작업이다. 2. 이번주 내내 데이터 전처리와 프롬프트 수정 작업을 계속했다. 3. test를 하면서 데이터가 튈 수 있는 경우의 수를 차단하는 작업이었다. 4. 예산의 한도가 정해질수록 프롬프트는 정교해졌다. 5. temperature=0으로 두는 프롬프트가 우리에게 더 잘 맞았다. 6. 원하는 데이터 결과물의 형태를 정해주는 작업도 중요했다. 7. 프롬프트 내에서도 반복학습을 시킬 수록 정확도는 올라갔다. 02 수준별 학습 : Streamlit - 프로젝트에 사용하기 위해서 해당 부분을 복습하고 배포해봤다. - 파이썬으로 웹 페이지를 만들 수 있고, 서비스를 제공할 수 있다는 점이 놀랍다. - 디자인도 다..
2024.04.16 -
회고노트 19주차 : 크롤링 & 자동화
01 웹크롤링 실습 1. 기억에 남는 건 크롤링과 수준별 학습이다. 그 중에서도 크롤링에 많은 시간을 쏟았다. 2. 최종 프로젝트이니 다른 팀과는 다른 데이터를 만져보고 싶었다. 3. 이제껏 정재된 데이터셋을 사용했다면 지금은 웹크롤링을 할 줄 알게 되었으니 실습을 시작했다. 4. XPATH로 text를 크롤링 할 수 없어서 시작부터 당황했지만 테트리스처럼 해냈다. 5. 한정된 시간 중 가끔 잘못 끼워 맞출 때도 있지만 비어있는 부분을 새로 학습한 코드로 채워나갔다. 6. 오늘로써 통합된 데이터셋을 만들어 깃허브에 공유할 수 있었다. 해냈다! 02 데이터 자동화, scikit-learn 학습 1. 수준별 학습으로 데이터 파이프라인과 머신러닝 지도학습을 배웠다. 2. 데이터 전처리부터 가볍게 시작해서 머신..
2024.04.07 -
회고노트 18주차 : Selenium web-crawling
01 도전한 점1. 크롤링 강의를 듣고 리뷰 웹사이트 크롤링을 도전했다.2. nn번의 시행착오 끝에 마무리가 되는 것 같다.3. 마지막 도전은 데이터프레임을 완성시키는 것이 될거다. 02 어려운 점1. By메소드에 대해 이해도가 높은 상태에서 진행했으면 더 수월했겠다 생각한다.2. CSS 선택자에 대해 처음 배웠고 실습해보는 과정이기도 했다.3. 해당 과정에서는 요소 추출이 너무나 어려웠다.4. HTML, CSS에 대한 최소한의 지식을 정규로 습득하는 게 좋겠다. 03 잊지말 점1. 이론과 실습은 너무나 다르다.2. 부딪혀서 해결하는 과정이 중요하다고 본다.3. 해결까지의 과정이 지난한 건 분명하다.4. 하지만 해결된다면 무엇과도 비교할 수 없는 도파민이 기다리고 있..
2024.04.01 -
회고노트 17주차
01 도전한 점 (3월 18일~24일) - 특별히 기억에 남는 건 일단 미뤄둔 머신러닝 개념 심화를 1회독을 해냈다는 점이다. 난 아직 개념 기초 부분이라고 자신을 한정했더니 계속 미루게 되었다. 마음을 바꾸게 된 계기는 개념 기초를 2회독하는 동안 자신감이 생겼다는 것이다. 그 사이에 실제 데이터를 다뤄보고 몰라도 일단 부딪혀서 머신러닝 모델을 적용해보고 모르면 모르는대로 여쭤봐도 깨져도 봤다. 그렇게 쌓인 데이터들이 개념 기초, 심화를 수월하게 만드는데 도움이 되었다. 02 좋았던 점 - 다양한 튜터님들의 도움으로 OPEN API를 접했고 인증키를 받아 데이터를 적재한 후 가벼운 토이 프로젝트를 진행해봤다. 작년 한 해, 수박을 집중적으로 사먹은 기간이 있었는데 그렇게 먹고나니 신기하게 물렸던 경험을..
2024.03.24 -
회고노트 16주차
01 도전한 점 - 파이썬 라이브러리를 배워가고 있다. 이번 주는 셀레니움을 실습하는 과정을 반복했다. - 어떻게 하면 코드를 반복해서 쓰지 않을지 고민하는 시간의 비중이 컸다. - 사용자 정의 함수의 중요성을 다시끔 깨달았다. - 급하니까 필요하니까 어떻게든 만들어지고 여기서 얻은 인사이트가 정말 중요했다. - 머신러닝 기초를 모두 학습했다. 하니까 된다. 빨리 떼야겠다. - 최종 프로젝트를 위해 데이터 셋을 구축하는 회의에 많은 시간을 들이고 있다. 02 좋았던 점 - 라이브러리 사용법 등 모르는 걸 배워가는 즐거움이 크다. - 왜 안되지? 근데 고민하니까 또 해결 돼. 이 과정이 재밌다. - 파이썬 기초 떼니까 너무 재밌다. 또 뭘 할 수 있을까? - 다음에는 뷰티풀숲을 배워보고 싶다. 강의 담음...
2024.03.18 -
회고노트 15주차
01 도전한 점 - 셀레니움 라이브러리를 연습해서 데이터를 수집과 전처리를 계속해서 일주일 넘게 반복했다. - 데이터의 절대적인 양은 전처리 과정을 통해 훅훅 줄어드니까 충분히 수집해야함을 깨달았다. - 판다스 입문책을 1회독 완료했다. 02 좋았던 점 - 정제되지 않은 데이터를 어떻게 하면 더 잘 수집할지, 잘 처리할지 (반복코드 사용횟수 줄이기)를 목적으로 계속해서 고민을 했다. - 다양한 파이썬, 판다스 실습을 해 본 경험이 좋았다. - 판다스 입문을 1회독하고 2회독을 넘어갔는데 그 때 배운 내용이 실습 중에 유용하게 써먹었다. 03 아쉬운 점 - 머신러닝, 기초통계, 태블로에 대해 더 공부해야 할 필요성을 느끼게 되었다. - 머신러닝은 이해의 관점에서 다양하게 접근해보고 싶다. (강의, 아티클)..
2024.03.12 -
회고노트 14주차
01 도전한 점 판다스 04, 05, 06, 07, 08, 09, 10, 11장을 독파했다. 태블로를 배우고 실습하고 과제를 제출했다. 주말에 SQLD 09, 10, 11, 12, 13, 15, 16강을 학습했다. 02 좋았던 점 태블로의 구체적인 제작 방법을 배워서 내 마음대로 디자인 할 수 있는 점과 그걸 실현할 수 있는 기능이 구현되는 게 멋졌다. 스터디원과의 동시 학습은 매우 유용하다고 생각한다. 막히는 점에 대해 같이 고민해보고 해답을 얻어가는 과정도 유익하다. 03 아쉬운 점 차트를 만드는 기술은 부족하다. 기초 책을 떼야겠다. 특히 LoD에 대한 이해가 느렸다. 이제 개념을 완전히 익혔고 내 로직을 수월하게 작성하고 싶다. 04 잊지말 점 배우지 않고 태블로를 만드는 것과 실습을 한번 해 본..
2024.03.02 -
회고노트 13주차 : 새로운 마음으로
01 도전한 점 "머신러닝 기초"를 배우고 기초를 다루는 실습 프로젝트를 완료하고 발표를 마쳤다. 전처리에 대한 부분을 세세하게 설명하는 과정이 추가되면 좋을 것 같다. 실제로 전처리에 너무나 많은 시간을 소요했는데 그부분을 설명하지 못했던 점, 부족하다고 말씀하셨던 부분을 수용하고 다음 번엔 전처리 부분을 열심히 준비해서 보여드려야겠다. "파이썬 코드카타"를 기초학습 시간을 통해 시작하게 되었는데 생각보다 푸는 시간이 너무 재밌어서 다른 학습하다가 막히면 풀곤했다. 하지만 알고리즘적으로 푸는 방법, 수학적 사고 방식은 부족하다고 느껴져서 알고리즘을 한번 더 복습하고 강의에 없는 부분은 따로 학습하고자 한다. 02 좋았던 점 "머신러닝"을 모르면 모르는 대로 일단 시작하고 차차 부족한 부분을 채워가는 방..
2024.02.23