전체 글(540)
-
🔎아티클 스터디: ④ A/B 테스트 표본 크기와 유의미한 결과의 관계
1. 오늘의 아티클(주제) A/B 테스트 제대로 이해하기: ④ A/B 테스트 표본 크기와 유의미한 결과의 관계 | 요즘IT이전 글에서 기초 통계 지식을 바탕으로 A/B 테스트 계산기의 세팅 방법과 해석에 관한 내용을 살펴보았다. 이때 해석 내용 중 계산기에서 ‘결과가 유의미하지 않다(Not Significant)’라고 했을 때yozm.wishket.com 2. 아티클 정보 요약이번 아티클에서는 표본(트래픽) 사이즈와 유의미하다 판단하는 기준의 상관관계를 알아봤다. 실험1: 10명 중 2명 (20%) vs 10명 중 3명 (30%)실험2: 10,000명 중 2,000명 (20%) vs 10,000명 중 3,000명 (30%)실험3: 100,000명 중 2,000명 (2%) vs 100,000명 중 2,20..
2024.05.12 -
클래스: from collections import Counter
01 이전 학습 내용TIL 116일차 : 알고리즘 deque 쉽게 이해하기 (tistory.com)TIL 135일차 : 그리디 알고리즘 쉽게 이해하기 (tistory.com) 02 remove, in은 시간복잡도를 증가시킨다.문제 : 10816번: 숫자 카드 2 (acmicpc.net)문제 : 시간 초과a = input()cnt = input().split()b = input()card = input().split()result = []for i in card: num=0 if i in cnt: while True: try: cnt.remove(i) num+=1 except: ..
2024.05.12 -
TIL 139일차 : 포트폴리오 1/3 완성, 아티클 스터디
✏️도전한 점1. 포트폴리오 1/3 작성분 상담 후 피드백 바탕으로 수정 완료2. 어제 읽은 A/B 테스트 계산기 사용에 아티클 스터디 완료 01 포트폴리오1. 포트폴리오 상담 : 첫 번째로 보여주고자 하는 프로젝트에 대해 두 개의 페이지로 설명하려니 내가 했던 역할에 대해서 tool마크로 보여줄 수 밖에 없었다. 그리고 내가 가진 정보를 모두 시각화 해야한다!에 몰입하다보니 이미지는 많아지고 설명히 부족해졌다는 피드백을 받았다. 모든 정보에 너무 축약되어 처음 보는 사람이 이해하기 어렵다고 했다. 이부분을 수정하고 후발 주자 프로젝트를 줄이더라도 여기에 3페이지를 사용하는 게 낫다고 판단했다.2. 포트폴리오 수정 : 3페이지로 분량을 충분히 잡고, 컬럼소개를 추가하고 파이차트는 삭제하는 식으로 진행했다..
2024.05.10 -
🔎아티클 스터디: ③ A/B 테스트 계산기의 세팅과 해석
1. 오늘의 아티클(주제) A/B 테스트 제대로 이해하기: ③ A/B 테스트 계산기의 세팅과 해석 | 요즘IT앞선 두 편의 글에서, ‘실제 A/B 테스트를 설계할 때 우리가 진짜 궁금한 질문’과 ‘A/B 테스트 실험 결과의 유의미한 방안’, 그리고 ‘이를 바탕으로 A/B 테스트의 설계 및 해석에 필요한 기초yozm.wishket.com 2. 인사이트 1. A/B 테스트를 할 수 있는 노코드툴을 제공하는 사이트를 알았음.2. 단측검정 자체가 뭐가 더 크다는 크기 조건을 줘버린거니까, 만약 둘 사이에 차이가 있어도 조건이 맞지 않으면 차이가 유의미 하지 않다고 봄.3. 그래서 양측 검정이 보수적이고 안전한 실험에 사용된다는 것임.4. 95% 신뢰 수준 confidence로 실험을 진행했을 때 P-value가..
2024.05.09 -
TIL 138일차 : 이력서 제출, 포트폴리오 제작
✏️도전한 점1. 자세하게 피드백 받은 후 수정 작업 완료2. 인텔리픽 제출3. 포트폴리오 프로젝트1에 대해서 2페이지 분량 정리4. 아티클 스터디 01 아티클 스터디 🔎아티클 스터디: ③ A/B 테스트 계산기의 세팅과 해석1. 오늘의 아티클(주제) A/B 테스트 제대로 이해하기: ③ A/B 테스트 계산기의 세팅과 해석 | 요즘IT앞선 두 편의 글에서, ‘실제 A/B 테스트를 설계할 때 우리가 진짜 궁금한 질문’과 ‘A/B 테스트specialda.tistory.com 02 포트폴리오넣고 싶은 건 많고 피피티 사이즈는 정해져 있고 2페이지 안에 5주 분량을 넣으려니 결과적으로 글이 많이 줄어버리는 일이 발생했다. 이건 프레젠테이션 발표자료가 아니고, 순서도가 중요한 이유는 축약하기 위해선데 너무 시각화 ..
2024.05.09 -
🔎아티클 스터디: ② A/B 테스트를 위한 기초 통계 이해하기
1. 오늘의 아티클(주제) A/B 테스트 제대로 이해하기: ②A/B 테스트를 위한 기초 통계 이해하기 | 요즘IT앞선 글에서 A/B 테스트를 설계하거나 수행할 때 ‘목표를 달성하기 위한 방안으로 A와 B 중 어느 게 더 나은가?’ 뒤에 숨은 진짜 질문에 관해 살펴보았다. 이번 글에서는 이러한 우리의 진짜 질yozm.wishket.com 2. 아티클 정보 요약💡우리는 A/B 테스트 결과에 대해 아래와 같은 질문에 확답할 수 있는가?1) 앞으로도 해당 유형의 고객에게 A안 또는 B안이 일관성 있게 효과가 좋다고 말할 수 있는가?2) 그렇다면 이 결과는 A와 B의 차이로 생긴 게 맞나? 우연이 아니라고 확답하는 이유는? 우리는 '전체'에 대해서 알 수 없다. 다만 실험을 통해 '일부'에 대해 알 수 있다. ..
2024.05.09 -
TIL 137일차 : 이력서 완성, 알쿼리즘 SQL코드카타
✏️도전한 점1. 24.05.09 새벽 2시 이력서 다시 완성🥹 모든 걸 갈아넣었다.2. 알쿼리즘 스터디 쿼리문제 풀이 완료3. 데이터분석 아티클 스터디 준비 - 읽음 완료 01 알쿼리즘 쿼리 문제 업로드[문제] ONLINE_SALE 테이블과 OFFLINE_SALE 테이블에서 2022년 3월의 오프라인/온라인 상품 판매 데이터의 판매 날짜, 상품ID, 유저ID, 판매량을 출력하는 SQL문을 작성해주세요. OFFLINE_SALE 테이블의 판매 데이터의 USER_ID 값은 NULL 로 표시해주세요. 결과는 판매일을 기준으로 오름차순 정렬해주시고 판매일이 같다면 상품 ID를 기준으로 오름차순, 상품ID까지 같다면 유저 ID를 기준으로 오름차순 정렬해주세요. SELECT DATE_FORMAT(SALES_DAT..
2024.05.08 -
회고노트 23주차 : 이력서 주간
01 사이드 프로젝트데이터를 분석해서 이 데이터와 어떤 데이터를 결합(JOIN, MERGE)할 수 있을지 고민해보는 시간을 가졌다. 캐글의 와인 데이터로 과제를 했을 때 참고한 블로그가 있는데 그 때 이렇게 결합을 하여 분석을 하셨던 게 생각났따. 근데 그땐 내가 실제로 할 수 있는 과정이라고 생각하지 못했다. 이제 수집부터 적재, 분석을 해보니 이런 저런 데이터셋이 필요하겠구나 라는 프로세스가 그려져서 자신감도 차고 유익한 시간이었다. 02 이력서 작성, 자기고찰사전캠프 기간에도 직무에 대해 고찰을 해봤지만, 지금 시점에서 하는 고찰보다는 깊이가 얕았다. 분석 과정을 겪어보니 이제 이력서 자격 요건 중에 어떤 과정을 재밌어하는지 안 풀리면 오히려 오기가 생기는지를 알게 된 까닭이라 생각한다. 그렇게 이..
2024.05.08 -
🔎아티클 스터디: ① A/B 테스트 제대로 이해하기
1. 오늘의 아티클(주제)A/B 테스트 제대로 이해하기: ①테스트를 설계할 때 우리의 진짜 질문은? | 요즘IT (wishket.com) A/B 테스트 제대로 이해하기: ①테스트를 설계할 때 우리의 진짜 질문은? | 요즘IT서비스 기획, PM, 그리고 그로스 해킹과 관련한 부트캠프나 신입 교육 과정을 살펴보면, A/B 테스트에 관한 이야기가 많다. 아마도 서비스를 개선하는 실험 방안 중 하나로 A/B 테스트가 가장 유명(yozm.wishket.com 2. 아티클 정보 요약겉으로 보기에 우리는 아래와 같은 질문을 던지고 있다고 생각하지만 “목표를 달성하기 위한 방안으로 A안과 B안 중 어느 게 더 효과가 좋은가?” 사실 이 질문 속에 숨어있는 진짜 궁금한 점은 따로 있다. 🔎우리가 놓치고 있는게 무엇일..
2024.05.08 -
TIL 136일차 : 이력서 수정, 아티클 스터디, 머신러닝
✏️도전한 점1. 휴일에 쓴 이력서를 상담받았다. 튜터님마다 성향이 다르신데, 명쾌한 답변을 주셔서 유익했다.2. 스터디 주제로 A/B테스트에 대한 아티클을 읽었다. 다음에 이어지는 글도 기대된다.3. 머신러닝 비지도 학습 카테고리 공부 01 아티클 스터디🔎아티클 스터디: A/B 테스트 제대로 이해하기 ① (tistory.com) 🔎아티클 스터디: A/B 테스트 제대로 이해하기 ①1. 오늘의 아티클(주제)A/B 테스트 제대로 이해하기: ①테스트를 설계할 때 우리의 진짜 질문은? | 요즘IT (wishket.com) A/B 테스트 제대로 이해하기: ①테스트를 설계할 때 우리의 진짜 질문은? | 요즘specialda.tistory.com 02 머신러닝 학습- 군집 분석에서 군집 수를 참고하는 지표로 CC..
2024.05.07 -
TIL 135일차 : 그리디 알고리즘 쉽게 이해하기
✏️도전한 점1. 알쿼리즘 : 11399번: ATM (acmicpc.net)2. 이력서 수정 01 그리디 알고리즘이란?💡 그리디 알고리즘은 쉽게 라는 예시에서 살펴볼 수 있다. - 내 앞에 다양한 크기의 쿠키🍪들이 한 접시에 담겨있다고 상상해보자. 나는 배가 많이 고픈 상태이고, 가능한 한 많은 쿠키를 빨리 먹고 싶다. 하지만, 한 번에 하나의 쿠키만 고를 수 있다. 어떤 쿠키를 먼저 고를 것인가? - 그리디 알고리즘은 는 아이디어에서 비롯됐다. 위의 경우에는 가장 큰 쿠키를 먼저 고르는 것이 답일테다. 왜냐하면, 이 방법이 나의 배를 가장 빨리 채울 수 있는 방법이기 때문이다. 그래서 나는 가장 큰 쿠키를 먼저 골라 먹고, 그 다음으로 큰 쿠키를 골라 먹고, 이런 식으로 계속 쿠키를 고르게 된다. ..
2024.05.06 -
TIL 134일차 : 이력서 피드백
✏️도전한 점1. 이력서 첨삭 01 이력서 피드백- 신입공고 : 실무에 투입될 수 있는 사람을 좋아한다. - 즉, "스터디"를 해서 "어떤 프로젝트"에 녹여봤다고, 좋은 결과를 도출했다. - 파이널의 전처리 과정을 지원동기에 쓰고 어떤 라이브러리를 활용해서 뭐 했다고 쓴다. - 소개에는 서비스 측면을 적고 웹서비스를 배포하는 경험으로 채운다. - 웹서비스를 배포해 보았습니다. 로 변경하기 - 루키찾기 프로젝트를 어필하면 좋을 것 같음. - 리디북스가 GCP, 빅쿼리를 활용하니까 유용할 것 같다. - 리디 추천 시스템 4.25 읽어보기 -> 희망업무 or 차별점 적용 -> a/b테스트, 추천시스템 잘봐두기- 테크 부분 읽어보고 벤치마킹 해보기 - 부정적인 문장 언급하지 말고 돌려쓰기 - 처음 배우는 언어라..
2024.05.04 -
TIL 133일차 : 이력서 피드백
✏️도전한 점1. 이력서 첨삭 01 why-how-what-so what"why-how-what-so what" 모델은 문제 해결 과정에서 체계적이고 논리적인 사고를 유도하여, 문제를 깊이 있게 분석하고 그 해결책이 가지는 의미와 가치를 명확히 하는 데 도움을 주는 프레임워크이다. 이 모델은 특히 의사소통, 분석, 프레젠테이션 같은 상황에서 유용하게 사용된다.1. Why (왜): 이 단계에서는 문제나 상황이 왜 중요한지, 무엇이 주된 동기인지를 탐구한다. '왜 이 문제에 대해 이야기하거나 해결해야 하는가?'와 같은 질문을 통해 시작점을 설정하고, 문제의 중요성과 관련성을 명확히 한다.2. How (어떻게): 여기서는 '왜' 단계에서 제시된 문제나 목표를 해결하거나 달성하기 위한 구체적인 방법이나 접근 방..
2024.05.02 -
TIL 132일차 : 자기소개서, 나를 소개합니다:)
✏️도전한 점1. 아침부터 나에 대해 생각해보는 이력서 작성 및 상담시간을 가졌다.2. 이력서에 자기소개서 파트를 고민하고 정보를 수집하고 작성했다. 01 면접에서 나올 어려운 질문1. 캠프와 다르게 실무가 생각과 다를 땐 어떻게 할 건지?- 직무를 체험해보는게 캠프라고 생각해서 참여하게 된 것이다. 만약 캠프 내 학습 내용과 실무가 다를 경우라면 내 역량에 맡지 않는 업무를 맡았거나 수준에 맞지 않은 경우를 말할텐데 그런 경우 일단 함께 일하는 동료, 사수분들께 자문을 구할 것이고, 다음으로 함께 수료한 동기들과 튜터님들께 자문을 구해 문제 상황을 해결해 나갈 것이다. 2. 왜 많은 기술 중에 데이터인지?- 전공 과목 중 유독 재밌어 하고 잘했던 과목이 서지학이다. 서지학이란 기록물을 수집, 분류, 분..
2024.05.01 -
데이터 전처리와 데이터 마트의 차이
01 데이터 마트와 데이터 전처리의 차이는?1. 데이터 마트(Data Mart): 데이터 마트는 특정 주제나 부서의 필요에 초점을 맞춘 데이터의 집합이다. 이는 데이터 웨어하우스에서 파생되는 개념인데, 데이터 웨어하우스가 조직 전체의 데이터를 포괄한다면, 데이터 마트는 그 중 특정 부서나 사용자 그룹이 자주 사용하는 정보만을 추출해 구성된 소규모의 데이터 저장소다. 예를 들어, 마케팅 부서만을 위한 데이터 마트를 구성할 수 있으며, 이는 마케팅과 관련된 데이터만을 포함하게 된다. 데이터 마트는 데이터 분석의 효율성을 높이고, 필요한 정보에 더 빠르게 접근할 수 있게 돕는다는 장점이 있다. 2. 데이터 전처리(Data Preprocessing): 데이터 전처리는 분석이나 머신 러닝 모델 훈련 전에 데이터를..
2024.05.01 -
TIL 131일차 : 자연방생 1일차(수박/공공)
✏️도전한 점1. 자동화 및 리터러시 프로젝트 다음 방향 상담2. 직무 상담3. 공모전 회의4. 이력서 작성 01 데이터 리터러시(WHY) 방향 상담💡데이터 리터러시를 제대로 해내기 위해서는 그 분야의 도메인 지식 학습이 우선적으로 이뤄져야 한대서 "수박"에 대해서 찾아봤다. 일단 수박의 가격에 영향을 미치는 요인은 1)계절적 변동성, 2) 시장의 수요와 공급의 변화, 그리고 3) 경제적 요인이 있을 것이라 "가정"하고 실시간 정보가 빠른 뉴스를 찾았다. 1. 수박 도메인 지식 쌓기더보기# 04.18 기사 - 지난 겨울 잦은 눈·비와 일조량 부족으로 올해 수박 작황이 부진하다는 내용을 보도하였습니다. - 2024년 2월 흐리고 비 내리는 날씨가 이어지며 겨울~봄철 출하되는 수박 생산량은 감소하였으나, ..
2024.04.30 -
[개인] cron을 이용한 스케줄링(3)
01 리눅스와 친해치기 복습 TIL 118일차 : 리눅스 명령어 공부, 특성컬럼값 검수✏️도전한 점 1. 9시까지 리눅스 명령어 공부 2. 9시~10시 경도, 위도로 행정동 코드 구하기 찾기 [보류] 3. 쿼리 내면서 내가 풀어봄. 4. 14시부터 리뷰텍스트 프롬프트 결과 검수하기 01 리눅스와specialda.tistory.com 02 자동화 학습 과정 트러블 슈팅1. 빅쿼리 데이터셋에 대한 액세스 권한이 없거나 데이터셋이 존재하지 않는 경우 403 에러 발생! 2. VM인스턴스 페이지에 들어가서 일단 렌탈한 컴퓨터를 "중지"시킨다. 그리고 "수정"에 들어간다. 3. 스크롤을 쭉 내리다보면 액세스 범위에 대한 내용이 접혀있을 것이다. 펼치고 전체를 허용한다. 4. (주의) 실습 스켈레톤 코드에서 프로..
2024.04.29 -
TIL 130일차 : CRON, 최종 프로젝트 발표회 19:00
✏️도전한 점1. 빅쿼리 여분, cron 빠르게 학습2. 크론 안되는 점 여쭤보기3. 이력서 상담4. 거의 2시에 빅쿼리 트러블 슈팅 완료5. cron 공부하고 정리하기6. 최종 프로젝트 발표회 01 이력서 상담- 포트폴리오에 이미지 넣어야 한다. 단정한 사진이면 굿. - 텍스트 정리가 됐으니까 서비스 했던거 이미지 같은거 추가 - 사용했던 툴 이런거 이미지 캡쳐해서 살 붙임 (로고) - 프로젝트 망해도 넣는 게 좋음. - 프로필 이미지를 추가하는게 좋다. 증사 아니어도 된다. - cv example 검색해서 툴을 봐보는 것도 좋다. - 썼던 기법들은 빨간색으로 강조도 해본다. - 과제 주는 대기업이 있음, 파이썬 언어로, 일주일간 - 이상치, 결측치 처리부터 모델 제작까지 시킬 듯. - 영어 SQL은 ..
2024.04.29 -
회고노트 22주차 : Streamlit 80% 이해완료, 웹페이지 틀 제작 끝
01 K-means Clustering- 수집한 컬럼을 모두 집어넣어서 군집시각화를 살펴보기도 하고, 스케일링을 전부 돌려서 살펴보기도 하고, 부분 스케일링 결과와 비교해보기도 하고, 컬럼을 직접 다이어트 시키면서 군집 결과가 어떻게 달라지는지 내 눈으로 확인했던 한 주 였다.- 컬럼을 직접 축소하면서 그 축소에 대한 이유를 시각화를 통해 근거를 댈 수 있다.- 신기했던 점은 데이터가 너무 극소량 수집되어 한쪽으로 치우친 컬럼의 경우 오히려 노이즈로 작용할 수 있다는 점이었다.- 또, 군집이 비교적 골고루 이루어졌다 생각해서 로우데이터를 봤더니 군집의 특성을 구분짓기 너무 어려웠더너 경우도 있었다. (이 경우는 스케일링이 되지 않은 데이터셋의 경우였다.)- 정답이 정해져 있지 않은 만큼 어렵기도 하지만 ..
2024.04.29 -
TIL 129일차: 기초통계, 빅쿼리 연동&업로드, Streamlit Folium
✏️도전한 점1. 기초통계 학습2. 빅쿼리 연동 및 업로드3. 스트림릿 폴리움 01 기초통계1. 통계학은 기본적으로 단봉성 그래프를 바탕으로 한다.2. 평균, 분산, 표준편차에 대해 정확히 알고 넘어간다.3. 평균, 분산, 표준편차 모두 이봉성 그래프일 때 의미가 사라진다.4. 내가 그린 수박 그래프는 뚜렷한 이봉성 그래프이다.5. 수박 그래프 이봉성의 원인이 무엇일지 궁금해졌다. 02 자동화까지 해보는 프로젝트 스케줄링" data-og-description="01 Colab환경에서 KAMIS API을 활용하여 데이터를 가져온다.1. 파라미터 참고! request url도 해당 페이지에서 제공한다. 2. 2881개의 행을 가진 데이터셋을 가져올 수 있다.3. 전처리 과정으로 특수문자를" data-og-h..
2024.04.28 -
04.28 Folium: 스트림릿에 지도 사이즈 자유자재로 바꾸는 방법 고민하기
01 문제 상황(여백)1. streamlit docs에서 제공하는 map코드도 PyDeck도 내웹에서는 먹히지 않음.2. 결국 지도 사이즈에 데이터프레임 크기를 맞출 수 밖에 없었는데 (이전글 참고)3. Folium을 사용하면 사이즈를 조정할 수 있다고 함!!!4. 또 문제가 생김: 지도 하단 부분에 어떤 사이즈를 해도 여백이 생기는 것이었다.5. 다양한 방법으로 해결하다가 페이지 양쪽 여백 지우는 법도 배웠다. 03번 참고6. 해결 방법: 02번 참고 02 지도 하단 여백 지우기1. 첫 번째 방법: 실패 (설명 더보기 클릭)더보기- Folium 지도를 HTML 파일로 먼저 저장한 후, 이를 Streamlit에서 HTML 컴포넌트로 직접 불러오는 방법을 처음 시도했다. 이 방법을 사용하면 CSS를 통해..
2024.04.28 -
[개인] Google Clab → Google Bigquery 자동화 프로젝트(2)
01 Colab환경에서 KAMIS API을 활용하여 데이터를 가져온다.1. 파라미터 참고! request url도 해당 페이지에서 제공한다. 2. 2881개의 행을 가진 데이터셋을 가져올 수 있다.3. 전처리 과정으로 특수문자를 제거, 통합된 Date컬럼을 생성, 전체 데이터를 평균과 평년으로 나눈다.4. 두 가지 방법으로 sns을 활용하여 그래프를 만들어봤다. (우) 날짜를 유추하기 좋은 코드를 배웠다. 02 필요 모듈 설치, 연동 인증하기!pip install google-cloud-bigquery pandas google-auth google-auth-oauthlib google-auth-httplib2빅쿼리랑 코랩이랑 연결하려면 인증 절차를 거쳐야 한다. 아무나 접근하면 안되니까! 03 클라이언트..
2024.04.26 -
04.26 PPT 수정, Streamlit 지역변수, 전역변수 주의
01 함수 발동과 동시에 가게이름을 저장해야 할 때문제 발생: 그 전에 버튼으로 누른 가게명을 저장해둬야 하는 문제를 해결한다. 잘못된 해결 방법: 그냥 변수가 아니라 메모리에 저장하는 기능의 session_state를 활용한다.문제 발생: 저렇게 하면 안돼ㅋㅋ 조건별 발동하도록 함수 안에 넣어야 한다.옳은 해결 방법: sample로 뽑아낸 9개의 random_store를 전달인자로 받아야 한다. 02 데이터프레임의 너비, 높이 사이즈 설정하기st.write하면 타이틀처럼 간단하게 만들 수 있지만 st.dateframe을 쓰면 너비, 높이 조절이 된다.st.dataframe(pd.DataFrame({ '리뷰 더블클릭': Review_text[cond2&cond4]['Review_text']}).r..
2024.04.26 -
TIL 128일차 : 프로젝트 마무리
✏️도전한 점1. Streamlit 기본 틀 완성2. 구글 빅쿼리 강의 듣기3. 프로젝트 PPT 구성, 스크립트 팀회의4. 포트폴리오 작성법 특강 01 스트림릿 기본틀 완성, PPT 수정사항 회의 04.26 Streamlit 지역변수, 전역변수 주의01 함수 발동과 동시에 가게이름을 저장해야 할 때문제 발생: 그 전에 버튼으로 누른 가게명을 저장해둬야 하는 문제를 해결한다. 잘못된 해결 방법: 그냥 변수가 아니라 메모리에 저장하는 기specialda.tistory.com 02 포트폴리오 세션더보기# 커리어 path - 어떤 부분이 재밌다는걸 어필해야한다. - 데이터가 좋아서 하는, 애정 넘치는 실무진이 많음. - 취업 준비하시는 분이 링크드인에 길게 올렸는데 700개 공감 받음. - 꾸준히 써내려가면 ..
2024.04.26 -
정규 표현식을 이용한 토큰화 - NLTK의 RegexpTokenizer
01 NLTK 실습 코드from nltk.tokenize import RegexpTokenizertext = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"tokenizer1 = RegexpTokenizer("[\w]+") -> 문자나 숫자가 하나 이상이다.tokenizer2 = RegexpTokenizer("\s+", gaps=True) -> 공백을 '기준'으로 토큰화 한다.print(tokenizer1.tokenize(text))print(tokenizer2.tokenize(text)) -> 특수 기호가 함께 출력된다. 02 인사이트1. gaps=tr..
2024.04.25 -
정규 표현식(import re) 알아보기
✏️학습 계기1. 데이터 클렌징을 하다보니 (특히 도서 플랫폼) 정규 표현식을 알아둬야 편하겠더라.2. 허깅페이스🤗 사용법을 찾아보다가 독스에 정규 표현식이 보여서 정리해본다.3. 점프투파이썬을 배울 때 학습했던 내용인데, 그땐 어려웠지만 지금은 이해가 된다. 01 특히 중요한 부분: 모듈 함수search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인한다. 문자열 중간에 찾을 패턴이 있더라도 match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않는다. 02 학습 내용import rer = re.compile("a.c")r.search("kkk") -> 아무런 결과도 출력되지 않음.r.search("abc..
2024.04.25 -
04.25 Stramlit 버튼 함수, Openai api 274,643원의 토큰사용
01 어제(04.24) 코드 수정한 부분b1.button(f'{random_store.iloc[0]}',type="primary", on_click=button_click, args=("friend",)) 1. 버튼이 씹히고 복잡하게 구현되는 부분을 클릭 함수와 on_click으로 해결했다.2. 지금 기능이 있으면 IF문이나 변수를 따로 저장하는 수고는 없어도 된다. 02 자세한 사항은 어제(04.24) TIL 마지막 참고 TIL 126일차✏️도전한 점1. 컬럼 다이어트에 대한 감을 잡아가고 있다.- 수집된 데이터가 극도로 적은 키워드가 전체 군집화 단위로 볼 때 노이즈가 될 수 있음.- 컬럼의 수를 늘린다면 이것만 모일 수 있을specialda.tistory.com 03 경도, 위도 추출하는 코드 작성..
2024.04.25 -
TIL 127일차 : Streamlit docs
✏️도전한 점1. 무난한 빵집(=군집0번)에 대해 피드백 받았다.2. 스트림릿 버튼식 웹페이지(on_click) 구현했다.3. 허깅페이스 알아보다가 보류했다.4. 정규 표현식, NLTK까지 배워봤다.5. 스트림릿에 디자인 요소를 가미했다. 01 Streamlit 기록 04.25 Stramlit 버튼식 웹페이지 구현 중01 어제(04.24) 코드 수정한 부분b1.button(f'{random_store.iloc[0]}',type="primary", on_click=button_click, args=("friend",)) 1. 버튼이 씹히고 복잡하게 구현되는 부분을 클릭 함수와 on_click으로 해결했다.2. 지금 기능specialda.tistory.com 02 정규표현식을 배우고 실습 정규 표현식(imp..
2024.04.25 -
[개인] Google BigQuery(구글 빅쿼리) 파헤치기(1)
01 접속하기1. 접속하기 2. 오른쪽 콘솔로 들어간다. 3. 대부분 기능이 있는 빅쿼리 스튜디오 클릭한다. 4. 데모 쿼리 사용해보기 = 무료 데이테셋이다. 5. 자동으로 열리는 가이드북 6. 테이블을 누르면 미리보기, 내보내기(다운로드)도 된다. 참고!- 구글 트렌드 데이터셋은 시간대별 구글의 검색량을 보여주는 시계열 데이터이다. 7. 디비버에 파일 업로드 하는 것과 같이 간단히 내 로컬 파일 올릴 수도 있음. 02 공개 데이터 확인하기1. Analytics Hub 제일 많이 사용하는 것 같다. 내부에 데이터셋이 굉장히 많다.2. Google Drive에 있는 파일도 가져와서 사용할 수 있다. 3. 데이터 바로 추가해서 볼 수도 있다. 메타데이터가 있으면 좋겠는데 안보인다. 4. 디비버처럼 똑같이 연..
2024.04.24 -
TIL 126일차 : 군집개수 확정하기
✏️도전한 점1. 컬럼 다이어트에 대한 감을 잡아가고 있다.- 수집된 데이터가 극도로 적은 키워드가 전체 군집화 단위로 볼 때 노이즈가 될 수 있음.- 컬럼의 수를 늘린다면 이것만 모일 수 있을까?2. 클러스터링의 필요성에 대한 보충 고민, 프로젝트 보완점 고민했다.- 처음에 피드백 받았던 내용 중에 단순 집계가 아닌 군집화를 한 이유에 대해서 설명하려면 군집수가 적어야? 다양해야? 겠다는 내용이 있었다. 군집을 하는 이유가 29개의 컬럼을 어떤 기준으로 묶어야 할지 모르겠으니까 였다. 9개의 컬럼으로 줄였다면 9개의 버튼을 구현하면 되는데 왜 군집화를 했는가?에 대해 설명할 수 있어야 한다.- 다음에 고민할 부분은 리뷰별로 여러개의 군집을 띄는 경우의 수를 피할 수 없다면 최빈값으로 ..
2024.04.24