전체 글(540)
-
PYTHON: 리스트 컴프리헨션의 조건, map과 filter의 활용 예시
01 같은 로직을 활용하는 세 개의 변수 만들기answers = [1,2,3,4,5]a = [1,2,3,4,5] * 2000b = [2,1,2,3,2,4,2,5] * 1250c = [3,3,1,1,2,2,4,4,5,5] * 1000result = [0,0,0]for i,j in enumerate(answers): if a[i]==j: result[0] += 1 if b[i]==j: result[1] += 1 if c[i]==j: result[2] += 1max_result = max(result)[i+1 for i,j in enumerate(result) if j == max_result] 같은 로직을 사용하지만 각각의 변수에 새로운 값을 할당해야 할..
2024.09.12 -
SQL: DATEDIFF, SUBDATE 활용 방법의 차이 (feat. join문제)
01 날짜차: DATEDIFF, SUBDATE의 이용법 알기문제 URL: Rising Temperature - LeetCode SELECT W1.idFROM Weather AS W1WHERE W1.temperature > ( SELECT W2.temperature FROM Weather AS W2 WHERE DATEDIFF(W1.recordDate, W2.recordDate)=1);= 다음 코드는 join이지만 조인 조건(on)을 주지 않았다.SELECT w1.idFROM Weather AS W1JOIN Weather AS W2WHERE DATEDIFF(W1.recordDate, W2.recordDate) = 1AND W1.temperature > W2.temperature;=SELECT..
2024.09.12 -
PYTHON: 중복 제거, 문자 위치 찾기, 파생 변수 생성, map(str,변수)
01 간단한 중복 제거: set 1. set은 집합을 표현하는 파이썬 자료형이며 중괄호로 표현된다.2. 중복된 요소가 없으며 순서가 없기에 인덱스를 사용할 수 없다. 02 뒤에서 부터 문자의 위치 찾기: rfind rfind를 활용해서 뒤에서 몇 번째에 위치하는지 알 수 있는 방법은? 03 새로운 컬럼 만들기: pandas code모두의 연구소 파이썬을 활용한 데이터분석 스터디 학습 과정에서 사용한 코드인데 기록해둔다. 첫 번째, apply+lambda+get 메서드 활용 방법df['연령대'] = df['연령대코드'].apply(lambda x: age_code.get(x, '기타')) 1. apply() 메서드를 사용하여 연령대코드 열의 각 값에 대해 함수를 적용한다. 2. lambda x: age_..
2024.09.12 -
🔎아티클 스터디: 디지털 "대전환"이 아닌 "대변환"이 필요해
01 오늘의 아티클 06화 디지털 "대전환"이 아닌 "대변환"이 필요해데이터'를' 말하다 (6) | "디지털 대전환", "데이터 혁명"이란 게 가능한 걸까? 앞서 살펴본 바와 같이, 데이터의 활용은 실생활과 실물 경제에 지대한 변화의 동인이 되었고, "산업혁명"까지는 아brunch.co.kr 02 아티클 정보 요약해당 아티클은 디지털 "대전환"이 아닌 "대변환"의 필요성을 강조하고 있다. 단순한 디지털 기술 적용만으로는 충분하지 않으며, 기술뿐 아니라 사회 구조와 산업 생태계 전반에 걸친 근본적인 변화를 요구한다. 디지털 전환은 데이터 혁명, 구독 경제와 같은 새로운 경제 모델로 이어질 수 있지만, 이를 위해서는 근본적인 문제의 탐구와 실질적인 해결책이 필요하다고 주장한다. 03 인사이트1. 대한민국이 ..
2024.09.12 -
SQL: SELF JOIN 활용하는 문제 풀이 (output보며 이해)
01 문제 URL Managers with at Least 5 Direct Reports - LeetCode 02 작성 코드SELECT E1.NAMEFROM EMPLOYEE AS E1JOIN EMPLOYEE AS E2 ON E1.ID = E2.MANAGERIDGROUP BY E2.MANAGERIDHAVING COUNT(*) >= 5; 03 인사이트해당 테이블에서 하위 직원이 5명 이상 존재하는 관리자의 이름을 output 하는 문제이다. 자기 자신을 join 하여 간단하게 해결할 수 있다. 기본적인 형태를 확인하기 위해 아래 코드를 실행하면 다음과 같은 결과가 나온다.SELECT E1.*, E2.*FROM EMPLOYEE E1JOIN EMPLOYEE E2 ON E1.ID = E2.managerId컬럼..
2024.09.12 -
PYTHON: 소수 만들기 (라이브러리 활용, 비활용편)
01 문제 URL코딩테스트 연습 - 소수 만들기 | 프로그래머스 스쿨 (programmers.co.kr) 02 작성 코드nums = [1,2,7,6,4]result = []import itertoolsanswer = [sum(i) for i in list(itertools.combinations(nums, 3))]print(answer) # output: [10, 9, 7, 14, 12, 11, 15, 13, 12, 17]for i in answer: yaksu = [e for e in range(2,i) if i%e == 0] if yaksu == []: result.append(i)print(result) # output: [7, 11, 13, 17]print(len(re..
2024.09.05 -
SQL: CROSS JOIN과 LEFT JOIN 동시에 활용하기
01 문제 URLStudents and Examinations - LeetCode 02 작성 코드SELECT ST.student_id , ST.student_name , SU.subject_name , COUNT(EX.subject_name) AS attended_examsFROM Students AS STCROSS JOIN Subjects AS SULEFT JOIN Examinations AS EXON ST.student_id = EX.student_idAND SU.subject_name = EX.subject_nameGROUP BY ST.student_id , ST.student_name , SU.subject_nameORDER BY S..
2024.09.05 -
통계 학습 18~21회차: 깃허브 주소 모음
18회차: 생존 분석 statistics/18_Survival_Analysis.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com 19회차: 주성분 분석(PCA)의 통계적 해석 statistics/19_Statistical_Interpretation_of_PCA.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub...
2024.09.04 -
🔎아티클 스터디: 빅데이터 산업의 기반 "데이터 거버넌스"
01 오늘의 아티클 05화 빅데이터 산업의 기반 "데이터 거버넌스"데이터'를' 말하다(5) | "과정"이 없는 "결과"란 없다 지난 연재에서, "디지털 대전환"의 중심은 "데이터 활용" 능력이라고 연신 주장한 바 있다. "데이터를 정보화하는 활용 과정(data maanagement processbrunch.co.kr 02 아티클 정보 요약해당 아티클은 빅데이터 산업에서 데이터 거버넌스의 중요성을 다룬다. 데이터 거버넌스는 데이터를 관리하고 규제하는 체계로, 데이터의 정확성, 보안, 규정 준수를 보장한다. 이를 통해 기업은 데이터 품질을 개선하고 리스크를 줄여 더 나은 의사결정을 할 수 있다. 특히, 데이터 규제가 강화되는 상황에서 데이터 거버넌스의 역할이 더욱 중요해지고 있음을 이야기 한다. 03 인사이..
2024.09.04 -
통계 학습 17회차: 시계열 데이터의 통계적 분석
01 학습 내용 statistics/17_Statistical_Analysis_of_Time_Series_Data.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com 02 회고데이터분석 시험을 준비하면서 꼭 정리하고 싶었던 파트이다. 자기회귀모델에서 AR1과 AR2 모델의 차이점과 모델을 평가할 때 아카이케 정보 기준과 베이시간 정보 기준의 차이점을 명확하게 정리하고 싶었는데 이번 기회를 빌어 추가로 학습할 수 있어서 매우 유익한 시간이었고, 시험에 많은 도움이 되었다.
2024.08.30 -
🔎아티클 스터디: 정보 불평등 시대의 "데이터 저널리즘"
01 오늘의 아티클 04화 정보 불평등 시대의 "데이터 저널리즘"데이터'를' 말하다(4) | "디지털 대전환", "데이터 혁명"은 실체 하는가? ;정보 불평등 시대의 "데이터 저널리즘" 앞서 연재한 말미에 데이터를 정보화하는 활용 과정(data maanagement process)에서 각brunch.co.kr 02 아티클 정보 요약데이터나 데이터 저널리즘이 완전 무결한 속성을 가진다 생각해선 안된다. 이들은 아날로그 실세계를 객관적으로 재현한 온전하고 순수한 결과물로만 이루어지지 않았기 때문이다. 이러한 데이터들은 어떠한 "의도"를 가지고 결과물을 만들어 낼 수 있기 때문에 1. 통계적 함정 2. 설문조사의 함정 3. 시각화의 함정 등 다양한 함정들을 인지하고 주의할 필요가 있다. 03 인사이트함정들..
2024.08.29 -
통계 학습 16회차: 비모수 통계 방법
01 학습 내용 statistics/16_Nonparametric_Statistical_Methods.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com 02 회고모수 통계 기법과는 어떤 차이점이 있고 주요 기법과 상관분석 기법으로는 무엇이 있는지 새롭게 배울 수 었었다. python코드로 부트스트랩 방법을 실행해보기도 했으며, 순위 기반 테스트의 개념은 무엇인지 코드로 작성해 볼 수 있었다.
2024.08.28 -
🔎아티클 스터디: 데이터는 왜 중요한가? 빅데이터의 시대
01 오늘의 아티클 03화 데이터는 왜 중요한가; 빅데이터의 시대데이터'를' 말하다 (3) | 빅데이터의 시대 지난 연재에서 '디지털'과 '데이터'에 대한 기본적인 이해를 살펴보았다. 그렇게 간단하지만은 않은 이해였다. 복잡함은 일단 내려놓고, 디지털화라는brunch.co.kr 02 아티클 정보 요약1. 빅데이터는 말 그대로 많은 양의 데이터라고 직관적으로 해석하기 보다, 그 데이터를 효과적으로 처리하고 분석할 수 있는 기술에 더 초점을 둔 용어이다.2. 빅데이터의 특성은 Volume, Velocity, Variety 그리고 Veracity로 정의할 수 있는데 Veracity는 '적확한'에 가깝다. 이는 빅데이터 환경에서의 Mapping과 맞닿아 있는 용어이다.3. 데이터 과학자는 통계학, 컴퓨터과학, ..
2024.08.28 -
통계 학습 15회차: 다중 비교 문제
01 학습 내용 statistics/15_Multiple_Comparison.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com 02 회고여태 배운 단일 가설 검정과 달리 다중 가설 검정에서는 어떤 오류가 발생할 수 있는지, 그리고 이러한 오류를 제어하기 위한 방법으로 무엇이 있는지 새롭게 배울 수 있었다. 다중 비교 문제를 고려하지 않고 단순하게 유의 수준과 유의 확률을 비교할 경우 잘못된 가설 채택이 이루어질 수 있음을 인지하고 있는 것이 무엇보다 중요하겠다.
2024.08.28 -
🔎아티클 스터디: 인공지능 프레임워크, 텐서플로우/케라스/파이토치
01 오늘의 아티클 1. 머신러닝, 딥러닝의 프레임워크, 이렇게 많았어? (tistory.com) 2. 인공지능 프레임워크, 좀 더 알아보자 : 텐서플로우 편 (brunch.co.kr) 3. 인공지능 프레임워크, 좀 더 알아보자 : 케라스 편 (brunch.co.kr) 4. 인공지능 프레임워크, 좀 더 알아보자 : 파이토치 편 (brunch.co.kr) 02 아티클 정보 요약1. 텐서플로우: 수치계산과 대규모 머신러닝을 위한 오픈소스 라이브러리로, 딥러닝 모델을 만드는 데 기초 레벨부터 직접 작업해야 하는 프레임워크이기에 초보자 접근이 어렵다.2. 케라스: python 딥러닝 라이브러리로, 텐서플로우 2.0 버전과 케라스의 '간편하고 빠름'이 결합하여 초보자 접근이 용이해졌다. 텐서플로우 2.0 ..
2024.08.26 -
통계 학습 14회차: 통계적 검정력 분석
01 학습 내용 statistics/14_Statistical_Power_Analysis.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com 02 회고귀무가설이 참일 때, 우연히 극단적인 값이 나타날 확률과 귀무가설의 기각 혹은 채택에 대해서 헷갈리는 부분을 정리하다보니 시간이 조금 소요됐다. 나만의 언어로 정리하고 이해하는 과정이 가설 검증을 만날 때 유독 오래걸린다. 이번 시간에는 검정력을 통해 표본의 크기를 추출하는 방법과 이를 시각화 하는 그래프를 만들어 보았다. 그리고 해석하는 방법까지 새로..
2024.08.26 -
🔎아티클 스터디: ③데이터를 분석할 때 주의할 점 4가지
01 오늘의 아티클 사용자 행동 데이터 분석: ③데이터를 분석할 때 주의할 점 4가지 | 요즘IT이전 글 ‘사용자 행동 데이터 분석: ②넷플릭스와 아마존은 데이터 분석을 어떻게 할까요?’에서 넷플릭스와 아마존의 사례를 통해 사용자 행동 데이터 분석이 실제 비즈니스에서 어떻게 활용yozm.wishket.com 02 아티클 정보 요약 1. 사용자들은 우리가 원하는 대로 서비스를 쓰지 않는다: 이는 분석가만의 주의사항이 아니라 기획자, 개발자라 하더라도 같다. 사용자들은 언제, 어떤 방식으로 우리의 서비스를 사용할지 모르니 예상과 다르더라도 데이터를 그대로 볼 줄 알아야 한다. 2. 데이터가 기록되는 방식을 정확히 이해해야 한다: 데이터가 기록되는 시점에 대한 이해 없이 분석을 하면 안 된다. 자칫하면 서비스..
2024.08.24 -
통계 학습 11, 12, 13회차: 중심극한정리, 베이즈정리, 최대우도추정법
01 학습 내용11. 중심극한정리(Central_Limit_Theorem) statistics/11_Central_Limit_Theorem.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com12. 베이즈 정리(Bayes' theorem) statistics/12_Bayes'_theorem.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an acco..
2024.08.20 -
🔎아티클 스터디: ②넷플릭스와 아마존은 데이터 분석을 어떻게 할까요?
01 오늘의 아티클 사용자 행동 데이터 분석: ②넷플릭스와 아마존은 데이터 분석을 어떻게 할까요? | 요즘IT사용자 행동 데이터 분석은 적은 비용으로 많은 사람의 행동을 분석할 수 있고, 데이터만 잘 쌓으면 사용자들의 행동 패턴을 원할 때 언제든 분석을 할 수 있어서 주목받는 중이라고 설명했습니yozm.wishket.com 02 아티클 정보 요약1. 넷플릭스는 제작할 콘텐츠가 투자대비 회수비용이 큰지 분석하는데 사용자 행동 데이터를 사용했다.2. 아마존은 평균 구매 전환율을 높이기 위해 어떤 요소가 판매에 영향을 주는지 파악하는 데 사용했다.3. 그 외에도 콘텐츠를 선정하기 위한 기준으로 사용자 행동 데이터를 활용하는 법을 알려준다.4. 데이터 QA를 할 때 사용하는 확장 프로그램으로 Omnibug라는 ..
2024.08.20 -
통계 학습 10회차: 표본 추출 방법
01 학습 내용 statistics/10_Sampling_Method.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com 02 미리보기 03 회고ADsP를 공부하면서 집락추출과 층화추출에 대해서 비교 정리를 한 번 해야겠다 생각을 했었는데, 스터디를 계기로 목차에 조금 더 추가해서 학습했다. 확률표본추출에 대해서만 배웠는데, 이번에 비확률표본추출 방법에 대해서도 배울 수 있었고 표본 추출에 대한 윤리적 고려사항까지 정리할 수 있어서 유익했다.
2024.08.20 -
🔎아티클 스터디: ①사용자 행동 데이터 왜 필요할까요?
01 오늘의 아티클 사용자 행동 데이터 분석: ①사용자 행동 데이터 왜 필요할까요? | 요즘IT사용자 행동 데이터는 고객들이 서비스를 잘 쓰고 있는지를 가늠할 수 있는 방법 중 하나입니다. 요즘에는 발 빠르게 고객의 요구사항을 확인하고, 서비스를 만들어야 하는 상황이라 사용자 행yozm.wishket.com 02 아티클 정보 요약1. 사용자 행동 데이터란? 사용자의 행동 패턴을 확인하기 위해 별도로 저장하는 데이터이다.2. 비즈니스를 성공시키기 위해서는 사용자가 원하는 것을 만들고 배포해야 한다.3. 사용자가 서비스를 잘 이용하고 있는지 확인하는 3가지 방법이 있다. 4. 첫째, 사용자 직접 관찰. 둘째, 사용자 인터뷰. 셋째, 사용자 행동 데이터 분석이다.4. 비용적으로, 시간적으로 효율이 높은 것이 ..
2024.08.20 -
통계 학습 9회차: 회귀 분석의 통계적 기초
01 학습 내용 statistics/09_The_Statistical_Foundations_of_Regression_Analysis.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com
2024.08.20 -
🔎아티클 스터디: 내일의 성장을 위해 ‘회고’ 잘하는 법
01 오늘의 아티클 내일의 성장을 위해 ‘회고’ 잘하는 법 | 요즘IT상반기가 지나면서 한 번쯤 ‘내가 혹은 우리 팀이 잘하고 있나?’라는 생각이 듭니다. 처음 프로젝트를 시작할 땐 목표 달성을 위해 프로세스와 일정을 꼼꼼히 계획하지만, 하다 보면 마음처럼yozm.wishket.com 02 아티클 정보 요약1. 회고란 미래와 현재에 대한 방향을 잘 잡기 위해 과거에서 추출한 경험이다.2. 프로젝트 시작, 중간, 종료 시점에서 활용할 수 있다.3. 종류로는 KPT, TIL, CSS, AAR 회고 방법론이 있다.4. 하나의 방법론을 사용할 수도 있고 복합적으로 사용할 수도 있다.5. 필자는 TIL와 AAR을 섞어서 사용하고 있다.6. 회고 시 주의 사항으로 남을 탓하지 말며, 남의 회고를 평가하지도 말고 수..
2024.08.17 -
통계 학습 7+8회차: 상관 분석과 분산 분석(ANOVA)
01 학습 내용7. 상관 분석(Correlation_Analysis) statistics/07_Correlation_Analysis.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com8. 분산 분석(Analysis_of_Variance) statistics/08_Analysis_of_Variance.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating a..
2024.08.17 -
🔎아티클 스터디: SI 기업이 인구 절벽에 대비하는 4가지 방법
01 오늘의 아티클 SI 기업이 인구 절벽에 대비하는 4가지 방법 | 요즘IT인구 절벽 시대를 맞아 부정적인 전망이 나오는 요즘이다. 우리 정부는 이를 해결하고자 오랫동안 많은 정책과 공적 자금을 쏟아부었지만, 효과는 미미했다. 이것이 과연 해결할 수 있는 문제가yozm.wishket.com 02 아티클 정보 요약핵심은 직원의 이탈률을 막는 것이다. 1) 직원이 교육 받을 동기를 만들어서 기존 직원의 서비스 품질을 높이고, 2) 인센티브와 3) 타기업과의 복지제도 차별화를 통해 이탈을 막는 것이 첫 번째로 중요하고, 두 번째는 믿을 수 있는 아웃소싱 플랫폼 서비를 통해 프리랜서와의 계약을 이루는 것이다. 03 인사이트높은 업무 강도와 잦은 출장이 기피의 원인인지 정확히 파악하고 더 높은 보상과 복지를 통..
2024.08.15 -
🔎아티클 스터디: 한국의 AI 규제, 어디까지 왔나
01 오늘의 아티클 09화 한국의 AI 규제, 어디까지 왔나AI 강국을 향해 뚜벅뚜벅 힘찬 걸음을 걸으려면 | AI 규제는 당신에게 영향을 미친다 한국에는 수많은 규제가 있다. 규제는 대개 분노와 좌절의 대상으로 묘사된다. ‘규제가 발목을 잡는다’, ‘brunch.co.kr 02 아티클 정보 요약1. 한국의 AI규제는 세 단계로 나눌 수 있다. 1) 2016-2018년 초기 구상 단계, 2) 2019-2021년 구체화 단계 3) 2022년 이후 법제화 노력 단계.2. 11조, '우선허용과 사후규제' 원칙에 있어서 여전히 논란을 가지고 있다.3. 기본법의 조속 제정을 주장하는 사람들의 주장 이면에는 '산업중심적' 느슨한 규제를 빨리 통과해 달라는 의도가 있는 건 아닌지 따져볼 필요가 있다.4. 산업육성과 ..
2024.08.15 -
통계 학습 6회차: 신뢰 구간(Confidence Interval)
01 학습 내용 statistics/06_Confidence_Interval.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com
2024.08.15 -
제42회 ADsP, 제9회 빅데이터 분석기사 필기 보충 학습 자료
1. 유의 확률(p-value)과 유의 수준(α) 유의 확률(p-value)과 유의 수준(α) | Notion1. 유의확률(p-value)과 유의수준(α)near-candle-ec0.notion.site 2. KNN 알고리즘: 거리 측정 방법 KNN 알고리즘: 거리 측정 방법 | Notion💡KNN(K-Nearest Neighbors) 알고리즘은 거리 측정 방법의 유형에 따라 결괏값이 크게 달라진다. 일반적으로 유클리드 거리를 사용하나, 다양한 유형이 존재하며 이를 정리해보려고 한다.near-candle-ec0.notion.site 3. 편향-분산 트레이드오프(Bias-Variance Trade off) 편향-분산 트레이드오프(Bias-Variance Trade off) | Notion편향과 분산은 모..
2024.08.14 -
🔎아티클 스터디: '감'이 아니라 '데이터'로 설득하려면
01 오늘의 아티클 '감'이 아니라 '데이터'로 설득하려면나는 지금 데이터 기반한 보고를 하고 있는가? | ‘4차 산업혁명’ ‘디지털 트랜스포메이션’ ‘데이터 리터러시’ ‘챗GPT’ ‘생성형 AI’ 등 IT 관련 버즈워드가 넘쳐 나는 시대다. 우리가 살brunch.co.kr 02 아티클 정보 요약1. 분석 자체를 목적으로 둬선 안된다. 우리는 결국 데이터를 바탕으로 설득할 수 있어야 한다.2. 숫자, 직관, 분석 툴, 도메인 지식은 데이터 드리븐 리포트의 필요 조건이다.3. 이를 논리적인 근거로 하여 상대방을 설득하기까지가 데이터 분석가의 업무이다.4. 분석 프로세스의 모든 과정에서 보고 대상자와의 지속적인 커뮤니케이션이 중요하다. 03 인사이트데이터 분석 기술을 배우고 데이터 문해력을 키웠으면 다음은 ..
2024.08.13 -
통계 학습 5회차: p-값과 통계적 유의성
01 학습 내용 statistics/05_p-value_&_statistical_significance.ipynb at main · dataosean/statisticsstatistics study. Contribute to dataosean/statistics development by creating an account on GitHub.github.com 02 회고대표적인 가설 검정 방법에 대해 크게는 t-검점, z-검정, 카이제곱 검정이 있다고 이전 시간에 정리를 해뒀다. 이 부분에 대해서 좀 더 자세하게 학습할 필요를 느낀다. p-value와 유의 수준을 통해 통계적 유의성을 검증하는 방법은 많이 반복해서 이제 헷갈리지 않을 자신이 있다.
2024.08.13