본문 바로가기

전체 글22

[혼자 공부하는 머신러닝 + 딥러닝] 트리의 앙상블 지금까지 다루었던 데이터를 돌아보면 전부 다 정형 데이터(Structured data)였습니다.그리고 지금까지 배운 머신러닝 알고리즘은 정형 데이터에 잘 맞는 알고리즘이였습니다.그 중에 사이킷런에서 제공하는 정형 데이터의 끝판왕인 앙상블 학습 알고리즘을 알아보겠습니다.  랜덤 포레스트(Random Forest) 랜덤 포레스트는 앙상블 학습의 대표 주자 중 하나로 안정적인 성능 덕분에 널리 사용되고 있습니다.앙상블 학습을 적용할 땐 가장 먼저 랜덤 포레스트를 시도해 보길 권합니다.  이름처럼 랜덤 포레스트는 결정 트리를 랜덤하게 만들어 결정 트리(나무)의 숲을 만드는 것입니다.그리고 각 결정 트리의 예측을 사용해 최종 예측을 만듭니다.  그럼 어떻게 숲을 구성하는지 관찰해보겠습니다.예를 들어 1,000개 .. 2024. 11. 11.
[혼자 공부하는 머신러닝 + 딥러닝] 교차 검증과 그리드 서치 테스트 세트로 일반화 성능을 올바르게 예측하려면 가능한 한 테스트 세트를 사용하지 말아야 합니다.그리고 일반화 성능을 가늠해보려면 테스트 세트에서 얻은 점수를 통해 확인할 수 있습니다. 어떻게 하면 두 가지를 지키면서 최적의 성능을 내는 하이퍼파라미터를 찾을 수 있을까요?  검증 세트(Validation Set) 테스트 세트를 사용하지 않으면 모델이 과대적합인지 과소적합인지 판단하기 어렵습니다.테스트 세트를 사용하지 않고 이를 측정하는 간단한 방법은 훈련 세트를 나누는겁니다.이를 바로 검증 세트(Validation Set)이라고 부릅니다.  방법과 비율은 다음과 같습니다.전체 데이터 중 20%를 테스트 세트로 만들고 나머지 80%를 훈련 세트로 만듭니다.그리고 훈련 세트 중에서 다시 20%를 떼어 내어 .. 2024. 11. 7.
[solvesql] 1단계 쿼리문제 해결 시간 날 때마다 한 문제씩 풀고 있다..!1단계 문제는 그렇게 어렵지 않았다. 단, SQLite는 MySQL과 조금 차이가 있어서 당황했다. 예로 들어,MySQL에서는 DATE_FORMAT으로 DATETIME 형식을 바꿀 수 있지만,SQLite에서는 DATE로 바꾸는 거?    전체적으로 무난무난했다.  이제 2단계를 풀건데, 조금 어렵다하는 문제가 있으면다른 블로그처럼 형식에 맞춰서 게시를 하려고 한다. 2024. 11. 3.
[혼자 공부하는 머신러닝 + 딥러닝] 결정 트리 만약 캔으로 된 와인이 있다고 가정을 해봅시다.이 와인은 레드 와인, 화이트 와인 두 가지 종류가 있습니다.하지만 종류를 구별할 수 있는 표시가 없다고 가정 했을 때 우리는 어떻게 분류를 할 수 있을까요?  로지스틱 회귀로 와인 분류하기우선 우리가 배웠던 로지스틱 회귀로 와인을 분류해봅시다. 와인 데이터셋을 보자면 열은 알코올 도수(alcohol), 당도(sugar), pH, class(타깃값, 0 : 레드와인, 1 : 화이트와인)으로 이루어져 있습니다.   추가적으로 info() 메서드와 describe() 메서드를 사용하여 데이터의 정보를 좀 더 살펴보겠습니다. 결측값은 없고, 통계값을 살펴보면 각 열의 스케일이 다른 것을 알 수 있습니다.   그렇기 때문에 훈련 세트와 테스트 세트로 나눈 후, St.. 2024. 10. 31.
[혼자 공부하는 머신러닝 + 딥러닝] 확률적 경사 하강법 만약, 훈련 데이터가 한 번에 준비되는 것이 아니고 조금씩 전달된다면 어떡해야 할까요?데이터가 쌓일 때까지 기다려야 할까요?또는 기존의 훈련 데이터에 새로운 데이터를 추가하여 모델을 매일매일 다시 훈련할까요?아니면 새로운 데이터를 추가할 때 이전 데이터를 버림으로써 훈련 데이터 크기를 일정하게 유지시키며 모델을 훈련 시킬까요?  이런 경우에는 앞서 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 더 훈련하는 방법인 점진적 학습 또는 온라인 학습을 사용하는게 좋습니다. 그 중 대표적인 점진적 학습 알고리즘인 확률적 경사 하강법을 배워볼 것입니다.   확률적 경사 하강법이란?확률적이라는 말은 '무작위하게' 혹은 '랜덤하게'의 기술적인 표현입니다.경사는 '기울기'를 의미하고 하강법은 '내려가는 방법.. 2024. 10. 28.
[수리통계학] 수리통계학 책 소개 대학교 다닐 때 공부했던 수리통계학을 복습하는 겸 다시 공부하려고 한다.책은 고민하다가 이 책으로 골랐으며, 노션에 내용을 정리해볼 것이다!또한 한번씩 파이썬으로 구현이 가능한 것들도 한번 해보려고 한다.  그럼 화이팅 해보자! 2024. 10. 27.
[solvesql] SQLite 쿼리 연습 문제(2024-10-26 ~ ) 기본 쿼리 실력도 조금 늘리면서 강화시킬 겸 시간 날 때마다 풀어보려고 한다.처음은 solvesql이다.이 사이트는 SQLite로 사용하여 쿼리 문제를 푸는 사이트이다.유료 문제도 존재하지만 무료 문제만 풀 예정이다. 문제 풀이도 같이 게시하면 좋겠지만, 사이트 내에서 올리지 말라고 주의사항이 있기 때문에 작성은 하지 않으려 한다.  그럼 화이팅 해보자! 2024. 10. 26.
[1] AI시대 데이터직군 : 풀스택 데이터 전문가로 회귀하다 Q : 앞으로 5년 뒤를 가정합시다. 2029년입니다.일을 할 때 LLM을 전혀 쓰지 않을까요? 아니면 압도적으로 많이 쓸까요?LLM이 당신이 하는 일을 하나도 못할까요? 아니면 상당량을 대신 할까요?  A : 내 생각에는 그 때도 쓰고 있을 것 같다. 아니 오히려 많이 쓸 거 같다.왜냐면 지금 현재도 LLM에 기대고 있고, 점점 익숙해져서 LLM 없이는 일을 하지 못하는 상황이 될 꺼 같다.음.. 반반정도 할 거 같다.하드 스킬과 관련된 부분은 LLM이 할 거 같고, 소프트 스킬과 관련된 부분은 내가 하지 않을까..   지금이 어떤 상황인가?많은 전제가 바뀌고 있다.데이터가 진짜 성과를 내나? 빅데이터를 다룰 기술이 필요한가? LLM을 어떻게 비즈니스에 쓸 것인가? 1. 데이터가 진짜 성과를 내나?몇 .. 2024. 10. 23.
AI시대 데이터 직군을 위한 생존 전략 이 영상은 인프런에서 볼 수 있으며1세대 데이터분석가로서 많은 인사이트와 성공을 보여준 데이터오븐 CEO 하용호님이2024년 7월 18일 진행한 데이터 직군을 위한 밋업 영상이다.요즘 GPT의 능력을 보고데이터 직군의 일자리가 많이 흔들리지 않을까 싶어 걱정되던 와중에이 영상을 찾게 되어 수강을 하게 되었다.강의마다 정리를 해서 올릴 예정이며,조금 부자연스러운 글 솜씨가 나올 예정이다..! (나의 의견은 밑줄로 나타낼 예정이다.!) 2024. 10. 22.