전체 글
-
Probability calibration인공지능(Artificial Intelligence)/기계학습(Machine Learning) 2022. 7. 11. 11:09
Probability calibration 확률 보정 Building Machine Learning Porwed Applications의 5.2.4에 보정 곡선이라는 내용이 나온다. 모델 평가에 대한 내용 중 일부로 오차 행렬 (Confusion Matrix), ROC 곡선 (ROC Curve) 다음에 등장하는 내용이다. 책에서는 다음과 같이 보정 곡선에 대해 설명한다. "이진 분류 작업에 유용한 또 다른 그래프이며 모델 출력 확률을 신뢰할 수 있는지 가늠하는데 도움이 된다. 분류기의 신뢰도에 대한 함수로 진짜 양성 샘플의 비율을 나타낸다." 기계학습을 공부하며 처음 알게 된 평가방법으로 조금 더 자세히 알아보기로 하였다. 참고 내용은 가장 하단에 링크로 정리되어있다. 우선적으로 확률 보정에 대해 이해해..
-
4회 빅데이터분석기사 필기/실기 합격일과 생활 2022. 7. 8. 16:22
합격하고도 찝찝한 건 제 2유형에서 multi-class classification (4 classes)를 수행하였을 때 val에 대하여 f1 score가 0.52가 나온 것에 대해 불안했던 것이다. 즉, 1) multi-class는 많이 다뤄보지 않았다는 점, 2) f1 score에 대한 낮은 이해로 0.52가 낮은 스코어라고 생각한 것이다. 시험은 합격했다. 하지만 이는 합격 이상의 의미는 없다. 더 깊은 이해, 더 많은 이해를 위해 더 집중하여 공부해야 한다. (시험 준비는 다음에서 일주일 동안 쭉 풀어보았다. 사실 모델링 같은 부분보다는 pandas의 기본 함수들에 대해 알아가는 데 더 많은 시간을 소요하였다.)
-
-
일 (1)일과 생활 2022. 6. 27. 01:18
일. 1, Working 내가 하는 일에서 어떤 가치를 찾을 수 있을까? 내 상사는 누구이며 내 후임은 누구인가? 누가 나에게 일을 가르치고 누구에게 내가 일을 가르치는가? 내가 있는 이 곳의 전망은 어떠한가? 내일의 내 일은 어떠할까? 이런 수많은 의문과 자괴감, 또는 좌절감 등을 겪으면서 결국 나오는 결론은, 내가 어디있건, 누가와있건 중요한 건 내 스스로가 만들 수 있는 가치에 달려있다는 것이다. 뛰어난 석학들과 같이 연구/일을 하더라도 내 의지와 흥미가 없으면 제자리 일 것이고, 혼자서 일을 하더라도 통제력을 쥐고 움직인다면 언젠가 벽을 뛰어넘을 것이다. 내가 내 가치를 찾아내고 발굴 해내는 것이 가장 중요할 것이다. 이런 고집이 일상적인 생각이 되는 순간 난 어제와 다른 내가 될 것이다. 결국은..
-
Tabular Data Augmentations인공지능(Artificial Intelligence)/기계학습(Machine Learning) 2022. 6. 27. 00:37
Tabular Data Augmentations 표 데이터 증강 이미지나 가끔은 텍스트/시계열 데이터에서 데이터 증강이 효과적임을 보곤한다. 강아지 이미지가 회전을 하더라도 강아지이고, 신경망은 이를 이해할 수 있다. 하지만 tabular data를 다룰 때는 상황이 약간 달라진다. table을 회전하거나 확대/축소를 할 수는 없으니. 그렇다면 뭘 해야할까? Simple Noise (Jitter) 간단히 말해서, columns 그 자체에 노이즈를 추가 할 수 있다. 이 방식에서 간단한 개선 사항을 생각한다면, 노이즈를 추가하려 할 때 columns의 표준편차(std)를 고려하는 것이다. Swap Noise 과거에 여러 번 사용되었다. (1), (2) 이 방법은 같은 feature column에 있는 값을..