본문 바로가기

분류 전체보기59

Disjoint Set (Union find) Disjoint set이라고도 하고 union find라고도 하는 이 방법은 어느 두 집합을 합치고, 어느 두 요소가 같은 집합에 존재하는지 빠르게 알 수 있게 하는 방법이다. Disjoint Set은 아래 두 연산을 구현한다. union(a,b)는 a가 속한 집합과 b가 속한 집합을 합치는 연산이다. find(a)는 a가 속한 집합을 반환하는 연산이다. 아래는 위 두 연산을 사용하였을 때의 예제이다. 1~5의 요소가 있다고 하자. 각 요소는 초기에 서로 다른 집합에 속한다. (1), (2), (3), (4), (5) 1이 속한 집합과 2가 속한 집합을 합치자. : union(1,2) 결과 : (1,2), (3), (4), (5) find(1) == find(2)는 true이어야 한다. find(2) =.. 2023. 5. 1.
삼성 DX 동계 대학생 SW 알고리즘 역량 강화 특강 후기 이번 동계 방학에는 삼성 Dx 부문에서 운영하는 "대학생 SW 알고리즘 역량강화 특강"을 수강하였다. 4학년 올라가는 겨울방학, 계절학기가 끝나고 잠깐 무료하던 차에 어떤 내용을 얻어 갈 수 있는지 호기심에 신청했었다. 코딩테스트 입과를 위한 코딩테스트가 존재하였다. 5일의 기한동안 두개의 문제를 푼다. 사전 문제의 난이도는 SW Expert Academy (이하 SWEA) 의 문제들 중 D2~D4 에 해당한다고 한다. 나는 문제가 나온 첫날 아침에 두 문제를 모두 풀고 결과를 기다렸다. 그리고 풀이 기간이 끝나고 얼마 뒤 받은 이메일에는 교육생으로 선정되었다는 내용이 적혀있었다. 몇 문제를 풀어야 합격인지 궁금하였는데, SWEA에 올라온 글들을 보니 두 문제를 모두 풀어도 교육생으로 선정되지 않은 경우.. 2023. 3. 18.
Binary Heap (이진 힙) 힙은 아래 성질을 만족하는 Alomost complete binary tree이다. Max heap의 경우 parent node의 값은 child node의 값보다 크거나 같다. Min heap의 경우 parent node의 값은 child node의 값보다 작거나 같다. 아래의 모든 설명은 Max heap을 기준으로 한다. Max heap의 경우 tree 내의 모든 노드에 대해 parent node의 값은 child node의 값보다 작지 않다. 그래서 Max heap에선 root node의 값이 가장 크다. 값을 삽입하고 뺄 때도 이 성질을 유지하면 root에서는 항상 tree 내의 가장 큰 값이 존재하게 된다. Cpp의 priority queue를 사용해 본 적이 있는가? 어떤 값을 priority.. 2023. 1. 31.
Binary Search, 이진탐색 정렬된 배열에서 특정 값의 위치 찾기 아래의 정렬된 배열에서 6을 찾는다고 하자. ---------- 0123456789 지금은 배열 전체가 탐색 범위이다. 여기서 중앙에 있는 값과 목표로 하는 값(6)을 비교해 보자. 중앙에 있는 값은 index가 4인 값이다. floor((0 + 9)/2) = floor(4.5) = 4, arr[4] target 임으로 i.. 2023. 1. 6.
Metrics - Accuracy, Precision, Recall and F1-Score Accuracy (정확도), Precision(정밀도), Recall (재현율) 그리고 F1 Score는 Classification을 수행한 모델이 잘 동작하였는지 확인하기 위한 척도입니다. Confusion Matrix 예측값 Positive 예측값 Negative 실제값 Positive TP FN = Type II error 실제값 Negative FP = Type I error TN 우선 TP, FN, FP, TN에 대해 먼저 알아봅시다. 이 값들은 실제 참혹은 거짓인 값들에 대해 몇 개를 정확히 예측하였는지, 그렇지 않았는지 알려줍니다. TP, FN, FP, TN 값의 의미는 아래와 같습니다. TP : Positive라 예측한 것중 맞은 것 FP : Positive라 예측한 것중 틀린 것 TN :.. 2022. 10. 2.
Entropy, Information Gain 그리고 Decision Tree Entropy 정보이론에서 Entropy는 어떤 확률 p를 가진 정보를 전송하는 데에 필요한 비트 수의 평균값입니다. 예를 들어 동전을 던졌는데 앞면이 나왔는지, 뒷면이 나왔는지를 상대방에게 알려주려고 합니다. 2가지의 경우밖에 존재하지 않음으로 1bit (0, 1)로 나타낼 수 있습니다. 두 경우의 확률 값이 0.5 임으로 0.5*1 + 0.5*1 = 1로 엔트로피는 1입니다. 그런데 이는 동전의 앞면과 뒷면이 나올 확률이 둘 다 1/2이라는 가정하에 일어나는 일입니다. 만약 던졌을 때 앞면만 나오는 동전이 있다면 불확실성은 존재하지 않습니다. 이 경우 엔트로피는 0입니다. 엔트로피는 문제의 복잡도를 측정하는 척도이며, 클수록 불확실성이 높으며 문제가 복잡합니다. 엔트로피는 아래와 같이 정의됩니다. $.. 2022. 10. 1.
Tistory 다크모드, 어두운 테마 적용하기 저는 주로 다크테마를 설정해두고 작업을 합니다. 핸드폰, 태블릿, 노트북 모두 다크테마에 어두운 배경화면으로 설정을 하였습니다. 밤에 작업을 하다 밝은 화면이 나와 저의 눈을 부시게 하는것을 막기위함이었습니다. 하루는 작업을 하다 어떤 내용이 가물가물 한겁니다. 생각해보니 예전에 블로그에 써놓은 내용인 것 같아 제 블로그에 접속하였습니다. 아뿔싸, 제 블로그의 배경은 순수 하얀색이었고 접속하는 순간 모니터는 매우 밝아졌습니다. 모니터를 향해있던 두 눈의 동공은 신속히 쭈그러들면서 고통을 안겨주었습니다. 블로그에 어두운 색상구성을 추가해야할 필요성을 느끼게 된 순간이었습니다. 대략적인 방법 사실 시스템 테마값만을 사용하여 어두운 테마의 사용여부를 결정한다면 CSS 에서 미디어 쿼리(Media Query) .. 2022. 7. 7.
Python NaN Python 에서 nan 값을 다루는 법을 알아봅니다. NaN 이란? NaN 값은 ‘Not a Number’ 을 뜻합니다. 숫자가 아니라는 뜻이죠. 0을 0으로 나누거나 음수의 제곱근을 구하고자 하면 정상적인 값을 얻지 못할 것입니다. 그럼에도 반환값을 받아야 하는 경우 nan 값을 받게 됩니다. Python에서는 0/0 을 수항하면 Error를 출력하는데, 다른 언어나 python의 numpy 라이브러리를 사용하는 경우 nan 값이 반환되는 것을 볼 수 있습니다. # nan returned a = np.array([1,2,3,0,5]) b = np.array([1,2,3,0,0]) print(a/b) # [ 1. 1. 1. nan inf] nan 은 IEEE 754 라 하여 부동소수점 연산에 관한 표준.. 2022. 7. 4.
Cython으로 속도 향상 꾀하기 Preface Python을 사용하면 적은 코드로 쉽게 기능을 구현할 수 있지만, C나 Cpp와 같은 언어에 비해 느립니다. 많은 작업을 최적화가 잘 된 라이브러리를 사용하여 처리할 수도 있겠지만, 원하는 작업을 수행하는 라이브러리가 없어 순수 python 코드로 작성하는 경우도 많습니다. 작성한 python 코드에 의한 속도 저하는 작은 데이터를 처리할 때는 신경쓰이지 않지만, 데이터가 커질 수록 실행속도가 느린 작업에 의해 우리가 기다려야 하는 시간이 눈에 띄게 됩니다. 가정 약 57만개의 row와 2개의 column으로 이루어진 names.csv 파일이 있습니다. 두 column은 어느 장소의 이름이고, 하고자 하는 작업은 두 column에 대해 LCS (Longest Common Sequence).. 2022. 6. 30.
RDT RDT Reliable Data Trasfer Protocol Sender는 receiver의, receiver는 sender의 fsm state를 모른다. Interfaces of RDT rdt_send() called from above Passed data deleiver to receiver upper layer udt_sent() called by rdt to transfer packet over unreliable channel to receiver rdt_rcv() called when packet arrives on receiver deliver_data() called by rdt to deliver data to upper layer RDT 1.0 매우 단순 unreiliable cha.. 2022. 6. 24.