반응형

전체 글 71

[Python CV] 세그멘테이션을 통해 이미지 잘라내고 회전하기

이미지 데이터 전처리 (Image Preprocessing) 딥러닝을 활용하여 이미지 데이터를 훈련시키기 위해 필요한 과정 중 하나가 바로 이미지 데이터 전처리입니다. AI HUB의 축산물 품질 이미지 데이터를 다운로드하였습니다. https://aihub.or.kr/aidata/30733 축산물 품질(QC) 이미지 | AI 허브 구축 내용 및 제공 데이터량 aihub.or.kr 이 중에서 제가 사용한 데이터는 소고기와 돼지고기 데이터입니다. 아래 사진은 AI HUB에서 제공하는 육류 이미지 데이터의 예시입니다. 처음 원천 데이터를 그대로 fine tuning 시켰고, 그 결과 정확도가 50% 이상 오르지 않는 처참한 결과가 나왔습니다...;; 그래서 해결 방법을 고민하던 중, 이미지 데이터 전처리의 필요..

[2021 삼성전자] 대학생 인턴 면접 후기

코딩 테스트 합격 발표 후, 바로 면접 날짜가 잡혔습니다. SW 역량 테스트(및 SAT) 합격 발표일 : 5월 18일 면접 날짜 : 5월 28일 오후 타임 (사업부, 직무 별로 상이) 장소 : 삼성 인재개발원 면접 결과 발표 : 6월 21일 면접 기간이 거의 2주 이상이기 때문에 본인이 면접을 일찍 보면 그만큼 결과 발표까지 더 기다리셔야 합니다. 면접 정보 보통 원데이 면접으로 오전부터 오후까지 면접이 진행되는 것으로 알고 있었으나, 저는 인턴이라 그런지 오전 타임 오후 타임이 나누어져 있었습니다. 신분증, 재학증명서, 성적증명서, 병적증명서, 영어회화 성적증명서 등 제출할 서류도 많습니다. 복장은 비즈니스 캐주얼 또는 정장으로 안내받았습니다. 막상 면접 당일에 9할 이상이 정장이었습니다. 남성의 경우..

경험/취업 2021.07.31

[2021년] 정보처리기사 2회 실기 시험 후기

2021년 정보처리기사 1회 필기를 치고 정보처리기사 필기 후기 https://tech-diary.tistory.com/15 [2021년] 정보처리기사 1회 필기 시험 합격 후기 정보처리기사 1회 시험을 보고 왔습니다. 신청 기간이 여유로워서 2일차에 신청했는데 들어가보니 전국에 남은 자리가 거의 없더군요.... 수강신청인줄 알았습니다. 결국 새로고침을 열심히 한 tech-diary.tistory.com 정보처리기사 필기 공부 방법 https://tech-diary.tistory.com/20 [2021년] 정보처리기사 필기 시험 공부 방법 지난 포스팅인 시험 후기에 이, 공부 방법에 대해 간략하게 설명하겠습니다. tech-diary.tistory.com/15 집중력, 암기력 등은 사람마다 차이가 있으며,..

경험/활동 2021.07.18

KoBERT로 감성 분석을 해보자 (Text Classification)

BERT 모델을 한국어 맞춤형으로 제작한, KoBERT 이런 어려운 작업을 해주신 SKTBrain 팀에 박수를 보냅니다. 우선 BERT란 무엇인가? 간단하게 말하자면, 사전에 학습된 대용량 말뭉치 모델이라고 할 수 있습니다. 2018년에 위대한 구글에서 개발한 언어 모델인데, NLP 전반적인 분야에 아주 좋은 성능을 보여주는 모델이라고 합니다. 그리고 이런 BERT 모델을 한국어 기반으로 제작한 것이 바로 KoBERT 입니다. KoBERT의 사용 방법에 대해서는 KoBERT Github에 간략히 소개되어있습니다. https://github.com/SKTBrain/KoBERT SKTBrain/KoBERT Korean BERT pre-trained cased (KoBERT). Contribute to SKT..

Python tech/NLP 2021.06.15

[2021 삼성전자] 인턴 SW 역량테스트 합격 후기

서류 합격 이후, 12일 만에 진행된 SW 역량 테스트 정보처리기사 실기 시험과 겹쳐서,,, 결국 실기 시험 포기하고 코딩테스트를 선택했습니다. 코딩 테스트 날짜 : 4월 25일 결과 발표 : 5월 18일 프로그래밍을 열심히 하긴 했지만, 대부분 프로젝트를 진행했었고 코딩 테스트에 대한 준비는 하나도 되어있지 않았습니다. 프로젝트 경험이 많은 것과 코딩 테스트를 잘하는 것은 별개로 보입니다. 코딩 테스트는 유형이 한정되어 있고, 코딩 테스트만의 코딩 방법이나 스킬이 존재하기 때문에 나름의 노하우를 알고 가시는 것이 좋다고 생각됩니다. 코테 공부하기 12일 정도 남았는데, 서류가 통과할 줄 모르고 미리 준비도 안 했습니다. 급하게 부랴부랴 코테 준비를 시작했고...... 백준 사이트에 정리된 삼성 SW 역..

경험/취업 2021.06.11

Colab에서 내 구글 드라이브의 파일 불러오기

Colab을 사용하다보면, 파일을 읽어올 필요가 있죠. Local PC에서 실행하면, 파일 입출력만 사용하면 되는데, Colab에서는 다르게 적용해야 합니다. 1. 구글 드라이브에 파일 업로드 2. 오른쪽 마우스 > 링크 생성 3. 링크 복사 아래와 같은 형식으로 링크가 복사됩니다. https://drive.google.com/file/d/엄청나게 긴 파일 id/view?usp=sharing 저기서 "엄청나게 긴 파일 id"를 가져옵니다. 다음과 같은 명령어 양식에 맞게 실행시켜주면, Colab에서 내 파일을 저장할 수 있습니다. !wget "https://drive.google.com/uc?export=download&id=엄청나게 긴 파일 id" -O 저장하려는 파일명 예 시 구글 드라이브 파일 id..

[KoBERT] nlp.data.TSVDataset() 적용하기

KoBERT에 자신의 데이터를 적용하고 싶은 분들에게... KoBERT API중 pytorch 에서 dataset_train = nlp.data.TSVDataset("ratings_train.txt?dl=1", field_indices=[1,2], num_discard_samples=1) nlp.data.TSVDataset()에 본인의 데이터를 넣어줘야합니다. 이때 본인의 데이터 포맷은 tsv 파일이어야겠죠. 첫 번째 파라미터 : "tsv 파일명" field_indices : [학습시킬 데이터의 index, 데이터 레이블의 index] num_discard_samples : 데이터 상단에서 제외할 row의 개수 (default = 0) 예 시 1 TSV 파일 이름 : tsv_train_data.tsv [..

Python tech/NLP 2021.05.18

[KoBERT 에러] TypeError: dropout(): argument 'input' (position 1) must be Tensor, not str 해결 방법

KoBERT 사용 도중 만난 에러 분명 model에 input되는 parameters Type이 모두 Tensor였음에도 불구하고 Tensor로 입력하라는 에러.... 해결 방법 의외로 간단하다. transformers 설치 시, 기존 pip install transformers로 했다면 pip install transformers==3 으로 다시 설치해보자 주 의 Colab에서 사용한다면, !pip install transformers==3 이후에, 런타임 초기화 후 재실행 해야한다.

Python tech/NLP 2021.05.18

[KoBERT 에러] Illegal byte sequence Error #42 해결 방법

KoBERT 설치 후 실행 도중 get_pytorch_kobert_model() 함수를 실행중 나타난 에러입니다. 에러 내용 OSError: Not found: "C:\Users\사용자/kobert/kobert_news_wiki_ko_cased1087f8699e.spiece": Illegal byte sequence Error #42 Illegal byte sequence Error #42 관련 해결 내용은 많았지만, KoBERT 관련 내용은 찾지 못하다가 겨우 찾은 방법... 원 인 KoBERT 설치 파일 경로에 한글이 있어서 발생 해결 방법 1. kobert가 설치되어있는 파일을 찾아갑니다. 예시) C:/Users/사용자/kobert/ 2. kobert_news_wiki_ko_cased-1087f86..

Python tech/NLP 2021.05.18

[Python opencv] K-means 활용, 이미지 색상 개수 줄이기

Using cv2.kmeans, reduce number of color on image 지난번 "이미지 그림화" 포스팅에 더 개선된 알고리즘을 적용합니다. 실행 시간도 단축되었고, 그림화 및 색상 단순화 효과도 성능이 개선되었습니다. 지난 포스팅 https://tech-diary.tistory.com/19 K Means 알고리즘 ? k-means 알고리즘은 수많은 데이터를 k개로 클러스터링(clustering = 군집화) 해주는 알고리즘 다양한 데이터셋에 적용이 가능합니다. 비지도 학습 기반 알고리즘이기 때문에, 별도의 훈련 과정이 필요하지 않습니다. 더 자세히 알고 싶다면.... 위키백과 참고하시면 되겠습니다. https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0..