[KoBERT] nlp.data.TSVDataset() 적용하기

Python tech/NLP

[KoBERT] nlp.data.TSVDataset() 적용하기

콜레오네 2021. 5. 18. 04:53

KoBERT에 자신의 데이터를 적용하고 싶은 분들에게...

KoBERT API중 pytorch 에서

dataset_train = nlp.data.TSVDataset("ratings_train.txt?dl=1", field_indices=[1,2], num_discard_samples=1)

nlp.data.TSVDataset()에 본인의 데이터를 넣어줘야합니다.

이때 본인의 데이터 포맷은 tsv 파일이어야겠죠.

첫 번째 파라미터 : "tsv 파일명"
field_indices : [학습시킬 데이터의 index, 데이터 레이블의 index]
num_discard_samples : 데이터 상단에서 제외할 row의 개수 (default = 0)

예 시 1

TSV 파일 이름 : tsv_train_data.tsv

[TSV 파일 구조]

data	id	value
데이터1	01	1
데이터2	02	0
데이터3	03	1
데이터4	04	1

데이터가 0번 인덱스, 레이블이 2번 인덱스

상단 1개의 row를 제외해야하니

이렇게 적용하면 됩니다.

dataset_train = nlp.data.TSVDataset("tsv_train_data.tsv", field_indices=[0,2], num_discard_samples=1)

예 시 2

TSV 파일 이름 : tsv_test_data.tsv

[TSV 파일 구조]

data1	1	none
data2	-1	must
data3	-1	none
data4	1	none

데이터가 0번 인덱스, 레이블이 1번 인덱스

제외할 row가 없으니, num_discard_samples=0 인데, default가 0이니

이렇게 적용하면 됩니다.

dataset_train = nlp.data.TSVDataset("tsv_test_data.tsv", field_indices=[0,1])

더 자세히 알아보고 싶다면... 공식 문서 링크 첨부합니다.

https://nlp.gluon.ai/api/modules/data.html

gluonnlp.data — gluonnlp 0.9.0 documentation

nlp.gluon.ai

'Python tech > NLP' 카테고리의 다른 글

KoBERT로 감성 분석을 해보자 (Text Classification) (69)	2021.06.15
[KoBERT 에러] TypeError: dropout(): argument 'input' (position 1) must be Tensor, not str 해결 방법 (0)	2021.05.18
[KoBERT 에러] Illegal byte sequence Error #42 해결 방법 (0)	2021.05.18
[Python] 단어 빈도 분석 + 워드 클라우드 (0)	2021.02.08
[Python] 감성 분석 결과 + 유의미한 차이인지 확인 (0)	2021.02.07

현재글[KoBERT] nlp.data.TSVDataset() 적용하기

Koo's tech diary

kobert, opencv, 백준, 감성분석, 고급 파이썬, PEP8, 오픈소스 개발, 오픈소스, 클린코드, 파이썬, 오픈소스 컨트리뷰션, python clean code, 딥러닝, 개발자 컨퍼런스, image processing, 파이썬 클린코드, CV2, open source contribution, visual python, Python,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Koo's tech diary