Python tech/NLP

[KoBERT] nlp.data.TSVDataset() 적용하기

콜레오네 2021. 5. 18. 04:53

KoBERT에 자신의 데이터를 적용하고 싶은 분들에게...

 

KoBERT API중 pytorch 에서 

dataset_train = nlp.data.TSVDataset("ratings_train.txt?dl=1", field_indices=[1,2], num_discard_samples=1)

nlp.data.TSVDataset()에 본인의 데이터를 넣어줘야합니다.

이때 본인의 데이터 포맷은 tsv 파일이어야겠죠.

 

  • 첫 번째 파라미터 : "tsv 파일명"
  • field_indices : [학습시킬 데이터의 index, 데이터 레이블의 index]
  • num_discard_samples : 데이터 상단에서 제외할 row의 개수 (default = 0)

 

예 시 1

TSV 파일 이름 : tsv_train_data.tsv

[TSV 파일 구조]

data id value
데이터1 01 1
데이터2 02 0
데이터3 03 1
데이터4 04 1

 

데이터가 0번 인덱스, 레이블이 2번 인덱스

상단 1개의 row를 제외해야하니

이렇게 적용하면 됩니다.

dataset_train = nlp.data.TSVDataset("tsv_train_data.tsv", field_indices=[0,2], num_discard_samples=1)

 

예 시 2

TSV 파일 이름 : tsv_test_data.tsv

[TSV 파일 구조]

data1 1 none
data2 -1 must
data3 -1 none
data4 1 none

 

데이터가 0번 인덱스, 레이블이 1번 인덱스

제외할 row가 없으니, num_discard_samples=0 인데, default가 0이니

이렇게 적용하면 됩니다.

dataset_train = nlp.data.TSVDataset("tsv_test_data.tsv", field_indices=[0,1])

 

 

더 자세히 알아보고 싶다면... 공식 문서 링크 첨부합니다.

https://nlp.gluon.ai/api/modules/data.html

 

gluonnlp.data — gluonnlp 0.9.0 documentation

 

nlp.gluon.ai

 

반응형