KoBERT에 자신의 데이터를 적용하고 싶은 분들에게...
KoBERT API중 pytorch 에서
dataset_train = nlp.data.TSVDataset("ratings_train.txt?dl=1", field_indices=[1,2], num_discard_samples=1)
nlp.data.TSVDataset()에 본인의 데이터를 넣어줘야합니다.
이때 본인의 데이터 포맷은 tsv 파일이어야겠죠.
- 첫 번째 파라미터 : "tsv 파일명"
- field_indices : [학습시킬 데이터의 index, 데이터 레이블의 index]
- num_discard_samples : 데이터 상단에서 제외할 row의 개수 (default = 0)
예 시 1
TSV 파일 이름 : tsv_train_data.tsv
[TSV 파일 구조]
data | id | value |
데이터1 | 01 | 1 |
데이터2 | 02 | 0 |
데이터3 | 03 | 1 |
데이터4 | 04 | 1 |
데이터가 0번 인덱스, 레이블이 2번 인덱스
상단 1개의 row를 제외해야하니
이렇게 적용하면 됩니다.
dataset_train = nlp.data.TSVDataset("tsv_train_data.tsv", field_indices=[0,2], num_discard_samples=1)
예 시 2
TSV 파일 이름 : tsv_test_data.tsv
[TSV 파일 구조]
data1 | 1 | none |
data2 | -1 | must |
data3 | -1 | none |
data4 | 1 | none |
데이터가 0번 인덱스, 레이블이 1번 인덱스
제외할 row가 없으니, num_discard_samples=0 인데, default가 0이니
이렇게 적용하면 됩니다.
dataset_train = nlp.data.TSVDataset("tsv_test_data.tsv", field_indices=[0,1])
더 자세히 알아보고 싶다면... 공식 문서 링크 첨부합니다.
https://nlp.gluon.ai/api/modules/data.html
gluonnlp.data — gluonnlp 0.9.0 documentation
nlp.gluon.ai
반응형
'Python tech > NLP' 카테고리의 다른 글
KoBERT로 감성 분석을 해보자 (Text Classification) (69) | 2021.06.15 |
---|---|
[KoBERT 에러] TypeError: dropout(): argument 'input' (position 1) must be Tensor, not str 해결 방법 (0) | 2021.05.18 |
[KoBERT 에러] Illegal byte sequence Error #42 해결 방법 (0) | 2021.05.18 |
[Python] 단어 빈도 분석 + 워드 클라우드 (0) | 2021.02.08 |
[Python] 감성 분석 결과 + 유의미한 차이인지 확인 (0) | 2021.02.07 |