Findings of EMNLP 2023 Accept
Findings of EMNLP 2023 - Accept
공동 1저자로 참여한 “A Korean News Comments Dataset with Target-Specific Offensiveness Ratings” 논문이 Findings of EMNLP 2023에 억셉되었습니다!
해당 연구는 저희 튜닙과 숭실대 HUMANE Lab과 공동연구한 작업물입니다.
제가 리서쳐보다는 엔지니어 성향이 강하고, 하는 일도 엔지니어 역할을 많이 하고 있어서 논문 writing과는 거리가 좀 있는데, 21년도에 오픈소스 관련 논문 이후로 연구 관련으로는 첫 논문입니다 :)
이 논문은 저희 Safety Check라는 서비스를 만들며 고민한 내용이 반영된 데이터셋 논문입니다.
인터넷상에 존재하는 많은 혐오/차별적인 발언에 대해 저희가 정의한 11가지의 클래스와 각 클래스 별로 없음 (0)
/ 주의 (1)
/ 명백 (2)
/ 심함 (3)
과 같이 Likert 척도로 구분하여 라벨링했으며,
해당 혐오의 대상에 대한 라벨링까지 되어 있는 데이터셋입니다.
현재 공개된 많은 데이터셋들이 바이너리하게 1, 0으로 구분되어 혐오를 표현하는데, 문맥에 따라 혐오 표현이 될 수도/안 될수도 있는 상황도 있고, 그 정도가 심한 경우와 그렇지 않은 경우에 대해서도 구분이 된다면 실제 서비스 단에서 사용할 때 보다 유연하게 적용이 가능하다는 장점이 있습니다.
이러한 저희의 고민에 대한 연구가 좋은 학회에 게재되게되어 해당 연구의 유종의 미를 거두게 된 것 같습니다.
논문은 공개 가능한 시점에 바로 링크 달아 놓겠습니다!
Subscribe to SOOFTWARE
Get the latest posts delivered right to your inbox