record,

AI Joker 공개

Soohwan Kim
Co-founder/A.I. engineer at TUNiB.
More posts by Soohwan Kim.

Soohwan Kim

10 Jul 2024•2 min read

AI Joker 공개

이번에 회사에서 작업한 A.I. Joker 모델을 공개했습니다!

Joker 모델은 한국어 Hate Speech를 생성하는 모델입니다.

최근 많은 LLM들이 나오고 있는 만큼 해당 모델들의 Safety 처리 능력을 확인하는 것도 중요한 이슈입니다.

연구자들이 직접 Hate Speech를 써가면서 모델을 평가하는건 시간적으로도 정신적으로도 힘든 일이기 때문에, 해당 부분을 좀 더 자동화하고자 Joker 모델을 만들고 공개하게 됐습니다.

총 7가지 카테고리(‘ABUSE’, ‘CENSURE’, ‘CRIME’, ‘DISCRIMINATION’, ‘HATE’, ‘SEXUAL’, ‘VIOLENCE’)에 대한 hate speech를 생성하도록 학습됐으며, 카테고리를 지정해서 발화하도록 컨트롤 할 수도 있습니다 😄

많은 관심 및 사용 부탁드립니다!

* 윤리적 이슈가 있는 모델인만큼, 신청-승인 절차를 거쳐서 모델 사용을 할 수 있도록 하려고 합니다.