boostcourse๋ฅผ ํตํด KAIST ์ฃผ์ฌ๊ฑธ ๊ต์๋์ "์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ" ๊ฐ์๋ฅผ ๋ฃ๊ฒ ๋์๋ค.
์์ฆ ์ฐ๊ตฌ์ค์์ ๊ณต๋ถํ๊ฒ ๋ ๋ถ์ผ๊ฐ ์ธ์ด๋ชจ๋ธ์ธ๋ฐ, ์ธ์ด๋ชจ๋ธ์ ๋ค์ด๊ฐ๊ธฐ์ ์์์ ๋ฅ๋ฌ๋๊ณผ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณต๋ถ๋ฅผ ์์ํด์ผํด์ ๋ฌด๋ฃ ๊ฐ์๋ฅผ ์์นํ๋ค๊ฐ ์๊ฒ ๋์๋ค.
์ฒซ๋ฒ์งธ ๊ฐ์๋ "์์ฐ์ด ์ฒ๋ฆฌ ํ์ฉ ๋ถ์ผ์ ํธ๋ ๋"์๋๋ฐ, ์์ฐ์ด ์ฒ๋ฆฌ๊ฐ ๋ฌด์์ธ์ง๋ฟ ์๋๋ผ ๊ธฐ์ ์ด ํ์ฉ๋๋ ๋ถ์ผ์ ๊ด๋ จ ํํ๊น์ง ์์๋ณด๋ ์์ผ๋ก์ด ํ์ต์ ํฐ ๋๊ธฐ๋ถ์ฌ๊ฐ ๋์๋ค. ํนํ ํ ์คํธ ๋ง์ด๋ ๊ธฐ์ ์์ computational social science(๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ฐ ์ฌํ๊ณผํ)๊ฐ ๋์ ์ ๋ง ์ ๋ง์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค์ด ์์ผ๋ก์ ๊ณต๋ถํ ๋ถ์ผ์ ๋ํ ๊ธฐ๋๊ฐ ํฌ๋ค.
๊ฐ์ ํผํผํฐ๋ ๊ตฌํ ์ ์์ง๋ง, ์์ฝ๋ ๋ด์ฉ์ด ํจ๊ป ๊ณต์ ๋์ด ๋ณต์ตํ ๋ ์ฐธ๊ณ ํด์ผ๊ฒ ๋ค.
์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ๋ณ ํํ ๋ชฉ๋ก
1. Natural language processing (์์ฐ์ด ์ฒ๋ฆฌ)
- ์ฃผ์ ํํ : ACL, EMNLP, NAACL
- ํ๋ฌธ ๋ถ์ผ
- Low-level parsing : Tokenization, stemming
- Word and phrase level : NER(Named Entity Recognation), POS(Part-Of-Speech) tagging
- Sentence level : ๊ฐ์ฑ ๋ถ๋ฅ(Sentiment Analysis), ๊ธฐ๊ณ ๋ฒ์ญ(Machine Translation)
- Multi-sentence and paragraph level : ๋
ผ๋ฆฌ์ ๋ดํฌ ๋ฐ ๋ชจ์๊ด๊ณ ์์ธก(Entailment Prediction),
๋ ํด๊ธฐ๋ฐ ์ง์์๋ต(question answering), ์ฑ๋ด(dialog systems), ์์ฝ(summarization)
2. Text mining (ํ ์คํธ ๋ง์ด๋)
- ์ฃผ์ ํํ : KDD, The WebConf(ๅ WWW), WSDM, CIKM, ICWSM
- ํ๋ฌธ ๋ถ์ผ
- Extract useful information and insights from text and document data
- ๋ฌธ์ ๊ตฐ์งํ(Document clustering) ex) ํ ํฝ ๋ชจ๋ธ๋ง
- Highly related to computational social science : ํต๊ณ์ ์ผ๋ก ์ฌํ๊ณผํ์ ์ธ์ฌ์ดํธ ์ฐ์ถ
3. Information retrieval (์ ๋ณด ๊ฒ์)
- ์ฃผ์ ํํ : SIGIR, WSDM, CIKM, Recsys
- ํ๋ฌธ ๋ถ์ผ
- Highly related to computational social science
- ์ ๋ณด ๊ฒ์ ๋ถ์ผ, ์ถ์ฒ ์์คํ
์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์ ํธ๋ ๋
- ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ : CV ํน์ ์์์ฒ๋ฆฌ ๋ถ์ผ์ ๋๋ถ์ด AI์ DL๊ธฐ์ ์ด ๊ฐ์ฅ ํ๋ฐํ ์ ์ฉ๋๋ฉฐ ๊พธ์ค๋น ๋ฐ์ ํ๋ ๋ถ์ผ ์ค ํ๋์.
๊ธฐ์กด ML๊ณผ DL ๊ธฐ์ ๋ก ์์ฐ์ด ์ฒ๋ฆฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ์ฃผ์ด์ง ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ซ์๋ก ๋ณํํ๋
'์๋ ์๋ฒ ๋ฉ(Word Embedding)' ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋๋ค. - ํ
์คํธ ๋ฐ์ดํฐ๋ ๋ฌธ์ฅ์ ๊ตฌ์ฑํ๋ ์์ ์ ๋ณด๊ฐ ์ค์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ฐ์๋ค์ผ ์ ์๋ ํนํ ๋ชจ๋ธ์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ์ํ๊ณ ,
๊ทธ ๋ํ์ ์ธ ์๋ก๋ 'RNN(Recurrent Neural Network)'์ด ์๋ค.
์ดํ ๋จ์ ์ ๋ณด์ํ LSTM, GRU ๋ชจ๋ธ์ด ๋์ ์ฌ์ฉ๋จ. - 2017๋
์๋ ๊ตฌ๊ธ์์ ๋ฐํํ 'Attention is all YOU need' (์ฒจ๋ถํ์ผ) ๋ผ๋ ์ ๋ชฉ์ ๋
ผ๋ฌธ์ด ๋์ค๋ฉด์ '์
ํ ์ดํ
์
(Self-Attention)' ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง 'ํธ๋์คํฌ๋จธ(Transformer) ๋ชจ๋ธ'์ด ๊ฐ๊ด๋ฐ๊ธฐ ์์ํ๋ค.
์ต๊ทผ ๋ฐํ๋ ๋๋ถ๋ถ์ ๋ชจ๋ธ๋ค์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๊ฒ์ด ๋ง์ผ๋ฉฐ, ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ฃผ๋ก ์ฌ์ฉ๋๋ '๊ธฐ๊ณ ๋ฒ์ญ' ๋ถ์ผ๋ฅผ ๋์ด ํ์ฌ๋ ์์/์ ์ฝ๊ฐ๋ฐ/์๊ณ์ด ์์ธก ๋ฑ์์๋ ๋ค์ํ๊ฒ ์ฌ์ฉ๋๊ณ ์์. - ์ต๊ทผ ์ ํ ๋ชจ๋ธ๋ก๋ ์๊ฐ์ง๋ ํ์ต(self-supervised Learning)์ด ๊ฐ๋ฅํ BERT, GPT ๋ฑ์ด ์๋ค.
Attention is all you need ์ด๋ก ๋ณด๋ฌ๊ฐ๊ธฐ
'๊ฐ์๋ฆฌ๋ทฐ๐ฅ๏ธ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[boostcourse][์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ] ๊ธฐ์กด์ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ (1) | 2024.01.24 |
---|