https://www.lyrics.co.kr
이런 가사 검색 사이트들은 어떻게 데이터베이스를 구축하는 걸까요?
사람이 하나 하나 입력하는거는 너무 힘들 것 같은데...
크롤링(파싱)해서 데이터를 수집하는 걸까요?
가사 검색 사이트에 갑자기 흥미가 생겨서 만들어보려고 하는데, 어떻게 구축해야될지 모르겠네요..
PHP | PHP 7.1 |
---|---|
CMS | Rhymix |
URL | https://www.lyrics.co.kr |
https://www.lyrics.co.kr
이런 가사 검색 사이트들은 어떻게 데이터베이스를 구축하는 걸까요?
사람이 하나 하나 입력하는거는 너무 힘들 것 같은데...
크롤링(파싱)해서 데이터를 수집하는 걸까요?
가사 검색 사이트에 갑자기 흥미가 생겨서 만들어보려고 하는데, 어떻게 구축해야될지 모르겠네요..
파싱이나 크롤링이라고 하면 뭔가 원본이 있단 얘긴데..
보통 가사 데이터의 원본이라고 하면
1) 유료 MP3에 같이 포함된 가사
2) 유튜브 자막
3) 어딘가의 자막 사이트를 크롤링
이정도를 생각해볼 수 있는데 글쎄요...
1번 말고는 생각해보기 힘든데요...
흠.. MP3 말고 DCF 파일에서도 가사 추출이 가능한지
모르겠습니다.. 그게 가능하다면 대량으로 추출이
가능할 것 같긴 한데요.
만약에 파싱이라면 벅스나 멜론같은 음원 사이트의 정보를 파싱한것이 아닐가 싶습니다