클래스: 데이터 과학의 기초: 기초
무료이용으로 수강해 보세요.
업계 전문가가 강의하는 클래스 24,200개를 수강하세요.
데이터 스크래핑
- [튜터] 로스 앤젤레스의 Watts Towers는 Simon Rodia의 조각품과 구조물 컬렉션으로, 높이가 거의 100 피트에 달하며 주변에서 발견 한 것들로 만들어졌습니다. 철근 조각, 도자기 타일 조각, 유리, 병, 조개껍데기, 거울, 깨진 도자기 등. 그러나 타워는 창의적이고 끈기 있는 사람이 주변에서 찾을 수 있는 것들로 무엇을 할 수 있는지에 대한 증거입니다. 데이터 스크래핑은 어떤 의미에서 데이터 과학의 발견 된 예술입니다. 주변에 있는 데이터, 페이지의 표, 신문의 그래프를 가져와서 해당 정보를 데이터 과학 작업에 통합하는 경우입니다. 공유를 위해 특별히 설계된 API 또는 애플리케이션 프로그래밍 인터페이스에서 사용할 수 있는 데이터와 달리 데이터 스크래핑은 반드시 해당 통합을 염두에 두고 생성되지 않은 데이터를 위한 것입니다. 하지만 윤리와 데이터 과학에 대해 당장 언급해야 할 것이 있습니다. 디지털 및 인쇄 소스에서 데이터를 스크랩하는 것은 가능하지만 여전히 알아야 할 법적 및 윤리적 제약이 있습니다. 예를 들어, 사람들의 개인 정보를 존중해야 합니다. 데이터가 비공개인 경우에도 해당 개인 정보를 유지해야 합니다. 저작권을 존중해야 합니다. 웹에 무언가가 있다고 해서 원하는 대로 사용할 수 있는 것은 아닙니다. 아이디어가 눈에 보인다고 해서 열려 있는 것은 아닙니다. 오픈 마켓에서와 마찬가지로, 가격표가 없고 눈앞에 있다고 해서 무료인 것은 아닙니다. 매우 심각한 문제에 빠지지 않기 위해 유지해야 할 법률, 정책, 사회적 관행의 중요한 요소가 여전히 있습니다. 따라서 데이터 스크래핑을 수행할 때 이를 염두에 두십시오. 예를 들어, 여러분이 위키피디아에 있고 원하는 데이터가 있는 테이블을 찾았다고 가정해 봅시다. 다음은 무용단 목록입니다. 실제로 이 정보를 복사하여 붙여넣을 수 있지만 스크래핑을 위해 매우 간단한 도구를 사용할 수도 있습니다. 사실, Google 시트에 넣고 싶다면 이를 위해 특별히 설계된 기능도…
연습 파일로 실제로 따라해 보세요.
강사가 이용하는 파일을 다운로드하세요. 클래스를 보면서 직접 따라할 수 있습니다.