클래스: 데이터 과학의 기초: 기초

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 24,200개를 수강하세요.

데이터 스크래핑

데이터 스크래핑

- [튜터] 로스 앤젤레스의 Watts Towers는 Simon Rodia의 조각품과 구조물 컬렉션으로, 높이가 거의 100 피트에 달하며 주변에서 발견 한 것들로 만들어졌습니다. 철근 조각, 도자기 타일 조각, 유리, 병, 조개껍데기, 거울, 깨진 도자기 등. 그러나 타워는 창의적이고 끈기 있는 사람이 주변에서 찾을 수 있는 것들로 무엇을 할 수 있는지에 대한 증거입니다. 데이터 스크래핑은 어떤 의미에서 데이터 과학의 발견 된 예술입니다. 주변에 있는 데이터, 페이지의 표, 신문의 그래프를 가져와서 해당 정보를 데이터 과학 작업에 통합하는 경우입니다. 공유를 위해 특별히 설계된 API 또는 애플리케이션 프로그래밍 인터페이스에서 사용할 수 있는 데이터와 달리 데이터 스크래핑은 반드시 해당 통합을 염두에 두고 생성되지 않은 데이터를 위한 것입니다. 하지만 윤리와 데이터 과학에 대해 당장 언급해야 할 것이 있습니다. 디지털 및 인쇄 소스에서 데이터를 스크랩하는 것은 가능하지만 여전히 알아야 할 법적 및 윤리적 제약이 있습니다. 예를 들어, 사람들의 개인 정보를 존중해야 합니다. 데이터가 비공개인 경우에도 해당 개인 정보를 유지해야 합니다. 저작권을 존중해야 합니다. 웹에 무언가가 있다고 해서 원하는 대로 사용할 수 있는 것은 아닙니다. 아이디어가 눈에 보인다고 해서 열려 있는 것은 아닙니다. 오픈 마켓에서와 마찬가지로, 가격표가 없고 눈앞에 있다고 해서 무료인 것은 아닙니다. 매우 심각한 문제에 빠지지 않기 위해 유지해야 할 법률, 정책, 사회적 관행의 중요한 요소가 여전히 있습니다. 따라서 데이터 스크래핑을 수행할 때 이를 염두에 두십시오. 예를 들어, 여러분이 위키피디아에 있고 원하는 데이터가 있는 테이블을 찾았다고 가정해 봅시다. 다음은 무용단 목록입니다. 실제로 이 정보를 복사하여 붙여넣을 수 있지만 스크래핑을 위해 매우 간단한 도구를 사용할 수도 있습니다. 사실, Google 시트에 넣고 싶다면 이를 위해 특별히 설계된 기능도…

목차