matplotlib scatter 예제

이전 섹션에서는 plt.plot/ax.plot을 살펴보고 선 플롯을 생성했습니다. 이 같은 함수는 분산형 플롯을 생성할 수 있다는 것이 밝혀졌습니다: 우리는 이 산점 도표가 데이터의 네 가지 차원을 동시에 탐색할 수 있는 능력을 주었다는 것을 알 수 있습니다: 각 점의 (x, y) 위치는 sepal 길이와 너비에 해당합니다. , 점의 크기는 꽃잎 폭과 관련이 있으며, 색상은 꽃의 특정 종과 관련이 있다. 이와 같은 다중 색상 및 다중 기능 분산형 플롯은 데이터 탐색 및 프레젠테이션 모두에 유용할 수 있습니다. 함수 호출의 세 번째 인수는 플로팅에 사용되는 기호 의 형식을 나타내는 문자입니다. 선 스타일을 제어하는 `-`, `–`와 같은 옵션을 지정할 수 있는 것처럼 마커 스타일에는 고유한 짧은 문자열 코드 집합이 있습니다. 사용 가능한 기호의 전체 목록은 plt.plot의 문서 또는 Matplotlib의 온라인 문서에서 볼 수 있습니다. 가능성의 대부분은 매우 직관적이다, 우리는 여기에 더 일반적인 것들의 번호를 보여줍니다: 마지막 게시물에서 나는 히스토그램을 플로팅에 대해 이야기, 이 게시물에서 우리는 데이터와 산란 플롯을 사용하는 방법을 배우고 왜 유용 할 수 있습니다. 다양한 마커 크기 및/또는 색상을 가진 y 대 x의 산란도입니다. 많은 색상과 크기의 포인트가 있는 임의의 분산형 플롯을 만들어 보여 드리겠습니다. 겹치는 결과를 더 잘 보려면 알파 키워드를 사용하여 투명도 수준을 조정합니다: plt.plot 및 plt.scatter에서 사용할 수 있는 다양한 기능을 제외하고, 왜 다른 쪽을 사용하도록 선택할 수 있습니까? 소량의 데이터에 대해서는 중요하지 않지만 데이터 집합이 수천 개 보다 커지므로 plt.plot은 plt.scatter보다 눈에 띄게 효율적일 수 있습니다. 그 이유는 plt.scatter가 각 점에 대해 다른 크기 및/또는 색상을 렌더링할 수 있기 때문에 렌더러는 각 점을 개별적으로 생성하는 추가 작업을 수행해야 하기 때문입니다. 반면 plt.plot에서 점은 항상 기본적으로 서로의 복제본이므로 점의 모양을 결정하는 작업은 전체 데이터 집합에 대해 한 번만 수행됩니다.

큰 데이터 집합의 경우 이 두 가지 의 차이로 인해 성능이 크게 달라질 수 있으며, 이러한 이유로 큰 데이터 집합의 경우 plt.scatter보다 plt.plot을 선호해야 합니다. 일반적으로 사용되는 또 다른 플롯 유형은 선 플롯의 가까운 사촌인 단순 분산형 플롯입니다. 점들이 선 세그먼트로 결합되는 대신 점들이 점, 원 또는 다른 모양으로 개별적으로 표시됩니다. 우리는 우리가 사용하는 함수를 플로팅하고 가져 오기위한 노트북을 설정하여 시작합니다 : 산란 플롯을 만드는 두 번째, 더 강력한 방법은 plt.plot 함수와 매우 유사하게 사용할 수있는 plt.scatter 함수입니다 : 충분한 이야기와 코드를 보자. 먼저 임의적이지만 흥미로운 예를 생각해 보겠습니다. 결과가 수업에 대해 발표되었다고 가정해 보입니다. 이 수업에서 남자와 여자 모두 시험에 나타났다. 목표는 누가 더 잘 수행했는지, 그리고 단점을 제거하는 방법을 찾는 것입니다. 우리는 그것을 위해 산점도를 만들 것입니다. 기본값은 없음으로, 이 경우 rcParams[„분산.edgecolors”] = `얼굴`의 값을 사용합니다. 이 온라인 코스에서 Matplotlib 및 산점도에 대해 자세히 알아볼 수 있습니다. 우리는 두 개의 서로 다른 목록에서 사용할 수있는 성적을 가지고 우리는 다른 데이터 세트를 플롯두 번 산란을 호출 할 것입니다.

그것은 아래와 같은 그래프를 생성 할 때 실행될 때 : 예를 들어, 우리는 각 샘플이 신중하게 측정 된 꽃잎과 sepals의 크기를 가지고 꽃의 세 가지 유형 중 하나입니다 Scikit-Learn에서 아이리스 데이터를 사용할 수 있습니다 : plt.scatter의 주요 차이점 plt.plot은 각 개별 점의 속성(크기, 면 색상, 모서리 색상 등)을 개별적으로 제어하거나 데이터에 매핑할 수 있는 분산형 플롯을 만드는 데 사용할 수 있습니다.