kata pengantar
Puji dan
syukur kepada Tuhan Yang Maha Esa, yang telah melimpahkan rahmat-Nya kepada
penyusun untuk dapat menyelesaikan makalah yang berjudul "Judul Karya
Tulis Anda". Tujuan penyusunan makalah ini ialah untuk melengkapi tugas
mata kuliah softkill yang dibimbing oleh Bapak I Made Wiryana
Dalam
menyelesaikan makalah ini, penyusun telah mendapat bantuan dari berbagai pihak.
Oleh sebab itu sudah selayaknya penyusun mengucapkan terima kasih kepada Bapak
I Made Wiryana yang telah membimbing penulis dengan penuh kesabaran dan
perhatian. Juga tidak lupa mengucapkan terima kasih kepada semua pihak yang
telah memberikan bantuan dan tidak sempat penyusun sebutkan satu per satu.
Kami
berharap semoga dengan disusunnya makalah ini dapat memberikan pengetahuan bagi
para pembaca. Kami menyadari bahwa makalah ini masih jauh dari sempurna, oleh
karena itu kritik dan saran dari semua pihak yang bersifat membangun selalu
kami harapkan demi kesempurnaanpembuatan buku.
Jakarta, 2 febuari
2016
Penulis
Daftar isi
\
Kata
Pengantar…………………………………………………………….………………….1
Daftar isi………………………………………………………………………………….……..2
BAB 1. PENDAHULUAN
1.1 Latar Belakang……………………………………………………………………..……3
1.2 Perumusan Masalah……………………………………………………………..……4
1.3 Tujuan………………………………………………………………………………………4
1.4 Mamfaat penulisan…………………………………………………………….…..4
1.5 Batasan masalah………………………………………………………………..2
BAB 2. LANDASANTEORI
2.1Konsep………………………………………..……………………………………………………..6
2.2SUPORSISI……………………………………………………….………………………………..…8 2.3Perbedaanvariable……………………………………………………….………………………………..…9 2.4Teralisobjek……………………………………………………….………………………………..…9
BAB 3. Metode Penelitian 3.1simplescatterplothexbin…………………………………………………..…23 3.2scatterplotmaterialhexbin……………………………….………………………………..…24 3.3simplescatterplot…………………………………………………………..…26
BAB 4. Metode Penelitian 4.1RancanganPenelitian……………………………………………………………………..…46 4.2Fittingparametricdistributions…………………………………………………………48 4.3HexbinPlots…………………………………………………….……………48 BAB 5. Penutup 5.1kesimpulan……………………….…………………….………………59 5.2 saran……………….……………….……………….………………63
DAFTAR PUSTAKA …………………………………………………………….70
Daftar isi………………………………………………………………………………….……..2
BAB 1. PENDAHULUAN
1.1 Latar Belakang……………………………………………………………………..……3
1.2 Perumusan Masalah……………………………………………………………..……4
1.3 Tujuan………………………………………………………………………………………4
1.4 Mamfaat penulisan…………………………………………………………….…..4
1.5 Batasan masalah………………………………………………………………..2
BAB 2. LANDASANTEORI
2.1Konsep………………………………………..……………………………………………………..6
2.2SUPORSISI……………………………………………………….………………………………..…8 2.3Perbedaanvariable……………………………………………………….………………………………..…9 2.4Teralisobjek……………………………………………………….………………………………..…9
BAB 3. Metode Penelitian 3.1simplescatterplothexbin…………………………………………………..…23 3.2scatterplotmaterialhexbin……………………………….………………………………..…24 3.3simplescatterplot…………………………………………………………..…26
BAB 4. Metode Penelitian 4.1RancanganPenelitian……………………………………………………………………..…46 4.2Fittingparametricdistributions…………………………………………………………48 4.3HexbinPlots…………………………………………………….……………48 BAB 5. Penutup 5.1kesimpulan……………………….…………………….………………59 5.2 saran……………….……………….……………….………………63
DAFTAR PUSTAKA …………………………………………………………….70
BAB
I
PENDAHULUAN
1.1 Latar
Belakang
Pemanfaatan teknologi industry pada teknik informatika yang
makin meluas seiring dengan meningkatnya kebutuhan akan ketersediaan informasi
yang akurat dan cepat dewasa ini. Hal ini merupakan salah satu elemen penting
yang diperlukan bagi organisasi, baik profit maupun non-profit oriented untuk
bersaing dalam ruang lingkup global. Jenis maupun derivatif dari sistem
informasi telah banyak kita kenal. Bila kita ambil perguruan tinggi sebagai
obyek amatan, kita akan menemukan bagai mana plot itu terbentuk
Plot atau alur adalah struktur rangkaian kejadian dalam cerita yang
disusun sebagai urutan bagian-bagian dalam keseluruhan fiksi. Dengan demikian,
plot merupakan perpaduan unsur-unsur yang membangun cerita sehingga menjadi
kerangka utama cerita.
Plot merupakan kerangka dasar yang
amat penting. Plot mengatur bagaimana tindakan-tindakan harus berkaitan satu
sama lain, bagaimana suatu peristiwa mempunyai hubungan dengan peristiwa lain,
serta bagaimana tokoh digambarkan dan berperan dalam peristiwa itu.
Perrine dalam bukunya Literature:
Structure, Sound and Sense menjelaskan bahwa “plot is the sequence of incident
or events which the story is composed and it may conclude what character says
or thinks, as well as what he does, but it leaves out description and analysis
and concentrate ordinarily on major happening” (1974:41).
Robert Stanton dalam bukunya An Introduction to Fiction menyatakan “the comflict moves the story because it is generating center out of which the plot grows which becomes the core of the story’s structure. (1965: 16)
Robert Stanton dalam bukunya An Introduction to Fiction menyatakan “the comflict moves the story because it is generating center out of which the plot grows which becomes the core of the story’s structure. (1965: 16)
William Kenney dalam bukunya How To
Analyze Fiction menyatakan “the structure of plots divided into three parts.
They are the beginning which consists of the exposition on introduction, the
middle which consists of conflict, complication and climax and the end which
converses denouement or resolution” (1966:13).
Kemudahan-kemudahan
dalam pemasukan data bagi penggunaan plot dan pencarian buku oleh mahasiswa maupun dosen
sangat diperlukan agar dapat meningkatkan minat untuk memanfaatkan sarana
perpustakaan serta mengembangkannya untuk lebih baik lagi.
1.2 Perumusan Masalah
Masalah yang diangkat dalam karya tulis
ini adalah pembuatan hexbin plot with marginal distrubution untuk dapat
menambahkan dan mencari informasi data buku, pembuatan hexbin plot, digunakan
untuk melakukan perhitungan hexabinery dan biner dalam perhitungan biner. Hasil
yang diharapkan adalah dapat memberikan kemudahan kepada mahasiswa-mahasiswi,
dan dosen untuk memasukkan dan mencari informasi.
1.3 Tujuan
Penelitian
Tujuan dilakukannya penelitian ini antara
lain :
a.
Mengetahui apa itu hexbin plot with
marginal distribution
b.
Memudahkan mahasiswa dan dosen dalam
memperoleh informasi buku hexbin plot with marginal distribution
c.
Memudahkan mahasiswa dalam
menambahkan data buku hexbin plot with marginal distribution
1.4
Manfaat Penelitian
Adapun manfaat yang nantinya diharapkan
dapat dicapai dengan melakukan penelitian ini, adalah:
a.
Bagi Mahasiswa
1.
Meningkatkan pemahaman teori yang
diperoleh selama masa kuliah dengan mengaplikasikannya pada kasus nyata.
2.
Memenuhi salah satu prasyarat di
semester 5 gunadarma
b.
Bagi Perpustakaan Jurusan Teknik informatika
1.
Mendapatkan kemudahan dalam hal
menambahkan informasi buku yang ada.
2.
Memberikan pelayanan yang baik dalam
hal kemudahan mendapatkan informasi buku di perpustakaan
c.
Bagi Lingkungan Luar
Bisa
mendapatkan informasi buku yang ada di Perpustakaan Jurusan teknik informatika gunadarma
melalui internet.
1.5
Batasan Masalah
Terdapat banyak faktor yang harus
diidentifikasi dan dilibatkan untuk bisa membuat suatu teknik informatika
mengenai hexbin plot with marginal. Namun demikian, karena keterbatasan
pengetahuan dan pengalaman peneliti dalam mengidentifikasi setiap masalah yang
ada pada sistem, maka perlu dilakukan pembatasan terhadap permasalahan yang
diamati. Dalam hal ini batasan-batasan dan asumsi yang diambil adalah:
1.
Data pada hexbin plot with marginal
distribution
2.
masalah yang ada dalam hexbin plot
with marginal distribution
3.
penulisan dilalukan pada lyx
BAB II
LANDASAN
TEORI
2.1 konsep
Dalam penulisan skripsi ini peneliti
menggali informasi dari penulisan sebelumnya sabagai bahan perbandingan, baik
mengenai kekurangan atau kelebihan yang
sudah ada. Selain itu, peneliti juga menggali informasi dari buku-buku maupun
skripsi dalam rangka mendapatkan suatu informasi yang ada sebelumnya tentang
teori yang berkaitan dengan judul yang digunakan untuk memperoleh landasan penulisan
Plot atau alur adalah struktur
rangkaian kejadian dalam cerita yang disusun sebagai urutan bagian-bagian dalam
keseluruhan fiksi. Dengan demikian, plot merupakan perpaduan unsur-unsur yang
membangun cerita sehingga menjadi kerangka utama cerita.
Plot merupakan kerangka dasar yang
amat penting. Plot mengatur bagaimana tindakan-tindakan harus berkaitan satu
sama lain, bagaimana suatu peristiwa mempunyai hubungan dengan peristiwa lain,
serta bagaimana tokoh digambarkan dan berperan dalam peristiwa itu.
Perrine dalam bukunya Literature:
Structure, Sound and Sense menjelaskan bahwa “plot is the sequence of incident
or events which the story is composed and it may conclude what character says
or thinks, as well as what he does, but it leaves out description and analysis
and concentrate ordinarily on major happening” (1974:41).
Robert Stanton dalam bukunya An Introduction to Fiction menyatakan “the comflict moves the story because it is generating center out of which the plot grows which becomes the core of the story’s structure. (1965: 16)
William Kenney dalam bukunya How To
Analyze Fiction menyatakan “the structure of plots divided into three parts.
They are the beginning which consists of the exposition on introduction, the
middle which consists of conflict, complication and climax and the end which
converses denouement or resolution” (1966:13).
Hex Bin Plot
Halaman Plot Hex Bin memungkinkan
pengguna untuk plot dua variabel kontinu terhadap satu sama lain. Sebuah plot
hex bin dasarnya adalah scatter plot confidentialised. Wilayah merencanakan
dipecah menjadi mesh segi enam tessellating. Setiap segi enam berwarna untuk
menunjukkan jumlah titik yang jatuh dalam segi enam itu. Segi enam dengan
kurang dari tiga pengamatan tidak ditampilkan, dan ukuran segi enam dipilih
untuk meminimalkan jumlah segi enam yang bisa ditekan dengan cara ini tetap
mempertahankan resolusi berguna. Hal ini memungkinkan pengguna untuk melihat
data dan menemukan hubungan tanpa membiarkan catatan individu untuk
diidentifikasi.
Untuk memilih Variabel Y, klik 'Pilih Y
Variabel' tombol.
Grafis: Pilih Variabel panel di halaman Plot
Hex Bin. Ada tombol untuk memilih Y dan X variabel serta boks teks untuk
memasukkan label untuk Y dan X sumbu.
Ini akan memunculkan 'Pilih Y Variabel' pop-up window. Pilih variabel
yang akan Anda gunakan. Klik 'Pilih'.Grafis: Pilih Y panel Variabel dengan
variabel yang dipilih, disorot dalam warna hijau, dan tombol Select disorot.
Nama Y Variabel yang dipilih akan muncul di 'Terpilih Y Variabel' kotak. Anda kemudian
dapat mengetik nama Label untuk Anda Y Axis dalam kotak 'Y Axis Label'. Jika
Anda biarkan kosong, tidak akan ada label pada Anda Y Axis. Grafis: Pilih
Variabel panel yang menggambarkan masuknya label untuk sumbu Y.Proses yang sama
dapat diikuti untuk memilih dan label variabel X.Setelah Anda memilih variabel
yang benar dan memberi mereka nama-nama yang sesuai, klik 'Buat Hex Bin Plot'.
Hex Bin Plot akan ditampilkan di bawah ini. Untuk mengekspor Plot Hex Bin
sebagai gambar PNG, klik 'Export Sebagai Gambar' link dan ikuti
petunjuknya.Grafis: Contoh dari Hex Bin Plot menunjukkan Usia grafiknya
terhadap Anak Lahir.Terkait Kerahasiaan Prosedur
Kernel density plot
Histogram adalah contoh minyak mentah dari kelas
yang lebih umum data univariat sum - maries , yaitu , perkiraan kepadatan .
densityplot ( ) , lain - tingkat tinggi func - tion dalam paket kisi , dapat
digunakan untuk grafik perkiraan kepadatan kernel . Sebuah panggilan yang
terlihat sangat mirip dengan histogram sebelumnya ( ) panggilan menghasilkan
Gambar - ure 1.2 .
> Densityplot ( ~ gcsescore | faktor ( nilai ) ,
data = Chem97 , plot.points = FALSE , ref = TRUE )
Ada dua argumen yang lebih dalam panggilan ini : ref
, yang menambahkan garis referensi pada 0 , dan plot.points , yang mengontrol
apakah selain kepadatan , titik asli akan diplot . Menampilkan poin dapat
informatif untuk dataset kecil , tapi tidak di sini , dengan masing-masing
panel memiliki lebih dari 3000 poin . Kami menunjukkan kemudian ref itu dan
plot.points tidak benar-benar argumen dari densityplot ( ) , melainkan dari
fungsi panel default, bertanggung jawab untuk merencanakan sebenarnya dalam
setiap panel
0
|
4
|
8
|
|||
2
|
6
|
10
|
|||
0.6
|
|||||
Density
|
0.4
|
||||
0.2
|
|||||
0.0
|
|||||
0
|
2
|
4
|
6
|
8
|
|
gcsescore
|
Gambar 1.3
. Dikelompokkan plot kepadatan . Perkiraan kepadatan terlihat pada Gambar 1.2
sekarang superposisi dalam satu panel , memaksa perbandingan langsung . Sebuah
legenda di atas menggambarkan hubungan antara tingkat pengelompokan variabel (
nilai dalam hal ini ) dan parameter baris yang sesuai .
2.2 Superposisi
Gambar menunjukkan bahwa kedua distribusi
gcsescore adalah Wegener-sekutu yang lebih tinggi untuk skor yang lebih tinggi.
Pola ini akan jauh lebih mudah untuk menilai jika kepadatan yang superposed
dalam panel yang sama. Hal ini dicapai oleh kami-ing skor sebagai variabel
pengelompokan bukannya variable2 udara di panggilan berikut, memproduksi Gambar
1.3.
> Densityplot (~ gcsescore, data = Chem97, kelompok = skor,
plot.points = FALSE, ref = TRUE,
auto.key = daftar (kolom = 3))
Argumen auto.key otomatis menambahkan legenda yang cocok untuk plot.
Perhatikan bahwa itu tidak perlu untuk mengkonversi nilai ke faktor terlebih
dahulu; konversi ini dilakukan secara otomatis. Hal penting lainnya adalah
bahwa sama seperti dengan variabel dalam formula, ekspresi yang ditentukan
sebagai argumen kelompok juga dievaluasi dalam Chem97 (argumen data). Hal ini
juga berlaku untuk yang lain argumen khusus, bagian, yang kita belajar tentang
nanti.
Tema penting dalam contoh yang telah kita lihat sejauh ini adalah
abstraksi-tion digunakan dalam menentukan struktur plot, yang pada dasarnya
ditentukan oleh jenis grafis (histogram, kepadatan plot) dan peran variabel
yang terlibat (layar utama , pendingin, superposisi). Abstraksi ini adalah
fundamental dalam paradigma kisi. Tentu saja, panggilan yang sederhana seperti
ini tidak akan selalu su FFI ce dalam kehidupan nyata, dan kisi menyediakan
sarana untuk secara sistematis
2 .3Perbedaan antara
pengelompokan dan pendingin variabel khusus
untuk grafik.kontrol dan menyesuaikan berbagai
elemen yang grafis terdiri dari, termasuk sumbu penjelasan, label, dan
parameter grafis seperti warna dan garis jenis. Namun, bahkan ketika salah satu
berakhir dengan panggilan tampaknya kompleks, abstraksi dasar akan tetap hadir;
bahwa panggilan terakhir akan biasanya tiba di dengan memulai dengan sederhana
dan secara bertahap memodifikasi satu bagian pada suatu waktu.
2.4 "teralis" objek
Sebagian besar fungsi R biasa tidak menghasilkan output apapun sendiri;
sebaliknya, mereka kembali obyek yang dapat diberikan ke variabel, digunakan
sebagai argumen dalam fungsi lainnya, dan umumnya dimanipulasi dengan berbagai
cara. Setiap objek tersebut memiliki kelas (kadang-kadang implisit) yang
berpotensi menentukan perilaku fungsi yang bekerja pada mereka. Sebuah fungsi
seperti sangat penting adalah fungsi cetak generik (), yang menampilkan benda
dengan cara yang sesuai. Properti khusus cetak () adalah bahwa hal itu tidak
selalu harus dipanggil secara eksplisit; hasil dari sebuah ekspresi dievaluasi
di tingkat atas (yaitu, tidak di dalam fungsi atau loop), tetapi tidak
ditugaskan untuk variabel, dicetak secara otomatis. Fungsi grafis tradisional,
bagaimanapun, adalah pengecualian paradigma ini. Mereka biasanya tidak kembali
sesuatu yang berguna; mereka dipanggil untuk "sisi e ff ect"
menggambar pada perangkat grafis yang cocok.
Fungsi tingkat tinggi dalam paket kisi di ff er dalam hal ini dari
grafis tradisional mereka Analog karena mereka tidak menarik apapun sendiri;
sebaliknya, mereka kembali sebuah objek, kelas "teralis". Sebuah
grafis yang sebenarnya dibuat ketika benda tersebut "dicetak" dengan
metode cetak () untuk objek dari kelas ini. The di ff selisih dapat diabaikan,
dan fungsi kisi digunakan seperti rekan-rekan tradisional mereka (seperti yang
kita telah melakukan sejauh ini), hanya karena print () biasanya dipanggil
secara otomatis. Untuk menghargai fakta ini, mempertimbangkan urutan berikut
perintah.
> TP1 <- histogram (~ gcsescore | faktor (nilai), data = Chem97)
> TP2 <-
densityplot (~ gcsescore, data = Chem97, kelompok = skor, plot.points =
FALSE,
auto.key = daftar (spasi = "kanan", title = "Rata"))
Ketika perintah ini dijalankan, tidak ada yang akan diplot. Bahkan, TP1
dan TP2 sekarang objek dari kelas "teralis" yang dapat, misalnya,
diringkas:
> Kelas (TP2)
[1] "teralis"
> Ringkasan (TP1)
Panggilan:
histogram (~ gcsescore | faktor (nilai), data = Chem97)
Jumlah pengamatan: faktor (nilai)
0 2 4 6 8 10
3688 3627 4619
5739 6668 6681
Seperti
disebutkan di atas, plot yang sebenarnya dapat ditarik dengan memanggil cetak
():
> Print
(TP1)
Hal ini mungkin
tampak agak unintuitive, karena print () biasanya menghasilkan output teks
dalam R, tapi perlu untuk mengambil keuntungan dari cetak-ing aturan otomatis.
Semakin alami
> Plot (TP1)
memiliki e sama
ff ect.
2.5 hilang display Trellis
Karena doa
otomatis cetak (), fungsi kisi biasanya bekerja sebagai fungsi grafis
tradisional, di mana output grafis yang dihasilkan ketika pengguna memanggil
fungsi. Tentu, kesamaan ini rusak dalam konteks di mana pencetakan otomatis
ditekan. Hal ini terjadi, seperti telah kita lihat, ketika hasil dari panggilan
kisi ditugaskan ke variabel. Sayangnya, hal itu juga terjadi dalam situasi lain
di mana pengguna mungkin tidak mengharapkan itu, misalnya, dalam untuk () atau
saat () loop, atau di dalam fungsi lainnya. Ini termasuk sumber () fungsi, yang
sering digunakan untuk mengeksekusi skrip R eksternal, kecuali hal itu disebut
dengan argumen gema set ke TRUE. Seperti (non-grafis) panggilan R biasa,
solusinya adalah untuk mencetak () (atau plot ()) hasil dari panggilan kisi
eksplisit.
2.6 Mengatur beberapa plot Trellis
Desain berbasis
obyek ini memiliki banyak implikasi yang berguna, kepala di antara mereka
menjadi kemampuan untuk mengatur beberapa menampilkan kisi pada satu halaman.
Pendingin Mul-tipanel menyingkirkan kebutuhan untuk penggunaan seperti untuk
sebagian besar, tapi tidak sepenuhnya. Sebagai contoh, pada Gambar 1.4 kita
langsung kontras histogram bersyarat dan plot kepadatan dikelompokkan terlihat
sebelumnya. Hal ini dicapai dengan menentukan sub regional untuk ditempati oleh
grafik dengan cepat ketika ditarik, menggunakan argumen opsional plot ()
metode. Meskipun ini adalah salah satu manipulasi paling umum yang melibatkan
"teralis" objek secara eksplisit, itu tidak berarti satu-satunya.
Sebuah diskusi rinci "teralis" benda diberikan dalam Kami telah ditemui dua fungsi kisi
dalam bab ini, histogram () dan densityplot (). Setiap menghasilkan jenis
tertentu grafis statistik, bantuan-penuh diisyaratkan oleh namanya. Ini
menetapkan kecenderungan umum: kisi pengguna antar-muka terutama terdiri dari
ini dan beberapa fungsi lainnya seperti ini, masing-masing
Gambar 1.4 . Histogram bersyarat dan kepadatan petak dikelompokkan dari gcsescore dengan skor , digabungkan dalam sosok tunggal . Perbandingan jelas menggambarkan manfaat - ness superposisi ; pola varians penurunan dengan rata-rata yang jelas dalam plot kepadatan mudah kehilangan di histogram
2.8 Fungsi default
Tampilan
histogram () Histogram
densityplot () Kernel
Density Plot
qqmath () Teoritis Plot
Quantile
qq () Dua sampel Plot
Quantile
stripplot () Stripchart
(Perbandingan 1-D Plot Menyebarkan)
bwplot () Perbandingan
Kotak-dan-Kumis Plot
dotplot () Cleveland
Dot Plot
barchart () Bar Plot
xyplot () Scatter Plot
splom () Tebar-Plot
Matrix
contourplot () Kontur
Plot Permukaan
levelplot () Warna
Salah Tingkat Plot Permukaan
wireframe () tiga
dimensi Perspektif Plot Permukaan
awan () Tiga dimensi
Scatter Plot
paralel () Paralel
Koordinat Plot
Tabel 1.1. Fungsi
tingkat tinggi dalam paket kisi dan menampilkan default
dimaksudkan untuk
menghasilkan suatu jenis grafis secara default. Daftar lengkap fungsi tingkat
tinggi di kisi diberikan dalam Tabel 1.1. Bab 3 sampai 6 fokus pada kemampuan
fungsi tingkat tinggi ini, menggambarkan masing-masing pada gilirannya. Fungsi
memiliki banyak kesamaan: mereka masing-masing memiliki antarmuka formula yang
mendukung pendingin Multipanel secara konsisten, dan menanggapi sejumlah
argumen umum. Fitur-fitur umum, termasuk dasar-dasar pengkondisian Multipanel,
secara singkat dijelaskan pada Bab 2, dan lebih lanjut dalam
Hubungan multivariabel
sering melibatkan banyak variates terus menerus, dan kemampuan untuk
mengkondisikan pada mereka berguna. Herpes zoster sebuah ord ff sarana yang
sangat umum untuk melakukannya. Pendekatan paling sederhana mungkin untuk
menggunakan variabel numerik untuk con-ditioning adalah untuk memperlakukan
setiap nilai unik sebagai tingkat yang berbeda. Hal ini, pada kenyataannya,
perilaku default dalam kisi. Namun, hal ini sering tidak membantu ketika jumlah
nilai unik adalah besar. Cara lain standar untuk mengkonversi variate
contin-uous menjadi variabel kategoris ordinal adalah untuk discretize itu,
yaitu, untuk partisi jangkauan menjadi dua atau lebih interval yang tidak
tumpang tindih, dan mengganti setiap nilai dengan hanya indikator interval
untuk yang milik. Diskritisasi tersebut dapat dilakukan oleh fungsi R potong
().
Plot yang
sesuai ditunjukkan pada Gambar 2.2. Pandangan dari "teralis" objek
menyiratkan pemesanan linear dari paket di dalamnya, mirip dengan pemesanan
elemen dalam array umum dalam R. Secara khusus, agar dimulai dengan paket yang
sesuai dengan indeks pertama (tingkat) masing-masing dimensi ( pendingin
vari-bisa) dan hasil dengan memvariasikan indeks dimensi pertama tercepat,
kemudian kedua, dan seterusnya. Pesanan ini disebut sebagai urutan paket.
Struktur array seperti yang lain datang ke dalam bermain ketika "teralis" objek sebenarnya ditampilkan, yaitu, tata letak fisik dari panel. Sedangkan jumlah dimensi dari objek abstrak adalah sewenang-wenang, perangkat layar secara konvensional terikat untuk dua dimensi. Teralis display, khususnya, memilih untuk membagi area layar ke dalam array persegi panjang panel. Dimensi tambahan adalah ff orded dengan menyebarkan sebuah tampilan lebih beberapa halaman, yang dapat menjadi penting dalam display dengan sejumlah besar kombinasi. Semua fungsi kisi-tingkat tinggi berbagi paradigma umum yang mendikte bagaimana tata letak ini dipilih, dan memberikan argumen umum untuk menyesuaikannya sesuai situasi tertentu. Setelah tata letak ditentukan, ia mendefinisikan urutan panel, yaitu, berurutan dari panel dalam tata letak tiga-cara kolom, baris, dan halaman. The akhirnya layar dibuat dengan mencocokkan urutan paket dengan panel
Struktur array seperti yang lain datang ke dalam bermain ketika "teralis" objek sebenarnya ditampilkan, yaitu, tata letak fisik dari panel. Sedangkan jumlah dimensi dari objek abstrak adalah sewenang-wenang, perangkat layar secara konvensional terikat untuk dua dimensi. Teralis display, khususnya, memilih untuk membagi area layar ke dalam array persegi panjang panel. Dimensi tambahan adalah ff orded dengan menyebarkan sebuah tampilan lebih beberapa halaman, yang dapat menjadi penting dalam display dengan sejumlah besar kombinasi. Semua fungsi kisi-tingkat tinggi berbagi paradigma umum yang mendikte bagaimana tata letak ini dipilih, dan memberikan argumen umum untuk menyesuaikannya sesuai situasi tertentu. Setelah tata letak ditentukan, ia mendefinisikan urutan panel, yaitu, berurutan dari panel dalam tata letak tiga-cara kolom, baris, dan halaman. The akhirnya layar dibuat dengan mencocokkan urutan paket dengan panel
2.9 Aspek rasio hebin
Aspek rasio panel adalah rasio tinggi dan lebar fisiknya. Pilihan aspek rasio sering memainkan peran penting dalam menentukan e ff efektifitas dari display. Tidak ada resep umum untuk memilih rasio aspek, dan satu sering perlu untuk sampai pada satu dengan trial and error. Dalam situasi tertentu, aspek rasio yang baik dapat secara otomatis ditentukan oleh aturan 45◦ perbankan, yang berasal dari ide berikut. Pertimbangkan display, seperti contoh di atas Oats, dimana perubahan nilai berturut-turut (diwakili oleh segmen garis) berisi informasi yang kita ingin melihat. Untuk perubahan non-nol, garis yang sesuai tumbuh curam sebagai aspek rasio meningkat, dan dangkal seperti itu berkurang. Cleveland et al. (1988) mencatat bahwa informasi ini terbaik digenggam saat orientasi segmen garis tersebut dekat dengan 45◦, dan merekomendasikan sebuah algoritma yang dapat digunakan untuk memilih rasio aspek secara otomatis berdasarkan kriteria ini. Ketika aspek = "xy" argumen ditentukan dalam panggilan-tingkat tinggi, aturan 45◦ perbankan ini digunakan untuk menghitung rasio aspek (lihat Bab 8 untuk rincian). Aspek argumen juga bisa menjadi rasio eksplisit numerik, atau string "iso", yang menunjukkan bahwa jumlah unit per cm
Aspek rasio panel adalah rasio tinggi dan lebar fisiknya. Pilihan aspek rasio sering memainkan peran penting dalam menentukan e ff efektifitas dari display. Tidak ada resep umum untuk memilih rasio aspek, dan satu sering perlu untuk sampai pada satu dengan trial and error. Dalam situasi tertentu, aspek rasio yang baik dapat secara otomatis ditentukan oleh aturan 45◦ perbankan, yang berasal dari ide berikut. Pertimbangkan display, seperti contoh di atas Oats, dimana perubahan nilai berturut-turut (diwakili oleh segmen garis) berisi informasi yang kita ingin melihat. Untuk perubahan non-nol, garis yang sesuai tumbuh curam sebagai aspek rasio meningkat, dan dangkal seperti itu berkurang. Cleveland et al. (1988) mencatat bahwa informasi ini terbaik digenggam saat orientasi segmen garis tersebut dekat dengan 45◦, dan merekomendasikan sebuah algoritma yang dapat digunakan untuk memilih rasio aspek secara otomatis berdasarkan kriteria ini. Ketika aspek = "xy" argumen ditentukan dalam panggilan-tingkat tinggi, aturan 45◦ perbankan ini digunakan untuk menghitung rasio aspek (lihat Bab 8 untuk rincian). Aspek argumen juga bisa menjadi rasio eksplisit numerik, atau string "iso", yang menunjukkan bahwa jumlah unit per cm
Sebuah Tinjauan
Teknis kisi
hubungan antara jarak fisik pada layar dan jarak dalam skala data) harus sama untuk kedua sumbu. Hal ini sesuai dalam situasi di mana dua skala memiliki unit yang sama, misalnya, di plot data spasial, atau plot kurva ROC mana kedua sumbu mewakili probabilitas.
2.2.2 Tata Letak
Pilihan yang baik dari tata letak perlu mengambil aspek rasio ke rekening. Untuk membuat titik ini, mari kita lihat Gambar 2.3, yang diproduksi dengan memperbarui 6 Gambar 2.1 menggunakan aspek rasio yang dipilih oleh aturan 45◦ perbankan. Seperti yang kita lihat, tampilan default tidak membuat e ff penggunaan efektif dari ruang yang tersedia. Hal ini terkait dengan aturan-aturan yang menentukan tata letak default.
Sebuah tampilan Trellis terdiri dari beberapa panel diatur dalam ar-ray persegi panjang, mungkin mencakup beberapa halaman. Tata letak argumen menentukan pengaturan ini. Untuk spesifikasi yang tepat, tata letak harus menjadi vektor numerik memberikan jumlah kolom, baris, dan halaman di layar Multipanel. Un-kurang satu ingin membatasi jumlah halaman, unsur ketiga tidak perlu ditentukan; maka secara otomatis dipilih untuk mengakomodasi semua panel. Sistem koordinator-nate yang digunakan secara default adalah seperti sistem koordinat Kartesius: panel diambil mulai dari sudut kiri bawah, melanjutkan kanan pertama dan kemudian naik. Perilaku ini dapat diubah dengan menetapkan as.table = TRUE dalam kisi panggilan tingkat tinggi, 7 di mana panel kasus diambil dari sudut kiri, kanan dan kemudian akan turun.
Jika ada dua atau lebih variabel pendingin, default tata letak dengan panjang dua pertama dimensi, yaitu, jumlah default kolom untuk jumlah tingkat variabel pendingin pertama dan jumlah baris dengan jumlah tingkat dari variabel pendingin kedua (akibatnya, jumlah halaman secara implisit produk dari jumlah tingkat variabel pendingin yang tersisa, jika ada). Ini jelas default yang masuk akal, meskipun bertanggung jawab untuk tampilan agak canggung pada Gambar 2.3.
Cara yang jelas untuk "memperbaiki" Gambar 2.3 adalah untuk beralih urutan variabel Condi-tioning. Hal ini dapat dilakukan dengan regenerasi "teralis" objek, atau dengan hanya transposing yang sudah ada dengan menggunakan
> T (tp1.oats)
Namun, kami menggunakan pendekatan lain yang menggunakan bentuk khusus dari argumen tata letak. Elemen pertama dari tata letak dapat 0, dalam hal elemen kedua ditafsirkan sebagai (batas bawah pada) jumlah panel per halaman, meninggalkan perangkat lunak bebas untuk memilih tata letak yang tepat. Hal ini dilakukan dengan mempertimbangkan aspek rasio dan dimensi perangkat, dan kemudian memilih tata letak sehingga ruang yang ditempati oleh masing-masing panel dimaksimalkan. Hasil menggunakan ini pada petak kami data Oats diberikan pada
hubungan antara jarak fisik pada layar dan jarak dalam skala data) harus sama untuk kedua sumbu. Hal ini sesuai dalam situasi di mana dua skala memiliki unit yang sama, misalnya, di plot data spasial, atau plot kurva ROC mana kedua sumbu mewakili probabilitas.
2.2.2 Tata Letak
Pilihan yang baik dari tata letak perlu mengambil aspek rasio ke rekening. Untuk membuat titik ini, mari kita lihat Gambar 2.3, yang diproduksi dengan memperbarui 6 Gambar 2.1 menggunakan aspek rasio yang dipilih oleh aturan 45◦ perbankan. Seperti yang kita lihat, tampilan default tidak membuat e ff penggunaan efektif dari ruang yang tersedia. Hal ini terkait dengan aturan-aturan yang menentukan tata letak default.
Sebuah tampilan Trellis terdiri dari beberapa panel diatur dalam ar-ray persegi panjang, mungkin mencakup beberapa halaman. Tata letak argumen menentukan pengaturan ini. Untuk spesifikasi yang tepat, tata letak harus menjadi vektor numerik memberikan jumlah kolom, baris, dan halaman di layar Multipanel. Un-kurang satu ingin membatasi jumlah halaman, unsur ketiga tidak perlu ditentukan; maka secara otomatis dipilih untuk mengakomodasi semua panel. Sistem koordinator-nate yang digunakan secara default adalah seperti sistem koordinat Kartesius: panel diambil mulai dari sudut kiri bawah, melanjutkan kanan pertama dan kemudian naik. Perilaku ini dapat diubah dengan menetapkan as.table = TRUE dalam kisi panggilan tingkat tinggi, 7 di mana panel kasus diambil dari sudut kiri, kanan dan kemudian akan turun.
Jika ada dua atau lebih variabel pendingin, default tata letak dengan panjang dua pertama dimensi, yaitu, jumlah default kolom untuk jumlah tingkat variabel pendingin pertama dan jumlah baris dengan jumlah tingkat dari variabel pendingin kedua (akibatnya, jumlah halaman secara implisit produk dari jumlah tingkat variabel pendingin yang tersisa, jika ada). Ini jelas default yang masuk akal, meskipun bertanggung jawab untuk tampilan agak canggung pada Gambar 2.3.
Cara yang jelas untuk "memperbaiki" Gambar 2.3 adalah untuk beralih urutan variabel Condi-tioning. Hal ini dapat dilakukan dengan regenerasi "teralis" objek, atau dengan hanya transposing yang sudah ada dengan menggunakan
> T (tp1.oats)
Namun, kami menggunakan pendekatan lain yang menggunakan bentuk khusus dari argumen tata letak. Elemen pertama dari tata letak dapat 0, dalam hal elemen kedua ditafsirkan sebagai (batas bawah pada) jumlah panel per halaman, meninggalkan perangkat lunak bebas untuk memilih tata letak yang tepat. Hal ini dilakukan dengan mempertimbangkan aspek rasio dan dimensi perangkat, dan kemudian memilih tata letak sehingga ruang yang ditempati oleh masing-masing panel dimaksimalkan. Hasil menggunakan ini pada petak kami data Oats diberikan pada
2 Sebuah
Ikhtisar Teknis kisi
Jika hanya ada satu variabel pendingin dengan tingkat n, nilai default dari tata letak adalah c (0, n), sehingga mengambil keuntungan dari hal ini tata letak otomatis computa-tion. Ketika aspek = "isi" (default dalam banyak kasus), perhitungan ini dilakukan dengan rasio aspek awal 1, tapi di layar akhirnya panel diperluas untuk mengisi semua ruang yang tersedia.
2.2.3 Baik-tuning tata letak: antara dan melewatkan
Antara argumen dapat daftar, dengan komponen x dan y (baik biasanya 0 secara default) yang vektor numerik menentukan jumlah ruang kosong antara panel (dalam satuan ketinggian karakter). x dan y diulang untuk memperhitungkan semua panel di halaman, dan setiap komponen tambahan diabaikan. Hal ini sering berguna dalam memberikan isyarat visual memisahkan panel ke dalam blok, seperti pada Gambar 2.5.
Argumen lain yang berguna dalam fine-tuning tata letak melompat, yang ditetapkan sebagai vektor logis (SALAH default), direplikasi menjadi asalkan jumlah panel. Untuk elemen yang BENAR, posisi panel sesuai dilewati; yaitu, tidak ada yang diplot di posisi itu. Panel yang sup-berpose untuk ditarik ada sekarang ditarik di posisi panel berikutnya yang tersedia, dan posisi semua panel berikutnya yang bertemu up sesuai. Hal ini sering berguna untuk mengatur plot secara informatif.
2.3 menampilkan Dikelompokkan
Grafis teralis dimaksudkan untuk mendorong visualisasi ff efektif mudah dan e hubungan multi-variate di dataset. Seperti yang kita lihat di Bab 1, sebuah konstruksi yang kuat yang memaksa perbandingan langsung adalah superposisi, di mana data yang terkait dengan tingkat dif-ferent dari variabel pengelompokan tersebut diberikan bersama-sama dalam sebuah panel, tetapi dengan karakteristik grafis di ff berbeda-beda. Sebagai contoh, kurva erent di ff dapat ditarik di di ff warna erent atau garis jenis, atau titik dapat ditarik dengan simbol erent di ff. Superposisi biasanya lebih e ff efektif daripada pendingin Multipanel ketika jumlah tingkat variabel pengelompokan kecil. Bagi banyak fungsi kisi, menentukan argumen kelompok yang mengacu pada variabel kategoris cukup untuk menghasilkan "alami" dikelompokkan layar.
Kita telah melihat menampilkan dikelompokkan dalam Bab 1. Mungkin contoh yang paling terkenal dalam konteks grafis Teralis adalah Gambar 1.1 dari Cleveland (1993), yang diciptakan pada Gambar 2.6 menggunakan kode berikut.
> Dotplot (berbagai ~ yield | situs, barley, tata letak = c (1, 6), aspek = c (0,7),
kelompok = tahun, auto.key = daftar (spasi = "kanan"))
Plot adalah visualisasi data dari percobaan barley berjalan di Minnesota pada 1930-an (Fisher, 1971), dan dibahas secara luas oleh Cleveland (1993). Plot e ff secara efektif menggabungkan pengelompokan dan pendingin untuk menyoroti sebuah anomali dalam data tidak mudah melihat sebaliknya.
Jika hanya ada satu variabel pendingin dengan tingkat n, nilai default dari tata letak adalah c (0, n), sehingga mengambil keuntungan dari hal ini tata letak otomatis computa-tion. Ketika aspek = "isi" (default dalam banyak kasus), perhitungan ini dilakukan dengan rasio aspek awal 1, tapi di layar akhirnya panel diperluas untuk mengisi semua ruang yang tersedia.
2.2.3 Baik-tuning tata letak: antara dan melewatkan
Antara argumen dapat daftar, dengan komponen x dan y (baik biasanya 0 secara default) yang vektor numerik menentukan jumlah ruang kosong antara panel (dalam satuan ketinggian karakter). x dan y diulang untuk memperhitungkan semua panel di halaman, dan setiap komponen tambahan diabaikan. Hal ini sering berguna dalam memberikan isyarat visual memisahkan panel ke dalam blok, seperti pada Gambar 2.5.
Argumen lain yang berguna dalam fine-tuning tata letak melompat, yang ditetapkan sebagai vektor logis (SALAH default), direplikasi menjadi asalkan jumlah panel. Untuk elemen yang BENAR, posisi panel sesuai dilewati; yaitu, tidak ada yang diplot di posisi itu. Panel yang sup-berpose untuk ditarik ada sekarang ditarik di posisi panel berikutnya yang tersedia, dan posisi semua panel berikutnya yang bertemu up sesuai. Hal ini sering berguna untuk mengatur plot secara informatif.
2.3 menampilkan Dikelompokkan
Grafis teralis dimaksudkan untuk mendorong visualisasi ff efektif mudah dan e hubungan multi-variate di dataset. Seperti yang kita lihat di Bab 1, sebuah konstruksi yang kuat yang memaksa perbandingan langsung adalah superposisi, di mana data yang terkait dengan tingkat dif-ferent dari variabel pengelompokan tersebut diberikan bersama-sama dalam sebuah panel, tetapi dengan karakteristik grafis di ff berbeda-beda. Sebagai contoh, kurva erent di ff dapat ditarik di di ff warna erent atau garis jenis, atau titik dapat ditarik dengan simbol erent di ff. Superposisi biasanya lebih e ff efektif daripada pendingin Multipanel ketika jumlah tingkat variabel pengelompokan kecil. Bagi banyak fungsi kisi, menentukan argumen kelompok yang mengacu pada variabel kategoris cukup untuk menghasilkan "alami" dikelompokkan layar.
Kita telah melihat menampilkan dikelompokkan dalam Bab 1. Mungkin contoh yang paling terkenal dalam konteks grafis Teralis adalah Gambar 1.1 dari Cleveland (1993), yang diciptakan pada Gambar 2.6 menggunakan kode berikut.
> Dotplot (berbagai ~ yield | situs, barley, tata letak = c (1, 6), aspek = c (0,7),
kelompok = tahun, auto.key = daftar (spasi = "kanan"))
Plot adalah visualisasi data dari percobaan barley berjalan di Minnesota pada 1930-an (Fisher, 1971), dan dibahas secara luas oleh Cleveland (1993). Plot e ff secara efektif menggabungkan pengelompokan dan pendingin untuk menyoroti sebuah anomali dalam data tidak mudah melihat sebaliknya.
Gambar 2.6.
Sebuah multiway dot plot data dari percobaan barley berjalan di Minnesota pada
1930-an. Yield diplot untuk beberapa varietas gandum, AC di enam lokasi. Di ff simbol
erent digunakan untuk di ff erentiate tahun. Pengelompokan dan pendingin
menggabungkan untuk menyorot sebuah anomali dalam data dari Morris. Pilihan
lain halus yang meningkatkan e ff efektifitas dari layar adalah memesan panel
(situs) dan y variabel (berbagai).
2.10 Anotasi: Keterangan, label, dan legenda
Dalam Gambar 2.6, seperti dalam Bab 1, kita telah dijelaskan layar dengan menambahkan legenda, atau kunci, yang menjelaskan korespondensi simbol erent di ff ke tingkat masing-masing variabel pengelompokan. Legenda seperti yang alami dalam display dikelompokkan, tetapi tidak ditarik secara default. Biasanya, yang paling sederhana (meskipun bukan yang paling umum) cara untuk menambahkan legenda cocok untuk tampilan dikelompokkan adalah untuk mengatur draw.key = TRUE dalam panggilan. Sering kunci sehingga dihasilkan perlu mengutak-atik kecil untuk mendapatkan hasil yang lebih diinginkan; ini dapat dicapai dengan menetapkan auto.key sebagai daftar dengan komponen yang sesuai. Secara umum, legenda dapat ditempatkan dalam salah satu dari empat sisi layar, dalam hal ini cukup ruang secara otomatis dialokasikan untuk mereka. Atau, mereka dapat ditempatkan di manapun di dalam layar, dalam hal ini tidak ada ruang ekstra yang tersisa, dan pengguna harus memastikan bahwa mereka tidak mengganggu tampilan sebenarnya.
Sarana umum lainnya annotating display yang menambah cap-tions bermakna dan label. Sama seperti dengan tingkat tinggi fungsi grafis tradisional, sebagian besar fungsi kisi memungkinkan penambahan empat keterangan dasar: judul utama di atas (yang ditentukan oleh argumen utama), subjudul di bagian bawah (sub), label sumbu x hanya di bawah sumbu x (xlab), dan label sumbu y di sebelah kiri sumbu y (ylab). xlab dan ylab biasanya memiliki beberapa default masuk akal, sedangkan dua lainnya dihilangkan. Label ini biasanya string teks, tetapi juga dapat menjadi "ekspresi" benda, 8 atau lebih umum, objek kotak sewenang-wenang (grobs). Tipe lain dari penjelasan langsung didukung oleh fungsi kisi adalah melalui argumen halaman. Jika ditentukan, itu harus fungsi, dan disebut setelah setiap halaman ditarik. Hal ini dapat digunakan, misalnya, untuk menandai nomor halaman di layar multipage.
Sebuah diskusi lengkap fasilitas penjelasan ini diberikan dalam Bab 9. Di sini, di Gambar 2.7, kami menyajikan salah satu contoh sederhana dengan berbagai label dan legenda. Namun, untuk sepenuhnya menghargai bahkan contoh yang sederhana ini, kita perlu belajar sedikit tentang bagaimana legenda ditentukan.
2.11 Lebih lanjut tentang legenda
Pembangunan legenda adalah sedikit lebih terlibat daripada label teks, karena mereka berpotensi memiliki struktur yang lebih. Template cukup kaya untuk kebanyakan legenda adalah satu dengan (nol, satu, atau lebih) kolom teks, titik, garis, dan persegi panjang, dengan sesuai di simbol ff erent, warna, dan sebagainya. Legenda tersebut dapat con-structed menggunakan draw.key () fungsi, yang dapat langsung digunakan untuk menambah legenda untuk plot hanya dengan menentukan daftar cocok sebagai argumen kunci dalam fungsi kisi-tingkat tinggi. Untuk membangun daftar ini, kita perlu tahu apa yang masuk ke legenda. Yang di Gambar 2.7 memiliki kolom teks dengan tingkat Variety, dan kolom poin dengan simbol yang sesuai.
2.10 Anotasi: Keterangan, label, dan legenda
Dalam Gambar 2.6, seperti dalam Bab 1, kita telah dijelaskan layar dengan menambahkan legenda, atau kunci, yang menjelaskan korespondensi simbol erent di ff ke tingkat masing-masing variabel pengelompokan. Legenda seperti yang alami dalam display dikelompokkan, tetapi tidak ditarik secara default. Biasanya, yang paling sederhana (meskipun bukan yang paling umum) cara untuk menambahkan legenda cocok untuk tampilan dikelompokkan adalah untuk mengatur draw.key = TRUE dalam panggilan. Sering kunci sehingga dihasilkan perlu mengutak-atik kecil untuk mendapatkan hasil yang lebih diinginkan; ini dapat dicapai dengan menetapkan auto.key sebagai daftar dengan komponen yang sesuai. Secara umum, legenda dapat ditempatkan dalam salah satu dari empat sisi layar, dalam hal ini cukup ruang secara otomatis dialokasikan untuk mereka. Atau, mereka dapat ditempatkan di manapun di dalam layar, dalam hal ini tidak ada ruang ekstra yang tersisa, dan pengguna harus memastikan bahwa mereka tidak mengganggu tampilan sebenarnya.
Sarana umum lainnya annotating display yang menambah cap-tions bermakna dan label. Sama seperti dengan tingkat tinggi fungsi grafis tradisional, sebagian besar fungsi kisi memungkinkan penambahan empat keterangan dasar: judul utama di atas (yang ditentukan oleh argumen utama), subjudul di bagian bawah (sub), label sumbu x hanya di bawah sumbu x (xlab), dan label sumbu y di sebelah kiri sumbu y (ylab). xlab dan ylab biasanya memiliki beberapa default masuk akal, sedangkan dua lainnya dihilangkan. Label ini biasanya string teks, tetapi juga dapat menjadi "ekspresi" benda, 8 atau lebih umum, objek kotak sewenang-wenang (grobs). Tipe lain dari penjelasan langsung didukung oleh fungsi kisi adalah melalui argumen halaman. Jika ditentukan, itu harus fungsi, dan disebut setelah setiap halaman ditarik. Hal ini dapat digunakan, misalnya, untuk menandai nomor halaman di layar multipage.
Sebuah diskusi lengkap fasilitas penjelasan ini diberikan dalam Bab 9. Di sini, di Gambar 2.7, kami menyajikan salah satu contoh sederhana dengan berbagai label dan legenda. Namun, untuk sepenuhnya menghargai bahkan contoh yang sederhana ini, kita perlu belajar sedikit tentang bagaimana legenda ditentukan.
2.11 Lebih lanjut tentang legenda
Pembangunan legenda adalah sedikit lebih terlibat daripada label teks, karena mereka berpotensi memiliki struktur yang lebih. Template cukup kaya untuk kebanyakan legenda adalah satu dengan (nol, satu, atau lebih) kolom teks, titik, garis, dan persegi panjang, dengan sesuai di simbol ff erent, warna, dan sebagainya. Legenda tersebut dapat con-structed menggunakan draw.key () fungsi, yang dapat langsung digunakan untuk menambah legenda untuk plot hanya dengan menentukan daftar cocok sebagai argumen kunci dalam fungsi kisi-tingkat tinggi. Untuk membangun daftar ini, kita perlu tahu apa yang masuk ke legenda. Yang di Gambar 2.7 memiliki kolom teks dengan tingkat Variety, dan kolom poin dengan simbol yang sesuai.
Di sini kita mengalami masalah. Simbol dan warna yang
digunakan secara default dalam tampilan kisi tidak ditentukan sampai plot
sebenarnya ditarik, sehingga pengaturan grafis saat ini dapat diperhitungkan
(lihat Bab 7 untuk rincian). Sebagai contoh, sebagian besar plot pada
halaman-halaman buku ini adalah hitam dan putih, tetapi pembaca mencoba untuk
mereproduksi mereka kemungkinan besar akan melakukannya secara interaktif pada
terminal komputer, dan akan melihat mereka dalam warna. Dengan kata lain,
ketika membuat panggilan ke xyplot (), kita tidak tahu apa parameter grafis
dalam plot, dan karenanya legenda, akan menjadi. Sebuah solusi kikuk, digunakan
untuk menghasilkan Gambar 2.7, adalah untuk memotong masalah dengan secara
eksplisit menentukan warna dan simbol dalam panggilan itu sendiri.
> Key.variety <-
Daftar (spasi = "kanan", teks = daftar (tingkat (Oats $ Ragam)), menunjuk = daftar (pch = 1: 3, col = "hitam"))
> Xyplot (hasil ~ nitro | Block, Oats, aspek = "xy", type = "o", kelompok = Variety, kunci = key.variety, lty = 1, pch = 1: 3, col.line = "darkgrey" , col.symbol = "hitam",
xlab = "konsentrasi Nitrogen (CWT / are)", ylab = "Yield (gantang / acre)",
utama = "Hasil dari tiga varietas gandum",
sub = "Percobaan 3 x 4 split-plot dengan 6 blok")
Dalam kebanyakan kasus, solusi yang lebih baik adalah dengan menggunakan argumen auto.key, yang telah kami sediakan pada beberapa kesempatan. Bab 9 membahas masalah ini secara lebih rinci dan menjelaskan peran yang tepat dari auto.key.
28 2 A Ikhtisar Teknis kisi
2,5 Graphing data
Pada akhir hari, kegunaan grafis statistik ditentukan oleh bagaimana membuat informasi yang seharusnya untuk menyampaikan. Multipanel con-ditioning, jika digunakan, memaksakan beberapa struktur awal pada layar Teralis oleh sistematis membagi data dalam cara yang berarti. Setelah menentukan ini subset data (paket) dan tata letak mereka, mereka selanjutnya perlu digambarkan. Ini melibatkan encoding grafis dari data, biasanya dengan render sumbu yang relevan (tanda centang dan label) untuk menyediakan kerangka acuan. Untuk menampilkan Multipanel, elemen tambahan yang menjelaskan setiap panel, khususnya tingkat terkait variabel pendingin, diperlukan. Hal ini dilakukan dengan menggunakan strip, yang dapat disesuaikan atau benar-benar dihilangkan dengan menentukan strip cocok (dan dalam beberapa kasus strip.left) argumen untuk fungsi tingkat tinggi kisi (lihat Bagian 10.7 untuk rincian).
> Key.variety <-
Daftar (spasi = "kanan", teks = daftar (tingkat (Oats $ Ragam)), menunjuk = daftar (pch = 1: 3, col = "hitam"))
> Xyplot (hasil ~ nitro | Block, Oats, aspek = "xy", type = "o", kelompok = Variety, kunci = key.variety, lty = 1, pch = 1: 3, col.line = "darkgrey" , col.symbol = "hitam",
xlab = "konsentrasi Nitrogen (CWT / are)", ylab = "Yield (gantang / acre)",
utama = "Hasil dari tiga varietas gandum",
sub = "Percobaan 3 x 4 split-plot dengan 6 blok")
Dalam kebanyakan kasus, solusi yang lebih baik adalah dengan menggunakan argumen auto.key, yang telah kami sediakan pada beberapa kesempatan. Bab 9 membahas masalah ini secara lebih rinci dan menjelaskan peran yang tepat dari auto.key.
28 2 A Ikhtisar Teknis kisi
2,5 Graphing data
Pada akhir hari, kegunaan grafis statistik ditentukan oleh bagaimana membuat informasi yang seharusnya untuk menyampaikan. Multipanel con-ditioning, jika digunakan, memaksakan beberapa struktur awal pada layar Teralis oleh sistematis membagi data dalam cara yang berarti. Setelah menentukan ini subset data (paket) dan tata letak mereka, mereka selanjutnya perlu digambarkan. Ini melibatkan encoding grafis dari data, biasanya dengan render sumbu yang relevan (tanda centang dan label) untuk menyediakan kerangka acuan. Untuk menampilkan Multipanel, elemen tambahan yang menjelaskan setiap panel, khususnya tingkat terkait variabel pendingin, diperlukan. Hal ini dilakukan dengan menggunakan strip, yang dapat disesuaikan atau benar-benar dihilangkan dengan menentukan strip cocok (dan dalam beberapa kasus strip.left) argumen untuk fungsi tingkat tinggi kisi (lihat Bagian 10.7 untuk rincian).
Asumsi dasar yang dibuat dalam desain Teralis adalah
bahwa sifat encoding grafis akan berulang; yaitu, prosedur yang sama akan digunakan
untuk memvisualisasikan setiap paket. Hal ini memungkinkan decoupling dari
prosedur yang menarik data dan sumbu, yang kemudian dapat dikontrol secara
terpisah. Ingat bahwa setiap panel pada layar memiliki paket terkait, subset
dari seluruh data. Bentuk yang tepat dari sebuah paket akan tergantung pada
fungsi tingkat tinggi yang digunakan. Mengingat resep untuk grafis, paket
menentukan persegi panjang data, wilayah dua dimensi melampirkan grafis.
Misalnya, dalam scatter plot bivariat ini biasanya persegi panjang yang
didefinisikan oleh berbagai data; untuk histogram, sejauh horisontal persegi
panjang data interval minimal berisi semua sampah, dan rentang skala vertikal
dari 0 di bagian bawah dengan ketinggian bin tertinggi (yang akan tergantung
pada jenis histogram ditarik) di puncak. Sepotong mungkin relevan lain dari
informasi ditentukan oleh paket adalah aspek rasio yang cocok untuk data ini
persegi panjang. Dalam semua menampilkan kisi, potongan-potongan informasi
dihitung dengan yang disebut fungsi prepanel, yang dibahas secara rinci dalam
Bab 8. Perhatikan bahwa pandangan ini tidak sepenuhnya memuaskan, karena untuk
beberapa display (misalnya, scatter-plot matriks menggunakan splom () dan plot
pencar tiga dimensi menggunakan cloud ()) sumbu biasa tidak memiliki arti dan
prosedur tampilan data itu sendiri harus berurusan dengan skala.
2.12 Timbangan dan kapak
Untuk panel display tunggal, satu dapat melanjutkan untuk menarik sumbu dan grafis sekali persegi panjang data dan aspek rasio ditentukan. Namun, untuk mul-tipanel display, perlu ada langkah menengah menggabungkan informasi dari di ff paket berbeda-beda. Aspek rasio umum dipilih oleh beberapa bentuk rata-rata jika diperlukan. Ada tiga aturan alternatif yang tersedia untuk menentukan skala. Pilihan default adalah menggunakan persegi panjang data yang sama untuk setiap panel, yaitu, persegi panjang terkecil yang membungkus semua persegi panjang data individu. Hal ini memungkinkan perbandingan visual yang mudah antara panel tanpa con-stantly harus mengacu pada sumbu. Pilihan ini juga memungkinkan panel untuk berbagi
2.12 Timbangan dan kapak
Untuk panel display tunggal, satu dapat melanjutkan untuk menarik sumbu dan grafis sekali persegi panjang data dan aspek rasio ditentukan. Namun, untuk mul-tipanel display, perlu ada langkah menengah menggabungkan informasi dari di ff paket berbeda-beda. Aspek rasio umum dipilih oleh beberapa bentuk rata-rata jika diperlukan. Ada tiga aturan alternatif yang tersedia untuk menentukan skala. Pilihan default adalah menggunakan persegi panjang data yang sama untuk setiap panel, yaitu, persegi panjang terkecil yang membungkus semua persegi panjang data individu. Hal ini memungkinkan perbandingan visual yang mudah antara panel tanpa con-stantly harus mengacu pada sumbu. Pilihan ini juga memungkinkan panel untuk berbagi
Gambar 2.8.
Sebuah bar chart merangkum nasib penumpang kapal Titanic, diklasifikasikan
berdasarkan jenis kelamin, usia, dan kelas. Plot didominasi oleh panel ketiga
(laki-laki dewasa) sebagai ketinggian bar mengkodekan jumlah mutlak, dan semua
panel memiliki batas yang sama.
seperangkat tanda centang dan label sumbu sepanjang batas, menghemat ruang berharga. Kadang-kadang hal ini tidak memuaskan karena rentang data dalam di ff paket erent terlalu di ff berbeda-beda. Jika data tidak memiliki dasar alami dan perbandingan yang relevan pada dasarnya dilakukan dalam hal di ff perbedaan-perbedaan, sering su FFI ces untuk memiliki di ff erent timbangan selama jumlah unit per cm adalah sama. Pilihan ketiga, terutama berguna untuk perbandingan kualitatif, adalah untuk memungkinkan skala benar-benar independen, dalam hal ini persegi panjang data untuk setiap panel ditentukan hanya dengan paket yang sesuai. Semua pilihan ini dapat dibuat selektif baik untuk sumbu. Pilihan yang memerintah menggunakan dikendalikan oleh argumen timbangan, yang juga dapat digunakan untuk mengontrol aspek-aspek lain dari sumbu an-notasi, seperti jumlah tanda centang, posisi dan label kutu, dan sebagainya. Lebih langsung, argumen xlim dan ylim memungkinkan spesifikasi eksplisit dari persegi panjang data, mengesampingkan perhitungan default. Ini merupakan topik penting dan luas, dan diberikan pertimbangan dalam Bab 8. Kami memberikan salah satu contoh sederhana di sini.
Dataset Titanic memberikan (sebagai array empat dimensi) cross-tabulasi nasib 2.201 penumpang kapal yang terkenal, dikategorikan oleh status ekonomi (kelas), jenis kelamin, dan usia. Untuk menggunakan data dalam plot kisi, akan lebih mudah untuk memaksa ke dalam frame data. Usaha pertama kami mungkin terlihat seperti berikut, yang menghasilkan Gambar 2.8.
> Barchart (Kelas ~ Freq | Sex + Age, data = as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan" , kolom = 2))
seperangkat tanda centang dan label sumbu sepanjang batas, menghemat ruang berharga. Kadang-kadang hal ini tidak memuaskan karena rentang data dalam di ff paket erent terlalu di ff berbeda-beda. Jika data tidak memiliki dasar alami dan perbandingan yang relevan pada dasarnya dilakukan dalam hal di ff perbedaan-perbedaan, sering su FFI ces untuk memiliki di ff erent timbangan selama jumlah unit per cm adalah sama. Pilihan ketiga, terutama berguna untuk perbandingan kualitatif, adalah untuk memungkinkan skala benar-benar independen, dalam hal ini persegi panjang data untuk setiap panel ditentukan hanya dengan paket yang sesuai. Semua pilihan ini dapat dibuat selektif baik untuk sumbu. Pilihan yang memerintah menggunakan dikendalikan oleh argumen timbangan, yang juga dapat digunakan untuk mengontrol aspek-aspek lain dari sumbu an-notasi, seperti jumlah tanda centang, posisi dan label kutu, dan sebagainya. Lebih langsung, argumen xlim dan ylim memungkinkan spesifikasi eksplisit dari persegi panjang data, mengesampingkan perhitungan default. Ini merupakan topik penting dan luas, dan diberikan pertimbangan dalam Bab 8. Kami memberikan salah satu contoh sederhana di sini.
Dataset Titanic memberikan (sebagai array empat dimensi) cross-tabulasi nasib 2.201 penumpang kapal yang terkenal, dikategorikan oleh status ekonomi (kelas), jenis kelamin, dan usia. Untuk menggunakan data dalam plot kisi, akan lebih mudah untuk memaksa ke dalam frame data. Usaha pertama kami mungkin terlihat seperti berikut, yang menghasilkan Gambar 2.8.
> Barchart (Kelas ~ Freq | Sex + Age, data = as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan" , kolom = 2))
Gambar 2.9.
Kelangsungan hidup di antara di ff subkelompok erent penumpang di Titanic,
dengan erent skala horisontal di ff di setiap panel. Ini menekankan proporsi
korban dalam setiap subkelompok, daripada angka mutlak. Proporsi yang selamat
adalah yang terkecil di antara penumpang kelas ketiga, meskipun jumlah absolut
yang selamat tidak terlalu rendah dibandingkan dengan kelas-kelas lain.
Semua rencana ini benar-benar memberitahu kita bahwa ada lebih banyak laki-laki daripada perempuan kapal (khususnya di kalangan awak, yang merupakan kelompok terbesar), dan bahwa ada anak-anak bahkan lebih sedikit; yang, meskipun benar, biasa-biasa saja. Titik kita benar-benar ingin membuat adalah bahwa "menyelamatkan perempuan dan anak-anak pertama" kebijakan tidak bekerja dengan baik untuk penumpang kelas ketiga. Hal ini lebih mudah terlihat jika kita menekankan proporsi korban dengan memungkinkan skala horisontal independen untuk panel erent di ff. Gambar 2.9 dibuat menggunakan
> Barchart (Kelas ~ Freq | Sex + Age, data = as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan" , kolom = 2),
timbangan = daftar (x = "bebas"))
Semua rencana ini benar-benar memberitahu kita bahwa ada lebih banyak laki-laki daripada perempuan kapal (khususnya di kalangan awak, yang merupakan kelompok terbesar), dan bahwa ada anak-anak bahkan lebih sedikit; yang, meskipun benar, biasa-biasa saja. Titik kita benar-benar ingin membuat adalah bahwa "menyelamatkan perempuan dan anak-anak pertama" kebijakan tidak bekerja dengan baik untuk penumpang kelas ketiga. Hal ini lebih mudah terlihat jika kita menekankan proporsi korban dengan memungkinkan skala horisontal independen untuk panel erent di ff. Gambar 2.9 dibuat menggunakan
> Barchart (Kelas ~ Freq | Sex + Age, data = as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan" , kolom = 2),
timbangan = daftar (x = "bebas"))
2.13 Fungsi panel
Setelah sisa struktur (tata letak, persegi panjang data, penjelasan) di tempat, paket diplot dalam panel yang tepat. The merencanakan sebenarnya dilakukan oleh fungsi yang terpisah, yang dikenal sebagai fungsi panel dan ditetapkan sebagai argumen panel, yang dieksekusi sekali untuk setiap panel dengan paket data terkait sebagai argumen. Setiap fungsi kisi-tingkat tinggi memiliki fungsi panel standar sendiri. Dengan konvensi, nama fungsi ini diberikan oleh "panel." Diikuti dengan nama fungsi tingkat tinggi. Sebagai contoh, fungsi panel default untuk barchart () disebut panel.barchart, bahwa untuk histogram () adalah panel.histogram, dan sebagainya. Bab-bab yang tersisa di Bagian I menggambarkan berbagai fungsi tingkat tinggi dan fungsi panel default secara lebih rinci. Banyak yang dapat dicapai dengan fungsi panel default, tapi satu tidak kembali stricted kepada mereka dengan cara apapun. Bahkan, itu adalah kemampuan untuk menentukan fungsi panel kustom yang memungkinkan pengguna untuk membuat novel yang Teralis menampilkan mudah, proses dijelaskan secara mendalam di. Bahkan ketika fungsi panel yang telah ditetapkan memadai, pemahaman tentang proses ini dapat meningkatkan kemampuan menggunakannya e ff secara efektif. Untuk alasan ini, kita menghabiskan beberapa waktu di sini menjelajahi aspek ini. Pembaca baru untuk R dan kisi mungkin ingin melewatkan bagian berikutnya pada bacaan pertama jika mereka merasa membingungkan. Fungsi panel adalah, pertama dan terutama, fungsi. Hal ini mungkin terdengar jelas, tetapi konsep fungsi sebagai argumen untuk fungsi lainnya adalah sering di FFI kultus untuk memahami bagi mereka yang tidak digunakan untuk bahasa-bahasa fungsional. Untuk memperbaiki ide-ide, mari kita perhatikan panggilan yang menghasilkan Seperti yang kita rencanakan untuk bereksperimen hanya dengan fungsi panel, tidak ada gunanya mengulangi panggilan penuh setiap kali. Jadi, kita menyimpan objek dalam variabel dan menggunakan metode update () untuk memanipulasi lebih lanjut.
> Bc.titanic <-
barchart (Kelas ~ Freq | Sex + Age, as.data.frame (Titanic), kelompok = Bertahan, tumpukan = TRUE, tata letak = c (4, 1), auto.key = daftar (title = "Bertahan", kolom = 2), timbangan = daftar (x = "bebas"))
Gambar 2.9 dapat direproduksi dengan mencetak objek ini.
> Bc.titanic
Karena fungsi panel default untuk barchart () adalah panel.barchart (), ini setara dengan
> Update (bc.titanic, panel = panel.barchart)
yang memiliki e sama ff ect sebagai menentukan panel = panel.barchart dalam panggilan orig inal-. Perhatikan bahwa hasil dari panggilan untuk memperbarui (), yang itu sendiri merupakan objek dari kelas "teralis", belum ditugaskan ke variabel dan sehingga akan dicetak seperti biasa. Variabel bc.titanic tetap tidak berubah. Untuk membuat lebih eksplisit gagasan bahwa panel adalah fungsi, kita dapat menulis ulang ini sebagai
> Update (bc.titanic,
panel = function (...) {panel.barchart (...)
})
Meskipun ini tidak apa-apa baru, itu menggambarkan fitur penting dari bahasa S yang penting adalah mudah bagi pemula untuk kehilangan; yaitu
... Argumen. Fungsi rumit biasanya mencapai tugas mereka dengan memanggil fungsi sederhana. The ... argumen dalam fungsi adalah cara yang nyaman untuk itu untuk menangkap argumen yang benar-benar dimaksudkan untuk fungsi lain yang disebut oleh itu, tanpa perlu tahu secara eksplisit apa yang mereka argumen mungkin. Trik ini
BAB III
METODE PENELITIAN
3.1Simple
Scatterplot
Ada banyak cara untuk membuat
scatterplot di R. Fungsi dasar plot (x, y),
dimana x dan y
adalah vektor numerik yang menunjukkan (x, y)
poin plot.
# Simple Scatterplot
attach(mtcars)
plot(wt, mpg, main="Scatterplot Example",
xlab="Car Weight ", ylab="Miles Per Gallon ", pch=19)
attach(mtcars)
plot(wt, mpg, main="Scatterplot Example",
xlab="Car Weight ", ylab="Miles Per Gallon ", pch=19)
# Add fit lines
abline(lm(mpg~wt), col="red") # regression line (y~x)
lines(lowess(wt,mpg), col="blue") # lowess line (x,y)
abline(lm(mpg~wt), col="red") # regression line (y~x)
lines(lowess(wt,mpg), col="blue") # lowess line (x,y)
Sebar () fungsi dalam paket mobil
menawarkan banyak fitur yang
disempurnakan, termasuk fit
garis, plot kotak
marjinal, pendingin pada faktor, dan
identifikasi titik interaktif.
Masing-masing fitur ini adalah opsional.
# Enhanced Scatterplot of MPG vs.
Weight
# by Number of Car Cylinders
library(car)
scatterplot(mpg ~ wt | cyl, data=mtcars,
xlab="Weight of Car", ylab="Miles Per Gallon",
main="Enhanced Scatter Plot",
labels=row.names(mtcars))
# by Number of Car Cylinders
library(car)
scatterplot(mpg ~ wt | cyl, data=mtcars,
xlab="Weight of Car", ylab="Miles Per Gallon",
main="Enhanced Scatter Plot",
labels=row.names(mtcars))
3.2 Scatterplot Matrices
Setidaknya ada 4 fungsi yang berguna untuk membuat matriks scatter plot. Analis
harus mencintai matriks sebar!
# Basic Scatterplot Matrix
pairs(~mpg+disp+drat+wt,data=mtcars,
main="Simple Scatterplot Matrix")
pairs(~mpg+disp+drat+wt,data=mtcars,
main="Simple Scatterplot Matrix")
Paket kisi menyediakan opsi untuk kondisi matriks sebar pada
faktor.
# Scatterplot Matrices from the
lattice Package
library(lattice)
splom(mtcars[c(1,3,5,6)], groups=cyl, data=mtcars,
panel=panel.superpose,
key=list(title="Three Cylinder Options",
columns=3,
points=list(pch=super.sym$pch[1:3],
col=super.sym$col[1:3]),
text=list(c("4 Cylinder","6 Cylinder","8 Cylinder"))))
library(lattice)
splom(mtcars[c(1,3,5,6)], groups=cyl, data=mtcars,
panel=panel.superpose,
key=list(title="Three Cylinder Options",
columns=3,
points=list(pch=super.sym$pch[1:3],
col=super.sym$col[1:3]),
text=list(c("4 Cylinder","6 Cylinder","8 Cylinder"))))
Paket mobil dapat mengkondisikan
matriks sebar pada
faktor, dan opsional
termasuk lowess dan
garis paling cocok linear,
dan boxplot, kepadatan,
atau histogram dalam
pokok diagonal, serta
plot karpet di
pinggir sel.
# Scatterplot Matrices from the car
Package
library(car)
scatterplot.matrix(~mpg+disp+drat+wt|cyl, data=mtcars,
main="Three Cylinder Options")
library(car)
scatterplot.matrix(~mpg+disp+drat+wt|cyl, data=mtcars,
main="Three Cylinder Options")
Paket glus menyediakan opsi untuk mengatur ulang variabel sehingga mereka yang memiliki korelasi yang lebih tinggi lebih dekat ke diagonal utama. Hal ini juga dapat kode warna sel untuk
mencerminkan ukuran korelasi.
# Scatterplot Matrices from the glus
Package
library(gclus)
dta <- mtcars[c(1,3,5,6)] # get data
dta.r <- abs(cor(dta)) # get correlations
dta.col <- dmat.color(dta.r) # get colors
# reorder variables so those with highest correlation
# are closest to the diagonal
dta.o <- order.single(dta.r)
cpairs(dta, dta.o, panel.colors=dta.col, gap=.5,
main="Variables Ordered and Colored by Correlation" )
library(gclus)
dta <- mtcars[c(1,3,5,6)] # get data
dta.r <- abs(cor(dta)) # get correlations
dta.col <- dmat.color(dta.r) # get colors
# reorder variables so those with highest correlation
# are closest to the diagonal
dta.o <- order.single(dta.r)
cpairs(dta, dta.o, panel.colors=dta.col, gap=.5,
main="Variables Ordered and Colored by Correlation" )
3.3 High Density Scatterplots
Ketika ada banyak titik data dan
tumpang tindih yang signifikan, scatterplots menjadi kurang berguna. Ada beberapa pendekatan yang digunakan saat ini
terjadi. The hexbin (x, y) fungsi dalam
paket hexbin memberikan Binning bivariat ke
dalam sel heksagonal (tampak
lebih baik daripada kedengarannya).
# High Density Scatterplot with
Binning
library(hexbin)
x <- rnorm(1000)
y <- rnorm(1000)
bin<-hexbin(x, y, xbins=50)
plot(bin, main="Hexagonal Binning")
library(hexbin)
x <- rnorm(1000)
y <- rnorm(1000)
bin<-hexbin(x, y, xbins=50)
plot(bin, main="Hexagonal Binning")
Pilihan lain untuk plot pencar dengan
titik tumpang tindih yang signifikan adalah plot bunga matahari. Benih bantuan
(bunga matahari plot) untuk rincian. Akhirnya, Anda dapat menyimpan plot
pencar dalam format PDF dan menggunakan
transparansi warna untuk memungkinkan poin yang tumpang tindih untuk menunjukkan melalui
(ide ini berasal dari BS Everitt dalam
HSAUR).
# High Density Scatterplot with
Color Transparency
pdf("c:/scatterplot.pdf")
x <- rnorm(1000)
y <- rnorm(1000)
plot(x,y, main="PDF Scatterplot Example", col=rgb(0,100,0,50,maxColorValue=255), pch=16)
dev.off()
pdf("c:/scatterplot.pdf")
x <- rnorm(1000)
y <- rnorm(1000)
plot(x,y, main="PDF Scatterplot Example", col=rgb(0,100,0,50,maxColorValue=255), pch=16)
dev.off()
Catatan: Anda dapat menggunakan col2rgb () fungsi untuk mendapatkan
nilai RBG untuk R warna. Misalnya,
col2rgb ("hijau gelap") menghasilkan r = 0, g = 100, b = 0. Kemudian tambahkan tingkat transparansi alpha sebagai
nomor 4 di vektor warna. Nilai nol
berarti sepenuhnya transparan. Lihat bantuan (rgb)
untuk informasi lebih lanjut.
3.4 3D Scatterplots
Anda dapat membuat sebar 3D dengan paket
scatterplot3d. Gunakan fungsi scatterplot3d (x, y,
z).
# 3D Scatterplot
library(scatterplot3d)
attach(mtcars)
scatterplot3d(wt,disp,mpg, main="3D Scatterplot")
library(scatterplot3d)
attach(mtcars)
scatterplot3d(wt,disp,mpg, main="3D Scatterplot")
# 3D Scatterplot with Coloring and
Vertical Drop Lines
library(scatterplot3d)
attach(mtcars)
scatterplot3d(wt,disp,mpg, pch=16, highlight.3d=TRUE,
type="h", main="3D Scatterplot")
library(scatterplot3d)
attach(mtcars)
scatterplot3d(wt,disp,mpg, pch=16, highlight.3d=TRUE,
type="h", main="3D Scatterplot")
# 3D Scatterplot with Coloring and
Vertical Lines
# and Regression Plane
library(scatterplot3d)
attach(mtcars)
s3d <-scatterplot3d(wt,disp,mpg, pch=16, highlight.3d=TRUE,
type="h", main="3D Scatterplot")
fit <- lm(mpg ~ wt+disp)
s3d$plane3d(fit)
# and Regression Plane
library(scatterplot3d)
attach(mtcars)
s3d <-scatterplot3d(wt,disp,mpg, pch=16, highlight.3d=TRUE,
type="h", main="3D Scatterplot")
fit <- lm(mpg ~ wt+disp)
s3d$plane3d(fit)
3.5 Spinning 3D Scatterplots
Anda juga dapat membuat plot 3D pencar
interaktif menggunakan plot3D (x, y, z) fungsi dalam paket RGL.
Ini menciptakan scatter plot 3D berputar yang dapat
diputar dengan mouse. Pertama tiga argumen adalah
x, y, dan vektor
numerik z mewakili
poin. col =
dan ukuran = mengontrol
warna dan ukuran poin.
# Spinning 3d Scatterplot
library(rgl)
plot3d(wt, disp, mpg, col="red", size=3)
library(rgl)
plot3d(wt, disp, mpg, col="red", size=3)
Anda dapat melakukan fungsi yang sama dengan scatter3d (x, y,
z) dalam paket Rcmdr.
# Another Spinning 3d Scatterplot
library(Rcmdr)
attach(mtcars)
scatter3d(wt, disp, mpg)
library(Rcmdr)
attach(mtcars)
scatter3d(wt, disp, mpg)
Saya merencanakan scatter plot untuk kepadatan tinggi dots.I
digunakan paket Hexbin
dan saya berhasil merencanakan warna data.The
tidak cantik, dan saya diminta untuk mengikuti warna standar. Aku bertanya-tanya jika didukung oleh R.
Gambar menunjukkan saya out put (kanan)
dan warna yang diinginkan
(kiri).
Example:
x <- rnorm(1000)
y <- rnorm(1000)
bin<-hexbin(x,y, xbins=50)
plot(bin, main="Hexagonal
Binning")
|
|
Menggunakan contoh di halaman bantuan paket untuk hexbin
Anda bisa mendapatkan dekat dengan
pelangi dan bermain dengan argumen colcuts seperti
begitu ...
x <-
rnorm(10000)
y <-
rnorm(10000)
(bin <-
hexbin(x, y))
plot(hexbin(x,
y + x*(x+1)/4),main = "Example" ,
colorcut = seq(0,1,length.out=64),
colramp = function(n) rev(rainbow(64)),
legend = 0 )
Anda akan
perlu untuk bermain dengan legenda spesifikasi dll
untuk mendapatkan apa yang Anda
inginkan. Palet warna alternatif
yang disarankan oleh Roland
## nicer
colour palette
cols <- colorRampPalette(c("darkorchid4","darkblue","green","yellow",
"red") )
plot(hexbin(x,
y + x*(x+1)/4), main = "Example" ,
colorcut =
seq(0,1,length.out=24),
colramp =
function(n) cols(24) ,
legend = 0 )
|
exbinplot {hexbin}
Trellis Hexbin Displays
Package:
hexbin
Version:
1.27.1
Description
Tampilan data heksagonal binned,
seperti yang diterapkan dalam paket
hexbin, dalam kerangka Teralis, dengan utilitas terkait. Plot hexbin
adalah fungsi generik tingkat tinggi, dengan "formula"
metode melakukan pekerjaan
yang sebenarnya. prepanel.hexbin plot
dan alur panel.hexbin berhubungan panel dan
panel pra fungsi.
hex legenda Grob
menghasilkan legenda yang cocok.
Usage
hexbinplot(x, data, ...)
## S3 method for class 'formula':
hexbinplot((x, data = NULL,
prepanel = prepanel.hexbinplot,
panel = panel.hexbinplot,
groups = NULL,
aspect = "xy",
trans = NULL,
inv = NULL,
colorkey = TRUE,...,maxcnt,
legend = NULL,
legend.width = TRUE, subset)
prepanel.hexbinplot(x, y, type = character(0), ...)
panel.hexbinplot(x, y, ..., groups = NULL)
hexlegendGrob(legend = 1.2,
inner = legend / 5,
cex.labels = 1,
cex.title = 1.2,
style = "colorscale",
minarea = 0.05, maxarea = 0.8,
mincnt = 1, maxcnt,
trans = NULL, inv = NULL,
colorcut = seq(0, 1, length = 17),
density = NULL, border = NULL, pen = NULL,
colramp = function(n) { LinGray(n,beg = 90,end = 15) } ...,
vp = NULL,
draw = FALSE))
3.6 Arguments Hexbin
x
Untuk hexbinplot, objek yang metode pengiriman dilakukan. Untuk "formula" metode, formula yang menggambarkan bentuk pengkondisian petak. Rumus yang berlaku untuk xyplot dapat diterima. Dalam panel.hexbinplot, variabel x y. data untuk metode rumus, bingkai data yang berisi nilai-nilai untuk setiap variabel dalam formula, serta kelompok dan bagian jika ada (menggunakan kelompok saat ini menyebabkan kesalahan dengan fungsi panel default). Secara default, lingkungan di mana fungsi dipanggil dari digunakan. Minarea, maxarea, mincnt, maxcnt, trans, inv, colorcut, kepadatan, perbatasan, pena, colramp, gaya melihat gplot.hexbin prepanel, panel, aspek. Lihat xyplot. Aspek = "isi" tidak diperbolehkan. Default saat "xy" mungkin tidak selalu menjadi pilihan terbaik, sering aspek = 1 akan lebih masuk akal. Colorkey logis, apakah legenda harus ditarik. Saat ini legenda dapat ditarik hanya di sebelah kanan. Legend.width, legenda lebar legenda dalam inci ketika gaya "nested.lattice" atau "nested.centroids". Nama legend.width digunakan untuk menghindari konflik dengan legenda argumen teralis standar. Hal ini dimungkinkan untuk menentukan legenda tambahan menggunakan legenda atau kunci argumen selama mereka tidak bertentangan dengan legenda hexbin (yaitu, tidak di sebelah kanan). Dalam radius dalam inci dari segi enam dalam legenda ketika gaya "nested.lattice" atau "nested.centroids". cex.labels, cex.title dalam legenda, multiplier untuk label numerik dan teks penjelasan masing-masing mengetik vektor karakter mengendalikan augmentation tambahan layar. Sebuah "g" dalam jenis menambahkan grid referensi, "r" menambahkan garis regresi (y pada x), "halus" tambah loess halus menarik logis, apakah untuk menarik legenda Grob. Berguna ketika hexlegendGrob digunakan secara terpisah
Untuk hexbinplot, objek yang metode pengiriman dilakukan. Untuk "formula" metode, formula yang menggambarkan bentuk pengkondisian petak. Rumus yang berlaku untuk xyplot dapat diterima. Dalam panel.hexbinplot, variabel x y. data untuk metode rumus, bingkai data yang berisi nilai-nilai untuk setiap variabel dalam formula, serta kelompok dan bagian jika ada (menggunakan kelompok saat ini menyebabkan kesalahan dengan fungsi panel default). Secara default, lingkungan di mana fungsi dipanggil dari digunakan. Minarea, maxarea, mincnt, maxcnt, trans, inv, colorcut, kepadatan, perbatasan, pena, colramp, gaya melihat gplot.hexbin prepanel, panel, aspek. Lihat xyplot. Aspek = "isi" tidak diperbolehkan. Default saat "xy" mungkin tidak selalu menjadi pilihan terbaik, sering aspek = 1 akan lebih masuk akal. Colorkey logis, apakah legenda harus ditarik. Saat ini legenda dapat ditarik hanya di sebelah kanan. Legend.width, legenda lebar legenda dalam inci ketika gaya "nested.lattice" atau "nested.centroids". Nama legend.width digunakan untuk menghindari konflik dengan legenda argumen teralis standar. Hal ini dimungkinkan untuk menentukan legenda tambahan menggunakan legenda atau kunci argumen selama mereka tidak bertentangan dengan legenda hexbin (yaitu, tidak di sebelah kanan). Dalam radius dalam inci dari segi enam dalam legenda ketika gaya "nested.lattice" atau "nested.centroids". cex.labels, cex.title dalam legenda, multiplier untuk label numerik dan teks penjelasan masing-masing mengetik vektor karakter mengendalikan augmentation tambahan layar. Sebuah "g" dalam jenis menambahkan grid referensi, "r" menambahkan garis regresi (y pada x), "halus" tambah loess halus menarik logis, apakah untuk menarik legenda Grob. Berguna ketika hexlegendGrob digunakan secara terpisah
vp
jaringan
viewport menggambar legenda di argumen tambahan, diteruskan sesuai. Argumen
untuk gplot.hexbin, xyplot, panel.hexbinplot dan hexlegendGrob dapat dipasok ke
hexbinplot panggilan tingkat tinggi. panel.hexbinplot menyebut salah satu dari
dua fungsi (unexported) tingkat rendah tergantung pada apakah kelompok
diberikan (walaupun kelompok menentukan saat mengarah ke kesalahan). Argumen
fungsi yang tepat dapat diberikan; beberapa yang penting adalah xbins: jumlah
segi enam yang meliputi nilai-nilai x. Jumlah y-sampah tergantung pada ini,
aspek rasio, dan xbnds dan ybnds xbnds, ybnds: Numeric berbagai vektor
menspesifikasikan nilai yang harus ditutupi oleh Binning tersebut. Dalam layar
multi-panel, itu tidak selalu ide yang baik untuk menggunakan batas-batas yang
sama (yang bersama dengan xbins dan aspek rasio menentukan ukuran segi enam)
untuk semua panel. Misalnya, ketika data terkonsentrasi di sub-wilayah kecil
panel yang berbeda, lebih rinci akan ditampilkan dengan menggunakan segi enam
kecil yang meliputi daerah-daerah. Untuk mengontrol ini, xbnds dan ybnds juga
bisa string karakter "panel" atau "data" (yang tidak nama yang
sangat baik dan dapat berubah di masa depan). Dalam kasus pertama, batas-batas
yang diambil menjadi batas panel, dalam kasus kedua, batas-batas data (paket)
di panel itu. Perhatikan bahwa semua panel akan memiliki batas yang sama (cukup
untuk menutupi semua data) secara default jika hubungan = "bebas"
dalam skala argumen teralis standar, tapi tidak sebaliknya. Kelompok di
hexbinplot, variabel pengelompokan yang dievaluasi dalam data, dan diteruskan
ke fungsi panel. Bagian ekspresi yang dievaluasi dalam dievaluasi dalam data
untuk menghasilkan vektor logis yang digunakan untuk subset data sebelum
digunakan dalam plot.
3.7 Details Hexbin Plot
fungsi panel panel.hexbinplot membuat
objek hexbin dari data yang diberikan untuk itu dan plot menggunakan grid.hexagons.
Untuk membuat panel sebanding, semua panel memiliki nilai maxcnt sama, secara
default jumlah maksimum atas semua panel. Nilai default ini dapat dihitung
hanya jika rasio aspek diketahui, dan aspek = "Isi" tidak
diperbolehkan. Pilihan default rasio aspek berbeda dari pilihan di hexbin
(yaitu, 1), yang kadang-kadang memberikan hasil yang lebih baik untuk
multi-panel display. xbnds dan ybnds dapat berbagai vektor numerik seperti di
hexbin, tetapi mereka juga dapat menjadi karakter string menentukan apakah
semua panel harus memiliki tempat sampah yang sama. Jika mereka tidak, maka
sampah di panel yang berbeda bisa menjadi ukuran yang berbeda, di mana gaya
kasus = "kisi" dan style = "centroid" harus ditafsirkan
dengan hati-hati.
Dimensi legenda dan ukuran segi enam di dalamnya diberikan dalam satuan absolut (inci) dengan hanya bila gaya legend.width dan batin "nested.lattice" atau "nested.centroids". Untuk gaya lain, dimensi legenda ditentukan relatif terhadap plot. Secara khusus, ketinggian legenda adalah sama dengan ketinggian plot (panel dan daerah jalur gabungan), dan lebarnya adalah minimum yang diperlukan agar sesuai dengan legenda di layar. Hal ini berbeda dalam beberapa hal dari pelaksanaan hexbin. Secara khusus, ukuran segi enam di legenda sama sekali tidak berhubungan dengan ukuran di panel, yang cukup banyak dapat dihindari karena ukuran tidak perlu panel di sama jika xbnds atau ybnds adalah "data". Ukuran segi enam mengkodekan informasi ketika gaya "kisi" atau "centroid", akibatnya peringatan dikeluarkan ketika legenda diambil dengan melayu gaya ini. Nilai hexbinplot menghasilkan sebuah objek dari kelas "teralis". Metode update dapat digunakan untuk memperbarui komponen dari objek dan metode cetak (biasanya disebut secara default) akan plot pada perangkat plotting yang tepat. hexlegendGrob menghasilkan "Grob" (objek grid).
Dimensi legenda dan ukuran segi enam di dalamnya diberikan dalam satuan absolut (inci) dengan hanya bila gaya legend.width dan batin "nested.lattice" atau "nested.centroids". Untuk gaya lain, dimensi legenda ditentukan relatif terhadap plot. Secara khusus, ketinggian legenda adalah sama dengan ketinggian plot (panel dan daerah jalur gabungan), dan lebarnya adalah minimum yang diperlukan agar sesuai dengan legenda di layar. Hal ini berbeda dalam beberapa hal dari pelaksanaan hexbin. Secara khusus, ukuran segi enam di legenda sama sekali tidak berhubungan dengan ukuran di panel, yang cukup banyak dapat dihindari karena ukuran tidak perlu panel di sama jika xbnds atau ybnds adalah "data". Ukuran segi enam mengkodekan informasi ketika gaya "kisi" atau "centroid", akibatnya peringatan dikeluarkan ketika legenda diambil dengan melayu gaya ini. Nilai hexbinplot menghasilkan sebuah objek dari kelas "teralis". Metode update dapat digunakan untuk memperbarui komponen dari objek dan metode cetak (biasanya disebut secara default) akan plot pada perangkat plotting yang tepat. hexlegendGrob menghasilkan "Grob" (objek grid).
Examples
mixdata <-
hexbinplot(y ~ x, mixdata, aspect = 1,
hexbinplot(y ~ x | a, mixdata)
hexbinplot(y ~ x | a, mixdata, style = "lattice",
xbnds =
"data", ybnds = "data")
hexbinplot(y ~ x | a, mixdata, style =
"nested.centroids")
hexbinplot(y ~ x | a, mixdata, style =
"nested.centroids",
3.8 Visualizing the
distribution of a dataset
Ketika berhadapan dengan satu set data, sering hal
pertama yang akan Anda ingin lakukan adalah mendapatkan rasa untuk bagaimana
variabel didistribusikan. Bab ini tutorial akan memberikan pengenalan singkat
ke beberapa alat di seborn untuk memeriksa distribusi univariat dan bivariat.
Anda juga mungkin ingin melihat plot kategoris bab untuk contoh fungsi yang
membuatnya mudah untuk membandingkan distribusi variabel di tingkat variabel
lain.
%matplotlib inline
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(color_codes=True)
np.random.seed(sum(map(ord, "distributions")))
3.9 Plotting univariate distributions
Cara
yang paling
nyaman untuk mengambil cepat melihat
distribusi univariat di Seaborn adalah
distplot () fungsi. Secara default, ini akan
menarik histogram dan cocok
perkiraan kepadatan kernel (KDE).
x = np.random.normal(size=100)
sns.distplot(x);
Histograms
Histogram cenderung akrab, dan
fungsi hist sudah
ada di matplotlib. Histogram merupakan distribusi
data dengan membentuk sampah
di sepanjang berbagai data dan kemudian menggambar
bar untuk menunjukkan jumlah observasi yang jatuh
setiap bin.
Untuk menggambarkan hal ini, mari kita menghapus kurva kepadatan dan menambahkan plot karpet, yang menarik kutu vertikal kecil di setiap pengamatan. Anda dapat membuat karpet rencana sendiri dengan karpet plot () fungsi, tetapi juga tersedia dalam distplot ():
Untuk menggambarkan hal ini, mari kita menghapus kurva kepadatan dan menambahkan plot karpet, yang menarik kutu vertikal kecil di setiap pengamatan. Anda dapat membuat karpet rencana sendiri dengan karpet plot () fungsi, tetapi juga tersedia dalam distplot ():
sns.distplot(x, kde=False, rug=True);
Ketika menggambar histogram, pilihan
utama Anda miliki adalah jumlah sampah digunakan
dan mana untuk menempatkan mereka.
distplot () menggunakan
aturan sederhana untuk membuat perkiraan yang baik untuk apa nomor yang benar secara default, tetapi berusaha lebih atau kurang sampah
akan mengungkapkan fitur lain dalam data:
sns.distplot(x, bins=20, kde=False, rug=True);
Kernel density estimaton
Estimasi densitas kernel mungkin kurang familiar, tetapi dapat menjadi
alat yang berguna untuk merencanakan bentuk distribusi. Seperti
histogram, plot KDE
mengkodekan kepadatan pengamatan pada satu sumbu dengan tinggi sepanjang sumbu lainnya:
sns.distplot(x, hist=False, rug=True);
Menggambar KDE lebih komputasi terlibat
daripada menggambar histogram.
Apa yang terjadi adalah bahwa setiap
pengamatan pertama diganti dengan normal (Gaussian)
kurva berpusat pada
nilai yang:
x = np.random.normal(0, 1, size=30)
bandwidth = 1.06 * x.std() * x.size ** (-1 / 5.)
support = np.linspace(-4, 4, 200)
kernels = []
for x_i in x:
kernel =
stats.norm(x_i, bandwidth).pdf(support)
kernels.append(kernel)
plt.plot(support,
kernel, color="r")
sns.rugplot(x, color=".2", linewidth=3);
Berikutnya, kurva ini dijumlahkan untuk
menghitung nilai kerapatan
pada setiap titik dalam dukungan jaringan. Kurva
yang dihasilkan adalah dinormalisasi sehingga daerah
di bawah itu sama dengan 1:
density = np.sum(kernels, axis=0)
density /= integrate.trapz(density, support)
plt.plot(support, density);
Kita
bisa melihat bahwa
jika kita menggunakan kdeplot () fungsi dalam Seaborn,
kita mendapatkan kurva yang sama. Fungsi ini digunakan oleh distplot (),
tetapi menyediakan
1
|
plot(subset(gomez,
fielderId == playerId.CF)) |
While this plot has the advantage of showing us the individual balls that Gomez caught, it can sometime be hard to visually aggregate these data. A hexbin plot will do that for us.
Let’s try a simple hexbinplot().
1
2
|
require(hexbin) hexbinplot(our.y
~ our.x, data=subset(gomez, fielderId == playerId.CF)) |
Plot ini , sementara representasi
teknis akurat dari data , hampir tidak berarti karena data tidak disajikan
dengan konteks apapun . Ini adalah masalah umum dalam statistik - mari kita
lihat apakah kita bisa mengatasinya .
Dalam hal ini , garis-garis yang
menggambarkan berlian bisbol di plot sebelumnya akan benar-benar membantu kita
untuk memahami lokasi hexbins ini . Untungnya , enggak ini berlian generik
ditarik oleh panel.baseball ( ) fungsi dalam openWAR . Jika Anda sudah familiar
dengan grafis kisi di R , panel.baseball ( ) bekerja seperti fungsi panel
lainnya - itu hanya menambahkan tata letak bisbol ini untuk plot Anda .
Apa yang hebat tentang ini adalah bahwa
Anda dapat menggunakan panel.baseball ( ) untuk overlay bidang ini ke setiap
petak kisi , dan hexbinplot ( ) terjadi menjadi plot kisi . Jadi misalnya ,
kita dapat menempatkan berlian bisbol ke hexplot cukup mudah .
1
2
3
4
5
6
|
hexbinplot(our.y
~ our.x, data=subset(gomez, fielderId == playerId.CF) ,
panel = function(x,y,...) { panel.baseball() panel.hexbinplot(x,y,...) } ) |
Yang benar-benar bekerja , tapi itu tidak membantu banyak karena margin tidak cukup lebar , kami tidak label sumbu , dan hexbins terlalu kecil . Juga , kita dapat menambahkan warna dan mengubah jumlah warna yang digunakan . Beberapa tweak akan meningkatkan hal-hal jauh .
1
2
3
4
5
6
7
8
9
10
11
12
13
|
my.colors
<- function (n) { rev(heat.colors(n)) } hexbinplot(our.y
~ our.x, data=subset(gomez, fielderId == playerId.CF), xbins = 10 ,
panel = function(x,y, ...) { panel.baseball() panel.hexbinplot(x,y,
...) } ,
xlim = c(-350, 350), ylim = c(-20, 525) ,
xlab = "Horizontal Distance from Home Plate (ft.)" ,
ylab = "Vertical Distance from Home Plate (ft.)" ,
colramp = my.colors, colorcut = seq(0, 1, length = 10) ) |
Tentu saja , kami tertarik pada
bagaimana Gomez membandingkan semua centerfielders
.
1
2
3
4
5
6
7
8
9
10
|
hexbinplot(our.y
~ our.x, data=subset(MLBAM2013, fielderId == playerId.CF), xbins = 50 ,
panel = function(x,y, ...) { panel.baseball() panel.hexbinplot(x,y,
...) } ,
xlim = c(-350, 350), ylim = c(-20, 525) ,
xlab = "Horizontal Distance from Home Plate (ft.)" ,
ylab = "Vertical Distance from Home Plate (ft.)" ,
colramp = my.colors, colorcut = seq(0, 1, length = 10) ) |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
key =
unique(subset(MLBAM2013, batterName %in% c("Trout", "Upton,
B", "Gomez, C", "Ellsbury"),
select=c("batterId", "batterName"))) comp =
subset(MLBAM2013, playerId.CF %in% key$batterId & fielderId ==
playerId.CF) hexbinplot(our.y
~ our.x | as.factor(playerId.CF), data=comp, xbins = 10 ,
panel = function(x,y, ...) { panel.baseball() panel.hexbinplot(x,y,
...) } ,
xlim = c(-350, 350), ylim = c(-20, 525) ,
xlab = "Horizontal Distance from Home Plate (ft.)" ,
ylab = "Vertical Distance from Home Plate (ft.)" ,
colramp = my.colors, colorcut = seq(0, 1, length = 10) ,
strip = strip.custom(factor.levels = as.character(key$batterName)) ) |
BAB IV
METODE
PENELITIAN
4.1 Rancangan Penelitian
antarmuka yang lebih langsung dengan akses yang lebih mudah untuk pilihan lain ketika Anda hanya ingin perkiraan kepadatan:
sns.kdeplot(x, shade=True);
Bandwidth (bw) parameter dari
KDE mengontrol bagaimana
erat estimasi yang
cocok untuk data, seperti ukuran bin di
histogram. Hal ini sesuai dengan lebar kernel kita
diplot di atas. Perilaku
default mencoba menebak nilai yang baik menggunakan aturan referensi umum, tapi
mungkin bisa membantu untuk
mencoba besar atau lebih kecil nilai:
sns.kdeplot(x)
sns.kdeplot(x, bw=.2, label="bw: 0.2")
sns.kdeplot(x, bw=2, label="bw: 2")
plt.legend();
Seperti
yang dapat Anda
lihat di atas, sifat dari proses Gaussian KDE
berarti bahwa estimasi meluas melewati nilai terbesar
dan terkecil di dataset.
Ini mungkin untuk mengontrol seberapa jauh masa lalu nilai-nilai ekstrim kurva digambar dengan parameter potong; Namun, ini
hanya mempengaruhi bagaimana kurva digambar dan
bukan bagaimana itu cocok:
sns.kdeplot(x, shade=True, cut=0)
sns.rugplot(x);
4.2Fitting parametric distributions
Anda
juga dapat menggunakan distplot ()
untuk menyesuaikan distribusi parametrik untuk dataset
dan visual mengevaluasi
seberapa dekat itu sesuai dengan data lapangan:
x = np.random.gamma(6, size=200)
sns.distplot(x, kde=False, fit=stats.gamma);
Plotting bivariate distributions
Hal ini juga dapat berguna
untuk memvisualisasikan distribusi
bivariat dari dua
variabel. Cara termudah untuk melakukan
ini di Seaborn adalah untuk hanya plot bersama () fungsi, yang
menciptakan sosok multi-panel
yang menunjukkan baik bivariat (atau gabungan)
hubungan antara dua variabel bersama
dengan univariat (atau marjinal) distribusi masing-masing
pada sumbu terpisah.
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 200)
df = pd.DataFrame(data, columns=["x",
"y"])
Scatterplots
Cara yang paling familiar untuk memvisualisasikan distribusi bivariat adalah
plot pencar, di mana masing-masing pengamatan ditunjukkan dengan titik
di x dan y.
Hal ini analog dengan plot karpet pada dua dimensi.
Anda dapat menggambar plot pencar dengan fungsi
matplotlib plt.scatter, dan juga jenis standar
plot ditunjukkan oleh plot bersama ()
fungsi:
sns.jointplot(x="x", y="y", data=df);
4.3 Hexbin plots
Analog bivariat dari histogram dikenal
sebagai "hexbin" plot, karena menunjukkan jumlah pengamatan yang berada
dalam tempat sampah heksagonal.
Plot ini bekerja terbaik
dengan dataset yang relatif besar.
Ini tersedia melalui fungsi matplotlib plt.hexbin dan
sebagai gaya jointplot
(). Hal terbaik
terlihat dengan latar
belakang putih:
x, y = np.random.multivariate_normal(mean, cov, 1000).T
with sns.axes_style("white"):
sns.jointplot(x=x,
y=y, kind="hex", color="k");
Kernel density estimation
Hal ini juga posible untuk menggunakan prosedur estimasi densitas kernel
yang dijelaskan di atas untuk memvisualisasikan distribusi bivariat. Dalam
Seaborn, jenis plot ditunjukkan dengan plot kontur dan tersedia sebagai gaya
jointplot ():
sns.jointplot(x="x", y="y", data=df,
kind="kde");
Anda juga dapat menggambar dua
dimensi kepadatan kernel petak dengan kdeplot
() fungsi. Hal ini memungkinkan Anda untuk menarik jenis
plot ke spesifik
(dan mungkin sudah ada) sumbu
matplotlib, sedangkan plot bersama ()
fungsi mengelola angka sendiri:
f, ax = plt.subplots(figsize=(6, 6))
sns.kdeplot(df.x, df.y, ax=ax)
sns.rugplot(df.x, color="g", ax=ax)
sns.rugplot(df.y, vertical=True, ax=ax);
Jika Anda ingin menunjukkan
kepadatan bivariat lebih terus menerus, Anda
dapat meningkatkan jumlah tingkat
kontur:
f, ax = plt.subplots(figsize=(6, 6))
cmap = sns.cubehelix_palette(as_cmap=True, dark=0, light=1,
reverse=True)
sns.kdeplot(df.x, df.y, cmap=cmap, n_levels=60, shade=True);
The jointplot () fungsi menggunakan
Grid Bersama untuk
mengelola gambar. Agar lebih
fleksibel, Anda mungkin ingin
menarik sosok Anda dengan
menggunakan Joint Grid langsung. jointplot ()
mengembalikan objek Bersama Grid setelah
merencanakan, yang dapat Anda gunakan untuk menambahkan lebih banyak
lapisan atau men-tweak aspek lain dari visualisasi
g = sns.jointplot(x="x", y="y", data=df,
kind="kde", color="m")
g.plot_joint(plt.scatter, c="w", s=30,
linewidth=1, marker="+")
g.ax_joint.collections[0].set_alpha(0)
g.set_axis_labels("$X$", "$Y$");
Visualizing pairwise relationships in a dataset
Untuk merencanakan beberapa distribusi bivariat
berpasangan dalam dataset, Anda dapat menggunakan barplot () fungsi. Hal ini menciptakan matriks kapak dan menunjukkan
hubungan untuk setiap pasangan kolom
dalam DataFrame a. secara default, juga menarik distribusi univariat dari
setiap variabel pada Axes diagonal:
iris = sns.load_dataset("iris")
sns.pairplot(iris);
Sama seperti hubungan antara
jointplot () dan
Joint Grid, barplot
() fungsi dibangun di atas sebuah objek Pasangan
Grid, yang dapat digunakan secara langsung untuk lebih
fleksibel:
g = sns.PairGrid(iris)
g.map_diag(sns.kdeplot)
g.map_offdiag(sns.kdeplot, cmap="Blues_d",
n_levels=6);
/Users/mwaskom/anaconda/lib/python2.7/site-packages/matplotlib/axes/_axes.py:475:
UserWarning: No labelled objects found. Use label='...' kwarg on individual
plots.
warnings.warn("No labelled objects found. "
Saya menghasilkan plot menggunakan paket hexbin:
#
install.packages("hexbin", dependencies=T)
library(hexbin)
set.seed(1234)
x <-
rnorm(1e6)
y <-
rnorm(1e6)
hbin <-
hexbin(
x =
x
, y = y
, xbin = 50
, xlab = expression(alpha)
, ylab = expression(beta)
)
## Using plot
method for hexbin objects:
plot(hbin,
style = "nested.lattice")
abline(h=0)
Hal ini tampaknya untuk menghasilkan sebuah
objek S4 (hbin), yang
saya kemudian plot menggunakan petak. Sekarang saya ingin
menambahkan garis horizontal untuk
plot yang menggunakan abline, tapi sayangnya ini memberikan kesalahan:plot.new belum disebut Saya juga tidak tahu, bagaimana saya bisa memanipulasi mis posisi label sumbu (alpha dan beta berada dalam angka), mengubah posisi legenda, dll Aku akrab dengan OOP, tapi sejauh ini saya tidak bisa mengetahui bagaimana plot () menangani objek (apakah itu memanggil metode tertentu dari objek?) Dan bagaimana saya bisa memanipulasi plot yang dihasilkan. As we saw before, we can use the plot() method to visualize where Gomez’s catches were on the field. |
BAB V
KESIMPULAN
5.1
KESIMPULAN
Dalam teori probabilitas hexbin plot with marginal distribution, distribusi marginal dari subset dari koleksi variabel acak adalah
distribusi probabilitas dari variabel yang terkandung dalam subset. Ini
memberikan probabilitas berbagai nilai variabel di bagian tanpa mengacu pada
nilai-nilai dari variabel-variabel lainnya. Ini berbeda dengan distribusi
bersyarat, yang memberikan probabilitas bergantung pada nilai-nilai dari
variabel-variabel lainnya.
Variabel marjinal istilah digunakan untuk merujuk kepada orang-variabel dalam subset dari variabel yang dipertahankan. Istilah ini dijuluki "marjinal" karena mereka digunakan untuk ditemukan dengan menjumlahkan nilai-nilai dalam tabel di sepanjang baris atau kolom, dan menulis jumlah di pinggir meja. Distribusi variabel marjinal (distribusi marginal) adalah diperoleh dengan meminggirkan atas distribusi variabel yang dibuang, dan variabel dibuang dikatakan telah terpinggirkan keluar.
Konteksnya di sini adalah bahwa studi teoritis yang dilakukan, atau data analisis yang dilakukan, melibatkan lebih luas dari variabel acak namun perhatian yang sedang terbatas pada berkurangnya jumlah variabel. Dalam banyak aplikasi analisis dapat memulai dengan koleksi yang diberikan variabel acak, maka pertama memperpanjang set dengan mendefinisikan yang baru (seperti jumlah dari variabel-variabel acak asli) dan akhirnya mengurangi jumlah dengan menempatkan kepentingan dalam distribusi marjinal subset (seperti penjumlahan). Beberapa analisis yang berbeda dapat dilakukan, masing-masing mengobati subset yang berbeda dari variabel sebagai variabel marjinal.
Mengingat dua variabel acak X dan
Y yang bersama
distribusi diketahui, distribusi marginal dari
X hanya distribusi
probabilitas X rata-rata lebih dari informasi tentang Y. Ini adalah
distribusi probabilitas X ketika nilai Y tidak
diketahui. Hal ini biasanya dihitung
dengan menjumlahkan atau mengintegrasikan distribusi probabilitas gabungan lebih dari Y.
Untuk variabel acak diskrit, marjinal fungsi massa probabilitas dapat ditulis sebagai Pr (X = x).ini adalah :
Untuk variabel acak diskrit, marjinal fungsi massa probabilitas dapat ditulis sebagai Pr (X = x).ini adalah :
dimana Pr (X = x, Y = y) adalah distribusi
gabungan dari X dan Y, sedangkan Pr
(X = x | Y = y) adalah distribusi
bersyarat dari X diberikan
Y. Dalam hal ini,
variabel Y telah
terpinggirkan di luar.
Bivariat probabilitas marjinal dan
bersama untuk variabel acak diskrit sering ditampilkan
sebagai tabel dua arah.
Demikian pula untuk variabel acak kontinu, marjinal fungsi kepadatan probabilitas dapat ditulis sebagai pX (x). ini adalah
mana pX, Y
(x, y) memberikan distribusi gabungan dari X dan Y, sedangkan pX | Y (x | y)
memberikan distribusi bersyarat untuk X diberikan Y. Sekali lagi, variabel Y
telah terpinggirkan keluar. Perhatikan bahwa probabilitas marginal selalu dapat
ditulis sebagai nilai yang diharapkan:
Secara intuitif, probabilitas marjinal X
dihitung dengan memeriksa probabilitas bersyarat dari X diberikan nilai
tertentu dari Y, dan kemudian rata-rata probabilitas
bersyarat ini lebih distribusi semua nilai Y.
Ini mengikuti dari definisi nilai yang diharapkan, yaitu secara umum
misalkan probabilitas bahwa seorang
pejalan kaki akan tertabrak mobil
saat menyeberang jalan di tempat penyeberangan pejalan kaki tanpa
memperhatikan lampu lalu lintas yang
akan dihitung. Mari H menjadi variabel acak
diskrit mengambil satu nilai dari (Hit, Tidak
Hit). Biarkan L
menjadi variabel acak diskrit mengambil satu
nilai dari (Merah, Kuning, Hijau).
Realistis, WHO akan tergantung pada
L. Artinya, P
(H = Hit) dan P (H = Tidak Hit) akan mengambil nilai yang berbeda tergantung pada apakah L merah, kuning atau hijau.
Seseorang, misalnya, jauh lebih mungkin untuk terkena mobil ketika mencoba untuk
menyeberang sementara lampu
untuk cross lalu lintas berwarna hijau daripada jika mereka merah. Dengan
kata lain, untuk setiap diberikan
kemungkinan pasangan nilai untuk H dan L, salah satu harus
mempertimbangkan distribusi probabilitas
gabungan dari H dan L untuk menemukan probabilitas
bahwa sepasang peristiwa
yang terjadi bersama-sama jika pejalan
kaki mengabaikan keadaan cahaya.
Namun, dalam
mencoba untuk menghitung probabilitas marginal P (H = hit), apa yang kita minta
adalah probabilitas bahwa H = Hit dalam situasi di mana kita tidak benar-benar
tahu nilai tertentu L dan di mana abaian pejalan kaki keadaan cahaya. Secara
umum pejalan kaki dapat memukul jika lampu merah ATAU jika lampu berwarna
kuning atau jika lampu berwarna hijau. Jadi dalam hal ini jawaban untuk
probabilitas marginal dapat ditemukan dengan menjumlahkan P (H, L) untuk semua
nilai yang mungkin dari L, dengan masing-masing nilai L ditimbang dengan
probabilitas untuk terjadi.
Berikut ini adalah tabel yang menunjukkan probabilitas bersyarat dari dipukul, tergantung pada
keadaan lampu. (Perhatikan
bahwa kolom dalam tabel ini harus menambahkan hingga 1 karena kemungkinan
dipukul atau tidak
memukul adalah 1 terlepas dari keadaan cahaya.)
Conditional distribution:
P(H|L)
|
|||
L
H
|
Red
|
Yellow
|
Green
|
Not Hit
|
0.99
|
0.9
|
0.2
|
Hit
|
0.01
|
0.1
|
0.8
|
Untuk
menemukan distribusi probabilitas
bersama, kita perlu lebih banyak data. Mari kita mengatakan bahwa
P (L = red) = 0,2, P (L = kuning) = 0,1, dan P (L = hijau) = 0,7. Mengalikan
setiap kolom dalam distribusi bersyarat dengan probabilitas
kolom yang terjadi, kita menemukan distribusi probabilitas gabungan dari H dan L, yang diberikan
dalam pusat 2 × 3 blok entri. (Perhatikan bahwa sel-sel dalam 2 × 3 blok menambahkan hingga 1).
Joint distribution: P(H,L)
|
||||
L
H
|
Red
|
Yellow
|
Green
|
Marginal probability P(H)
|
Not Hit
|
0.198
|
0.09
|
0.14
|
0.428
|
Hit
|
0.002
|
0.01
|
0.56
|
0.572
|
Total
|
0.2
|
0.1
|
0.7
|
1
|
Probabilitas P marjinal
(H = Hit) adalah jumlah sepanjang H = Hit baris tabel distribusi gabungan ini, karena ini adalah probabilitas
dipukul ketika lampu merah OR kuning ATAU hijau. Demikian
pula, probabilitas marjinal
bahwa P (H =
Tidak Hit) adalah
jumlah dari H =
Tidak Hit baris.
Dalam contoh ini kemungkinan
pejalan kaki dipukul jika mereka tidak memperhatikan kondisi lampu lalu lintas adalah 0,572.
Banyak sampel
dari distribusi normal bivariat. Distribusi marjinal
ditunjukkan dengan warna merah dan biru. Distribusi marjinal
X juga didekati
dengan membuat histogram dari X koordinat
tanpa pertimbangan Y koordinat.
5.2 saran
Teori
probabilitas adalah cabang matematika yang bersangkutan dengan probabilitas,
analisis fenomena acak. Objek utama teori probabilitas variabel acak, proses
stokastik, dan peristiwa: abstraksi matematika peristiwa non-deterministik atau
jumlah terukur yang dapat berupa kejadian tunggal atau berkembang dari waktu ke
waktu dalam mode tampaknya acak.
Hal ini tidak mungkin untuk memprediksi secara tepat hasil dari kejadian acak. Namun, jika urutan peristiwa individu, seperti membalik koin atau gulungan dadu, dipengaruhi oleh faktor-faktor lain, seperti gesekan, itu akan menunjukkan pola-pola tertentu, yang dapat dipelajari dan diprediksi. Dua hasil matematika perwakilan menggambarkan pola tersebut adalah hukum bilangan besar dan teorema limit sentral.
Hal ini tidak mungkin untuk memprediksi secara tepat hasil dari kejadian acak. Namun, jika urutan peristiwa individu, seperti membalik koin atau gulungan dadu, dipengaruhi oleh faktor-faktor lain, seperti gesekan, itu akan menunjukkan pola-pola tertentu, yang dapat dipelajari dan diprediksi. Dua hasil matematika perwakilan menggambarkan pola tersebut adalah hukum bilangan besar dan teorema limit sentral.
Sebagai
dasar matematika untuk statistik, teori probabilitas penting untuk banyak
aktivitas manusia yang melibatkan analisis kuantitatif set data yang besar.
Metode teori probabilitas juga berlaku untuk deskripsi dari sistem yang
kompleks hanya diberikan pengetahuan parsial negara mereka, seperti dalam
mekanika statistik. Penemuan besar fisika abad kedua puluh adalah sifat
probabilistik fenomena fisik pada skala atom, dijelaskan dalam mekanika
kuantum.
Teori
matematika probabilitas berakar pada upaya untuk menganalisis permainan
kesempatan oleh Girolamo Cardano pada abad keenam belas, dan oleh Pierre de
Fermat dan Blaise Pascal pada abad ketujuh belas (misalnya "masalah
poin"). Christiaan Huygens menerbitkan sebuah buku pada subjek di 1657 dan
pada abad ke-19 karya besar dilakukan oleh Laplace dalam apa yang dapat dianggap
hari ini sebagai penafsiran klasik. Awalnya, teori probabilitas terutama
dianggap peristiwa diskrit, dan metode yang terutama kombinatorial. Akhirnya,
pertimbangan analitis memaksa penggabungan variabel kontinu dalam teori.
Hal
ini memuncak dalam teori probabilitas modern, di atas dasar yang diletakkan
oleh Andrey Nikolaevich Kolmogorov. Kolmogorov gabungan gagasan ruang sampel,
diperkenalkan oleh Richard von Mises, dan mengukur teori dan disajikan
kebenaran untuk sistem teori probabilitas pada tahun 1933. Cukup cepat ini
menjadi dasar aksiomatik sebagian besar tak terbantahkan untuk teori
probabilitas modern tapi alternatif yang ada, khususnya adopsi terbatas
daripada dihitung aditivitas oleh Bruno de Finetti.
Pertimbangkan
percobaan yang dapat menghasilkan sejumlah hasil. Himpunan semua hasil disebut
ruang sampel percobaan. Kekuatan set ruang sampel (atau ekuivalen, ruang acara)
dibentuk dengan mempertimbangkan semua koleksi yang berbeda dari hasil yang
mungkin. Sebagai contoh, sebuah bergulir die jujur menghasilkan satu enam
hasil yang mungkin dari. Salah satu koleksi hasil yang mungkin sesuai dengan
mendapatkan angka ganjil. Dengan demikian, subset {1,3,5} adalah unsur kekuatan
mengatur dari ruang sampel dari die gulungan. Koleksi ini disebut peristiwa.
Dalam hal ini, {1,3,5} adalah peristiwa yang mati jatuh pada beberapa ganjil.
Jika hasil yang benar-benar terjadi penurunan dalam acara tertentu, acara yang
dikatakan telah terjadi.
Probabilitas
adalah cara menugaskan setiap "peristiwa" nilai antara nol dan satu,
dengan persyaratan bahwa acara terdiri dari semua hasil yang mungkin (dalam
contoh kita, acara {1,2,3,4,5,6}) diberi nilai satu. Untuk memenuhi syarat
sebagai distribusi probabilitas, penugasan nilai harus memenuhi persyaratan
bahwa jika Anda melihat koleksi peristiwa saling eksklusif (peristiwa yang
tidak mengandung hasil umum, misalnya, peristiwa {1,6}, {3}, dan { 2,4} semua
saling eksklusif), probabilitas bahwa salah satu peristiwa akan terjadi
diberikan oleh jumlah dari probabilitas dari peristiwa individu.
Probabilitas
bahwa salah satu dari peristiwa {1,6}, {3}, atau {} 2,4 akan terjadi adalah
5/6. Ini sama dengan mengatakan bahwa probabilitas acara {1,2,3,4,6} adalah
5/6. Acara ini meliputi kemungkinan sejumlah kecuali lima sedang bergulir.
Acara {5} saling eksklusif memiliki probabilitas 1/6, dan acara {1,2,3,4,5,6}
memiliki probabilitas 1, yaitu, kepastian yang mutlak.
Random variable
Probabilitas
dan statistik, variabel acak, kuantitas acak, variabel tdk sengaja atau
variabel stokastik adalah variabel yang nilainya tunduk variasi karena
kebetulan (yaitu keacakan, dalam arti matematika). 391 A variabel acak dapat
mengambil seperangkat nilai yang mungkin berbeda (mirip dengan variabel
matematika lainnya), masing-masing dengan probabilitas yang terkait, berbeda
dengan variabel matematika lainnya.
Nilai
A variabel acak ini mungkin bisa mewakili hasil yang mungkin dari percobaan
belum-to-be-dilakukan, atau mungkin hasil dari eksperimen masa lalu yang
nilainya sudah ada tidak pasti (misalnya, karena pengukuran tidak tepat atau
ketidakpastian kuantum). Mereka mungkin juga secara konseptual merupakan salah
satu hasil dari "obyektif" proses acak (seperti bergulir mati) atau
"subjektif" keacakan yang dihasilkan dari pengetahuan yang tidak
lengkap dari kuantitas. Arti dari probabilitas ditugaskan untuk nilai-nilai
potensial dari variabel acak bukan bagian dari teori probabilitas itu sendiri
tetapi bukan terkait dengan argumen filosofis atas interpretasi probabilitas.
Matematika bekerja sama terlepas dari interpretasi tertentu digunakan.
Fungsi matematika yang menggambarkan nilai yang mungkin dari variabel acak dan probabilitas yang terkait dikenal sebagai distribusi probabilitas. Variabel acak dapat diskrit, yaitu, mengambil salah satu dari daftar yang ditentukan terbatas atau dihitung dari nilai-nilai, diberkahi dengan fungsi massa probabilitas, karakteristik dari distribusi probabilitas; atau terus-menerus, mengambil setiap nilai numerik dalam selang waktu atau koleksi interval, melalui fungsi kepadatan probabilitas yang merupakan karakteristik dari distribusi probabilitas; atau campuran kedua jenis. Realisasi dari variabel acak, yaitu, hasil nilai acak memilih sesuai dengan fungsi distribusi probabilitas variabel, disebut variates acak.
Pengobatan matematika formal variabel acak adalah topik dalam teori probabilitas. Dalam konteks itu, variabel acak dipahami sebagai fungsi didefinisikan pada ruang sampel yang output adalah nilai-nilai numerik.
Fungsi matematika yang menggambarkan nilai yang mungkin dari variabel acak dan probabilitas yang terkait dikenal sebagai distribusi probabilitas. Variabel acak dapat diskrit, yaitu, mengambil salah satu dari daftar yang ditentukan terbatas atau dihitung dari nilai-nilai, diberkahi dengan fungsi massa probabilitas, karakteristik dari distribusi probabilitas; atau terus-menerus, mengambil setiap nilai numerik dalam selang waktu atau koleksi interval, melalui fungsi kepadatan probabilitas yang merupakan karakteristik dari distribusi probabilitas; atau campuran kedua jenis. Realisasi dari variabel acak, yaitu, hasil nilai acak memilih sesuai dengan fungsi distribusi probabilitas variabel, disebut variates acak.
Pengobatan matematika formal variabel acak adalah topik dalam teori probabilitas. Dalam konteks itu, variabel acak dipahami sebagai fungsi didefinisikan pada ruang sampel yang output adalah nilai-nilai numerik.
Definition
Sebuah
variabel acak X \
usus \ Omega
\ ke E adalah fungsi terukur dari
set hasil yang mungkin \ Omega beberapa set
E. Definisi aksiomatik
teknis membutuhkan \ Omega menjadi ruang probabilitas dan E
untuk menjadi ruang terukur (lihat Ukur
definisi -theoretic).
Perhatikan bahwa meskipun X biasanya fungsi bernilai real (E = \ mathbb {R}), tidak mengembalikan probabilitas. Probabilitas hasil yang berbeda atau set hasil (peristiwa) yang sudah diberikan oleh P ukuran probabilitas dengan yang \ Omega dilengkapi. Sebaliknya, X menjelaskan beberapa properti numerik yang hasil-hasil di \ Omega mungkin. Misalnya. jumlah kepala dalam koleksi acak koin membalik; ketinggian acak orang. Probabilitas bahwa X mengambil nilai \ leq 3 adalah ukuran dari himpunan hasil \ {\ omega \ di \ Omega: X (\ omega) \ leq 3 \}, dinotasikan P (X \ leq 3).
Perhatikan bahwa meskipun X biasanya fungsi bernilai real (E = \ mathbb {R}), tidak mengembalikan probabilitas. Probabilitas hasil yang berbeda atau set hasil (peristiwa) yang sudah diberikan oleh P ukuran probabilitas dengan yang \ Omega dilengkapi. Sebaliknya, X menjelaskan beberapa properti numerik yang hasil-hasil di \ Omega mungkin. Misalnya. jumlah kepala dalam koleksi acak koin membalik; ketinggian acak orang. Probabilitas bahwa X mengambil nilai \ leq 3 adalah ukuran dari himpunan hasil \ {\ omega \ di \ Omega: X (\ omega) \ leq 3 \}, dinotasikan P (X \ leq 3).
Discrete random variable
Dalam
sebuah percobaan seseorang dapat dipilih secara acak, dan satu variabel acak
mungkin ketinggian seseorang. Matematis, variabel acak ditafsirkan sebagai
fungsi yang memetakan orang dengan tinggi orang tersebut. Terkait dengan
variabel acak adalah distribusi probabilitas yang memungkinkan perhitungan
probabilitas bahwa tingginya di setiap bagian dari nilai yang mungkin, seperti
probabilitas bahwa ketinggian antara 180 dan 190 cm, atau probabilitas bahwa
tingginya baik kurang dari 150 atau lebih dari 200 cm.
Variabel
lain random mungkin menjadi nomor seseorang dari anak-anak; ini adalah variabel
acak diskrit dengan nilai integer non-negatif. Hal ini memungkinkan perhitungan
probabilitas untuk nilai integer individu - fungsi massa probabilitas (PMF) -
atau set nilai-nilai, termasuk set terbatas. Misalnya, acara yang menarik
mungkin "bahkan jumlah anak". Untuk kedua terbatas dan tidak terbatas
acara set, probabilitas mereka dapat ditemukan dengan menjumlahkan PMFs elemen;
yaitu, kemungkinan bahkan jumlah anak adalah tak terbatas jumlah PMF (0) + PMF
(2) + PMF (4) + ...
Dalam
contoh-contoh seperti ini, ruang sampel (himpunan semua orang mungkin) sering
ditekan, karena secara matematis sulit untuk menggambarkan, dan nilai-nilai
yang mungkin dari variabel acak kemudian diperlakukan sebagai ruang sampel.
Tapi ketika dua variabel acak diukur pada ruang sampel yang sama dari hasil,
seperti ketinggian dan jumlah anak-anak yang dihitung pada orang acak yang sama,
lebih mudah untuk melacak hubungan mereka jika diakui bahwa kedua tinggi dan
jumlah anak datang dari orang acak yang sama, misalnya sehingga pertanyaan
apakah variabel acak tersebut berkorelasi atau tidak dapat diajukan.
Distribution
functions of random variables
Jika acak
variabel X \ usus \ Omega \ ke \ mathbb {R} didefinisikan pada ruang
probabilitas (\ Omega, \ mathcal {F}, P) diberikan, kita dapat mengajukan
pertanyaan seperti "Berapa besar kemungkinan itu bahwa nilai X adalah sama
dengan 2? ". Ini adalah sama dengan probabilitas acara \ {\ omega: X (\
omega) = 2 \} \, \! yang sering ditulis sebagai P (X = 2) \, \! atau p_X (2)
untuk pendek.
Merekam semua
probabilitas ini rentang output variabel random bernilai real X menghasilkan
distribusi probabilitas X. Distribusi probabilitas "lupa" tentang
ruang probabilitas tertentu yang digunakan untuk mendefinisikan X dan hanya
mencatat probabilitas berbagai nilai X. Seperti distribusi probabilitas selalu
dapat ditangkap oleh kumulatif fungsi distribusi F_X nya (x) = \ operatorname
{P} (X \ le x)
dan
kadang-kadang juga menggunakan fungsi kepadatan probabilitas, p X. Dalam hal
ukuran-teori, kita menggunakan variabel X acak untuk "mendorong maju"
P ukuran pada \ Omega ke p_X ukuran pada \ mathbb {R}. Ruang probabilitas yang
mendasari \ Omega adalah perangkat teknis yang digunakan untuk menjamin adanya
variabel acak, kadang-kadang untuk membangun mereka, dan untuk mendefinisikan
pengertian seperti korelasi atau kemerdekaan berdasarkan pada distribusi
gabungan dari dua atau lebih acak variabel pada probabilitas yang sama ruang.
Dalam prakteknya, orang sering membuang ruang \ Omega sama sekali dan hanya
menempatkan ukuran pada \ mathbb {R} yang memberikan ukuran 1 ke garis nyata
utuh, yaitu, satu bekerja dengan distribusi probabilitas bukan variabel acak.
Joint probability distribution
Dalam
studi probabilitas, mengingat setidaknya dua variabel acak X, Y, ..., yang
didefinisikan pada ruang probabilitas, distribusi probabilitas gabungan untuk
X, Y, ... adalah distribusi probabilitas yang memberikan probabilitas bahwa
setiap X, Y, ... jatuh dalam kisaran tertentu atau set nilai diskrit ditentukan
untuk variabel tersebut. Dalam kasus hanya dua variabel acak, ini disebut
distribusi bivariat, tapi konsep umum ke sejumlah variabel acak, memberikan
distribusi multivariat. Distribusi probabilitas gabungan dapat dinyatakan baik
dalam hal fungsi distribusi kumulatif sendi atau dalam hal fungsi probabilitas
gabungan densitas (dalam kasus variabel kontinu) atau fungsi massa probabilitas
gabungan (dalam kasus variabel diskrit). Ini pada gilirannya dapat digunakan
untuk menemukan dua jenis distribusi: distribusi marginal memberikan
probabilitas untuk setiap salah satu variabel tanpa referensi untuk setiap
rentang tertentu nilai-nilai untuk variabel lain, dan distribusi probabilitas
bersyarat memberikan probabilitas untuk setiap subset dari variabel tergantung
pada nilai-nilai tertentu dari variabel yang tersisa.
Coin
Flips
Pertimbangkan
flip dari dua
koin yang adil; biarkan A dan B menjadi variabel acak diskrit yang
terkait dengan hasil pertama dan
kedua koin membalik
masing-masing. Jika menampilkan koin "kepala"
kemudian terkait variabel
acak adalah 1, dan 0 sebaliknya.
Sendi fungsi massa probabilitas A dan
B mendefinisikan probabilitas
untuk setiap pasangan hasil. Semua hasil yang mungkin adalah
Karena
setiap hasil sama
kemungkinan fungsi massa probabilitas gabungan menjadi
Kapan
.
Karena membalik koin
independen, fungsi massa probabilitas gabungan adalah produk dari marginals:
Secara
umum, setiap sandal
koin adalah percobaan Bernoulli dan urutan
membalik mengikuti distribusi Bernoulli.
Dice Rolls
Pertimbangkan
gulungan dadu yang
adil dan membiarkan A = 1 jika nomor tersebut
bahkan (yaitu 2,
4, atau 6) dan A
= 0 jika tidak.
Selanjutnya, biarkan B = 1 jika nomor perdana (yaitu
2, 3, atau
5) dan B = 0 jika tidak.
1
|
2
|
3
|
4
|
5
|
6
|
|
A
|
0
|
1
|
0
|
1
|
0
|
1
|
B
|
0
|
1
|
1
|
0
|
1
|
0
|
Kemudian,
distribusi gabungan A dan B, yang dinyatakan sebagai fungsi massa probabilitas, adalah
Probabilitas
ini tentu berjumlah
1, karena kemungkinan beberapa kombinasi A dan B terjadi adalah 1.
Mixed Case
The
"kepadatan gabungan campuran" dapat didefinisikan di mana satu
variabel random X kontinu dan variabel lainnya random Y adalah diskrit, atau
sebaliknya, sebagai:
Salah
satu contoh dari situasi di mana satu mungkin
ingin menemukan distribusi
kumulatif dari satu variabel acak yang kontinu
dan variabel acak lain yang diskrit muncul
ketika seseorang ingin menggunakan
regresi logistik dalam memprediksi
probabilitas hasil biner Y bersyarat
pada nilai hasil
X. didistribusikan terus menerus satu harus
menggunakan "campuran" kepadatan
gabungan ketika menemukan distribusi
kumulatif hasil biner
ini karena variabel input (X, Y) awalnya
didefinisikan sedemikian rupa bahwa seseorang tidak bisa secara kolektif menetapkan itu baik fungsi kepadatan probabilitas
atau fungsi massa
probabilitas. Secara formal, fX, Y (x, y) adalah fungsi
kepadatan probabilitas (X,
Y) sehubungan dengan ukuran produk pada dukungan
masing-masing X dan Y. Salah satu dari dua
dekomposisi tersebut kemudian dapat digunakan untuk memulihkan
sendi kumulatif fungsi
distribusi:
Definisi
generalizes untuk campuran nomor sewenang-wenang variabel acak diskrit dan
kontinu.
Wasserstein metric
Dalam
matematika, yang Wasserstein (atau Vasershtein)
metrik adalah fungsi jarak didefinisikan antara
distribusi probabilitas pada diberikan ruang metrik M.
Secara intuitif, jika setiap distribusi dipandang sebagai jumlah unit "kotoran" menumpuk di M, metrik adalah minimum "biaya" untuk mengubah satu tumpukan ke yang lain, yang diasumsikan jumlah kotoran yang perlu dipindahkan kali jarak itu harus dipindahkan. Karena analogi ini, metrik ini dikenal dalam ilmu komputer sebagai jarak penggerak bumi.
Nama "Wasserstein jarak" diciptakan oleh RL Dobrushin pada tahun 1970, setelah matematikawan Rusia Leonid Vaseršteĭn yang memperkenalkan konsep pada tahun 1969. Sebagian besar publikasi berbahasa Inggris menggunakan ejaan Jerman "Wasserstein" (dikaitkan dengan nama "Vasershtein" menjadi Jerman asal).
Secara intuitif, jika setiap distribusi dipandang sebagai jumlah unit "kotoran" menumpuk di M, metrik adalah minimum "biaya" untuk mengubah satu tumpukan ke yang lain, yang diasumsikan jumlah kotoran yang perlu dipindahkan kali jarak itu harus dipindahkan. Karena analogi ini, metrik ini dikenal dalam ilmu komputer sebagai jarak penggerak bumi.
Nama "Wasserstein jarak" diciptakan oleh RL Dobrushin pada tahun 1970, setelah matematikawan Rusia Leonid Vaseršteĭn yang memperkenalkan konsep pada tahun 1969. Sebagian besar publikasi berbahasa Inggris menggunakan ejaan Jerman "Wasserstein" (dikaitkan dengan nama "Vasershtein" menjadi Jerman asal).
Definition
Biarkan
(M, d) menjadi
ruang metrik yang setiap ukuran probabilitas pada M adalah ukuran
Radon (yang disebut ruang Radon). Untuk
p ≥ 1, biarkan Pp (M) menunjukkan koleksi semua kemungkinan langkah-langkah μ M dengan saat pth terbatas: untuk
beberapa x0 di M,
Kemudian
PTH Wasserstein jarak
antara dua ukuran probabilitas
μ dan ν di Pp (M) didefinisikan sebagai
dimana Γ (μ, ν) menunjukkan koleksi semua
langkah di M × M dengan marginals μ dan ν pada faktor pertama dan kedua masing-masing. (Set Γ (μ, ν) juga disebut himpunan
semua kopling dari μ dan ν.) dia di atas jarak biasanya
dilambangkan Wp (μ, ν) (biasanya antara penulis yang lebih memilih
"Wasserstein" ejaan) atau ℓp (μ, ν) (biasanya antara penulis yang
lebih memilih "Vasershtein" ejaan). Sisa dari artikel ini akan
menggunakan notasi Wp. The Wasserstein metrik dapat dipersamakan didefinisikan
oleh
dimana
E [Z] menunjukkan nilai yang diharapkan dari variabel Z acak dan infimum yang
diambil alih semua distribusi bersama dari random variabel X dan Y dengan
marginals μ dan ν masing-masing.
The
Wasserstein metrik adalah cara alami untuk membandingkan distribusi probabilitas dari dua variabel X dan
Y, di mana satu
variabel berasal dari lain dengan
kecil, gangguan non-seragam (acak atau deterministik). Dalam ilmu komputer, misalnya,
metrik W1 secara
luas digunakan untuk
membandingkan distribusi diskrit,
misalnya histogram warna dua gambar digital;
melihat jarak bumi
mover untuk lebih jelasnya.
Daftar
Pustaka