nexCMO

Veriyi okunur kılmanın yolu: Veri Görselleştirmesi

21.Yüzyılın bilgi çağı olmasını 1950’lerin gömülü sistemler ve mikroişlemciler alanındaki gelişimi ve buna bağlı olarak bilgiyi depolama kapasitemizin üstel artışına borçluyuz. Veri toplamak için gerek duyduğumuz sensörlerin erişilebilirliği, akademinin yanında endüstri ve iş dünyasında Internet of Everything (IoE), Human Computer Interaction (HCI) gibi kavramların hayatımızda hızla yer bulmasına sebep oldu. Hayal edebileceğimiz her aletten, hatta vücudumuzdan gerçek zamanlı veri aktarımı sağlayan cihazlarla etkileşim halinde olduğumuz bu dönemde evrim mekanizmalarımız veri konusundaki alışkanlıklarımızı ve farkındalığımızı değiştirecek biçimde işliyor. 2018 yılındaki Forbes haberine göre, insanlığın elindeki veri miktarının %90’ı son iki yılda üretilmiş durumda [1]. Veri üzerindeki farkındalık ve veri okur yazarlığının bulunduğumuz dönemin doğal seçilim filtrelerinden biri olduğunu söylemek mümkün. Bu nedenle, elimizdeki böylesine büyük veri setlerini işlemek ve anlam ifade eden sonuçlar çıkarmak da 21. yüzyılın yetkinlikleri arasında [2].

Veri Bilimi neden görselleştirmeye ihtiyaç duyuyor?

Veri biliminin temel motivasyonu; kaotik veri setlerinden özgün,  beklenmedik, aksiyona dönüşme potansiyeline sahip, anlamlı örüntüler çıkarmak. Bu nedenle veri bilimi otomatik araçların yakalayamadığı örüntüleri yakalamak için insan yetkinliklerini kullanıyor. İşi sadece istatistiğe, bilgisayarlara, çalışma mekanizmasının tam hakim olmadığımız yapay sinir ağları kara kutularına bırakmak; problemlerin çözümünde fayda, özgünlük parametrelerini bulundurduğumuz sürece mümkün görünmüyor. John Tukey bu nedenle 1962’de Princeton Üniversitesi’nde İstatistik kürsüsünün başındayken; “veriden öğrenme üzerine yeni bir bilim” olarak nitelendirdiği veri bilimine, analizi kolay, anlaşılır kılan istatistiksel özetleri ve veri görselleştirmesini dahil ediyor ve Exploratory Data Analysis (EDA) adı verilen keşifsel veri analizi metodu ortaya çıkıyor [3].

“The greatest value of a picture is

when it forces us to notice

what we never expected to see.”

-John Tukey 1977

Veri içindeki örüntüleri ve trendleri yakalamamızı sağlayan veri görselleştirme; renk, şekil, boyut, vektör gibi elementlerle bilgiyi haritalandırma prensibi üzerine kurulu. Bağ kurma, neden-sonuç ilişkilerini yakalama ve anlamlandırma konusunda insan becerilerine ihtiyaç duyulduğu bu alanda veri görselleştirme ve istatistiksel özetler, veri kümelerinden değer yaratma yolculuğunda bizlere büyük destek sağlıyor.

Veri Görselleştirme ve İnsan Algısı İlişkisi

Veri görselleştirmenin bu kadar kritik olmasının sebeplerini Stephen Few Encyclopedia of Human-Computer InteractionData Visualization for Human Perception çalışmasında insan algısı ve bilişsel sürecinin arasındaki bağ ile ilişkilendiriyor.

Bilginin zihnimizde yer etmesi, bilişsel sürecimize dahil edilmesi ve bilgi sentezlemenin tetiklenmesi beynin serebral korteksi üzerinden yönetiliyor. Bu bölge beynin kutsal görevini üstlenmiş olsa da, diğer loblara oranla daha yavaş ve daha az verimli. Bunun yanında görsel merkez olarak adlandırdığımız çok küçük bir eforla tettiklenebilen bölge, görüleni kaydetme konusunda çok daha hızlı ve verimli.

Veri görselleştirme de görsel algının avantajlarını kullanarak bilişsel sürecin verimliliğini arttırıyor. Few, veri görselleştirmenin verimini beynin görsel ve bilişsel merkezlerini birlikte kullanarak bilgiyi insan beyni için daha kalıcı hale getirmesine bağlıyor. Böylece, veri görselleştirme, görsel seçicilikten yararlanarak kompleks bilgileri doğru resimlerle zihne kaydetme ve bilişsel sürece dahil etme kapasitesini arttırmamızı sağlıyor [4].

Veri görselleştirmesi, beynimizin yeteneklerini kendi yararına kullanmak için görsel algı ve biliş arasındaki dengeyi değiştirir [4].

Tıpkı yazının icadıyla bilgiyi görsel olarak kaydetmemizin bilimsel çağa getirdiği katalizör etki gibi veri görselleştirme de elimizdeki sayısız veriyi insan zihni tarafından sentezlenebilir hale getirmesi açısından 21. yüzyılın en etkili disiplinleri arasında yer almayı hakediyor.

Veri görselleştirmenin evrensel bir dil haline gelmesi ve verinin en etkili biçimde hikayeleştirilmesi için Andy Kirk, Alberto Cario, Giorgia Lupi gibi isimler geniş kapsamlı çalışmalar yürüterek modern veri görselleştirmenin tanımını ve haritasını oluşturuyorlar. IBM ve Google gibi şirketler de veri görselleştirme kılavuzları oluşturarak bu alandaki çalışmaları standart bir dil haline getirmeyi amaçlıyorlar [5,6].

IBM Design Language Data Vis Guideline , IBM Design & Accurat [5]

İstatistiksel özetlerin yorumlanmasında veri görselleştirmelerinin yeri

Veriyi özetleme ve bazı iç görüler elde etmenin en etkili yollarından biri olan istatistiksel özetler de, veri görselleştirmeyle desteklendiğinde daha doğru ve nitelikli sonuçlar veriyor. Justin Matejka ve George Fitzmaurice’nin Bilgisayar Sistemlerinde İnsan Faktörü (Conference on Human Factors in Computing Systems) konferansındaki Same Stats, Different Graphs çalışmaları da bu tezi doğrular nitelikte [7]. Veri setlerini özetlemek için en çok kullanılan ortalama değer, minimum maksimum değer, dağılım, korelasyon gibi ölçütler birbirinden tamamen farklı veri setleri için aynı sonuçları verebilme olasılığına sahip.

Veri görselleştirme ve bilgi tasarımcısı olan Alberto Cairo “yalnızca istatistiksel özetlere asla güvenmemeye ve her zaman verileri görselleştirmeye” teşvik eden veri setleri hazırlayarak durumu örneklendiriyor.

 

 

Aynı istatistiksel özete sahip farklı veri setlerinin grafikleri [7]

Cairo’nun oluşturduğu görseldeki veri setlerinin grafikleri neredeyse aynı ortalama değer ve korelasyonlara sahip olmalarına rağmen, veri setindeki her bir örneğin dağılımının birbirinden tamamen farklı olduğunu gözlemek mümkün.

Aynı şekilde veri setindeki öz niteliklerin dağılımlarını özetlemek için kullanılan kutu grafiği (box-plot) yöntemi dağılımın minimum ve maksimum değeri, medyan değeri gibi nicelikleri yansıtma konusunda başarılı olsa da ayrıntılı ölçekte örnekler çok farklı bölgelerde pozisyonlanmış olabilir. Bu nedenle, istatistiksel kavramların yanında her zaman veriyi tablolaştırmak ve değerlendirmeleri birlikte yapmak hata paylarını önemli derecede azaltıyor.

Özetle, veri miktarı ve niteliklerinin kavram boyutlarımızı aştığı şu günlerde, veri görselleştirme erişmeye çalıştığımız yeni bilgi boyutunda bize rehberlik edecek. Bunu yaparken, veri bilimi çalışmaları, iş zekası, bilgi mimarisi ve tasarımı gibi yeni nesil iş tanımlarının tamamı; kullanıcılarıyla iletişimlerini, geliştirilmiş veri dili olan, veri görselleştirmesi ile sağlayacaklar. Teknoloji devi şirketler bu alandaki çalışmalarıyla bizlere öncülük etmeye çoktan başlamış durumdalar.

Referanslar

[1] Forbes – How Much Data Do We Create Every Day?

[2] Harvard Business Review – Data Scientist: The Sexiest Job of the 21st Century

[3] John Tukey, The future of data analysis, 1962

[4] Few S., Data Visualization for Human Perception, The Encyclopedia of Human-Computer Interaction, 2nd Ed.

[5] Accurat & IBM Design, IBM Design Language :  Data Visualization Guidelines

[6] Google Material Design, Data Visualization

[7] Matejka J., Fitzmaurice G., Same Stats, Different Graphs, Conference on Human Factors in Computing Systems

Melisa Altınsoy

Melisa Altınsoy