in Genel, Turkish

Veri Odaklı Hesaplamalı Sosyal Bilimler

Geçtiğimiz hafta İstanbul Üniversite İletişim Fakültesi öğrencilerine Veri Odaklı Hesaplamalı Sosyal Bilimleri örneklerle tanıtmaya çalıştım. Sunum Punto24’ün “Nasıl Yapmalı” serisinin bir parçası olarak Pınar Dağ tarafından organize edilen Veri Gazeteciliği Atölyesinde gerçekleşti.

Dinleyici kitlesi iletişimciler ve gazeteciler olduğu için (çok da teknik detaylara girmeden) sunumda örnekler üzerinden hesaplamalı sosyal bilimler (HeSoBi) kavramları ve sosyal veri odaklı veri bilimi çalışmaları üzerinde durdum, kendimin ve arkadaşlarımın Türkiye üzerine yapmış olduğumuz bazı çalışmalarımızdan örnekler verdim, umarım faydalı olmuştur :-). Genel olarak HeSoBi üç kategoride incelenebilir (bkz. sunum sn. 4), ben bu sunumda sosyal veri odaklı çalışmalar üzerinde durdum:

  1. Sosyal veri odaklı çalışmalar
    • Veri madenciliği, sosyal ağ analizi ve makine öğrenimi
    • Sosyal ilişkiler: Mobil uygulamalar, bloglar, online sosyal ağlar…
    • Örnekler: Bu sunumdaki projeler
  2. Sosyal simülasyonlar
    • Ajan temelli modelleme, Sosyal Kompleksite (Birey, Ev, Kültür, Ekonomi…)
    • Santa Fe Institute, Center for Social Complexity at George Mason University
    • Örnekler: NetLogo SW, Ayaklanma, Salgın modelleri, Şekilci Keratalar
  3. Online deneyler ve kitle kaynak
    • Büyük ölçekli online deney dizaynı
    • Amazon Mechanical Turk (AMT) [yapay yapay zeka]
    • Örnekler: FB deneyi, Yahoo reklam deneyi, [AMT] tweet kurasyon

Ayrıca, veri gazetecileri için de önemli gördüğüm ve çok da faydalanabileceklerini düşündüğüm bilimcinin alet kutusundan bir kesit paylaştım:

  • Proje (kod,analiz,dokuman,veri) paylaşım & blog
  • Veri toplama
    • Freelon’un listesi, dd-css, beautiful soup, browser eklentileri (kimono)
  • Veri saklama
    • SQL (Postgres, MySQL), NoSQL (Redis, MongoDB), Neo4j, Apache SOLR
    • csv/tsv, json (ceviriciler var), not: xls ≠ csv
  • Görselleştirme
  • Istatistik ve numerik analiz
    • R, Stata, SPSS, Pandas (Python), Matlab, Excel
  • Makine öğrenim
    • Weka, Scikit-learn, gensim (konu modelleme)
  • Metin madenciliği
    • NLTK, TextBlob, StanfordNLP, UIMA, Gate, Mahout
  • Sosyal ağ analizi
    • Gephi (estetik, export), NodeXL (sosyal medya plugin)
    • NetworkX, Jung, Jgraph
  • Büyük Veri (Big Data)
    • Hadoop, pig, map/reduce (java+cloud9, python+boto)
    • Bulut sistemleri AWS EC2, dynamodb, cassandra

Ve az evvel sunumumu Slideshare’a yükledim. Hangout üzerinden yapmış olduğum sunumun tamamını YouTube’tan da izleyebilirsiniz. İstifadeli olması dileğiyle 🙂