DERS ADI

: Metin ve Web Madenciliğine Giriş

Ders Bilgileri

Ders Kodu Ders Adı Ders Türü D U L AKTS
BİL 3102 Metin ve Web Madenciliğine Giriş SEÇMELİ 3 0 0 5

Dersi Veren Birim

Bilgisayar Bilimleri

Dersin Düzeyi

Lisans

Ders Koordinatörü

PROF. DR. EFENDİ NASİBOĞLU

Dersi Alan Birimler

Bilgisayar Bilimleri

Dersin Amacı

Bu derste Metin ve Web Madenciliğine Giriş, sorgular ve belgeler, belge önişleme, kelime dağılımları, vektörleştirme, web kazıma, cümle eşleştirme, sosyal network analizi, doğal dil işleme, derin öğrenme tabanlı modeller, büyük dil modelleri konuları anlatılacaktır.

Dersin Öğrenme Kazanımları

1   Metin madenciliği teknikleri konusunda bilgi sahibi olma
2   Web madenciliği teknikleri konusunda bilgi sahibi olma
3   Metin tabanlı dokümanlar üzerinde analiz yapabilme
4   Doğal Dil İşlemedeki çeşitli yöntem ve teknikler hakkında bilgi sahibi olma
5   Webden bilgi kazıma teknologileri hakkında bilgi sahibi olma

Dersin Öğretim Türü

Örgün Öğretim

Dersin Önkoşulu/Önkoşulları

Yok

Ders İçin Önerilen Diğer Hususlar

Yok

Ders İçeriği

Hafta Konular Açıklama
1 Giriş
2 Pythonla web kazıma teknikleri
3 Sosyal medyadan bilgi çekme
4 Metin önişleme teknikleri. Stemming, stop words, n-gram
5 Skorlama, terim ağırlıklandırma
6 Metinlerin TF-IDF vektörel gösterimi
7 Metinler arası uzaklık ölçüleri, Levenshtein, Jaro-Winkler
8 Metinler arası bulanık benzerlik
9 Metin sınıflandırma
10 Metinlerin vektörleştirılmesinde derin öğrenme teknikleri
11 Word2Vec, CBOW, SkipGram, Fasttext
12 Öneğitimli dönüştürücüler (Pretrained Transformers), LSTM, BiLSTM, LLM
13 Büyük Dil Modelleri (LLM), Prompt engineering, One shot, Few shot prompting.
14 Proje sunumları.

Ders İçin Önerilen Kaynaklar

Ana kaynak:
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.
Yardımcı kaynaklar:
Song, M., Handbook of Research on Text and Web Mining Technologies, Volume I-II, Y-F. B. Wu, 2007.
Jurafksy, D., Martin, J. H.., An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd ed., Stanford University, 2022.

Öğrenme ve Öğretme Yöntemleri

Ders, ders anlatımı, sınıf sunumu ve tartışma formatında işlenir. Öğretilen dersin yanı sıra, atanan gruplar tarafından grup sunumları hazırlanmalı ve bir tartışma oturumunda sunulmalıdır. Dersin bazı haftalarında, daha önce verilen ödevlerin sonuçları tartışılır.

Değerlendirme Yöntemleri

SIRA NO KISA KOD UZUN ADI FORMUL
1 VZ Vize
2 OD Ödev
3 FN Final
4 BNS BNS VZ * 0.30 + OD * 0.30 + FN * 0.40
5 BUT Bütünleme Notu
6 BBN Bütünleme Sonu Başarı Notu VZ * 0.30 + OD * 0.30 + BUT * 0.40


Değerlendirme Yöntemlerine İliskin Aciklamalar

Yok

Değerlendirme Kriteri

Ödev: % 30
Ara sınav: % 30
Final sınavı: % 40

Dersin Öğretim Dili

Türkçe

Derse İlişkin Politika ve Kurallar

Derse zamanında gelinecek. Dönem boyunca derslerin %70'ine devam zorunludur.

Dersin Öğretim Üyesi İletişim Bilgileri

efendi.nasibov@deu.edu.tr

Ders Öğretim Üyesi Görüşme Gün ve Saatleri

İlan edilecektir.

Staj Durumu

YOK

İş Yükü Hesaplaması

Etkinlikler Sayısı Süresi (saat) Toplam İş Yükü (saat)
Ders Anlatımı 14 3 42
Haftalık Ders öncesi/sonrası hazırlıklar 14 1 14
Ödev Hazırlama 1 15 15
Final Sınavına Hazırlık 1 30 30
Vize Sınavına Hazırlık 1 15 15
Final Sınavı 1 2 2
Vize Sınavı 1 2 2
TOPLAM İŞ YÜKÜ (saat) 120

Program ve Öğrenme Kazanımları İlişkisi

PK/ÖKPK.1PK.2PK.3PK.4PK.5PK.6PK.7PK.8PK.9PK.10PK.11PK.12PK.13
ÖK.13
ÖK.23
ÖK.33444
ÖK.43444
ÖK.543544