İskelet Tabanlı Eylem Tanıma Için Çok Ölçekli Uzaysal-Zamansal Dikkat Çizge Evrişimsel Ağ Yapısı
| dc.date.accessioned | 2026-03-26T11:17:19Z | |
| dc.date.available | 2026-03-26T11:17:19Z | |
| dc.description.abstract | İskelet tabanlı eylem tanıma, iskelet verilerinin vücut ölçeklerine, dinamik kamera görüntülerine, aydınlatma değişiklerine ve karmaşık arka plan durumlarına karşı dayanıklı olduğu için son yıllarda büyük ilgi görmüştür. İnsan iskeletinin doğal yapısı çizge olarak yapılandırmaya çok uygundur. Bu nedenle, birçok araştırmacı iskelet tabanlı eylem tanıma görevi için çizge evrişim ağları üzerinde çalışmaktadır. Özellikle, uzaysal-zamansal çizge evrişimsel ağlarının (ST-GCN), iskelet çizge verileri üzerindeki hem uzaysal hem de zamansal bağımlılıkları öğrenmede etkili olduğu kanıtlanmıştır. Spesifik olarak, ST-GCN insan vücudundaki eklemlerin doğal bağlantısına dayanan bir uzaysal çizge oluşturur ve zamansal boyutlar boyunca ardışık çerçevelerde karşılık gelen eklemler arasında zamansal kenarlar oluşturur. Daha sonra çizge evrişim katmanları, uzay ve zaman boyunca eylem modellerini keşfetmek için oluşturulmuş çizgeye uygulanmaktadır. İskelet verileri üzerinde iyi performans göstermesine rağmen, ST-GCN modellerinin bazı yapısal sınırlamaları bulunmaktadır. I. İnsan vücudunu temsil eden çizgenin topolojisi, tüm katmanlar ve tüm eylemler için sabitlenmiştir. Bu durum zengin temsillerin ve eylemlere özgü eklemler arasındaki ilişkiyi dikkate alan özellikler çıkarılmasını engellemektedir. II. ST-GCN mimarileri uzaysal-zamansal çizgeler üzerinde CNN yapılarında olduğu gibi evrişim çekirdek boyutu tarafından kısıtlanan yerel bir komşulukta standart 2B evrişim işlemi gerçekleştirmektedir. Bu evrişim çekirdek boyutu uzaysal olarak uzak mesafedeki eklemler arasındaki bağımlılıkları ve aynı zamanda uzun menzilli zamansal bağımlılıkları yakalamaya engel olmaktadır. (I) ve (II)'nin sonucu olarak, insan iskeletinde bağlantılı olmayan vücut eklemleri, örneğin sol ve sağ eller arasındaki korelasyonlar, "alkışlama" gibi eylemlerle ilgili olsa bile eksik değerlendirilmektedir. Birçok çalışma, daha uzak mesafedeki eklemler arasındaki derin anlamsal bilgi elde etmek için hiyerarşik yapıya sahip ağlar tasarlamıştır ancak sorun tam olarak çözülememiştir. Bu nedenle, iskelet verilerine uygun uzak mesafeli eklemler arasındaki bağımlılıkları yakalayabilen güçlü uzaysal-zamansal özellik geliştirici mimarilerin daha fazla tasarlanması gerekmektedir. Yukarıdaki anlatılan yapısal sınırlamaların ötesine geçebilmek için iskelet tabanlı eylem tanıma için çok ölçekli uzaysal-zamansal dikkat çizge evrişimsel ağ yapısı olan MSSTA-GCN önerilmektedir. Eylem tanıma performansını iyileştirmek için çizge özellik gösterimlerinin eklemler arasındaki uzaysal-zamansal bağımlılığı daha doğru bir şekilde yansıtması gerekmektedir. Bu bağlamda eklemler arasındaki bağımlılıkların gücünü dinamik olarak belirlemek için dikkat mekanizmasını kullanmak mantıklıdır. Bu fikrin ışığında MSSTA-GCN mimarisinde uzaysal-zamansal çizge evrişimleri kullanılarak çıkarılan özellik haritaları üzerinde dikkat mekanizması ile uzaysal ve zamansal bağımlılıklar elde edilecek ve iskelet çizge yapısı dinamik bir şekilde güncellenecektir. Bu veriye dayalı yöntem, modelin çizge oluşturma esnekliğini artıracak ve veri örneklerine uyum sağlaması için daha fazla genellik sağlayacaktır. Literatürdeki mevcut yöntemlerin çoğu iskelet çizgesini bir bütün olarak ele alır ve insan vücudunun hareket sürecinde birçok eklem tarafından koordine edildiği gerçeğini göz ardı etmektedir. Bu nedenle, tek ölçekli çizge kullanan mevcut yöntemler, eylem temsillerini ayırt etmek için gerekli olan yüksek düzeydeki anlamsal özellikleri gözden kaçırmaktadır. MSSTA-GCN mimarisi, çok ölçekli yapısıyla bu eksikliği gidermeyi de hedeflemektedir. NTU-RGB+D 60, NTU-RGB+D 120 ve Kinetics Skeleton 400 gibi büyük ölçekli verisetleri üzerinde kapsamlı deneyler yapılarak geliştirilecek olan mimarinin performansı gözlemlenerek yorumlanacaktır. | |
| dc.description.abstract | Skeleton-based action recognition has attracted much attention in recent years as skeleton data is robust to body scales, dynamic camera images, illumination changes and complex background situations. The natural structure of the human skeleton is well suited to structuring it as a graph. Therefore, many researchers have been working on graph convolution networks for skeleton-based action recognition task. In particular, spatial-temporal graph convolutional networks (ST-GCN) have proven effective in learning both spatial and temporal dependencies on skeleton graph data. Specifically, ST-GCN builds a spatial graph based on the natural connectivity of joints in the human body and creates temporal edges between corresponding joints in consecutive frames along temporal dimensions. Graph convolution layers are then applied to the generated graph to explore action patterns across space and time. Despite performing well on skeletal data, ST-GCN models have some structural limitations. I. The topology of the graph representing the human body is fixed for all layers and all actions. This prevents the extraction of rich representations and features that take into account the relationship between action-specific joints. II. ST-GCN architectures perform standard 2D convolution on spatio-temporal graphs in a local neighborhood constrained by the convolution kernel size, as in CNN structures. This convolution kernel size prevents capturing dependencies between spatially distant joints, as well as long-range temporal dependencies. As a consequence of (I) and (II), unconnected body joints in the human skeleton, e.g. correlations between the left and right hands, are underestimated, even if they are related to actions such as "clapping". Many studies have designed networks with hierarchical structure to obtain deep semantic information between joints at greater distances, but the problem has not been fully solved. Therefore, further design of robust spatiotemporal feature-enhancing architectures capable of capturing dependencies between distantly spaced joints suitable for skeletal data is needed. In order to overcome the structural limitations described above, we propose MSSTA-GCN, a multi-scale spatio-temporal attention graph convolutional network structure for skeleton-based action recognition. To improve action recognition performance, graph feature representations need to more accurately reflect the spatiotemporal dependencies between joints. In this context, it makes sense to use the attention mechanism to dynamically determine the strength of dependencies between joints. In light of this idea, in the MSSTA-GCN architecture, spatial and temporal dependencies will be obtained with the attention mechanism on the feature maps extracted using spatiotemporal graph convolutions and the skeleton graph structure will be dynamically updated. This data-driven method will increase the graph construction flexibility of the model and provide more generality to adapt to data samples. Most of the existing methods in the literature treat the skeletal graph as a whole and ignore the fact that the human body is coordinated by many joints in the movement process. Therefore, existing methods using single-scale graphs miss the high-level semantic features necessary to distinguish action representations. The MSSTA-GCN architecture also aims to address this shortcoming with its multi-scale structure. We will conduct extensive experiments on large-scale datasets such as NTU-RGB+D 60, NTU-RGB+D 120 and Kinetics Skeleton 400 to observe and comment on the performance of the architecture. | en_US |
| dc.identifier.uri | https://hdl.handle.net/20.500.14901/1107 | |
| dc.title | İskelet Tabanlı Eylem Tanıma Için Çok Ölçekli Uzaysal-Zamansal Dikkat Çizge Evrişimsel Ağ Yapısı | |
| dspace.entity.type | Project | |
| gdc.description.department | 4.4. Bilgisayar Mühendisliği Bölümü | |
| gproject.coinvestigator | Doç. Dr. Gülşah Tümüklü Özyer Doç. Dr. Özge Öztimur Karadağ | |
| gproject.coordinator | Uğur Kılıç | |
| gproject.equipments | 1 Adet Dizüstü Bilgisayar | |
| gproject.funder | TÜBİTAK | |
| gproject.fundingprogram | TÜBİTAK 1002 | |
| gproject.grantamount | 74600 | |
| gproject.grantcurrency | TRY | |
| gproject.grantduration | 12 ay | |
| gproject.grantidentifier | 124E309 | |
| gproject.status | Tamamlandı | |
| gproject.subject | Eylem tanıma; İskelet verisi; Graf evrişimli ağlar; Dikkat mekanizması; Çok ölçekli | |
| gproject.subject | Action recognition; Skeletal data; Graph convolutional networks; Attention mechanism; Multi-scale | en_US |
| project.endDate | 08/18/2025 | |
| project.investigator | Dr. Öğr. Üyesi Uğur Kılıç | |
| project.startDate | 08/01/2024 |
