chromatin_summer_school_2024
Workshops
data_processing

Repository

cd /storage/groups/shared/chromatin
mkdir user.name
cd user.name
srun -p cpu_p -w cpusrv22 --qos cpu_long --reservation=chromatin_summer_school -c 8 --mem=32G --pty bash
git clone https://ascgitlab.helmholtz-munich.de/chromatin_summer_school_2024/workshops/data_processing.git

cd data_processing
mamba activate env_summerschool2024_processing
zcat < fastq/22L007826_R1.fastq.gz | head -n 8
zcat < fastq/22L007826_R2.fastq.gz | head -n 8
zcat < fastq/22L007826_R1.fastq.gz | wc -l
zcat < fastq/22L007826_R2.fastq.gz | wc -l
zcat < fastq/22L007826_R1.fastq.gz | paste - - - - | head
fastqc fastq/22L007826_R1.fastq.gz -o fastqc

fastqc fastq/22L007826_R2.fastq.gz -o fastqc
trim_galore -j 8 --quality 28 --paired  -o trimmed fastq/22L007826_R1.fastq.gz fastq/22L007826_R2.fastq.gz 2> logs/log_trimgalore.txt
fastqc trimmed/22L007826_R1_val_1.fq.gz -o fastqc

fastqc trimmed/22L007826_R2_val_2.fq.gz -o fastqc
cat fasta/adapters.fa
>Illumina
AGATCGGAAGAGC
>Small RNA
TGGAATTCTCGG
>Nextera
CTGTCTCTTATATCCGAGCCCACGAGAC
head -n 20 fasta/hg38_sub.fa
cat fasta/hg38_sub.fa | grep "T" | head -n 1
bowtie2-build --threads 8 fasta/hg38_sub.fa bowtie2_index/hg38_sub
bowtie2 -x bowtie2_index/hg38_sub --threads 8 -1 trimmed/22L007826_R1_val_1.fq.gz -2 trimmed/22L007826_R2_val_2.fq.gz 2> logs/log_bowtie2_default.txt | samtools view -Sbh -o bam/22L007826.default.bam
params="--end-to-end --very-sensitive --no-unal --no-mixed --no-discordant --dovetail -I 10 -X 700"

bowtie2 -x bowtie2_index/hg38_sub --threads 8 $params -1 trimmed/22L007826_R1_val_1.fq.gz -2 trimmed/22L007826_R2_val_2.fq.gz 2> logs/log_bowtie2_endtoend.txt | samtools view -Sbh -o bam/22L007826.endtoend.bam
params="--local --very-sensitive-local --no-unal --no-mixed --no-discordant --dovetail -I 10 -X 700"

bowtie2 -x bowtie2_index/hg38_sub --threads 8 $params -1 trimmed/22L007826_R1_val_1.fq.gz -2 trimmed/22L007826_R2_val_2.fq.gz 2> logs/log_bowtie2_local.txt | samtools view -Sbh -o bam/22L007826.local.bam
logs/log_bowtie2_default.txt
logs/log_bowtie2_endtoend.txt
logs/log_bowtie2_local.txt
samtools view bam/22L007826.default.bam | head -n 20

samtools view bam/22L007826.endtoend.bam | head -n 20

samtools view bam/22L007826.local.bam | head -n 20
samtools view bam/22L007826.endtoend.bam | cut -f 9 | head -n 20
samtools sort --threads 8 -o bam/22L007826.default.sorted.bam bam/22L007826.default.bam

samtools sort --threads 8 -o bam/22L007826.endtoend.sorted.bam bam/22L007826.endtoend.bam

samtools sort --threads 8 -o bam/22L007826.local.sorted.bam bam/22L007826.local.bam
samtools view bam/22L007826.default.sorted.bam | head -n 10

samtools view bam/22L007826.endtoend.sorted.bam | head -n 10

samtools view bam/22L007826.local.sorted.bam | head -n 10
MAPQ >= X   #MM Q40   #MM Q20      #MM Q0    Description
0           5         7            15        All mappable reads
1           3         5            10        True multi w/ "good" AS, maxi of MAPQ >= 1
2           3         5            10        No true multi, maxi of MAPQ >= 2
3           3         5            10        No true multi,  maxi of MAPQ >= 3
8           2         4            8         No true multi, maxi of MAPQ >= 8
23          2         3            7         No true multi, maxi of MAPQ >= 23
30          1         2            4         No true multi, maxi of MAPQ >= 30
39          1         2            4         No true multi, maxi of MAPQ == 39*
40          1         2            4         No true multi, only true uni-reads
42          0         1            2         Only "perfect" true unireads
samtools view -q 12 --threads 8 -o bam/22L007826.default.filtered.bam bam/22L007826.default.sorted.bam

samtools view -q 12 --threads 8 -o bam/22L007826.endtoend.filtered.bam bam/22L007826.endtoend.sorted.bam

samtools view -q 12 --threads 8 -o bam/22L007826.local.filtered.bam bam/22L007826.local.sorted.bam
picard MarkDuplicates I=bam/22L007826.endtoend.filtered.bam O=bam/22L007826.endtoend.markdup.bam REMOVE_DUPLICATES=FALSE METRICS_FILE=logs/log_picard_markdup.txt

picard MarkDuplicates I=bam/22L007826.endtoend.filtered.bam O=bam/22L007826.endtoend.rmdup.bam REMOVE_DUPLICATES=TRUE METRICS_FILE=logs/log_picard_rmdup.txt
logs/log_picard_markdup.txt
logs/log_picard_rmdup.txt
samtools index bam/22L007826.endtoend.sorted.bam
samtools index bam/22L007826.endtoend.filtered.bam
samtools index bam/22L007826.endtoend.rmdup.bam
ls -l bam/*.bai