bcbio · naumenko-sa · Jul 20, 2020 · Jul 18, 2020
diff --git a/bcbio/bam/__init__.py b/bcbio/bam/__init__.py
@@ -175,8 +175,7 @@ def get_aligned_reads(in_bam, data):
     return 1.0 * align / total
 
 def downsample(in_bam, data, target_counts, work_dir=None):
-    """Downsample a BAM file to the specified number of target counts.
-    """
+    """Downsample a BAM file to the specified number of target counts."""
     index(in_bam, data["config"], check_timestamp=False)
     ds_pct = get_downsample_pct(in_bam, target_counts, data)
     if ds_pct:

diff --git a/bcbio/pipeline/qcsummary.py b/bcbio/pipeline/qcsummary.py
@@ -12,6 +12,7 @@
 
 import toolz as tz
 
+from bcbio import bam
 from bcbio import utils
 from bcbio.cwl import cwlutils
 from bcbio.log import logger
@@ -63,6 +64,11 @@ def pipeline_summary(data):
     Handles standard and CWL (single QC output) cases.
     """
     data = utils.to_single_data(data)
+    if data["analysis"].startswith("wgbs-seq"):
+        bismark_bam = dd.get_align_bam(data)
+        sorted_bam = bam.sort(bismark_bam, data["config"])
+        data = dd.set_align_bam(data, sorted_bam)
+        data = dd.set_work_bam(data, bismark_bam)
     work_bam = dd.get_align_bam(data) or dd.get_work_bam(data)
     if not work_bam or not work_bam.endswith(".bam"):
         work_bam = None

diff --git a/bcbio/upload/__init__.py b/bcbio/upload/__init__.py
@@ -128,8 +128,6 @@ def _get_files_chipseq(sample):
 def _get_files_wgbsseq(sample):
     out = []
     algorithm = sample["config"]["algorithm"]
-    # otherwise deduplicated bam is saved to final
-    sample["work_bam"] = sample["align_bam"]
     out = _maybe_add_alignment(algorithm, sample, out)
     bismark_report_dir = sample.get("bismark_report")
     if bismark_report_dir:

diff --git a/bcbio/wgbsseq/cpg_caller.py b/bcbio/wgbsseq/cpg_caller.py
@@ -28,7 +28,8 @@ def _run_meth_extractor(bam_in, sample, workdir, index_dir, config):
     bismark = config_utils.get_program("bismark_methylation_extractor", config)
     cores = config["algorithm"].get('cores', 1)
     memory = config["algorithm"].get('mem', 5)
-    bam_in = bam.sort(bam_in, config, order="queryname")
+    # don't sort even by read name!
+    # bam_in = bam.sort(bam_in, config, order="queryname")
     cmd = "{bismark} --no_overlap --comprehensive --cytosine_report --genome_folder {index_dir} --merge_non_CpG --multicore {cores} --buffer_size {memory}G --bedGraph --gzip {bam_in}"
     out_dir = os.path.join(workdir, sample)
     mbias_file = os.path.join(out_dir, os.path.basename(splitext_plus(bam_in)[0]) + '.M-bias.txt')

diff --git a/bcbio/wgbsseq/deduplication.py b/bcbio/wgbsseq/deduplication.py
@@ -13,7 +13,8 @@ def dedup_bismark(data):
     """
     config = data["config"]
     input_file = datadict.get_work_bam(data)
-    input_file = bam.sort(input_file, config, order="queryname")
+    # don't sort even by read names
+    # input_file = bam.sort(input_file, config, order="queryname")
     sample_name = datadict.get_sample_name(data)
     output_dir = os.path.join(datadict.get_work_dir(data), 'dedup',
                               sample_name)