Merge pull request #6790 from remitamine/tele13

[canal13cl] fix info extraction
2024-01-07 17:16:08 +00:00 · 2015-12-20 16:11:07 +01:00 · 2015-12-20 16:11:07 +01:00 · c240ab6ecf
parent b0eeaf4f40 6882c0870e
commit c240ab6ecf
3 changed files with 82 additions and 49 deletions
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -78,7 +78,6 @@ from .camdemy import (
    CamdemyIE,
    CamdemyFolderIE
 )
 from .canal13cl import Canal13clIE
 from .canalplus import CanalplusIE
 from .canalc2 import Canalc2IE
 from .cbs import CBSIE
@ -648,6 +647,7 @@ from .teachingchannel import TeachingChannelIE
 from .teamcoco import TeamcocoIE
 from .techtalks import TechTalksIE
 from .ted import TEDIE
 from .tele13 import Tele13IE
 from .telebruxelles import TeleBruxellesIE
 from .telecinco import TelecincoIE
 from .telegraaf import TelegraafIE
--- a/youtube_dl/extractor/canal13cl.py
+++ b/youtube_dl/extractor/canal13cl.py
@ -1,48 +0,0 @@
 # coding: utf-8
 from __future__ import unicode_literals
 import re
 from .common import InfoExtractor
 class Canal13clIE(InfoExtractor):
    _VALID_URL = r'^http://(?:www\.)?13\.cl/(?:[^/?#]+/)*(?P<id>[^/?#]+)'
    _TEST = {
        'url': 'http://www.13.cl/t13/nacional/el-circulo-de-hierro-de-michelle-bachelet-en-su-regreso-a-la-moneda',
        'md5': '4cb1fa38adcad8fea88487a078831755',
        'info_dict': {
            'id': '1403022125',
            'display_id': 'el-circulo-de-hierro-de-michelle-bachelet-en-su-regreso-a-la-moneda',
            'ext': 'mp4',
            'title': 'El "círculo de hierro" de Michelle Bachelet en su regreso a La Moneda',
            'description': '(Foto: Agencia Uno) En nueve días más, Michelle Bachelet va a asumir por segunda vez como presidenta de la República. Entre aquellos que la acompañarán hay caras que se repiten y otras que se consolidan en su entorno de colaboradores más cercanos.',
        }
    }
    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        display_id = mobj.group('id')
        webpage = self._download_webpage(url, display_id)
        title = self._html_search_meta(
            'twitter:title', webpage, 'title', fatal=True)
        description = self._html_search_meta(
            'twitter:description', webpage, 'description')
        url = self._html_search_regex(
            r'articuloVideo = \"(.*?)\"', webpage, 'url')
        real_id = self._search_regex(
            r'[^0-9]([0-9]{7,})[^0-9]', url, 'id', default=display_id)
        thumbnail = self._html_search_regex(
            r'articuloImagen = \"(.*?)\"', webpage, 'thumbnail')
        return {
            'id': real_id,
            'display_id': display_id,
            'url': url,
            'title': title,
            'description': description,
            'ext': 'mp4',
            'thumbnail': thumbnail,
        }
--- a/youtube_dl/extractor/tele13.py
+++ b/youtube_dl/extractor/tele13.py
@ -0,0 +1,81 @@
 # coding: utf-8
 from __future__ import unicode_literals
 from .common import InfoExtractor
 from .youtube import YoutubeIE
 from ..utils import (
    js_to_json,
    qualities,
    determine_ext,
 )
 class Tele13IE(InfoExtractor):
    _VALID_URL = r'^http://(?:www\.)?t13\.cl/videos(?:/[^/]+)+/(?P<id>[\w-]+)'
    _TESTS = [
        {
            'url': 'http://www.t13.cl/videos/actualidad/el-circulo-de-hierro-de-michelle-bachelet-en-su-regreso-a-la-moneda',
            'md5': '4cb1fa38adcad8fea88487a078831755',
            'info_dict': {
                'id': 'el-circulo-de-hierro-de-michelle-bachelet-en-su-regreso-a-la-moneda',
                'ext': 'mp4',
                'title': 'El círculo de hierro de Michelle Bachelet en su regreso a La Moneda',
            },
            'params': {
                # HTTP Error 404: Not Found
                'skip_download': True,
            },
        },
        {
            'url': 'http://www.t13.cl/videos/mundo/tendencias/video-captan-misteriosa-bola-fuego-cielos-bangkok',
            'md5': '867adf6a3b3fef932c68a71d70b70946',
            'info_dict': {
                'id': 'rOoKv2OMpOw',
                'ext': 'mp4',
                'title': 'Shooting star seen on 7-Sep-2015',
                'description': 'md5:7292ff2a34b2f673da77da222ae77e1e',
                'uploader': 'Porjai Jaturongkhakun',
                'upload_date': '20150906',
                'uploader_id': 'UCnLY_3ezwNcDSC_Wc6suZxw',
            },
            'add_ie': ['Youtube'],
        }
    ]
    def _real_extract(self, url):
        display_id = self._match_id(url)
        webpage = self._download_webpage(url, display_id)
        setup_js = self._search_regex(r"(?s)jwplayer\('player-vivo'\).setup\((\{.*?\})\)", webpage, 'setup code')
        sources = self._parse_json(self._search_regex(r'sources\s*:\s*(\[[^\]]+\])', setup_js, 'sources'), display_id, js_to_json)
        preference = qualities(['Móvil', 'SD', 'HD'])
        formats = []
        urls = []
        for f in sources:
            format_url = f['file']
            if format_url and format_url not in urls:
                ext = determine_ext(format_url)
                if ext == 'm3u8':
                    m3u8_formats = self._extract_m3u8_formats(format_url, display_id, 'mp4', 'm3u8_native', m3u8_id='hls', fatal=False)
                    if m3u8_formats:
                        formats.extend(m3u8_formats)
                elif YoutubeIE.suitable(format_url):
                    return self.url_result(format_url, 'Youtube')
                else:
                    formats.append({
                        'url': format_url,
                        'format_id': f.get('label'),
                        'preference': preference(f.get('label')),
                        'ext': ext,
                    })
                urls.append(format_url)
        self._sort_formats(formats)
        return {
            'id': display_id,
            'title': self._search_regex(r'title\s*:\s*"([^"]+)"', setup_js, 'title'),
            'description': self._html_search_meta('description', webpage, 'description'),
            'thumbnail': self._search_regex(r'image\s*:\s*"([^"]+)"', setup_js, 'thumbnail', default=None),
            'formats': formats,
        }