-
Notifications
You must be signed in to change notification settings - Fork 451
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
feat: add news.mynavi.jp custom parser #287
Conversation
🤖 Automated Parsing Preview 🤖Commit: Original Article | HTML Fixture | Parsed Content Preview Parsed JSON{
"title": "人気の圧縮・解凍ソフト「WinRAR」に脆弱性、アップデートを",
"content": "<div><div class=\"article-body\">\n <p>Check Point Software Technologiesは2月20日(米国時間)、「<a href=\"https://research.checkpoint.com/extracting-code-execution-from-winrar/\">Extracting a 19 Year Old Code Execution from WinRAR - Check Point Research</a>」において、人気の高い圧縮・解凍ソフトウェアであるWinRARに長年にわたってセキュリティ脆弱性が存在していると伝えた。</p>\n\n<p>この脆弱性の影響により、細工されたファイルを展開する段階でマルウェアに感染させられる可能性があり、最終的に攻撃者によってシステムの制御権が乗っ取られる危険性があるという。</p>\n\n<p>Check Point Software Technologiesがどのようにこの脆弱性を発見したか、攻撃者がどのような手口でこの脆弱性を突いてマルウェアの感染を実施するのかは次のページに詳細がまとまっている。</p>\n\n<ul>\n<li><a href=\"https://research.checkpoint.com/extracting-code-execution-from-winrar/\">Extracting a 19 Year Old Code Execution from WinRAR - Check Point Research</a></li>\n</ul>\n\n<ul class=\"photo_table\">\n<li class=\"item-01\">\n<a class=\"photo_table__link\" href=\"https://news.mynavi.jp/photo/article/20190222-775563/images/001l.jpg\"><img class=\"photo_table__img lazyload\" alt=\"Extracting a 19 Year Old Code Execution from WinRAR - Check Point Software Technologies\" src=\"https://news.mynavi.jp/article/20190222-775563/images/001.jpg\"></a><p class=\"photo_table__caption\">「WinRAR」の操作画面</p>\n</li>\n</ul>\n\n<p>WinRARは世界中に5億人のユーザーがいると見られており、かなりの数の人がこの脆弱性の影響を受けるおそれがある。この脆弱性は19年以上にわたって存在していた可能性があることも指摘されている。</p>\n\n<p>WinRARの開発元はすでにこの脆弱性の原因となった形式のファイルサポートを廃止することを決定しており、WinRAR 5.70 beta 1ですでにACEフォーマットのサポートが中止されている。今後、ベンダーから提供される情報に注力するとともに、最新版が公開された場合には迅速にアップデートすることが望まれる。</p>\n\n </div></div>",
"author": "後藤大地",
"date_published": "2019-02-22T08:23:44.000Z",
"lead_image_url": "https://news.mynavi.jp/article/20190222-775563/index_images/index.jpg",
"dek": "Check Point Software Technologiesは2月20日(米国時間)、人気の高い圧縮・解凍ソフトウェアであるWinRARに長年にわたって脆弱性が存在していると伝えた。この脆弱性の影響で、細工されたファイルを展開する段階でマルウェアに感染させられる可能性があるという。",
"next_page_url": null,
"url": "https://news.mynavi.jp/article/20190222-775563/",
"domain": "news.mynavi.jp",
"word_count": 41,
"direction": "ltr",
"total_pages": 1,
"rendered_pages": 1
}
✅ All tests passed |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Thanks for the PR! Looking good — just a couple of requests.
|
||
author: { | ||
selectors: [ | ||
'body > div.wrapper > div.container > div.body > main > div.article-author > a', |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
If possible, I'd try to make this a little more generic. Extremely specific selectors like this can be brittle if the html ever changes. If, for example, main div.article-author
worked, I'd suggest going with that.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
I fixed as below.
'main div.article-author a.article-author__name',
|
||
content: { | ||
selectors: [ | ||
'body > div.wrapper > div.container > div.body > main > article > div', |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Same comment here as with the author selector.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
I fixed as below.
'main article div',
🤖 Automated Parsing Preview 🤖Commit: Original Article | HTML Fixture | Parsed Content Preview Parsed JSON{
"title": "人気の圧縮・解凍ソフト「WinRAR」に脆弱性、アップデートを",
"content": "<div><div class=\"article-body\">\n <p>Check Point Software Technologiesは2月20日(米国時間)、「<a href=\"https://research.checkpoint.com/extracting-code-execution-from-winrar/\">Extracting a 19 Year Old Code Execution from WinRAR - Check Point Research</a>」において、人気の高い圧縮・解凍ソフトウェアであるWinRARに長年にわたってセキュリティ脆弱性が存在していると伝えた。</p>\n\n<p>この脆弱性の影響により、細工されたファイルを展開する段階でマルウェアに感染させられる可能性があり、最終的に攻撃者によってシステムの制御権が乗っ取られる危険性があるという。</p>\n\n<p>Check Point Software Technologiesがどのようにこの脆弱性を発見したか、攻撃者がどのような手口でこの脆弱性を突いてマルウェアの感染を実施するのかは次のページに詳細がまとまっている。</p>\n\n<ul>\n<li><a href=\"https://research.checkpoint.com/extracting-code-execution-from-winrar/\">Extracting a 19 Year Old Code Execution from WinRAR - Check Point Research</a></li>\n</ul>\n\n<ul class=\"photo_table\">\n<li class=\"item-01\">\n<a class=\"photo_table__link\" href=\"https://news.mynavi.jp/photo/article/20190222-775563/images/001l.jpg\"><img class=\"photo_table__img lazyload\" alt=\"Extracting a 19 Year Old Code Execution from WinRAR - Check Point Software Technologies\" src=\"https://news.mynavi.jp/article/20190222-775563/images/001.jpg\"></a><p class=\"photo_table__caption\">「WinRAR」の操作画面</p>\n</li>\n</ul>\n\n<p>WinRARは世界中に5億人のユーザーがいると見られており、かなりの数の人がこの脆弱性の影響を受けるおそれがある。この脆弱性は19年以上にわたって存在していた可能性があることも指摘されている。</p>\n\n<p>WinRARの開発元はすでにこの脆弱性の原因となった形式のファイルサポートを廃止することを決定しており、WinRAR 5.70 beta 1ですでにACEフォーマットのサポートが中止されている。今後、ベンダーから提供される情報に注力するとともに、最新版が公開された場合には迅速にアップデートすることが望まれる。</p>\n\n </div></div>",
"author": "後藤大地",
"date_published": "2019-02-22T08:23:44.000Z",
"lead_image_url": "https://news.mynavi.jp/article/20190222-775563/index_images/index.jpg",
"dek": "Check Point Software Technologiesは2月20日(米国時間)、人気の高い圧縮・解凍ソフトウェアであるWinRARに長年にわたって脆弱性が存在していると伝えた。この脆弱性の影響で、細工されたファイルを展開する段階でマルウェアに感染させられる可能性があるという。",
"next_page_url": null,
"url": "https://news.mynavi.jp/article/20190222-775563/",
"domain": "news.mynavi.jp",
"word_count": 41,
"direction": "ltr",
"total_pages": 1,
"rendered_pages": 1
}
✅ All tests passed |
🤖 Automated Parsing Preview 🤖Commit: Original Article | HTML Fixture | Parsed Content Preview Parsed JSON{
"title": "人気の圧縮・解凍ソフト「WinRAR」に脆弱性、アップデートを",
"content": "<div><div class=\"article-body\">\n <p>Check Point Software Technologiesは2月20日(米国時間)、「<a href=\"https://research.checkpoint.com/extracting-code-execution-from-winrar/\">Extracting a 19 Year Old Code Execution from WinRAR - Check Point Research</a>」において、人気の高い圧縮・解凍ソフトウェアであるWinRARに長年にわたってセキュリティ脆弱性が存在していると伝えた。</p>\n\n<p>この脆弱性の影響により、細工されたファイルを展開する段階でマルウェアに感染させられる可能性があり、最終的に攻撃者によってシステムの制御権が乗っ取られる危険性があるという。</p>\n\n<p>Check Point Software Technologiesがどのようにこの脆弱性を発見したか、攻撃者がどのような手口でこの脆弱性を突いてマルウェアの感染を実施するのかは次のページに詳細がまとまっている。</p>\n\n<ul>\n<li><a href=\"https://research.checkpoint.com/extracting-code-execution-from-winrar/\">Extracting a 19 Year Old Code Execution from WinRAR - Check Point Research</a></li>\n</ul>\n\n<ul class=\"photo_table\">\n<li class=\"item-01\">\n<a class=\"photo_table__link\" href=\"https://news.mynavi.jp/photo/article/20190222-775563/images/001l.jpg\"><img class=\"photo_table__img lazyload\" alt=\"Extracting a 19 Year Old Code Execution from WinRAR - Check Point Software Technologies\" src=\"https://news.mynavi.jp/article/20190222-775563/images/001.jpg\"></a><p class=\"photo_table__caption\">「WinRAR」の操作画面</p>\n</li>\n</ul>\n\n<p>WinRARは世界中に5億人のユーザーがいると見られており、かなりの数の人がこの脆弱性の影響を受けるおそれがある。この脆弱性は19年以上にわたって存在していた可能性があることも指摘されている。</p>\n\n<p>WinRARの開発元はすでにこの脆弱性の原因となった形式のファイルサポートを廃止することを決定しており、WinRAR 5.70 beta 1ですでにACEフォーマットのサポートが中止されている。今後、ベンダーから提供される情報に注力するとともに、最新版が公開された場合には迅速にアップデートすることが望まれる。</p>\n\n </div></div>",
"author": "後藤大地",
"date_published": "2019-02-22T08:23:44.000Z",
"lead_image_url": "https://news.mynavi.jp/article/20190222-775563/index_images/index.jpg",
"dek": "Check Point Software Technologiesは2月20日(米国時間)、人気の高い圧縮・解凍ソフトウェアであるWinRARに長年にわたって脆弱性が存在していると伝えた。この脆弱性の影響で、細工されたファイルを展開する段階でマルウェアに感染させられる可能性があるという。",
"next_page_url": null,
"url": "https://news.mynavi.jp/article/20190222-775563/",
"domain": "news.mynavi.jp",
"word_count": 41,
"direction": "ltr",
"total_pages": 1,
"rendered_pages": 1
}
✅ All tests passed |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
LGTM!
This PR adds a custom parser for news.mynavi.jp that converts lazy-loaded images.